Интервью по машинному обучению BAT. Серия из 1000 вопросов

Несколько заявлений:

1. Содержание этой статьи полностью взято из серии интервью по машинному обучению BAT из 1000 вопросов, опубликованных онлайн в июле;

2. Текст, выделенный курсивом в статье, представляет собой содержание, добавленное мной.Если есть какая-либо ошибка, пожалуйста, критикуйте и исправьте ее;

3. Срок действия некоторых ссылок в исходном тексте истек, поэтому я добавил новую ссылку, если она неуместна, поправьте меня. (также курсивом)

4. Так как некоторые ответы полностью взяты из других блогов, я размещаю только ссылку на ответ, которая может не только сохранить макет, но и сделать макет более красивым. Нажмите на соответствующий вопрос, чтобы перейти к нему.

Наконец, верстка этого сообщения в блоге была организована мной, а формула выражена в латексном синтаксисе, удобном для чтения читателями. В то же время форма ссылки также была оптимизирована, и вы можете напрямую перейти на соответствующую страницу, надеясь помочь читателям улучшить их чтение.Если в тексте есть какие-либо ошибки из-за моей организации, пожалуйста, также укажите, что мы можем добиться прогресса вместе!

1. Пожалуйста, кратко представьте SVM.

SVM, полное название — машина опорных векторов, китайское название — машина опорных векторов. SVM — это алгоритм классификации, ориентированный на данные, и его цель — определить гиперплоскость классификации для разделения различных данных.

Расширение:

Методы обучения SVM включают построение моделей от простого к сложному: линейный разделимый SVM, линейный SVM и нелинейный SVM. Когда обучающие данные линейно разделимы, линейный классификатор изучается путем максимизации жесткого интервала, то есть линейно разделимого SVM, также известного как жесткий интервал SVM; когда обучающие данные приблизительно линейно разделимы, мягкий интервал используется для Изучите линейный классификатор.Максимизируйте, также изучите линейный классификатор, а именно линейную машину опорных векторов, также известную как машина опорных векторов с мягкими краями.Когда обучающие данные линейно неразделимы, изучите нелинейную машину опорных векторов, используя технику ядра и максимизацию мягких полей.

Глубокое понимание машинного обучения SVM

2. Пожалуйста, кратко представьте вычислительный граф Tensorflow.

@陈小阳: Tensorflow — это система программирования, которая выражает вычисления в виде вычислительных графов. Вычислительные графы также называют графами потоков данных. Вычислительные графы можно рассматривать как ориентированные графы. Каждое вычисление в Tensorflow — это вычисление. Узел на графе, а ребра между узлами описывают зависимости между вычислениями.

3. В чем разница между GBDT и XGBoost?

@Xijun LI: XGBoost похож на оптимизированную версию GBDT с повышенной точностью и эффективностью. Особые преимущества по сравнению с GBDT:
1. Функция потерь аппроксимируется биномом разложения Тейлора, а не первой производной, как в GBDT;
2. На структуру дерева накладываются ограничения регуляризации, чтобы модель не была чрезмерно сложной и уменьшалась возможность переобучения;
3. Способ разбиения узлов другой: GBDT использует коэффициент Джини, а XGBoost оптимизируется и выводится.

Ссылка на точку знаний:Резюме интегрированного обучения

4. В k-средних или kNN мы используем евклидово расстояние для вычисления расстояния между ближайшими соседями. Почему бы не использовать манхэттенское расстояние?

Расстояние Манхэттена рассчитывает только горизонтальное или вертикальное расстояние и имеет ограничения измерений. С другой стороны, евклидое расстояние может быть использовано для задач расчета расстояния в любом пространстве. Поскольку точки данных могут существовать в любом пространстве, евклидое расстояние является более осуществимым выбором. Например: представьте себе шахматную доску, движения, сделанные епископом или ладьей, рассчитываются на расстоянии Манхэттана, потому что они являются движениями, сделанными в их соответствующих горизонтальных и вертикальных направлениях.

5. Baidu 2015 Школа набора письменных тестовых вопросов по машинному обучению.

Ссылка на точку знаний:Baidu 2015 школьный набор машинного обучения письменные тестовые вопросы

6. Кратко расскажите об инженерии функций.

7. О ЛР.

@rickjin: Расскажите о LR с головы до ног. Моделирование, математический вывод на месте, принцип каждого решения, регуляризация, какова связь между LR и моделью maxent, и почему LR лучше, чем линейная регрессия. Есть много людей, которые могут запомнить ответ, и они сбиваются с толку, когда спрашивают логические детали. С принципом все в порядке?Тогда спросите у проекта, как сделать распараллеливание, есть несколько методов распараллеливания, и какие реализации с открытым исходным кодом вы читали. Да, тогда приготовьтесь принять его, и, кстати, поинтересуйтесь историей развития модели LR.

Отказ от ответственности: поскольку срок действия ссылки в исходном тексте истек, я сам добавил новую ссылку.

Ссылка на точку знаний:Логистическая регрессия для машинного обучения (логистическая регрессия)

8. Как решить проблему переобучения?

отсев, регуляризация, нормализация партии

9. Какая связь и разница между LR и SVM?

@Chaoyang уже в поле зрения, обращайтесь:
1. И LR, и SVM могут решать проблемы классификации и обычно используются для решения проблем линейной бинарной классификации (в случае улучшения могут быть решены проблемы с несколькими классификациями).
2, можно увеличить срок регуляризации двумя разными способами, такими как L1, L2 и т.п. Так что во многих экспериментах результаты двух алгоритмов очень близки.
разница:
1. LR — параметрическая модель, а SVM — непараметрическая модель.
2. С точки зрения целевой функции разница заключается в том, что логистическая регрессия использует логистические потери, а SVM использует потери шарнира, Цель этих двух функций потерь состоит в том, чтобы увеличить вес точек данных, которые имеют большее влияние на классификацию, и уменьшить связь с классификацией Веса для меньших точек данных.
3. Метод обработки SVM заключается в рассмотрении только опорных векторов, то есть нескольких точек, наиболее важных для классификации, для изучения классификатора. С другой стороны, логистическая регрессия значительно снижает вес точек, удаленных от плоскости классификации, за счет нелинейного отображения и относительно увеличивает вес точек данных, наиболее релевантных для классификации.
4. Логистическая регрессия относительно проще и понятнее, особенно для крупномасштабной линейной классификации. Понимание и оптимизация SVM относительно сложны. После преобразования SVM в двойную задачу классификация должна только вычислить расстояние от нескольких опорных векторов. Это имеет очевидные преимущества в сложном расчете функции ядра, что может значительно упростить модель и расчет. .
5, Логика SVM может сделать может сделать, но это может быть проблема с точностью, SVM может сделать что-то Логика не может сделать.

Источник ответа:Машинное обучение: общие вопросы для интервью (1)

10. В чем разница и связь между LR и линейной регрессией?

@nishizhen
Лично логистическая регрессия и линейная регрессия являются обобщенными линейными регрессиями.
Во-вторых, целевая функция оптимизации классической линейной модели — метод наименьших квадратов, а логистическая регрессия — функция правдоподобия,
Кроме того, линейная регрессия предсказывает во всей области действительных чисел, а чувствительность постоянна, в то время как диапазон классификации должен находиться в пределах [0,1]. Логистическая регрессия — это регрессионная модель, которая уменьшает диапазон прогнозирования и ограничивает прогнозируемое значение до [0, 1].Поэтому для таких задач надежность логистической регрессии лучше, чем у линейной регрессии.
@ 乖癞: Модель логической регрессии по сути является моделью линейной регрессии, и логические результаты поддерживаются линейной регрессией. Однако модель линейной регрессии нельзя использовать как нелинейную форму сигмоида, а сигмоид легко справляется с проблемами классификации 0/1.

11. Почему Xgboost используют расширение Тейлора, где преимущества?

@AntZ: XGBoost использует частные производные первого и второго порядка, а производная второго порядка способствует более быстрому и точному градиентному спуску.Используя расширение Тейлора для получения обратной формы второго порядка, его можно использовать без выбора конкретная форма функции потерь.Анализ оптимизации алгоритма.По сути, выбор функции потерь и оптимизация/выбор параметров алгоритма модели разделены.Это разъединение увеличивает применимость XGBoost.

12. Как XGBoost находит оптимальные функции? Вернуть или не вернуть?

@AntZ: XGBoost дает оценку каждой функции во время обучения, тем самым указывая на важность каждой функции для обучения модели. XGBoost использует градиент для оптимизации алгоритма модели, и сэмпл не заменяется (представьте, что сэмпл непрерывно извлекается многократно, и градиент будет счастлив, если он шагает вперед и назад). Но XGBoost поддерживает субдискретизацию, то есть не все сэмплы используются в каждом раунде расчета.

13. Говорите о модели переговоров и генеративной модели?

Дискриминантный метод: функция принятия решений Y = f(X) определяется непосредственно из данных, или в качестве модели прогнозирования используется условная вероятность распределения P(Y|X), то есть дискриминантная модель.

Метод генерации: совместная функция распределения плотности вероятности P(X, Y) изучается из данных, а затем получается условное распределение вероятности P(Y|X) в качестве прогнозируемой модели, то есть генеративной модели.

Модель, сгенерированная моделью, может быть определена, но не определяется модель, сгенерированная моделью.

Общие дискриминантные модели: K-ближайший сосед, SVM, дерево решений, персептрон, линейный дискриминантный анализ (LDA), линейная регрессия, традиционная нейронная сеть, логистическая регрессия, бустинг, условное случайное поле.

Распространенными генеративными моделями являются: наивный байесовский анализ, скрытая марковская модель, модель гауссовой смеси, модель генерации темы документа (LDA), ограниченная машина Больцмана.

14. Разница между L1 и L2.

Норма L1 (норма L1) — это сумма абсолютных значений каждого элемента в указателе, и она также известна как «регуляризация Лассо».
Например, вектор A=[1,-1,3], тогда норма L1 вектора A равна |1|+|-1|+|3|.
Простое резюме:
L1 норма: для каждого элемента вектора сумма абсолютных значений x.
Норма L2: это степень 1/2 суммы квадратов каждого элемента вектора X. Норма L2 также известна как евклидова норма или норма Фробениуса.

Lp норма: это степень 1/p суммы абсолютных значений каждого элемента вектора x в степени p.
В процессе машинного обучения опорных векторов норма L1 фактически представляет собой процесс поиска оптимума для функции стоимости, поэтому регуляризация нормы L1 добавляет норму L1 к функции стоимости, так что изученный результат удовлетворяет разреженности.Таким образом, регуляризация нормы L1 добавляет норму L1 к функции стоимости. , людям удобно извлекать признаки.
Норма L1 может сделать веса разреженными и облегчить извлечение признаков.
Норма L2 может предотвратить переоснащение и улучшить способность модели к обобщению.

15. Какому распределению подчиняются обычные априоры L1 и L2?

@Classmate Qi: В интервью расскажите, каким распределениям подчиняются обычные априоры L1 и L2, L1 — это распределение Лапласа, а L2 — распределение Гаусса.

16. Наиболее успешным применением CNN является CV, так почему же многие проблемы в НЛП и речи могут быть решены с помощью CNN? Почему CNN также используется в AlphaGo? В чем сходство между этими несвязанными вопросами? Как CNN уловила эту общность?

@ Сюй Хань

Ссылка на точку знаний (анализ ответов):Глубокое обучение вопросы собеседования при приеме на работу завершающие заметки

17. Поговорим о Adaboost, обновление веса формулы. Когда слабый классификатор является GM, вес каждого образца веса образца - W1, W2 ..., пожалуйста, напишите окончательную формулу принятия решений.

Анализ ответов

18. Вывод структуры LSTM, чем он лучше, чем RNN?

Извлеките изменения шлюза забывания, входного шлюза, состояния ячейки, скрытой информации и т. д.; поскольку LSTM имеет вход и выход, а текущая информация о ячейке накладывается после управления входным вентилем, RNN является умножением, поэтому LSTM может предотвратить градиент от исчезновения или взрыва.

19. Друзья, которые часто ищут что-то в Интернете, знают, что когда вы случайно вводите слово, которого не существует, поисковая система подскажет, хотите ли вы ввести правильное слово, например, когда вы вводите «Julw» в Google, Система угадает ваше намерение: искать ли «июль», как показано на следующем изображении:

Это называется проверкой орфографии. Согласно статье, написанной сотрудником GoogleHow to Write a Spelling CorrectorПоказано, что проверка орфографии Google основана на байесовском подходе. Расскажите, как вы понимаете, как Google использует байесовский метод для реализации функции «проверки орфографии».

Когда пользователь вводит слово, оно может быть написано правильно или неправильно. Если вы пишете c (для правильного написания) для правильного написания и w (для неправильного) для опечаток, то «проверка орфографии» делает следующее: пытается сделать вывод c, когда встречается w. Другими словами: известно w, а затем среди нескольких альтернатив найти наиболее вероятное c, т. е. найти Максимальное значение P(c|w). А по теореме Байеса имеем:

Поскольку все альтернативные cs соответствуют одному и тому же w, их P(w) одинаковы, поэтому нам нужно только максимизировать. в:

P(c) представляет собой «вероятность» появления правильного слова, которую можно заменить «частотой». Если у нас есть достаточно большая текстовая библиотека, частота появления каждого слова в этой текстовой библиотеке эквивалентна вероятности его появления. Чем выше частота слова, тем больше P(c). Например, когда вы вводите неправильное слово «Julw», система более склонна догадываться, что вы хотите ввести слово «Jul», а не «Jult», потому что «июль» встречается чаще.

P(w|c) представляет вероятность неправильного написания w при попытке произнести c. Для упрощения предположим, что чем ближе два слова в глифе, тем больше вероятность того, что они написаны с ошибками, и тем больше P(w|c). Например, варианты написания, отличающиеся одной буквой, встречаются с большей вероятностью, чем варианты написания, отличающиеся двумя буквами. Если вы хотите написать слово «июль» по буквам, то вы, скорее всего, напишете «Julw» с ошибкой (разница в одной букве), чем «Jullw» (разница в двух буквах). Стоит отметить, что эта проблема обычно называется «расстоянием редактирования», см.Искусство программирования программиста, главы 28–29: максимальная непрерывная подстрока продукта, расстояние редактирования строки.

Поэтому мы сравниваем частоту встречаемости всех слов с похожим написанием в текстовой библиотеке, а затем выбираем слово с наибольшей частотой, то есть слово, которое пользователь хочет ввести больше всего. Конкретный процесс расчета и дефекты этого метода см.How to Write a Spelling Corrector.

20. Почему Наивный Байес такой «наивный»?

Потому что предполагается, что роли всех признаков в наборе данных одинаково важны и независимы. Как мы знаем, это предположение совершенно неверно в реальном мире, так что наивный байесовский алгоритм действительно «наивен».

21. Почему в машинном обучении мы часто нормализуем данные?

@zhanlijun

Источник этого анализа:Почему некоторым моделям машинного обучения необходимо нормализовать данные?

22. Расскажите о проблеме нормализации в глубоком обучении.

Подробности смотрите в этом видео:Нормализация в глубоком обучении

23. Пожалуйста, кратко опишите процесс полного проекта машинного обучения.

1 Аннотация к математическим задачам
Выявление проблемы — первый шаг в машинном обучении. Процесс обучения машинному обучению обычно занимает очень много времени, а временные затраты на случайные попытки очень велики.
Абстракция здесь представляет собой математическую задачу, а это означает, что мы уточняем, какие данные мы можем получить, является ли цель задачей классификации или регрессии или кластеризации, если нет, то классифицируется ли она как задача определенного типа.
2 Получить данные
Данные устанавливают верхнюю границу результатов машинного обучения, а алгоритмы просто пытаются максимально приблизить эту верхнюю границу.
Данные должны быть репрезентативными, иначе они неизбежно будут переобуваться.
Более того, для задач классификации перекос данных не должен быть слишком сильным, а количество данных в разных категориях не должно иметь разрыва в несколько порядков.
Кроме того, есть также оценка величины данных, сколько выборок и сколько признаков, можно оценить степень потребления памяти и судить, можно ли использовать память в процессе обучения. Если вы не можете оторваться от него, вам следует подумать об улучшении алгоритма или использовании некоторых методов уменьшения размерности. Если объем данных слишком велик, необходимо считать их распределенными.
3 Предварительная обработка признаков и выбор признаков
Хорошие данные должны быть в состоянии извлечь хорошие функции, чтобы быть действительно эффективными.
Предварительная обработка функций и очистка данных являются критическими этапами, которые часто могут значительно улучшить эффект и производительность алгоритма. Нормализация, дискретизация, факторизация, отсутствующая обработка ценностей, удаление коллинирования и т. Д., Много времени тратится на них в процессе добычи данных. Эти задачи просты и воспроизводимы, и преимущества являются стабильными и предсказуемыми. Они являются основными и необходимыми ступенями машинного обучения.
Скриниринг выделенных особенностей, избавиться от небрежных особенностей, нам нужно понять инженера для обучения бизнес-машины. Это имеет решающее влияние на результаты многих. Выбор функций Ну, очень простой алгоритм может получить хорошие и стабильные результаты. Это требует использования соответствующего технического анализа. Функции действительности, таких как коэффициент корреляции, тестирование Chi-Square, средняя взаимная информация, условие энтропии, задняя вероятность, средневзвешенные методы логистической регрессии.
4 Обучение и настройка модели
До этого шага для обучения используется упомянутый выше алгоритм. Многие алгоритмы теперь можно упаковать в «черные ящики» для использования человеком. Но настоящее испытание состоит в том, чтобы настроить (гипер) параметры этих алгоритмов, чтобы улучшить результаты. Это требует от нас глубокого понимания принципов алгоритма. Чем глубже понимание, тем лучше вы сможете найти суть проблемы и предложить хороший план настройки.
5 Диагностика модели
Как определиться с направлением и идеями тюнинга модели? Для этого необходимы методы диагностики моделей.
Переобучение и недообучение Суждение — важный шаг в диагностике модели. Общие методы, такие как перекрестная проверка, построение кривых обучения и т. д. Основная идея оптимизации переобучения заключается в увеличении объема данных и уменьшении сложности модели. Основная идея настройки недообучения состоит в том, чтобы увеличить количество и качество функций и повысить сложность модели.
Анализ ошибок также является важным шагом в машинном обучении. Наблюдая выборки ошибок, комплексно анализируйте причины ошибок: проблема ли это параметров или выбора алгоритма, проблема ли это характеристик или проблема самих данных...
Модель после диагностики нуждается в настройке, а новая модель после настройки нуждается в повторной диагностике. для достижения оптимального состояния.
6 Слияние моделей
Вообще говоря, после слияния моделей эффект может быть в определенной степени улучшен. И это прекрасно работает.
В инженерии основным методом повышения точности алгоритма является работа над передней частью модели (очистка признаков и предварительная обработка, различные режимы выборки) и задней частью (слияние моделей). Поскольку они относительно стандартны и воспроизводимы, эффект относительно стабилен. Однако работы по непосредственной настройке параметров не так много, ведь обучение на большом количестве данных происходит слишком медленно, и гарантировать эффект сложно.
7 В прямом эфире
Эта часть содержания в основном связана с реализацией проекта. Инжиниринг ориентирован на результат, и эффект модели, работающей в режиме онлайн, напрямую определяет успех или неудачу модели. Он включает не только его точность, ошибку и т. д., но также скорость выполнения (временная сложность), потребление ресурсов (пространственная сложность) и приемлемость стабильности.
Эти рабочие процессы в основном представляют собой некоторый опыт, обобщенный в инженерной практике. Не каждый проект содержит завершенный процесс. Эта часть является лишь ориентировочным описанием. Только когда вы будете больше практиковаться и накапливать больше проектного опыта, вы сможете глубже понять себя.
Поэтому, исходя из этого, каждый онлайн-класс по алгоритму ML в июле добавляет соответствующие курсы, такие как разработка функций и настройка моделей. Например, вот видео открытого класса «Обработка признаков и выбор признаков».

24. В чем разница между new и malloc?

Ссылка на точку знаний:Разница между new и malloc

25.Конфликт хэшей и решение?

@Sommer_Xia

Элементы с разными значениями ключа могут быть сопоставлены с одним и тем же адресом в хэш-таблице, что приведет к коллизии хэшей. Решение:
1) Открытый метод адресации: при возникновении конфликта в хеш-таблице формируется зондирующая (тестирующая) последовательность с использованием определенной зондирующей (также называемой зондирующей) методики. Ищите ячейку за ячейкой в этой последовательности, пока не будет найдено заданное ключевое слово или не встретится открытый адрес (то есть адресная ячейка пуста) (если вы хотите вставить, когда обнаружен открытый адрес, вы можете вставить адрес в новый узел сохраняется в этой адресной единице). Если при поиске обнаруживается открытый адрес, это означает, что в таблице нет ключевых слов для поиска, то есть поиск не удался.
2) Метод повторного хэширования: создание нескольких различных хеш-функций одновременно.
3) Метод цепного адреса: все элементы, чей хэш-адрес равен i, составляют односвязный список, называемый цепочкой синонимов, а главный указатель односвязного списка хранится в i-м элементе хеш-таблицы, поэтому поиск, вставка и удаление находятся в основном в цепочке синонимов. Метод цепных адресов подходит для частых вставок и удалений.
4) Создайте общедоступную область переполнения: Разделите хеш-таблицу на две части: основную таблицу и таблицу переполнения.Все элементы, конфликтующие с основной таблицей, будут заполнены в таблице переполнения.

26. Как решить проблему исчезновения и расширения градиента?

(1) Градиент исчезает:
Цепное правило, если нейроны в каждом слое в результате умножения частной производной выходного слоя имеют вес меньше 1 веса, то даже если результат равен 0,99, после достаточного многослойного распространения смещение ошибки входного слоя Это стремится к 0 опережения.
Функцию активации ReLU можно использовать для эффективного решения ситуации с исчезновением градиента.
(2) Градиентное расширение:
Согласно цепному правилу, если частная производная каждого слоя нейронов, умноженная на вес выхода предыдущего слоя, больше 1, после достаточно многослойного распространения частная производная ошибки к входному слою будет стремиться до бесконечности.

Это можно решить с помощью функции активации.

27. Что из перечисленного не относится к преимуществам модели CRF перед моделями HMM и MEMM ( )

A. Особенности гибкие
Б. быстро
C. Может вместить больше контекстной информации
D. Глобальный оптимум
Ответ: Прежде всего, CRF, HMM (модель скрытой лошади) и MEMM (модель скрытой лошади с максимальной энтропией) часто используются для моделирования аннотаций последовательности.
Один из самых больших недостатков модели скрытой лошади заключается в том, что она не может учитывать особенности контекста из-за предположения о независимости выходных данных, что ограничивает выбор функций.
Модель скрытой лошади с максимальной энтропией решает проблему скрытых лошадей, и признаки могут быть выбраны произвольно, но, поскольку ее необходимо нормализовать в каждом узле, она может найти только локальное оптимальное значение, а также приводит к смещению меток. заключается в том, что все, что не отображается в учебном корпусе, игнорируется.
Условное случайное поле очень хорошо решает эту проблему, оно не нормализует каждый узел, но все признаки нормализуются глобально, поэтому можно получить глобальное оптимальное значение.

Ответ Б.

28. Кратко объясните разницу между обучением с учителем и обучением без учителя?

Обучение с учителем: обучение на размеченных обучающих выборках для максимально возможного прогнозирования классификации данных за пределами обучающей выборки. (LR, SVM, BP, RF, GBDT) Обучение без учителя: обучение и обучение на немаркированных образцах для обнаружения структурных знаний в этих образцах. (Kсредние, DL)

29. Вы понимаете регуляризацию?

Предлагается регуляризация для переобучения, думая, что лучший способ решить модель — оптимизировать наименьший эмпирический риск, а теперь к эмпирическому риску добавить элемент сложности модели (член регуляризации — норма вектора параметров модели. ), и используйте коэффициент скорости, чтобы взвесить вес сложности модели и прошлого эмпирического риска.Если сложность модели выше, структурный эмпирический риск будет больше, и теперь целью становится оптимизация структурного эмпирического риска, который может предотвратить обучение модели слишком сложными, что эффективно снижает риск переобучения. Принцип бритвы Оккама, который хорошо объясняет известные данные и очень прост, является лучшей моделью.

30. В чем разница между ковариацией и корреляцией?

Корреляция — это стандартизированный формат ковариации. Сами ковариации трудно сравнивать. Например: если мы посчитаем ковариацию зарплаты ($) и возраста (лет), поскольку эти две переменные имеют разные меры, мы получим разные ковариации, которые нельзя сравнивать. Чтобы решить эту проблему, мы вычисляем корреляцию, чтобы получить значение от -1 до 1, которое может игнорировать их соответствующие различные меры.

31. Отличие линейных классификаторов от нелинейных классификаторов, их преимущества и недостатки.

Если модель является линейной функцией параметров и имеется линейная поверхность классификации, то это линейный классификатор, иначе - нет.
Распространенными линейными классификаторами являются: LR, байесовская классификация, однослойный персептрон, линейная регрессия.
Общие нелинейные классификаторы: дерево решений, RF, GBDT, многослойный персептрон.
У SVM есть и то, и другое (см. линейное ядро или ядро Гаусса).
Скорость линейного классификатора, простое программирование, но эффект может не быть хорошей подходящей.
Программирование нелинейных классификаторов сложное, но возможность подгонки эффектов сильна.

32. Логическая структура хранения данных (такие как массивы, очереди, деревья и т. д.) оказывает очень важное влияние на разработку программного обеспечения.Попробуйте кратко проанализировать различные известные вам структуры хранения с точки зрения скорости работы, эффективности хранения и применимых случаи. .

33. Что такое распределенная база данных?

Распределенная система баз данных разработана на основе зрелой технологии централизованной системы баз данных, но это не просто децентрализованная реализация централизованной базы данных, она имеет свою природу и характеристики. Многие концепции и методы централизованных систем баз данных, такие как независимость данных, совместное использование данных и сокращение избыточности, управление параллелизмом, целостность, безопасность и восстановление, имеют другое и более богатое содержание в системах распределенных баз данных.

34. Кратко объясните теорему Байеса.

Прежде чем представить теорему Байеса, давайте выучим несколько определений:
Условная вероятность (также известная как апостериорная вероятность) — это вероятность того, что событие А произойдет при условии, что другое событие В уже произошло. Условная вероятность выражается как P(A|B), что читается как «вероятность A при условии B».
Например, для событий или подмножеств A и B в одном и том же пространстве выборок Ω, если элемент, случайно выбранный из Ω, принадлежит B, то вероятность того, что этот случайно выбранный элемент также принадлежит A, определяется как предпосылка B Условная вероятность A, поэтому: P(A|B) = |A∩B|/|B|, затем разделите числитель и знаменатель на |Ω|, чтобы получить:

Совместная вероятность представляет собой вероятность совпадения двух событий. Совместная вероятность A и B выражается как или.

Предельная вероятность (также известная как априорная вероятность) — это вероятность наступления события. Предельные вероятности получаются следующим образом: в совместной вероятности те нежелательные события в конечном результате объединяются в их полные вероятности, и они исключаются (используя суммирование для дискретных случайных величин для получения полных вероятностей и интеграл для непрерывных случайных величин). называется маргинализацией.Например, предельная вероятность A выражается как P(A), а предельная вероятность B выражается как P(B).
Далее рассмотрим задачу: P(A|B) — это вероятность того, что произойдет A, если произойдет B.
1) Во-первых, до того, как произойдет событие B, у нас есть базовое вероятностное суждение о наступлении события A, которое называется априорной вероятностью A и представлено P(A);
2) Во-вторых, после события B мы повторно оцениваем вероятность возникновения события A, называемую посттестовой вероятностью A, представленную P (A | B);
3) Точно так же до того, как произойдет событие А, у нас есть базовое вероятностное суждение о наступлении события В, которое называется априорной вероятностью события В и представлено P(B);
4) Точно так же после наступления события A мы переоцениваем вероятность возникновения события B, которая называется апостериорной вероятностью B, представленной как P(B|A).

Формула выражения теоремы Байеса:

35. В чем разница между #include и #include "filename.h"?

Ссылка на точку знаний:В чем разница между #include и #include"filename.h"

36. Супермаркет изучил данные о продажах и обнаружил, что люди, покупающие пиво, с высокой вероятностью покупают подгузники К какой проблеме это относится при интеллектуальном анализе данных? (А)
A. Обнаружение правила ассоциации B. Кластеризация C. Классификация D. Обработка естественного языка

37. Какой из следующих шагов является задачей интегрирования, преобразования, размерного сокращения и численного сокращения необработанных данных? (С)
A. Интеллектуальный анализ частых шаблонов B. Классификация и прогнозирование C. Предварительная обработка данных D. Интеллектуальный анализ потока данных

38. Что из перечисленного не является методом предварительной обработки данных? (Д)
A Подстановка переменных B Дискретизация C Агрегация D Расчетные отсутствующие значения

39. Что такое KDD? (А)
Интеллектуальный анализ данных и обнаружение знаний A. B. C. обнаружение знаний в предметной области документа Обнаружение знаний D. обнаружение динамических знаний

40. Когда метки данных неизвестны, какие методы можно использовать для отделения данных с одинаковыми метками от данных с другими метками? (Б)
A. Классификация B. Кластеризация C. Ассоциативный анализ D. Скрытые цепи Маркова

41. Установите модель, с помощью которой можно предсказать значение какой-либо другой переменной в соответствии с известным значением переменной. К какому типу относится задача интеллектуального анализа данных? (С)
A. Поиск по содержанию B. Описание моделирования
C. Прогнозное моделирование D. Поиск шаблонов и правил

42. Что из следующего не является частью стандартного метода метода выбора функций? (Д)
Встраивание B Фильтрация C Упаковка D дискретизация

43. Напишите, пожалуйста, функцию find_string на питоне для поиска и вывода содержимого из текста, она должна поддерживать подстановочные знаки звездочки и вопросительные знаки.

find_string('hello\nworld\n','wor')
['wor']
find_string('hello\nworld\n','l*d')
['ld']
find_string('hello\nworld\n','o.')
['or']
答案
def find_string(str,pat):
import re
return re.findall(pat,str,re.I)

44. Расскажите о пяти свойствах красно-черных деревьев.

Научит вас предварительному пониманию красно-черных деревьев

45. Кратко о сигмовидной функции активации.

Обычно используемыми нелинейными функциями активации являются сигмовидная, тангенциальная, релу и т. д. Первые две сигмоидальная/тангенциальная чаще встречаются в полносвязном слое, а последняя релю распространена в сверточном слое. Вот краткое введение в самую основную сигмовидную функцию (кстати, упомянутую в начале статьи SVM в этом блоге).

Функциональное выражение сигмоиды выглядит следующим образом:

То есть функция сигмоидальной функции эквивалентна сжатию действительного числа между 0 и 1. Когда z — очень большое положительное число, g(z) будет приближаться к 1, а когда z — очень маленькое отрицательное число, g(z) будет приближаться к 0.

Какая польза от сжатия от 0 до 1? Полезность заключается в том, что функцию активации можно рассматривать как «вероятность классификации», например, если выход функции активации равен 0,9, ее можно интерпретировать как 90% вероятность того, что образец является положительным.

Например, как показано на следующем рисунке (рисунок взят из Стэнфордского открытого курса по машинному обучению):

46. Что такое свертка?

Сделайте внутренний продукт (умножьте элемент за элементом) изображения (различные данные окна данных) и матрицу фильтра (набор фиксированных весов: поскольку множественные веса каждого нейрона фиксированы, его можно рассматривать как постоянный фильтр) операция возобновления) — это так называемая операция «свертки», которая также является источником названия сверточной нейронной сети. В нестрогом смысле часть, обрамленную красным прямоугольником на рисунке ниже, можно понимать как фильтр, то есть набор нейронов с фиксированными весами. Несколько фильтров накладываются друг на друга, образуя сверточный слой.

Хорошо, вот конкретный пример. Например, на рисунке ниже левая часть рисунка — исходные входные данные, средняя часть рисунка — фильтр-фильтр, а правая часть рисунка — выходные новые двумерные данные.

Разбери картинку выше

47. Что такое уровень пула CNN?

Короче говоря, объединение занимает среднюю или максимальную площадь, как показано на следующем рисунке (цифра взята из cs231n):

На приведенном выше рисунке показана максимальная площадь, то есть 6 — это наибольшая в матрице 2х2 в верхнем левом углу в левой части вышеприведенного рисунка, 8 — наибольшая в матрице 2х2 в верхнем правом углу, 3 — это самая большая площадь в матрице 2х2 в верхнем правом углу наибольшее в матрице 2х2 в левом нижнем углу, а 4 в матрице 2х2 в правом нижнем углу максимум, поэтому получаем результат в правой части картинки выше: 6 8 3 4. Просто, не так ли?

48. Кратко опишите, что такое генеративно-состязательная сеть.

Причина, по которой GAN является конфронтацией, заключается в том, что внутренняя часть GAN представляет собой конкурентные отношения.Одна сторона называется генератором.Его основная задача — генерировать картинки и пытаться сделать так, чтобы они выглядели так, как будто они получены из обучающих выборок. Другая сторона — дискриминатор, задача которого — определить принадлежность входного изображения к реальной обучающей выборке. Говоря более прямо, думайте о генераторе как о производителе фальшивомонетчиков, а о распознавателе — как о полиции. Цель генератора состоит в том, чтобы сделать поддельные монеты как можно более реальными, чтобы иметь возможность обмануть дискриминатор, то есть сгенерировать образцы и заставить их выглядеть так, как будто они взяты из реальных обучающих образцов.

Левые и правые сцены на следующем рисунке:

Смотрите этот курс для получения дополнительной информации:Генеративно-состязательные сети

49. Каков принцип изучения живописи Ван Гога?

Вот экспериментальный урок, как рисовать в стиле Ван Гога.Научите вас использовать DL, чтобы изучить живопись Ван Гога от начала до конца: GTX 1070 cuda 8.0, версия GPU с тензорным потоком, а что касается его принципа, то посмотрите это видео:Художественные картины NeuralStyle (изучение принципов живописи Ван Гога).

50. Теперь имеется 26 элементов от a до z. Напишите программу для вывода любой комбинации из 3 элементов от a до z (например, вывод a b c, dy z и т. д.).

Вопрос на собеседовании на должность инженера по машинному обучению Baidu

51. Какие алгоритмы машинного обучения не требуют нормализации?

Вероятностные модели не нуждаются в нормализации, потому что они заботятся не о значении переменной, а о распределении переменной и условной вероятности между переменными, такими как деревья решений, RF. А задачи оптимизации вроде Adaboost, GBDT, XGBoost, SVM, LR, KNN, KMeans требуют нормализации.

52. Расскажите о градиентном спуске.

@LeftNotEasy

Математика в машинном обучении (1) — регрессия, градиентный спуск

53. Должен ли метод градиентного спуска находить самое быстрое направление спуска?

Метод градиентного спуска — это не направление наискорейшего убывания, это просто направление наискорейшего убывания целевой функции на касательной плоскости к текущей точке (разумеется, многомерные задачи плоскостями назвать нельзя). В практической реализации направление Ньютона (учитывая матрицу Гессе) обычно считается направлением с самым быстрым снижением, которое может достичь скорости сходимости сверхлинейной. Скорость сходимости алгоритма градиентного спуска обычно является линейной или даже сублинейной (в некоторых задачах со сложными ограничениями).

Ссылка на точку знаний:В этой статье четко объясняется алгоритм градиентного спуска в машинном обучении (включая его вариантный алгоритм).

54. В чем разница между методом Ньютона и методом градиентного спуска?

@wtq1993

Ссылка на точку знаний:Общие алгоритмы оптимизации в машинном обучении

55. Что такое квазиньютоновские методы?

@wtq1993

Общие алгоритмы оптимизации в машинном обучении

56. Пожалуйста, расскажите о проблемах и проблемах стохастического градиентного спуска?

57. Говорите о методе сопряженных градиентов?

@wtq1993

Общие алгоритмы оптимизации в машинном обучении

58. Можно ли для всех задач оптимизации найти лучшие алгоритмы, чем известные в настоящее время?

ссылка для ответа

59. Что такое метод наименьших квадратов?

Мы часто говорим в устах: В общем, в среднем. Например, в среднем здоровье некурящих лучше, чем у курильщиков.Причина добавления слова «средний» в том, что во всем есть исключения.Всегда есть особый человек, который курит, но из-за регулярных физических упражнений его здоровье может быть, было бы лучше, чем его некурящий друг. Одним из простейших примеров наименьших квадратов является среднее арифметическое.

Метод наименьших квадратов (также известный как метод наименьших квадратов) — это метод математической оптимизации. Он находит наилучшее функциональное совпадение данных, сводя к минимуму сумму квадратов ошибок. Неизвестные данные могут быть легко получены методом наименьших квадратов, а сумма квадратов ошибок между полученными данными и фактическими данными может быть минимизирована. Выражается в виде функции:

Поскольку среднее арифметическое является испытанным и испытанным методом, а приведенные выше рассуждения показывают, что среднее арифметическое является частным случаем метода наименьших квадратов, оно иллюстрирует превосходство метода наименьших квадратов с другой точки зрения, что делает нас более уверенными в наименьшей степени. метод квадратов...

Метод наименьших квадратов после выпуска был быстро признан всеми, принят и быстро широко используется в практике анализа данных. Но некоторые люди в истории изобретения Гаусса приписывают метод наименьших квадратов, вот как это происходит. Гаусс в 1809 году также использовал метод наименьших квадратов и утверждал, что использовал этот метод в течение многих лет. Гаусс изобрел математические методы определения местоположения астероидов и, вычислив его с помощью метода наименьших квадратов при анализе данных, точно предсказал местоположение Цереры.

Кстати, какое отношение метод наименьших квадратов имеет к SVM? ВидетьПопулярное введение в машины опорных векторов (понимание трехуровневой области SVM).

60. Посмотрите на напечатанную на вашей футболке: Жизнь слишком коротка, я использую Python, не могли бы вы сказать мне, что это за язык Python? Вы можете сравнить другие технологии или языки, чтобы ответить на свой вопрос.

15 важных вопросов на собеседовании по Python, чтобы проверить, подходите ли вы для Python?

61. Как Python управляет памятью?

2017 Python последние вопросы интервью и ответы на 16 вопросов

62. Пожалуйста, напишите кусок кода Python для удаления повторяющихся элементов в списке.

1. Используйте функцию set, set(list) 2. Используйте функцию словаря:

a=[1,2,4,2,4,5,6,5,7,8,9,0]
b={}
b=b.fromkeys(a)
c=list(b.keys())
c

63. Программирование использует сортировку для сортировки, а затем судит по последнему элементу.

a=[1,2,4,2,4,5,7,10,5,5,7,8,9,0,3]

a.sort()
last=a[-1]
for i inrange(len(a)-2,-1,-1):
if last==a[i]:
del a[i]
else:last=a[i]
print(a)

64. Как генерировать случайные числа в Python?

@Tom_junsong

случайный модуль

Случайное целое: random.randint(a,b): возвращает случайное целое число x, arandom.randrange(start,stop,[step]): возвращает случайное целое число в диапазоне (start,stop,step), исключая конечное значение.
Случайное вещественное число: random.random(): возвращает число с плавающей запятой в диапазоне от 0 до 1.
random.uniform(a,b): возвращает число с плавающей запятой в указанном диапазоне.

65. Расскажите об общих функциях потерь.

Для данного входа x соответствующий выход Y задан F (x), и прогнозируемое значение f (x) этого выхода может соответствовать действительному значению Y не может быть согласованным (чтобы знать, иногда потери или ошибку неизбежно) используйте функцию потери для измерения степени, в которой прогнозируется ошибка. Функция потери записывается как l (y, f (x)). Обычно используемые убытки имеют следующие типы (основные ссылки от методов статистического обучения):

66. Кратко представьте логистическую регрессию.

Целью логистической регрессии является изучение модели классификации 0/1 на основе признаков, и эта модель использует линейную комбинацию признаков в качестве независимой переменной, поскольку диапазон значений независимой переменной находится в пределах от отрицательной бесконечности до положительной бесконечности. Поэтому используйте логистическую функцию (или сигмовидную функцию) для сопоставления независимой переменной с (0,1), и считается, что сопоставленное значение принадлежит вероятности y = 1.

Предположим, функция:

где x — n-мерный вектор признаков, а функция g — логистическая функция. в то время как: изображение: 这里写图片描述

Как видите, бесконечность отображается в (0,1). Функция гипотезы — это вероятность того, что признак принадлежит y=1.

67. Учитывая, что вы визуальный художник, с какими CV-фреймворками вы знакомы, кстати, как насчет истории развития CV за последние пять лет?

Анализ ответов

68. Каковы передний план прогресса в области изучения визуальной глубины?

@元峰

Источник этого анализа:Передовой прогресс глубокого обучения в области компьютерного зрения

69. В чем разница между HashMap и HashTable?

Разница между HashMap и Hashtable

70. В задачах классификации мы часто сталкиваемся с ситуациями, когда количество данных положительной и отрицательной выборки различается. Например, положительная выборка содержит данные 10w, а отрицательная выборка имеет только данные 1w. Наиболее подходящий метод обработки ниже: ( )

A. Повторите отрицательный образец 10 раз, чтобы получить размер выборки 10 Вт и нарушить порядок участия в классификации.
B. Прямая классификация может максимизировать использование данных
C. Случайным образом выберите 1w из 10w положительного образца для участия в классификации
D. Установите вес каждого отрицательного образца на 10, вес положительного образца на 1 и примите участие в процессе обучения.

@Doctor Guan: Если быть точным, то на самом деле эти методы в вариантах имеют свои преимущества и недостатки, а конкретные проблемы требуют подробного анализа.Есть статья, в которой анализируются преимущества и недостатки различных методов, что хорошо , Заинтересованные студенты могут обратиться к:

How to handle Imbalanced Classification Problems in machine learning?

71.Глубокое обучение - очень популярный в настоящее время алгоритм машинного обучения.В глубоком обучении задействовано большое количество матричных умножений.Теперь необходимо вычислить произведение ABC трех плотных матриц A,B и C.Пусть 90 задает размер трех матриц.Соответственно, m∗n, n∗p, p∗q, и m

A.(AB)C
B.AC(B)
C.A(BC)
D. Так что эффективность одинакова

Правильный ответ: A @BlackEyes_SGC: m*n*p

72.Nave Bayes — это специальный байесовский классификатор, переменная признака — X, метка класса — C, одно из его предположений: (C)

A. Априорная вероятность P(C) каждой категории равна
B. Нормальное распределение с 0 в качестве среднего и sqr(2)/2 в качестве стандартного отклонения.
C. Каждое измерение характеристической переменной X является условно независимой случайной величиной категории.
D.P (X | C) - это гауссовское распределение

Правильный ответ: C @BlackEyes_SGC: Наивное байесовское условие состоит в том, что каждая переменная независима друг от друга.

73. Что касается метода опорных векторов SVM, какое из следующих утверждений неверно (C)

Регулярный термин A.L2, функция состоит в том, чтобы максимизировать интервал классификации, чтобы классификатор имел более сильную способность к обобщению.
B. Функция потерь шарнира, роль которой заключается в минимизации эмпирической ошибки классификации.
C. Интервал классификации равен ||w|| представляет модуль вектора
D. Когда параметр C меньше, интервал классификации больше, ошибка классификации больше, и она имеет тенденцию к недоучению.

Правильный ответ: С
@BlackEyes_SGC:
А правильно. Рассмотрим причину добавления термина регуляризации: представьте идеальный набор данных, y>1 — положительный класс, yБ правильно.
ошибка С. Интервал должен быть правильным, и вторая половина предложения должна быть правильной.Модуль вектора обычно относится к его второй норме.
Д правильно. При рассмотрении мягких полей влияние C на задачу оптимизации заключается в ограничении диапазона a от [0, +inf] до [0, C]. Чем меньше C, тем меньше будет a. Производная функции Лагранжа целевой функции равна 0, что может быть получено. Чем меньше a, тем меньше w, поэтому интервал становится больше.

74. В HMM, если известна последовательность наблюдений и генерируется последовательность последовательностей наблюдаемых состояний, то из следующих методов можно использовать непосредственно для оценки параметров (D)

Алгоритм А.ЭМ
Б. Алгоритм Витерби
C. Прямой обратный алгоритм
D. Оценка максимального правдоподобия

Правильный ответ: Д
@BlackEyes_SGC:
Алгоритм EM: для изучения параметров модели используется только последовательность наблюдений, когда нет последовательности состояний, то есть алгоритм Баума-Уэлча.
Алгоритм Витерби: решить проблему предсказания HMM динамического программирования, не является оценкой параметра
Алгоритм «вперед-назад»: используется для расчета вероятностей.
Оценка максимального правдоподобия: то есть алгоритм обучения с учителем, когда для оценки параметров существуют как последовательность наблюдений, так и соответствующая последовательность состояний.
Обратите внимание, что оценка параметров модели для данной последовательности наблюдений и соответствующей последовательности состояний может быть оценена с использованием максимального правдоподобия. Если для данной последовательности наблюдений нет соответствующей последовательности состояний, EM используется для просмотра последовательности состояний как неизмеримых скрытых данных.

75. Предположим, что одноклассник случайно повторил два измерения обучающих данных при использовании модели классификации наивного байесовского (НБ), тогда правильное утверждение о НБ: (БД)

А. Решающая роль этого повторяющегося признака в модели будет усилена
B. Точность модельного эффекта будет снижена по сравнению со случаем без повторяющихся признаков.
C. Если все функции повторяются, результирующий прогноз модели будет таким же, как и прогноз модели без повторения.
D. Когда два столбца признаков сильно коррелированы, невозможно использовать выводы, полученные при совпадении двух столбцов признаков, для анализа проблемы.
E.NB можно использовать для регрессии методом наименьших квадратов.
F. Приведенное выше утверждение неверно.

Правильный ответ: BD @BlackEyes_SGC: Суть NB в том, что он предполагает независимость между всеми компонентами вектора. В байесовской теоретической системе существует важное предположение об условной независимости: предполагается, что все признаки независимы друг от друга, так что совместная вероятность может быть разделена.

76. Какой из следующих методов для текстовой классификации не может быть прямым? (А)

А.Минс
B. дерево решений
C. Машина опорных векторов
Д. КНН

Правильный ответ: Классификация отличается от кластеризации. @BlackEyes_SGC: A: Kmeans — это метод кластеризации, типичный метод обучения без учителя. Классификация — это контролируемый метод обучения, а BCD — распространенный метод классификации.

77. Зная ковариационную матрицу P набора данных, следующее утверждение о главном компоненте неверно ( C )

A. Наилучшим критерием для анализа основных компонентов является разложение набора данных в соответствии с набором ортонормированных базисов, и при условии, что берется только одинаковое количество компонентов, для вычисления минимальной ошибки усечения используется среднеквадратическая ошибка.
B. После разложения главных компонент ковариационная матрица становится диагональной матрицей
C, анализ главных компонентов представляет собой KL-преобразование
D. Главная компонента получается путем вычисления собственных значений ковариационной матрицы

Правильный ответ: C @BlackEyes_SGC: KL-преобразование и PCA-преобразование — разные понятия, матрица преобразования PCA — это ковариационная матрица, а матрица преобразования KL-преобразования может быть многих видов (матрица второго порядка, ковариационная матрица, суммарная интра- матрица дисперсии классов и т. д.). Когда матрица преобразования K-L является ковариационной матрицей, она эквивалентна PCA.

78. Сложность Kmeans?

Временная сложность: O(tKmn), где t — количество итераций, K — количество кластеров, m — количество записей, n — размерность Пространственная сложность: O((m+K)n), где K — кластер Число , m - количество записей, n - размерность.

Конкретная ссылка:Глубокое понимание K-средних в машинном обучении, отличие от алгоритма KNN и его реализации в коде.

79. Что неверно в логит-регрессии и SVM, так это (A)

A. Логит-регрессия — это, по сути, метод оценки весов методом максимального правдоподобия на основе выборок, а апостериорная вероятность пропорциональна произведению априорной вероятности и функции правдоподобия. Логит просто максимизирует функцию правдоподобия, а не максимизирует апостериорную вероятность, не говоря уже о минимизации апостериорной вероятности. Ошибка
B. Результатом логит-регрессии является вероятность того, что образец относится к положительной категории, и эту вероятность можно рассчитать, исправить
C. Цель SVM состоит в том, чтобы найти гиперплоскость, которая максимально разделяет обучающие данные и максимизирует интервал классификации, что должно минимизировать структурный риск.
D. SVM путем регуляризации сложности модели управления коэффициентами, чтобы избежать чрезмерной подгонки.

@BlackEyes_SGC: Целевой функцией логит-регрессии является минимизация апостериорной вероятности.Логит-регрессия может использоваться для прогнозирования вероятности возникновения событий.Цель SVM - минимизировать структурный риск, а SVM может эффективно избежать переобучения модели.

80. Размер входного изображения 200×200, и оно проходит через один слой свертки (размер ядра 5×5, отступ 1, шаг 2), объединение (размер ядра 3×3, отступ 0, шаг 1), и еще один слой свертки После (размер ядра 3 × 3, отступ 1, шаг 1) размер выходной карты объектов: ()

Правильный ответ: 97

@BlackEyes_SGC: некратный вычислительный размер встречается только в GoogLeNet. Свертка округляет в меньшую сторону, а объединение округляет в большую сторону.

Этот вопрос (200-5+2*1)/2+1 равен 99,5, возьмите 99
(99-3)/1+1 равно 97
(97-3+2*1)/1+1 равно 97

Если вы изучали сеть, вы можете видеть, что когда шаг равен 1, когда ядро равно 3 и заполнение равно 1 или ядро равно 5 и заполнение равно 2, видно, что размер до и после свертки не меняется. То же самое справедливо и для расчета размера всего процесса GoogLeNet.

81. Основными факторами, влияющими на результаты алгоритма кластеризации, являются (BCD)
A. Качество образцов известных классов;
Б. Критерии классификации;
C. Выбор функции;
D. Мера подобия шаблона

82. При распознавании образов преимущество лошадиного расстояния над евклидовым расстоянием составляет (CD).
А. Трансляционная инвариантность;
B. Вращательная инвариантность;
C. Масштабная инвариантность;
D. Рассмотрено распределение паттернов

83. Основными факторами, влияющими на базовый алгоритм K-средних, являются (ABD)
A. Образец порядка ввода;
B. Мера сходства с образцом;
C. Критерии кластеризации;
D. Выбор центра начального класса

84. В задачах классификации статистических образов, когда априорная вероятность неизвестна, можно использовать (BD).
А. Критерий минимальных потерь;
B. Минимальные и максимальные критерии потерь;
C. Критерий минимальной вероятности ошибочной оценки;
D. Решение N-P

85. Если в качестве меры сходства образов используется коэффициент корреляции собственных векторов, то основными факторами, влияющими на результаты алгоритма кластеризации, являются (BC)
A. Качество образца известной категории;
Б. Критерии классификации;
C. Выбор функции;
Д. Размеры

86. Евклидово расстояние имеет (AB), конское расстояние имеет (ABCD).
А. Трансляционная инвариантность;
B. Вращательная инвариантность;
C. Масштабная инвариантность;
D. Свойства, на которые не влияет измерение

87. Какой у вас опыт настройки параметров глубокого обучения (RNN, CNN)?

Анализ ответов от Чжиху

88. Кратко расскажу о принципе RNN.

Когда мы поступаем на третий год старшей школы, чтобы подготовиться к вступительным экзаменам в колледж, знания, полученные в это время, синтезируются из знаний, полученных до второго года старшей школы и второго года старшей школы, плюс знания, полученные на третьем году. Когда в подзаголовке фильма появляется «Я есть», вы, естественно, думаете: «Я китаец».

89. Что такое РНН?

@ Птичье небо, источник анализа этого вопроса:

Введение в рекуррентные нейронные сети (RNN, рекуррентные нейронные сети)

90. Как шаг за шагом строится RNN из однослойной сети?

@He Zhiyuan, источник анализа этого вопроса:

Полностью иллюстрированный RNN, варианты RNN, Seq2Seq, механизмы внимания

101. Глубокое обучение (CNN RNN Attention) для решения крупномасштабных задач классификации текста.

Решение крупномасштабных задач классификации текста с помощью глубокого обучения (CNN RNN Attention) — обзор и практика

102. Как решить проблему взрыва и рассеивания градиента RNN?

Глубокое исследование и обработка натурального языка (7) _ STANFORD CS224D Модель языка, RNN, LSTM и GRU

103. Как улучшить производительность глубокого обучения?

Серия машинного обучения (10)_Как улучшить производительность глубокого обучения (и машинного обучения)

104. В чем разница между RNN, LSTM и GRU?

@ Я люблю большие пузыри, источник анализа этого вопроса:

Завершение письменного теста на собеседовании 3: подготовка вопросов для собеседования по машинному обучению с глубоким обучением (обязательно)

105. Как вы оптимизируете, когда производительность машинного обучения сталкивается с узким местом?

Вы можете попробовать эти четыре аспекта: на основе данных, с помощью алгоритмов, с помощью алгоритмов для настройки параметров и с помощью слияния моделей. Конечно, насколько подробно вы сможете рассказать, будет зависеть от вашего опыта.

Вот справочный список:Серия машинного обучения (20)_Шпаргалка по повышению производительности машинного обучения

106. Какие проекты по машинному обучению вы выполняли? Например, как построить рекомендательную систему с нуля?

Система рекомендаций открытого классаWoohoo.Расстояние также читайте.com/video/play/…, и еще один рекомендуемый курс: проектный класс машинного обучения [10 чистых объяснений проекта, 100% чистый бой] (Woohoo.Расстояние также читайте.com/course/td…).

107. Какой набор данных не подходит для глубокого обучения?

@abstractmonkey, источник:

Знать ответ

108. Как обобщенные линейные модели используются в глубоком обучении?

@Сюй Хань, источник:

Знать ответ

109. Какие теоретические знания я должен знать, чтобы подготовиться к собеседованию по машинному обучению?

Знать ответ

110. В чем разница между нормализацией и нормализацией?

Проще говоря, нормализация заключается в обработке данных в соответствии со столбцами матрицы признаков, которая преобразует собственные значения выборок в одно и то же измерение путем вычисления z-показателя. Нормализация заключается в обработке данных в соответствии со строками матрицы признаков, и ее цель состоит в том, чтобы образцы векторов имели единый стандарт при расчете подобия в операции умножения точек или других функциях ядра, то есть все они преобразуются в «единичные векторы». Формула нормализации с правилом L2 выглядит следующим образом:

Обработка пропущенных значений для собственных векторов:

1. Много пропущенных значений. Откажитесь от функции напрямую, иначе она может привести к большому шуму, что плохо скажется на результатах. 2. Пропущенных значений мало, а пропущенные значения остальных признаков находятся в пределах 10%, с ними можно бороться разными способами:

1) Возьмите NaN непосредственно как признак, предполагая, что он представлен 0;
2) Заполнить средним значением;
3) Предсказывать заполнение с помощью алгоритмов, таких как случайные леса

111. Как случайные леса обрабатывают пропущенные значения.

Метод 1 (na.roughfix) прост и груб.Для обучающего набора, если данные одного класса отсутствуют, используйте режим, чтобы восполнить это, а если непрерывная переменная отсутствует, используйте медиану, чтобы восполнить для этого. Метод 2 (rfImpute) Этот метод имеет большой объем вычислений, чем он лучше, чем метод 1? Плохое суждение. Сначала используйте na.roughfix, чтобы заполнить пропущенные значения, затем постройте лес и рассчитайте матрицу близости, а затем посмотрите на пропущенные значения.Если это категориальная переменная, используйте метод средневзвешенного значения без матрицы, чтобы заполнить недостающие значения. Затем выполните итерацию 4-6 раз, идея дополнения пропущенных значений и KNN чем-то похожа на веса вблизи 1-отсутствующих экземпляров наблюдения для голосования. Если это непрерывная переменная, используйте момент близости 2.

112. Как случайные леса оценивают важность особенности.

Мера важности переменных, существуют два, снижение Джини и снижение точности:
1) Уменьшить GINI: для задач регрессии argmax (VarVarLeftVarRight) напрямую используется в качестве критерия, то есть дисперсия Var текущего обучающего набора узлов минус дисперсия VarLeft левого узла и дисперсия VarRight правого узла.
2) Уменьшение точности: для дерева Tb(x) мы можем использовать выборку OOB, чтобы получить ошибку теста, равную 1; затем случайным образом изменить j-й столбец выборки OOB: оставить другие столбцы неизменными и выполнить случайное увеличение и уменьшение. перестановки в j-м столбце, получите ошибку 2. Пока что мы можем использовать ошибку 1 — ошибку 2, чтобы охарактеризовать важность переменной j. Основная идея состоит в том, что если переменная j достаточно важна, то ее изменение сильно увеличит ошибку теста; наоборот, если ее изменение не увеличит ошибку теста, значит, переменная не так важна.

113. Оптимизируйте Kmeans.

Используйте Kd-дерево или Ball Tree для построения всех экземпляров наблюдения в kd-дерево. Раньше каждому центру кластера нужно было вычислять расстояние от каждой точки наблюдения по очереди. Теперь этим кластерным центрам нужно только вычислить ближайший в соответствии с kd-деревом. окрестности.

114. Выбор начальной точки кластера KMeans.

Основная идея алгоритма К-средних++ для выбора начальных семян заключается в том, что расстояние между центрами начальных кластеров должно быть как можно больше.

1. Случайным образом выберите точку из набора точек входных данных в качестве первого центра кластера.
2. Для каждой точки x в наборе данных рассчитайте расстояние D(x) от ближайшего центра кластера (относительно выбранного центра кластера).
3. Выберите новую точку данных в качестве нового центра кластера.Принцип выбора: точка с большим D(x) имеет более высокую вероятность быть выбранной в качестве центра кластера
4. Повторяйте 2 и 3, пока не будет выбрано k центров кластеров.
5. Используйте k начальных кластерных центров для запуска стандартного алгоритма k-средних.

115. Объясните концепцию двойственности.

Задача оптимизации может быть исследована с двух точек зрения, одна является основной проблемой, другая — двойственной проблемой, которая является двойственной проблемой.В общем, двойственная задача дает нижнюю границу оптимального значения основной задачи. В случае сильной двойственности двойственная задача может получить оптимальную нижнюю границу основной задачи, а двойственная задача представляет собой задачу выпуклой оптимизации, которую можно решить лучше В SVM основная задача преобразуется в двойственную задачу для решения , чтобы еще больше представить идею функции ядра.

116. Как выполнить выбор функции?

Выбор признаков — важный процесс предварительной обработки данных.Есть две основные причины: во-первых, уменьшить количество признаков и размерность, чтобы сделать модель более обобщаемой и уменьшить переобучение, а во-вторых, улучшить взаимосвязь между признаками и их значениями.

Общие методы выбора признаков:
1. Удалите признаки с небольшой дисперсией.
2. Регуляризация. 1 Регуляризация может генерировать разреженные модели. Производительность регуляризации L2 более стабильна, поскольку полезные функции, как правило, соответствуют ненулевым коэффициентам.
3. Случайный лес, для задач классификации обычно используется примесь Джини или прирост информации, а для задач регрессии обычно используется дисперсия или подгонка методом наименьших квадратов. Как правило, утомительные шаги, такие как разработка функций и настройка параметров, не требуются. Его две основные проблемы: 1 – важные функции могут иметь низкие оценки (проблема связанных функций) и 2 – этот метод более благоприятен для функций с большим количеством категорий переменных функций (проблема смещения).
4. Выбор устойчивости. Это относительно новый метод, основанный на сочетании алгоритма подвыборки и отбора.Алгоритмом отбора может быть регрессия, SVM или другие подобные методы. Его основная идея состоит в том, чтобы запускать алгоритм выбора признаков на разных подмножествах данных и подмножествах признаков, непрерывно повторять его и, наконец, обобщать результаты выбора признаков, например частоту, когда признак считается важным признаком (выбирается как важный признак). , разделенное на количество раз, когда его подмножество было проверено). В идеале важные функции должны быть оценены близко к 100%. Немного более слабые функции будут иметь ненулевые оценки, а наименее полезные функции будут иметь оценки, близкие к 0.

117. Предварительная обработка данных.

1. Пропущенные значения, заполнить пропущенные значения fillna:
I. Дискретный: нет,
2. Непрерывное: среднее.
iii. Если пропущено слишком много значений, удалите столбец напрямую.
2. Непрерывное значение: дискретизация. Некоторые модели (например, деревья решений) требуют дискретных значений.
3. бинаризация количественных характеристик. Ядром является установленное пороговое значение, большее порогового значения 1, меньшее или равное пороговому значению, присвоенному 0. Операция с изображением
4. Коэффициент корреляции Пирсона, удалить сильно коррелированные столбцы

118. Кратко расскажите о разработке функций.

119. Какую обработку данных и инженерную обработку признаков вы знаете?

120. Пожалуйста, сравните три функции активации Sigmoid, Tanh и ReLu?

121. Каковы недостатки или недостатки трех функций активации Sigmoid, Tanh и ReLu? Есть ли улучшенная функция активации?

@I люблю большие пузыри, источник:

122. Как понять дерево решений, может ли XGBOOST обрабатывать пропущенные значения? А некоторые модели (SVM) чувствительны к пропущенным значениям?

Знать ответ

123. Зачем вводить нелинейную функцию возбуждения?

@Begin Again, источник:

Знать ответ

Если функция возбуждения не используется (на самом деле функция возбуждения есть f(x) = x), то в этом случае выход каждого вашего слоя является линейной функцией входа верхнего слоя, что легко вычислить. проверьте, независимо от того, сколько слоев имеет ваша нейронная сеть, выходные данныеВсе они представляют собой линейные комбинации входных данных, которые эквивалентны отсутствию скрытого слоя.Эта ситуация является самым примитивным персептроном.

Из-за вышеуказанных причин мы решили ввести нелинейную функцию в качестве функции возбуждения, так что глубокая нейронная сеть имеет смысл (она больше не является линейной комбинацией входов, которые могут приблизиться к любой функции). Самая ранняя идея была функция сигмовидной или функции TANH, с ограниченными выходами, которые могут быть легко служить в качестве входных данных к следующему слою (и биологические интерпретации некоторыми).

124. Почему ReLu лучше, чем функция Tanh и Sigmoid в искусственной нейронной сети?

@Begin Again, источник:

Знать ответ

125. Почему в модели LSTM есть функции активации Sigmoid и Tanh?

Источник этого анализа:Знать ответ

@beanfrog: Цель у них разная: сигмоид используется на различных вентилях для генерации значений от 0 до 1. Как правило, только сигмоид является наиболее прямым. tanh используется для состояния и вывода, т. е. для обработки данных, а также для других функций активации.

@hhhh: См. Также раздел 4.1 Критического обзора рекуррентных нейронных сетей для последовательного обучения, в котором говорится, что оба танга могут быть заменены другими.

126. Измерьте, насколько хорош классификатор.

@I Love Big Bubbles, источник:

Анализ ответов

Прежде всего, мы должны знать четыре вида TP, Fn (True, судя по ложным), FP (FALSE судим, чтобы быть правдой), а TN (вы можете нарисовать таблицу).

Несколько часто используемых индикаторов:

Точность Точность = TP/(TP+FP) = TP/~P (~p — количество верных прогнозов)
Отзыв отзыв = TP/(TP+FN) = TP/P
Значение F1: 2/F1 = 1/отзыв + 1/точность
Кривая ROC: пространство ROC представляет собой плоскость, представленную двумерной системой координат с частотой ложных срабатываний (FPR, частота ложных срабатываний) в качестве оси X и частотой истинных положительных результатов (TPR, доля истинных положительных результатов) в качестве оси Y. где истинный положительный показатель TPR = TP / P = отзыв, Частота ложных срабатываний FPR = FP/N

127. Каков физический смысл AUC в машинном обучении и статистике?

Подробнее см.Как понимать auc в машинном обучении и статистике?

128. Обратите внимание на коэффициент усиления, чем больше альфа и гамма, тем меньше коэффициент усиления?

@AntZ: критерием для XGBoost для поиска точек разделения является максимизация выигрыша.Учитывая, что традиционный жадный метод перечисления всех возможных точек разделения для каждой функции слишком неэффективен, XGBoost реализует приблизительный алгоритм. Общая идея состоит в том, чтобы перечислить несколько кандидатов, которые могут стать точками сегментации по методу процентилей, а затем вычислить Gain из кандидатов, чтобы найти лучшую точку сегментации по максимальному значению. Его расчетная формула разделена на четыре элемента, которые можно настроить с помощью параметра элемента регуляризации (lamda — это коэффициент суммы квадратов весов листьев, а gama — количество листьев):

Первый элемент — это весовая оценка левого дочернего элемента гипотетического разделения, второй элемент — правый дочерний элемент, третий элемент — это общий балл без разделения, а последний элемент — потеря сложности при введении узла.

Из формулы видно, что чем больше гама, тем меньше выигрыш, тем больше лямбда, причем выигрыш может быть как малым, так и большим.

Проблема не в исходной альфа-лямбде, в документе здесь не упоминается, XGBoost добился этого параметра выше, насколько я понимаю из ответов в документе, выполняется поиск следующего:

Как настроить параметры модели XGBoost

129. Что вызывает проблему исчезающего градиента?

@Сюй Хань, источник:

При обучении нейронной сети путем изменения веса нейронов выходное значение сети максимально близко к метке, чтобы уменьшить значение ошибки. Алгоритм BP обычно используется для обучения. Основная идея состоит в том, чтобы вычислить значение функции потерь между выходом и меткой, а затем вычислить. Он повторяет веса относительно градиента каждого нейрона.

Исчезновение градиента приведет к замедлению обновления веса и увеличению сложности обучения модели. Одна из причин исчезновения градиента заключается в том, что многие функции активации сжимают выходное значение в небольшой интервал, а градиент равен 0 в большей области определения на обоих концах функции активации, что приводит к остановке обучения.

130. Что такое исчезновение градиента и взрыв градиента?

@HAN Xiaoyang, непрерывное умножение, вызванное цепным правилом при обратном распространении, если число мало и стремится к 0, результат будет очень маленьким (градиент исчезнет); если число относительно велико, результат может быть очень большим (градиент взрывается).

@велосипед

Исчезновение градиента и взрыв градиента в обучении нейронной сети

131. Как решить проблему исчезновения градиента и расширения градиента?

(1) Градиент исчезает:
Согласно цепному правилу, если частная производная выхода каждого слоя нейронов, умноженная на вес выхода предыдущего слоя, меньше 1, то даже если результат равен 0,99, после достаточно многослойного распространения, смещение ошибки к входному слою будет Производная будет стремиться к 0, а функцию активации ReLU можно использовать для эффективного решения проблемы исчезновения градиента.
(2) Градиентное расширение
Согласно цепному правилу, если частная производная каждого слоя нейронов к выходу предыдущего слоя, умноженная на вес, больше 1, после достаточно многослойного распространения частная производная ошибки к входному слою будет стремиться до бесконечности, что можно решить с помощью функции активации.

132. Обратное распространение деривации при обратном распространении.

@I Love Big Bubbles, источник:

Процесс деривата

133.СВД и ППШ.

Идея PCA состоит в том, чтобы максимизировать дисперсию данных после проецирования и найти такой проекционный вектор, который удовлетворяет условию наибольшей дисперсии. После операции удаления среднего можно использовать разложение SVD для решения такого проекционного вектора и выбрать направление с наибольшим собственным значением.

134. Проблема дисбаланса данных.

В основном это связано с несбалансированным распределением данных. Обходной путь выглядит следующим образом:

1) Выборка, добавление выборки шума к небольшим выборкам и понижение выборки больших выборок.
2) Сделать специальное взвешивание, например, в Adaboost или SVM
3) Принять алгоритм, нечувствительный к несбалансированным наборам данных.
4) Изменить критерии оценки: использовать AUC/ROC для оценки
5) Использование таких методов, как бэггинг/бустинг/ансамбль
6) Учитывайте предварительное распределение данных

135. Кратко опишите развитие нейронных сетей.

MP model+sgn—->Однослойный персептрон (только линейный)+sgn—Минский желоб —>Многослойный персептрон+BP+Sigmoid- (желоб) —>Deep Learning+Pretraining+ReLU/Sigmoid

136. Общие методы глубокого обучения.

@SmallisBig, источник:

Резюме вопросов о глубоком обучении на собеседовании по машинному обучению

137. Модель нейронной сети (Neural Network) названа в честь вдохновения человеческого мозга. Нейронная сеть состоит из множества нейронов (нейронов), каждый нейрон принимает входные данные и обрабатывает входные данные для получения выходных данных. Какое из следующих утверждений о нейронах верно? (Е)

A. Каждый нейрон имеет только один вход и один выход
B. Каждый нейрон имеет несколько входов и один выход
C. Каждый нейрон имеет один вход и несколько выходов
D. Каждый нейрон имеет несколько входов и несколько выходов.
E. Все вышеперечисленное верно

Ответ: (E) Каждый нейрон может иметь один или несколько входов и один или несколько выходов.

138. Следующий рисунок представляет собой математическое представление нейрона,

139. В нейронной сети самым важным шагом является знание весов и смещений каждого нейрона. Если вы знаете точные веса и смещения нейронов, вы можете аппроксимировать любую функцию, но как узнать веса и смещения каждого нейрона? (С)

А. Ищите все возможные комбинации веса и смещения, пока не получите наилучшее значение.
B. Дайте начальное значение, затем проверьте разницу с лучшим значением и итеративно отрегулируйте вес.
C. Случайное назначение, отставка
D. Ничего из вышеперечисленного не верно

Ответ: (C) Вариант C — это описание градиентного спуска.

140. Каковы правильные шаги в алгоритме градиентного спуска? (Д)

1. Рассчитайте ошибку между прогнозируемым значением и истинным значением.
2. Повторять итерацию до тех пор, пока не будет получено оптимальное значение веса сети.
3. Передать вход в сеть и получить выходное значение
4. Инициализируйте веса и смещения случайными значениями
5. Для каждого нейрона, выдающего ошибку, скорректируйте соответствующее значение (вес), чтобы уменьшить ошибку.

A. 1, 2, 3, 4, 5
B. 5, 4, 3, 2, 1
C. 3, 2, 1, 5, 4
D. 4, 3, 1, 5, 2

Ответ: (Д)

141. Известны:
- Мозг состоит из множества элементов, называемых нейронами, а нейронная сеть — это простое математическое выражение мозга.
- Каждый нейрон имеет вход, функцию обработки и выход.
- Нейроны объединяются в сеть, которая может выполнять любую функцию.
- Чтобы получить лучшую нейронную сеть, мы используем метод градиентного спуска для постоянного обновления модели.
Учитывая вышеуказанное описание нейронной сети, модель нейронной сети называется моделью глубокой обучения при каких обстоятельствах?

A. Добавьте больше слоев, чтобы увеличить глубину нейронной сети.
B. Есть данные более высокого измерения
C. Когда это проблема распознавания образов
D. Ничего из вышеперечисленного не верно

Ответ: (A) Больше слоев означает более глубокую сеть. Модель без строгого определения количества слоев называется глубокой моделью.В настоящее время, если скрытых слоев более 2, ее также можно назвать глубокой моделью.

142. Сверточные нейронные сети могут выполнять множественные преобразования (поворот, перемещение, масштабирование) на входе Это утверждение верно?

Ответ: False Ряд работ по предварительной обработке данных (т. е. вращение, перемещение, масштабирование) необходимо выполнить до того, как данные будут переданы в нейронную сеть, и сама нейронная сеть не может выполнить эти преобразования.

143. Какая из следующих операций может дать эффект, аналогичный Dropout в нейронных сетях? (Б)

A. Boosting
B. Bagging
C. Stacking
D. Mapping

Ответ: Б
Dropout можно рассматривать как экстремальный бэггинг, каждая модель обучается на отдельных данных, и в то же время за счет совместного использования соответствующих параметров с другими моделями параметры модели сильно регуляризируются.

144. Что из следующего вводит нелинейность в нейронной сети? (Б)

А. Стохастический градиентный спуск
B. Скорректированная линейная единица (ReLU)
C. Функция свертки
D. Ничего из вышеперечисленного неверно

Ответ: (B) Модифицированные линейные единицы являются нелинейными функциями активации.

145. При обучении нейронной сети функция потерь (потери) не падает в первые несколько эпох, в чем возможная причина? (А)

А. скорость обучения (скорость обучения) слишком низкая
B. Обычные параметры слишком высоки
C. Застрял в локальном минимуме
D. Все вышеперечисленное возможно

Ответ: (А)

146. Какое из следующих утверждений о емкости модели верно? (Относится к способности модели нейронной сети соответствовать сложным функциям) (A)

О. Количество скрытых слоев увеличивается, а возможности модели увеличиваются.
B. Доля отсева увеличивается, а емкость модели увеличивается
C. Скорость обучения увеличивается, а емкость модели увеличивается
д., не правильно

Ответ: (А)

147. Если увеличить количество скрытых слоев Многослойного Персептрона, ошибка классификации уменьшится. Это утверждение верно или ложно?

Ответ: неправильно не всегда правильно. Переобучение может привести к увеличению ошибок.

148. Построение нейронной сети, выход предыдущего слоя и сама на входе. Какая из следующих архитектур имеет связь с обратной связью? (А)

А. Рекуррентная нейронная сеть
B. Сверточные нейронные сети
C. Ограниченные машины Больцмана
Д. ни

Ответ: (А)

149. Что из перечисленного представлено в нейронной сети? Каков порядок задач в Perceptron?

1. Произвольно инициализируйте веса персептрона
2. Перейти к следующему пакету набора данных
3. Если прогнозируемое значение и выходные данные не совпадают, скорректируйте веса.
4. Для входной выборки рассчитайте выходное значение.

Ответы: 1 - 4 - 3 - 2

150. Предположим, вам нужно настроить параметры для минимизации функции стоимости. Какой из следующих методов можно использовать? (Д)

А. Исчерпывающий поиск
Б. Случайный поиск
C. Байесовская оптимизация
Д. Любой из вышеперечисленных

Ответ: (Д)

151. В какой из следующих ситуаций градиентный спуск первого порядка не обязательно работает правильно (может зависнуть)? (Б)

Ответ: (В)

Это классический пример градиентного спуска с седловой точкой. Кроме того, этот вопрос исходит из:источник темы

152. На рисунке ниже показана точность обученной трехслойной сверточной нейронной сети в зависимости от количества параметров (количества ядер признаков).

Как видно из тренда на рисунке, если увеличить ширину нейронной сети, точность возрастет до определенного порога, а затем начнет снижаться. Каковы возможные причины этого явления? (С)

A. Даже увеличение количества ядра свертки, только небольшая часть ядра используется в качестве предсказания
B. Когда количество ядер свертки увеличивается, предсказательная способность (мощность) нейронной сети будет уменьшаться.
C. Когда количество ядер свертки увеличивается, корреляция между ними увеличивается (коррелирует), что приводит к переоснащению
D. Ничего из вышеперечисленного не верно

Ответ: (C) Как указано в варианте C, возможной причиной является корреляция между ядрами.

153. Предположим, у нас есть скрытый слой, как показано ниже. Скрытый слой играет определенную роль уменьшения размерности в этой сети. Теперь предположим, что мы заменили этот скрытый слой другим методом уменьшения размерности, таким как анализ основных компонентов (PCA). Итак, выход двух одинаковый?

Ответ: отличается, потому что PCA используется для коррелированных функций, а скрытые слои используются для прогностических функций.

154. Может ли нейронная сеть формировать функцию ()?

Ответ: Да, потому что функция активации может быть обратной функцией.

155. Какие из следующих структур нейронной сети будут иметь общие веса? (Д)

А. Сверточные нейронные сети
B. Рекуррентные нейронные сети
C. Полносвязная нейронная сеть
D. Варианты А и Б

Ответ: (Д)

156. Каковы преимущества пакетной нормализации? (А)

А. Природа (изменение) перед передачей всех входных данных на следующий слой (изменение)
B. Он принимает нормализованное среднее значение и стандартное отклонение весов.
C. Это очень эффективный метод обратного распространения ошибки (BP).
Д. Ничего из этого

Ответ: (А)

157. Какой из следующих методов в нейронной сети можно использовать для борьбы с переоснащением? (Д)

A. Dropout
B. Пакетная нормализация
С. Регуляризация
Д. может быть

Ответ: (Д)

158. Что произойдет, если мы используем чрезмерную скорость обучения? (Д)

А. Нейронная сеть сходится
Б. Трудно сказать
С. Ни
D. Нейронная сеть не сойдется

Ответ: (Д)

159. Сеть, показанная на рисунке ниже, обучена распознавать символы H и T следующим образом:

Что является выходом сети? (Д)

D. Может быть A или B, в зависимости от настроек веса нейронной сети

Ответ: (D) Не зная, каковы веса и смещения нейронной сети, невозможно сказать, какой результат она даст.

160. Предположим, мы обучили сверточную нейронную сеть на наборе данных ImageNet (распознавание объектов). Затем передайте этой сверточной нейронной сети полностью белое изображение. Выходом для этого ввода с одинаковой вероятностью может быть любой объект, верно? (Д)

А. да
Б. не знаю
C. Это зависит от ситуации
Д. Не прав

Ответ: (D) Реакция каждого нейрона различна.

161. Когда в свёрточную нейронную сеть добавляется объединяющий слой, инвариантность преобразований сохраняется, верно? (С)

А. не знаю
Б. Это зависит от ситуации
в. да
Д. Нет

Ответ: (C) Инвариантность возникает при использовании объединения.

162. Какой метод градиентного спуска более эффективен, когда данные слишком велики для одновременной обработки в оперативной памяти? (А)

А. Стохастический градиентный спуск
Б. не знаю
C. Полный пакетный градиентный спуск
Д. ни

Ответ: (А)

163. На следующем рисунке представлен график градиентного спуска для обучения нейронной сети с четырьмя скрытыми слоями с использованием сигмовидной функции в качестве функции активации. Эта нейронная сеть сталкивается с проблемой исчезающих градиентов. Какое из следующих утверждений верно? (А)

A. Первый скрытый слой соответствует D, второй скрытый слой соответствует C, третий скрытый слой соответствует B, а четвертый скрытый слой соответствует A
B. Первый скрытый слой соответствует A, второй скрытый слой соответствует C, третий скрытый слой соответствует B, а четвертый скрытый слой соответствует D.
C. Первый скрытый слой соответствует A, второй скрытый слой соответствует B, третий скрытый слой соответствует C, а четвертый скрытый слой соответствует D
D. Первый скрытый слой, соответствующий B, второй скрытый слой соответствует D, соответствующий третьему скрытому слою C, соответствующий четвертому скрытому слою

Ответ: (A) Поскольку алгоритм обратного распространения входит в начальный слой, способность к обучению снижается, что означает исчезновение градиента.

164. Для задачи классификации, если веса нейронной сети не назначаются случайным образом в начале и оба установлены равными 0, какое из следующих утверждений верно? (С)

А. Ни один из других вариантов не является правильным
B. Нет проблем, нейронная сеть начнет нормально обучаться
C. Нейронные сети можно обучить, но все нейроны в конечном итоге распознают одно и то же
D. Нейронная сеть не начнет обучение, потому что нет изменения градиента

Ответ: (С)

165. На приведенном ниже графике показано, что в начале обучения ошибка постоянно высока, потому что нейронная сеть застревает в локальном минимуме, прежде чем двигаться к глобальному минимуму. Чтобы избежать этой ситуации, какую из следующих стратегий мы можем использовать? (А)

A. Измените скорость обучения, например, измените скорость обучения для первых нескольких эпох обучения.
B. Сначала уменьшите скорость обучения в 10 раз, а затем используйте термин импульса.
C. Увеличить количество параметров, чтобы нейронная сеть не застряла на локальном оптимуме
Д. больше ничего

Ответ: (A) Вариант A может извлекать нейронные сети, застрявшие в локальных минимумах.

166. Для задачи распознавания изображений (найти кошку на фотографии) какая из следующих нейронных сетей может решить задачу лучше? (Д)

А. Рекуррентная нейронная сеть
Б. Персептрон
C. Многослойный персептрон
D. Сверточные нейронные сети

Сверточные нейронные сети лучше подходят для задач, связанных с изображениями, из-за присущей им природы позиционных изменений вблизи изображения.

Ответ: (Д)

167. Предположим, мы вдруг сталкиваемся с проблемой во время обучения, и через несколько циклов ошибка мгновенно уменьшается. Вы думаете, что с данными что-то не так, поэтому вы наносите данные на график и обнаруживаете, что, возможно, данные слишком искажены, чтобы вызвать проблему.

Что вы собираетесь делать, чтобы справиться с этой проблемой? (Д)

А. Нормализация данных
B. Возьмите журнал изменения данных
С. Ни
D. Анализ главных компонентов (PCA) и нормализация данных

Ответ: (D) Сначала удалите соответствующие данные, а затем установите их на ноль.

168. Какая граница решения ниже генерируется нейронной сетью? (Е)

A. A
B. D
C. C
D. B
Е. Все вышеперечисленное

Ответ: (Э)

169. На графике ниже мы можем наблюдать множество небольших «флуктуаций» ошибки. Стоит ли нам беспокоиться об этой ситуации? (Б)

A. Да, что может означать, что есть проблема со скоростью обучения нейронной сети.
B. Нет необходимости, пока есть кумулятивное падение на обучающем наборе и наборе перекрестной проверки.
С. не знаю
Д., трудно сказать

Ответ: (Б) Верен вариант Б, чтобы уменьшить эти "флуктуации", попробуйте увеличить размер партии.

170. Какие из следующих параметров необходимо учитывать при выборе глубины нейронной сети? (С)

1 Типы нейронных сетей (такие как MLP, CNN)
2 Введите данные
3 Вычислительная мощность (определяется аппаратными и программными возможностями)
4 Скорость обучения
5 Функция вывода карты

A. 1,2,4,5
B. 2,3,4,5
C. Необходимо учитывать оба
D. 1,3,4,5

Ответ: (C) Все вышеперечисленные факторы важны при выборе глубины модели нейронной сети.

171. При рассмотрении конкретной проблемы у вас может быть только небольшой объем данных для ее решения. Но, к счастью, у вас есть предварительно обученная нейронная сеть для решения аналогичной задачи. Какой из следующих методов можно использовать для использования этой предварительно обученной сети? (С)

А. Заморозить все слои, кроме последнего, и переобучить последний слой.
B. Переобучить всю модель на новых данных
C. Настройте только несколько последних слоев
D. Оцените каждый слой модели и выберите несколько из них для использования

Ответ: (С)

172. Нужно ли увеличивать размер ядра свертки, чтобы улучшить эффект сверточной нейронной сети?

Ответ: Нет, увеличение размера функции ядра не обязательно повышает производительность. Этот вопрос во многом зависит от набора данных.

173. Пожалуйста, кратко опишите историю развития нейронных сетей.

@SIY.Z. Источник этого анализа:

Краткий анализ недавно предложенного Хинтоном капсульного плана.

174. Расскажите о настройке производительности искры.

Specialties.Meituan.com/spark-Изображает вас…
Specialties.Meituan.com/spark-Изображает вас…

175. Каковы инженерные методы выбора признаков в машинном обучении?

Данные и функции определяют верхний предел машинного обучения, а модели и алгоритмы лишь приближаются к этому верхнему пределу.

1. Рассчитайте корреляцию между каждой функцией и переменной отклика: обычно используемые методы в инженерии заключаются в вычислении коэффициента Пирсона и коэффициента взаимной информации.Коэффициент Пирсона может измерять только линейную корреляцию, а коэффициент взаимной информации может измерять различные корреляции хорошо. , но расчет относительно сложен. К счастью, этот инструмент включен во многие наборы инструментов (например, MINE sklearn).После получения корреляции вы можете сортировать и выбирать функции;
2. Построить модель одного признака и отсортировать признаки по точности модели, тем самым отобрав признаки;
3. Выберите признаки по регулярному члену L1: Регулярный метод L1 имеет характеристики разреженного решения, поэтому он, естественно, имеет характеристики выбора признаков, но следует отметить, что признаки, не выбранные L1, не означают, что они не важны. , потому что эти две функции имеют высокую корреляцию. Функция может сохранить только одну функцию, если вы хотите определить, какая функция важна, вы должны пройти перекрестную проверку обычным методом L2 *;
4. Обучение может забить характеристики оценки объекта: рандовая и логистическая регрессия и т. Д. Может быть забита по характеристикам модели, а также окончательной модели реабилитации после получения корреляции;
5. Выберите функции после комбинации функций: например, идентификатор пользователя и пользовательские функции наиболее сочетаются для получения большего набора функций, а затем выбирают функции.Этот подход относительно распространен в рекомендательных системах и рекламных системах.Основной источник миллиардного уровня Особенности заключается в том, что пользовательские данные относительно разрежены, а комбинированные функции могут учитывать как глобальную модель, так и персонализированную модель.Есть возможность расширить этот вопрос.
6. Выбор функций с помощью глубокого обучения. В настоящее время этот метод становится методом с популярностью глубокого обучения, особенно в области компьютерного зрения, поскольку глубокое обучение имеет возможность автоматически изучать функции, что также называется неконтролируемым. Причина изучения особенностей. После выбора функций нейронного слоя из модели глубокого обучения его можно использовать для обучения окончательной целевой модели.

176. Каковы общие алгоритмы классификации?

SVM, нейронная сеть, случайный лес, логистическая регрессия, KNN, байесовский

177. Каковы общие алгоритмы обучения с учителем?

Персептроны, SVM, искусственные нейронные сети, деревья решений, логистическая регрессия

178. При условии, что другие условия остаются неизменными, какая из следующих практик может привести к переоснащению в машинном обучении (D)

A. Увеличьте размер тренировочного набора
Б. Уменьшить количество узлов в скрытом слое нейронной сети
C. Удалить разреженные функции
D. Используйте гауссово ядро/ядро RBF вместо линейного ядра в алгоритме SVM.

Правильный ответ: (Д)

@liu xuan320

В общем, чем сложнее система, тем выше вероятность переобучения, и способность к обобщению будет выше, если общая модель относительно проста.

B. Обычно считается, что увеличение количества скрытых слоев может уменьшить ошибку сети (в некоторых источниках считается, что она не может быть эффективно уменьшена) и повысить точность, но это также усложняет сеть, тем самым увеличивая время обучения сети. и тенденция к «переоснащению», функция ядра svm Gaussian более сложна, чем модель линейной функции ядра, и склонна к переоснащению.

D. Объяснение функции ядра радиального базиса (RBF)/функции ядра Гаусса, эта функция ядра может отображать исходное пространство в бесконечномерное пространство. Для параметра, если параметр выбран очень большим, вес признака высокого порядка действительно очень быстро убывает, что фактически эквивалентно низкоразмерному подпространству (приблизительно численно); и наоборот, если параметр выбран очень маленьким, Это может быть Отображение произвольных данных для линейной разделимости — конечно, это не обязательно хорошо, потому что за этим может последовать очень серьезная проблема переобучения. Однако в целом ядро Гаусса на самом деле довольно гибкое в плане настройки параметров, а также является одной из наиболее широко используемых функций ядра.

179. Какая из следующих моделей временных рядов лучше подходит для анализа и прогнозирования волатильности? (Д)

А. Модель дополненной реальности
Б. Модель МА
C. Модель ARMA
D. Модель Гарча

Правильный ответ: (Д)

@liu xuan320

Модель R представляет собой линейное предсказание, то есть по N данным данные до или после N-й точки можно вывести из модели (задать точку P), поэтому ее суть аналогична интерполяции.

Модель MA (модель скользящего среднего) — это модель скользящего среднего, в которой метод скользящего среднего тренда используется для построения модели прогнозирования линейного тренда.

Модель ARMA (модель авторегрессионного скользящего среднего) — это модель авторегрессионного скользящего среднего, один из методов спектрального анализа высокого разрешения метода параметров модели. Этот метод является типичным методом исследования рационального спектра стационарных случайных процессов. По сравнению с методом модели AR и методом модели MA, он имеет более точную спектральную оценку и лучшее спектральное разрешение, но его оценка параметров является более сложной.

Модель GARCH называется обобщенной моделью ARCH, которая является расширением модели ARCH и разработана Bollerslev (1986). Это обобщение модели ARCH. Модель GARCH(p,0) эквивалентна модели ARCH(p). Модель GARCH представляет собой регрессионную модель, специально предназначенную для финансовых данных.За исключением тех же точек, что и в обычной регрессионной модели, GARCH дополнительно моделирует дисперсию ошибки. Он особенно подходит для анализа и предсказания волатильности.Такой анализ может играть очень важную руководящую роль в принятии решений инвесторами, и его значение часто превышает анализ и предсказание самой стоимости.

180. Что из следующего является лучшим критерием для линейного классификатора?(ACD)

А. Функция критерия восприятия
Б. Байесовская классификация
C. Машины опорных векторов
Д. Критерий Фишера

Правильный ответ: (АКД)

@liu xuan320

Существует три основных категории линейных классификаторов: критериальная функция персептрона, SVM, критерий Фишера и байесовские классификаторы, которые не являются линейными классификаторами.

Критериальная функция восприятия: Критериальная функция основана на принципе минимизации суммы расстояний от ошибочно классифицированных образцов до границы раздела. Преимущество состоит в том, что функция классификатора корректируется информацией, предоставленной ошибочно классифицированными образцами, и этот критерий является основой многослойного персептрона искусственной нейронной сети.

Машина опорных векторов: основная идея заключается в том, что при условии линейной разделимости двух классов интерфейс классификатора предназначен для максимального увеличения интервала между двумя классами, и его основная отправная точка состоит в том, чтобы сделать ожидаемый риск обобщения как можно меньшим. . (Используйте функцию ядра для решения нелинейных задач)

Критерий Фишера: более общее название — линейный дискриминантный анализ (LDA), который проецирует все выборки на прямую линию, начинающуюся из дальней точки, так, чтобы расстояние между выборками одного типа было как можно меньше, а расстояние между выборками различных видов максимально велика. Прибыль торговца».

В соответствии с характеристиками двух классов образцов, как правило, плотных внутри класса и разделенных между классами, найдите наилучшее направление вектора нормали линейного классификатора, чтобы проекция двух классов образцов в этом направлении была максимально плотной. внутри класса и как можно более разделены между классами. Эта метрика реализуется внутриклассовой дискретной матрицей и межклассовой дискретной матрицей.

181. В чем преимущество алгоритма Х-К, основанного на квадратичной целевой функции, перед алгоритмом персептрона (БД)?

A. Небольшой объем вычислений
B. Может определить, является ли задача линейно разделимой
C. Его решение полностью применимо к нелинейному сепарабельному случаю
D. Его решение более адаптируемо

Правильный ответ: (БД)

@liu xuan320

Идея алгоритма HK очень проста, то есть весовой вектор получается по критерию минимума среднеквадратичной ошибки. Его преимущество перед алгоритмом персептрона в том, что он подходит для линейно-сепарабельных и нелинейно-сепарабельных случаев, для линейно-сепарабельного случая задан оптимальный весовой вектор, для нелинейно-сепарабельного случая его можно определить для выхода из итерационного процесса.

182. Какое из следующих утверждений верно (BD)?

A. SVM устойчив к шуму (например, выборкам шума из других дистрибутивов).
B. В алгоритме AdaBoost коэффициент обновления веса всех неправильно классифицированных образцов одинаков.
C. Повышение и бэггинг — это методы объединения нескольких классификаторов для голосования, оба из которых определяют вес одного классификатора в соответствии с показателем точности.
D. Учитывая n точек данных, если половина из них используется для обучения и обычно используется для тестирования, разница между ошибкой обучения и ошибкой теста будет уменьшаться по мере увеличения n.

Правильный ответ: (БД)

@liu xuan320

A. SVM устойчив к шуму (например, выборкам шума из других дистрибутивов).
Сам SVM обладает определенной устойчивостью к шуму, но эксперименты показали, что когда уровень шума ниже определенного уровня, шум мало влияет на SVM, но при постоянном увеличении уровня шума скорость распознавания классификатора уменьшится.
B. Коэффициент обновления веса всех неправильно классифицированных образцов в алгоритме AdaBoost одинаков.
Различные обучающие наборы в алгоритме AdaBoost достигаются путем корректировки весов, соответствующих каждому образцу. Вначале вес, соответствующий каждой выборке, одинаков, то есть где n — количество выборок, и под это распределение выборки обучается слабый классификатор. Для неправильно классифицированных выборок увеличьте их соответствующие веса, для правильно классифицированных выборок уменьшите их веса, чтобы неправильно классифицированные выборки были выделены и было получено новое распределение выборок. При новом распределении выборки выборки снова обучаются для получения слабого классификатора. И так далее, все слабые классификаторы перекрываются и добавляются, чтобы получить сильный классификатор.
C, Boost и Bagging — это методы объединения нескольких классификаторов для голосования, и оба они определяют свои веса в соответствии с точностью одного классификатора.
Разница между бэггингом и бустингом:
Метод выборки отличается.
Бэгинг использует равномерную выборку, а бустинг выборки в соответствии с частотой ошибок.
Каждая прогностическая функция Бэггинга не имеет веса, а бустинг имеет вес.
Каждая функция предсказания Бэггинга может быть сгенерирована параллельно, в то время как каждая функция предсказания Бустера может быть сгенерирована только последовательно.

183. Размер входного изображения 200×200, и оно проходит через один слой свертки (размер ядра 5×5, отступ 1, шаг 2), объединение (размер ядра 3×3, отступ 0, шаг 1) и еще один слой свертки После (размер ядра 3 × 3, отступ 1, шаг 1) размер выходной карты объектов равен (C):

A. 95
B. 96
C. 97
D. 98

Правильный ответ: (С)

@liu xuan320

Прежде всего, мы должны знать формулу расчета размера после свертки или объединения:
out_height=((input_height - filter_height + padding_top+padding_bottom)/stride_height)+1
out_width=((input_width - filter_width + padding_left+padding_right)/шаг_ширина)+1

Среди них padding относится к размеру ребра, которое расширяется наружу, а step — размер шага, то есть длина каждого хода.

Это намного проще.Во-первых, длина и ширина, как правило, большие, поэтому нам нужно вычислить только одно измерение.Таким образом, размер после первой свертки: (200-5+2)/2+1, возьмем 99 ; размер после первого объединения: (99-3)/1+1 равен 97; размер после второй свертки: (97-3+2)/1+1 равен 97.

184. В модуле базового анализа SPSS роль состоит в том, чтобы «выявить взаимосвязь между данными в виде списка строк» (C)

А. Описание данных
Б. Связанные
C. Кросс-таблица
D. Множественная корреспонденция

Правильный ответ: (С)

185. Для идентификации личности вводимого лица используется тюремная система доступа с распознаванием лиц. Эта система включает в себя идентификацию четырех различных типов персонала: тюремных охранников, воров, разносчиков еды и других. Какой из следующих методов обучения лучше всего подходит для этого приложения: (B).

А. Задача двух категорий
B. Проблемы с несколькими классификацией
C. Иерархические проблемы кластеризации
D. Проблема кластеризации k-центральной точки
E. Проблемы регрессии
F. Вопросы структурного анализа

Правильный ответ: (В)

@liu xuan320

Двоичная классификация: каждый классификатор может классифицировать образцы только по двум категориям. Образцами в тюрьме были тюремные надзиратели, воры, доставщики еды и другие. Бинарная классификация точно не сработает. Базовая машина опорных векторов, предложенная Вапником в 1995 г., представляет собой двухклассовый классификатор. Процесс обучения этого классификатора заключается в решении задачи оптимального планирования (двойственной задачи), основанной на выводе положительной и отрицательной двухклассовой классификации. заключается в использовании дерева решений для каскадирования двухклассовых классификаторов.Понятие размерности VC относится к сложности этого вопроса.
Иерархическая кластеризация: создает иерархический уровень для декомпозиции данного набора данных. Объектами в тюрьме являются тюремные охранники, воры, разносчики еды и др. Они должны быть одного ранга, так что нет. Этот метод делится на нисходящий (декомпозиция) и восходящий (объединение) два режима работы.
Кластеризация точек K-центра: выберите фактические объекты для представления кластеров, и каждый кластер использует один репрезентативный объект. Это правило деления вокруг центральной точки, поэтому здесь оно не подходит.
Регрессионный анализ: Статистический метод для изучения корреляции между переменными.Нет прямой связи между тюремными охранниками, ворами, доставщиками еды и другими.
Структурный анализ: метод структурного анализа рассчитывает долю каждого компонента на основе статистической группировки, а затем анализирует внутренние структурные характеристики общего явления, характер общего и закономерность изменения общей внутренней структуры во времени. Статистические методы. Базовой формой структурного анализа является расчет структурных показателей. Здесь тоже не работает.
Проблемы с мультиклассификацией: слабые классификаторы имеют несколько разных атрибутов для разных тренировок, а затем объединяют их в сильный классификатор. Здесь охранники, вор, а он некий комнатный персонал, расставляются согласно их характеристикам, а затем различаются идентифицируются.

186. О логит-регрессии и SVM неверно (а).

A. Целевая функция логит-регрессии состоит в минимизации апостериорной вероятности
B. Логит-регрессию можно использовать для прогнозирования вероятности наступления события.
C. Цель SVM — минимизировать структурный риск
D. SVM может эффективно избежать переобучения модели

Правильный ответ: (А)

@liu xuan320

A. Логит-регрессия — это, по сути, метод оценки весов методом максимального правдоподобия на основе выборок, а апостериорная вероятность пропорциональна произведению априорной вероятности и функции правдоподобия. Логит просто максимизирует функцию правдоподобия, а не максимизирует апостериорную вероятность, не говоря уже о минимизации апостериорной вероятности. А минимизация апостериорной вероятности — это то, что делает наивный байесовский алгоритм. Ошибка
B. Результатом логит-регрессии является вероятность того, что образец относится к положительной категории, и эту вероятность можно рассчитать, исправить
C. Цель SVM состоит в том, чтобы найти гиперплоскость, которая максимально разделяет обучающие данные и максимизирует интервал классификации, что должно минимизировать структурный риск.
D. SVM может контролировать сложность модели с помощью коэффициента регуляризации и избегать переобучения.

187. Существует два точка образца, первая точка - это положительный образец, а его собственник (0, -1); вторая точка - отрицательный образец, а его собственник (2,3), от этих двух тренировок Набор, состоящий из точек выборки, создает линейный классификатор SVM. Уравнение поверхности классификации (C)

A. 2x+y=4
B. x+2y=5
C. x+2y=3
D. 2x-y=0

Правильный ответ: (С)

Анализ: Этот вопрос упрощен: для двух точек максимальный интервал — это биссектриса по вертикали, поэтому биссектриса по вертикали может быть найдена.

188. Следующее описание степени точности, скорости отзыва и значения F1 алгоритма классификации неверно? (С)

A. Уровень точности – это отношение количества извлеченных релевантных документов к общему количеству найденных документов, которое измеряет уровень точности поисковой системы.
B. Уровень отзыва относится к отношению количества соответствующих документов, извлеченных к количеству всех соответствующих документов в библиотеке документов, которое измеряет уровень отзыва поисковой системы.
C. Правильная скорость, скорость отзыва и значение F находятся в диапазоне от 0 до 1. Чем ближе значение к 0, тем выше точность или скорость отзыва.
D. Чтобы решить конфликт между точностью и отзывом, была введена оценка F1.

Правильный ответ: (С)

Анализ: обычно используемые индикаторы оценки для задач классификации с двумя классами — это точность и полнота. Обычно рассматриваемый класс является положительным классом, а другие классы являются отрицательными классами.Предсказание классификатора на наборе тестовых данных является правильным или неправильным.Общее количество вхождений четырех случаев записывается как:
TP - предсказать положительный класс как положительный номер класса
FN - прогнозировать положительные классы как отрицательные числа классов
FP - предсказать отрицательные классы как положительные классы
TN - предсказывает отрицательный класс как количество отрицательных классов
Из этого:
Точность определяется как: P = TP / (TP + FP)
Напомним, определяется как: R = TP / (TP + FN)
Значение F1 определяется как: F1 = 2 P R / (P + R)
Коэффициент точности, коэффициент отзыва и значение F1 находятся в диапазоне от 0 до 1. Если коэффициент точности и коэффициент отзыва высоки, значение F1 также будет высоким.Нельзя сказать, что чем ближе значение к 0, тем выше значение , Должно быть, чем ближе значение к 1, тем выше значение.

189. Следующие модельные методы относятся к дискриминационной модели (А)
1) Смешанная модель Гаусса 2) Модель условного случайного поля
3) Обучение различению 4) Скрытая марковская модель

A. 2,3
B. 3,4
C. 1,4
D. 1,2

Правильный ответ: (А)

@liu xuan320

Распространенными дискриминантными моделями являются: Логистическая регрессия (логистическая регрессия)

Линейный дискриминантный анализ
Опорные векторные машины
Повышение (интегрированное обучение)
Условные случайные поля
Линейная регрессия
Нейронные сети

Распространенными генеративными моделями являются: смешанная модель Гаусса и другие типы смешанной модели
Скрытая марковская модель
NaiveBayes (Наивный Байес)
AODE (средняя оценка одной зависимости)
Скрытое распределение Дирихле (тематическая модель LDA)
Ограниченная машина Больцмана

Генеративная модель умножает результат в соответствии с вероятностью, а дискриминативная модель дает входные данные и вычисляет результат.

190. В SPSS функции сортировки данных в основном сосредоточены в таких меню, как (AD).

А. Данные
Б. Прямые продажи
С. Анализ
Д. Конвертировать

Правильный ответ: (АД)

@liu xuan320

Разбор: Сортировка данных в основном осуществляется в меню функций данных и преобразования.

191. Глубокое обучение - очень популярный алгоритм машинного обучения в настоящее время. В глубоком обучении задействовано большое количество матричных умножений. Теперь необходимо вычислить произведение ABC трех плотных матриц A, B и C. Предположим, что размерности из трех матриц m∗n, n∗p, p∗q и m

A. (AB)C
B. AC(B)
C. A(BC)
D. Так что эффективность одинакова

Правильный ответ: (А)

@liu xuan320

Во-первых, согласно простому матричному знанию, поскольку A*B , количество столбцов A должно быть равно количеству строк B . Поэтому вариант Б можно исключить.

Затем посмотрите на варианты A и C. В варианте A произведение матрицы A из m∗n и матрицы B из n∗p дает матрицу A*B из m∗p, и каждый элемент A∗B требует n умножений и n-1 сложений, Если не учитывать сложение, всего требуется m∗n∗p умножений. В той же ситуации, когда A*B умножается на C, всего требуется m∗p∗q умножений. Следовательно, количество умножений, необходимых для варианта A (AB)C, равно m∗n∗p+m∗p∗q. Точно так же количество умножений, требуемых вариантом C A (BC), равно n∗p∗q+m∗n∗q.

Так как m∗n∗p

192.Nave Bayes — это специальный байесовский классификатор, переменная признака — X, метка класса — C, и одно из его предположений: (C)

A. Априорная вероятность P(C) каждой категории равна
B. Нормальное распределение со средним значением 0 и стандартным отклонением sqr(2)/2.
C. Каждое измерение характеристической переменной X является условно независимой случайной величиной категории.
D. P(X|C) — распределение Гаусса.

Правильный ответ: (С)

@liu xuan320

Условие Наивного Байеса состоит в том, что каждая переменная независима друг от друга.

193. Что касается метода опорных векторов SVM, следующее утверждение неверно (C)

A. Регулярный термин L2, функция состоит в том, чтобы максимизировать интервал классификации, чтобы классификатор имел более сильную способность к обобщению.
B. Функция потерь шарнира для минимизации эмпирической ошибки классификации
C. Интервал классификации равен ||w|| представляет модуль вектора
D. Когда параметр C меньше, интервал классификации больше, ошибка классификации больше, и она имеет тенденцию к недоучению.

Правильный ответ: (С)

@liu xuan320

А правильно. Рассмотрим причину добавления термина регуляризации: представьте идеальный набор данных, y>1 — положительный класс, y

Б правильно.

ошибка С. Интервал должен быть правильным, и вторая половина предложения должна быть правильной.Модуль вектора обычно относится к его второй норме.

Д правильно. При рассмотрении мягких полей влияние C на задачу оптимизации заключается в ограничении диапазона a от [0, +inf] до [0, C]. Чем меньше C, тем меньше будет a. Производная функции Лагранжа целевой функции может быть вычислена как 0. Чем меньше становится a, тем меньше становится w, поэтому интервал становится больше.

194. В HMM, если известна последовательность наблюдения и последовательность состояний, которая производит последовательность наблюдения, какой из следующих методов можно использовать для непосредственной оценки параметров (D)

А. ЭМ-алгоритм
Б. Алгоритм Витерби
C. Прямой обратный алгоритм
D. Оценка максимального правдоподобия

Правильный ответ: (Д)

@liu xuan320

Алгоритм EM: для изучения параметров модели используется только последовательность наблюдений, когда нет последовательности состояний, то есть алгоритм Баума-Уэлча.

Алгоритм Витерби: решение задач прогнозирования HMM с помощью динамического программирования, а не оценки параметров

Алгоритм «вперед-назад»: используется для расчета вероятностей.

Оценка максимального правдоподобия: то есть алгоритм обучения с учителем, когда для оценки параметров существуют как последовательность наблюдений, так и соответствующая последовательность состояний.

Обратите внимание, что оценка параметров модели для данной последовательности наблюдений и соответствующей последовательности состояний может быть оценена с использованием максимального правдоподобия. Если для данной последовательности наблюдений нет соответствующей последовательности состояний, EM используется для просмотра последовательности состояний как неизмеримых скрытых данных.

195. Предположим, что учащийся случайно повторил два измерения обучающих данных при использовании модели классификации наивного байесовского (НБ), тогда правильное утверждение о НБ: (БД)

А. Решающая роль повторяющегося признака в модели будет усилена
B. Точность модельного эффекта будет снижена по сравнению со случаем без повторяющихся признаков.
C. Если все функции повторяются, результирующий прогноз модели будет таким же, как и прогноз модели без повторения.
D. Когда два столбца признаков сильно коррелированы, выводы, полученные при совпадении двух столбцов признаков, нельзя использовать для анализа проблемы.
E. NB можно использовать для регрессии методом наименьших квадратов.
F. Ни одно из приведенных выше утверждений не верно

Правильный ответ: (БД)

196. Нормы L1 и L2 В логистической регрессии, какой эффект будет получен, если нормы L1 и L2 будут добавлены одновременно (A).

A. Он может выполнять выбор функций и в определенной степени предотвращать переоснащение.
B. Может решить проблему пространственной катастрофы
C. Может ускорить скорость расчета
D. Можно получить более точные результаты

Правильный ответ: (А)

@liu xuan320

Норма L1 имеет характеристики коэффициентного решения, но следует отметить, что признаки, не выбранные L1, не означают, что они не важны, потому что может быть зарезервирован только один из двух сильно коррелированных признаков. Если вам нужно определить, какая функция важна, пройдите перекрестную проверку.

Добавьте обычный член после функции стоимости, L1 — регрессия Лоссо, а L2 — регрессия гребня. Норма L1 представляет собой сумму абсолютных значений каждого элемента в векторе и используется для выбора признаков. Норма L2 относится к сумме квадратов каждого элемента вектора, а затем извлекается квадратный корень, который используется для предотвращения переобучения и улучшения способности модели к обобщению. Так что выбирайте А.

Подробный ответ на регуляризацию нормы в машинном обучении, т. е. норму L0, L1, L2, см.регуляризация нормы.

197. В чем разница между регуляризацией L1 и регуляризацией L2 в машинном обучении? (ОБЪЯВЛЕНИЕ)

A. Используйте L1, чтобы получить разреженные веса
B. Используйте L1, чтобы получить гладкие веса
C. Используйте L2 для получения разреженных весов
D. Используйте L2, чтобы получить гладкие веса

Правильный ответ: (АД)

@liu xuan320

Регуляризация L1 смещена в сторону разреженности, она будет автоматически выполнять отбор признаков и удалять некоторые бесполезные признаки, то есть сбрасывать веса, соответствующие этим признакам, в 0. Основная функция L2 — предотвращение переобучения.Чем меньше требуемый параметр, тем проще модель, а чем проще модель, тем более гладкой она становится, тем самым предотвращая переобучение.

Регуляризация L1/регуляризация Lasso L1 добавляет норму L1 коэффициента w в качестве штрафного члена к функции потерь.Поскольку обычный член не равен нулю, это заставляет коэффициенты, соответствующие этим слабым функциям, становиться равными 0. Следовательно, регуляризация L1 имеет тенденцию делать изученную модель очень разреженной (коэффициент w часто равен 0), что делает регуляризацию L1 хорошим методом выбора признаков.

Регуляризация L2/регрессия хребта
Регуляризация L2 добавляет норму L2 вектора коэффициентов к функции потерь. Поскольку коэффициент в штрафном члене L2 является квадратичным, из-за чего L2 и L1 имеют много различий, наиболее очевидным моментом является то, что регуляризация L2 сделает значение коэффициента средним. Для коррелированных признаков это означает, что они могут получить более близкие соответствующие коэффициенты. Например, если предположить, что и имеет сильную корреляцию, если используется регуляризация L1, независимо от того, является ли изученная модель или , штраф будет одинаковым для обоих. А вот для L2 штрафной срок для первой модели равен , а для второй модели. Можно видеть, что когда сумма коэффициентов постоянна, штраф является наименьшим, когда коэффициенты равны, поэтому существует характеристика, согласно которой L2 будет заставлять коэффициенты иметь тенденцию быть одинаковыми.

Можно видеть, что регуляризация L2 является стабильной моделью для выбора признаков, в отличие от регуляризации L1, коэффициенты колеблются из-за незначительных изменений данных. Таким образом, значение, обеспечиваемое регуляризацией L2 и регуляризацией L1, отличается, и регуляризация L2 более полезна для понимания признаков: коэффициенты, соответствующие признакам с высокой способностью, отличны от нуля.

Таким образом, краткое изложение в одном предложении таково: L1 будет стремиться генерировать небольшое количество признаков, в то время как все остальные признаки равны 0, тогда как L2 выберет больше признаков, которые все будут близки к 0. Lasso очень полезен для выбора признаков, а Ridge — просто регуляризация.

198. Роль функции накопленного потенциала K(x) метода потенциальных функций эквивалентна (AD) в байесовском решении

Апостериорная вероятность
B. Априорные вероятности
C. Плотность вероятности класса
D. Произведение плотности вероятности класса и априорной вероятности

Правильный ответ: (АД)

@liu xuan320

На самом деле, AD говорит то же самое.

Ссылка на ссылку:Потенциальная функция в основном используется для определения поверхности классификации, и ее идея исходит из физики.

199. Три основные проблемы Скрытой Марковской Модели и соответствующий алгоритм верны (ABC).

A. Оценка — алгоритм прямого-обратного направления
B. Декодирование — алгоритм Витерби.
C. Обучение — алгоритм Баума-Уэлча
D. Обучение — алгоритм прямого-обратного направления

Правильный ответ: (Азбука)

Анализ: Оцените проблему, вы можете использовать прямой алгоритм, обратный алгоритм, прямой алгоритм.

200. Когда признаков больше, чем объема данных, какой тип классификатора следует выбрать?

Ответ: Линейный классификатор, потому что при высоком измерении данные обычно разрежены в пространстве измерений и, скорее всего, будут линейно разделимыми.

201. Неконтролируемое обучение: (A)

A. k-means
B. SVM
C. Максимальная энтропия
D. CRF

Правильный ответ: (А)

Анализ: A — кластеризация, BC — классификация, D — сериализованная маркировка, а также контролируемое обучение.

202. Что из перечисленного не относится к преимуществам модели CRF перед моделями HMM и MEMM (B)

A. Функции гибкие
Б. быстро
C. Может вместить больше контекстной информации
D. Глобальный оптимум

Правильный ответ: (В)

Анализ: Преимущества CRF: гибкие функции, возможность размещения большего количества контекстной информации и достижение глобального оптимального CRF. Недостатки: медленный.

CRF не имеет строгих предположений о независимости HMM, поэтому он может вмещать произвольную контекстную информацию. Гибкий дизайн функций (такой же, как ME) — по сравнению с HMM
В то же время, поскольку CRF вычисляет условную вероятность глобально оптимального выходного узла, он также устраняет недостатки смещения метки марковской модели с максимальной энтропией (Label-bias). —— Сравнение с МЭММ
CRF должен использовать алгоритм Витерби для вычисления совместного распределения вероятностей всей помеченной последовательности с учетом последовательности наблюдений, которую необходимо пометить, вместо определения распределения состояний следующего состояния с учетом текущего состояния. —— Сравнение с МЭ

203. Как обработать пропущенные значения при очистке данных? (ABCD)

А. Оценка
B. Полное удаление
C. Удаление переменной
D. Попарное удаление

Правильный ответ: (ABCD) @刘烊320

Из-за ошибок опроса, кодирования и ввода в данных могут быть некоторые недействительные и отсутствующие значения, с которыми необходимо обращаться соответствующим образом. Обычно используемые методы обработки: оценка, удаление всего наблюдения, удаление переменных и попарное удаление.
Предварительный расчет. Самый простой способ сделать это — заменить недопустимые и отсутствующие значения выборочным средним, медианой или модой переменной. Этот метод прост, но не полностью учитывает имеющуюся информацию в данных, и погрешность может быть большой. Другой способ заключается в оценке с помощью корреляционного анализа или логического вывода между переменными на основе ответов респондентов на другие вопросы. Например, владение определенным товаром может быть связано с доходом домохозяйства, а возможность владения этим товаром может быть рассчитана исходя из дохода домохозяйства респондентов опроса.
Удаление по регистру — это удаление выборок с пропущенными значениями. Поскольку во многих вопросниках могут отсутствовать значения, результат такой практики может привести к значительному сокращению эффективного размера выборки, а собранные данные не могут быть использованы в полной мере. Поэтому он подходит только для случаев, когда отсутствуют ключевые переменные или когда доля выборок с недействительными или отсутствующими значениями невелика.
Удаление переменной. Если переменная имеет много недопустимых и отсутствующих значений, и переменная не особенно важна для изучаемой проблемы, рассмотрите возможность удаления переменной. Эта практика уменьшает количество переменных, доступных для анализа, но не меняет размер выборки.
попарное удаление удаление) заключается в использовании специального кода (обычно 9, 99, 999 и т. д.) для представления недопустимых и отсутствующих значений при сохранении всех переменных и выборок в наборе данных. Однако в конкретных расчетах используются только выборки с полными ответами, поэтому разные анализы имеют разные эффективные размеры выборки из-за разных задействованных переменных. Это консервативный подход, который максимально сохраняет информацию, доступную в наборе данных.
Использование различных методов обработки может повлиять на результаты анализа, особенно когда появление пропущенных значений не является случайным, а переменные четко коррелируют. Поэтому при расследовании следует максимально избегать недопустимых и отсутствующих значений, чтобы обеспечить целостность данных.

204. Что касается описания линейной регрессии, верно следующее: (ACEF)

A. Основные предположения включают в себя то, что член случайных помех представляет собой стандартное нормальное распределение со средним значением 0 и дисперсией 1.
B. Основные предположения включают гомоскедастическое нормальное распределение со средним значением 0 при случайных помехах.
C. Обычная оценка методом наименьших квадратов больше не является лучшей линейной несмещенной оценкой, когда основные предположения нарушаются.
D. Когда основные предположения нарушаются, модель больше не может быть оценена
E. DW можно использовать для проверки того, имеют ли остатки последовательную корреляцию.
F. Мультиколлинеарность уменьшает дисперсию оценок параметров

Правильный ответ: (АКЭФ)

@liu xuan320

1. Основные допущения одномерной линейной регрессии AB:
(1) Член случайной ошибки представляет собой случайную величину с ожидаемым значением или средним значением, равным 0;
(2) Для всех наблюдений объясняющей переменной член случайной ошибки имеет одинаковую дисперсию;
(3) Члены случайной ошибки не коррелируют друг с другом;
(4) Объясняющая переменная является детерминированной, а не случайной величиной и не зависит от члена случайной ошибки;
(5) нет точной (полной) линейной зависимости между объясняющими переменными, т. е. матрица значений выборочного наблюдения объясняющих переменных является матрицей полного ранга;
(6) Член случайной ошибки подчиняется нормальному распределению
2. Эконометрическая модель, CD которой нарушает основные предположения, все же может быть оценена, но не может быть оценена обычным методом наименьших квадратов.
При наличии гетероскедастичности обычная оценка методом наименьших квадратов имеет следующие проблемы: хотя оценки параметров являются несмещенными, они не являются линейными несмещенными оценками минимальной дисперсии.
3, критерий Дубина-Уотсона (DW), эконометрика, широко используемый метод статистического анализа для проверки автокорреляции первого порядка последовательности.
4. Так называемая мультиколлинеарность относится к тому факту, что независимые переменные в модели линейной регрессии искажены или их трудно точно оценить из-за наличия точной корреляции или высокой корреляции между независимыми переменными. Оказать влияние
(1) Оценщик параметра не существует при полной коллинеарности
(2) МНК-оценка неэффективна при приблизительной коллинеарности.
Мультиколлинеарность увеличивает дисперсию оценок параметров, 1/(1-r2) — коэффициент инфляции дисперсии (VIF).
(3) Экономический смысл оценок параметров необоснован.
(4) Проверка значимости переменных теряет смысл и может исключить из модели важные объясняющие переменные.
(5) Функция предсказания модели не работает. Чем больше дисперсия, тем больше «интервал» интервального прогноза, что делает прогноз бессмысленным.
Для модели линейной регрессии, когда переменная отклика следует нормальному распределению, а член ошибки удовлетворяет условию Гаусса-Маркова (нулевое среднее значение, равная дисперсия и нерелевантность), оценка параметров регрессии методом наименьших квадратов является последовательной несмещенной оценкой минимальной дисперсии. .
Конечно, это условие является лишь идеализированным предположением, чтобы иметь соответствующий относительно зрелый вывод в математике. На самом деле большинство практических задач не полностью удовлетворяют этим идеализированным предположениям.
Развитие теории моделей линейной регрессии происходит именно тогда, когда идеальные условия не выполняются, и получается много новых методов. Например, взвешенная LSE, оценка гребня, оценка сжатия, преобразование BOX_COX и ряд сегментов. При выполнении практической работы вы должны выйти за рамки идеализированных условий, изложенных в книге.

205. Основными причинами, влияющими на эффект алгоритмов кластеризации, являются: (ABC)

А. Выбор функций
B. Мера подобия шаблона
C. Руководство по классификации
D. Качество образцов известных классов

Правильный ответ: (Азбука)

@liu xuan320

Анализ: этот вопрос должен быть очень простым. Причина, по которой D неверен, заключается в том, что кластеризация предназначена для кластеризации неклассифицированных данных и не использует уже размеченные данные.

206. Что из следующего является общей моделью алгоритма временных рядов (C)

A. RSI
B. MACD
C. ARMA
D. KDJ

Правильный ответ: (С)

Анализ: модель авторегрессионной скользящей средней (ARMA), ее идею моделирования можно резюмировать следующим образом: постепенно увеличивать порядок модели, подгонять модель более высокого порядка, пока порядок модели снова не увеличится и остаточная остаточная дисперсия больше не будет значительно сократилось до.

Остальные три не на том же уровне.
A. Индекс относительной силы (RSI, индекс относительной силы) предназначен для анализа намерения и силы рыночных ордеров на покупку и продажу путем сравнения среднего увеличения закрытия и среднего снижения закрытия за определенный период времени, чтобы определить будущий рыночный тренд. .
B. Moving Average Convergence Divergence (MACD, Moving Average Convergence Divergence), который основан на принципе построения скользящей средней, сглаживает цену закрытия цены акции и рассчитывается после получения среднего арифметического, является трендовым индикатором. .
D. Стохастический (KDJ), как правило, основан на принципе статистики через самую высокую цену, самую низкую цену и цену закрытия последнего расчетного цикла, а также разницу между тремя, которые произошли за определенный период (обычно 9 дней, 9 недель, и т. д.) пропорциональные отношения, чтобы вычислить незрелое случайное значение RSV последнего цикла расчета, а затем вычислить значение K, значение D и значение J в соответствии с методом плавного скользящего среднего и нарисовать график кривой для изучения и оценки фондовый тренд.

207. Следующие функции не являются функциями ядра SVM: (B)

A. Полиномиальная функция ядра
B. Функция логистического ядра
C. Функция ядра радиального базиса
D. Сигмовидная функция ядра

Правильный ответ: (В)

@liu xuan320

Функции ядра SVM включают в себя линейную функцию ядра, полиномиальную функцию ядра, функцию ядра радиального базиса, функцию ядра Гаусса, степенную экспоненциальную функцию ядра, функцию ядра Лапласа, функцию ядра ANOVA, квадратичную рациональную функцию ядра, многомерную квадратичную функцию ядра, обратную многомерную квадратичную функцию ядра и Сигмовидная функция ядра.

Определение функции ядра несложно.Согласно соответствующей теории функционалов, если функция K(xi,xj) удовлетворяет условию Мерсера, она соответствует скалярному произведению некоторого пространства преобразований. До сих пор были сделаны важные прорывы в оценке того, какие функции являются функциями ядра, что привело к теореме Мерсера и следующим часто используемым типам функций ядра:
(1) Линейная функция ядра: K ( x , x i ) = x ⋅ x i
(2) Полиномиальное ядро: K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d
(3) Радиальное базисное ядро (RBF): K ( x , x i ) знак равно exp ( - ∥ Икс - Икс я ∥ 2 σ 2 )
Радиальная базисная функция Гаусса является функцией ядра с сильной локальностью, и ее экстраполяционная способность ослабевает с увеличением параметра σ. Функция ядра в полиномиальной форме обладает хорошими глобальными свойствами. Местность бедная.
(4) Ядро Фурье: K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )
(5) Сплайн-ядро: K ( x , x i ) = B 2 n + 1 ( x − x i )
(6) Сигмовидная функция ядра : K ( Икс , Икс я ) знак равно танх ( κ ( Икс , Икс я ) - δ )

Когда сигмовидная функция используется в качестве функции ядра, машина опорных векторов реализует многослойную нейронную сеть персептрона, Используя метод SVM, количество узлов скрытого слоя (который определяет структуру нейронной сети) и вес узлы скрытого слоя к входным узлам Значения определяются автоматически в процессе проектирования (обучения). Более того, теоретическая основа машины опорных векторов определяет, что она в конечном итоге получает глобальное оптимальное значение вместо локального минимального значения, а также обеспечивает ее хорошую способность к обобщению для неизвестных выборок без явления избыточного обучения.

При выборе функции ядра для решения практических задач обычно используются следующие методы:
Один из них заключается в использовании предварительных знаний экспертов для предварительного выбора функции ядра;
Во-вторых, использовать метод перекрестной проверки, то есть при выборе функции ядра пробовать разные функции ядра соответственно, и функция ядра с наименьшей ошибкой индукции является лучшей функцией ядра. Например, для ядра Фурье и ядра RBF в сочетании с задачей регрессии функций в задаче обработки сигналов с помощью экспериментов по моделированию сравнивается и анализируется, что при одинаковых условиях данных ошибка SVM с использованием ядра Фурье составляет намного меньше, чем у SVM, использующей ядро RBF.
Третий заключается в использовании гибридного метода функций ядра, предложенного Смитсом и др. По сравнению с двумя предыдущими, этот метод в настоящее время является основным методом выбора функций ядра, а также является еще одной новаторской работой по созданию функций ядра. Объединение различных функций ядра будет иметь лучшие характеристики, что является основной идеей метода гибридных функций ядра.

208. Учитывая ковариационную матрицу P набора данных, следующее утверждение о главном компоненте неверно ( C )

A. Наилучшим критерием для анализа основных компонентов является разложение набора данных в соответствии с набором ортонормированных оснований при условии, что берется только одинаковое количество компонентов, для вычисления минимальной ошибки обрезки используется среднеквадратическая ошибка.
B. После разложения по основным компонентам ковариационная матрица становится диагональной матрицей
C. Анализ главных компонентов представляет собой преобразование K-L.
D. Главная компонента получается путем вычисления собственных значений ковариационной матрицы

Правильный ответ: (С)

Анализ: преобразование KL и преобразование PCA - разные концепции Матрица преобразования PCA - это ковариационная матрица, а матрица преобразования преобразования KL может быть многих видов (матрица второго порядка, ковариационная матрица, матрица полной внутриклассовой дисперсии и т. Д. .). Когда матрица преобразования K-L является ковариационной матрицей, она эквивалентна PCA.

209. В задачах классификации мы часто сталкиваемся с ситуациями, когда количество данных положительной и отрицательной выборки различается. Например, положительная выборка — это данные 10w, а отрицательная выборка имеет только данные 1w. Наиболее подходящим методом обработки ниже является (ACD)

A. Повторите отрицательный образец 10 раз, чтобы получить размер выборки 10 Вт, и участвуйте в классификации в случайном порядке.
B. Прямая классификация может максимизировать использование данных
C. Случайным образом выберите 1w из 10w положительных образцов для участия в классификации.
D. Установите вес каждого отрицательного образца на 10, вес положительного образца на 1 и примите участие в процессе обучения.

Правильный ответ: (АКД)
Разобрать:
1. Передискретизация. A можно рассматривать как вариант передискретизации. Изменение распределения данных устраняет дисбалансы, которые могут привести к переоснащению.
2. Недостаточная выборка. Схема C улучшает эффективность классификации класса меньшинства, но может потерять важную информацию класса большинства.
Если 1:10 считать равномерным, то мажоритарный класс можно разделить на 1000 частей. Затем объедините каждый с образцами класса меньшинства, чтобы получить классификатор. Затем эти 1000 классификаторов объединяются в один классификатор методом сборки. Вариант А можно рассматривать как этот метод, поэтому он относительно разумен.
Другой: если цель состоит в том, чтобы прогнозируемое распределение соответствовало обучающему распределению, увеличьте штрафной коэффициент за непоследовательное распределение.
3. Регулировка веса. План D также является одним из способов.
Конечно, это только соответствующая обработка на наборе данных, и в алгоритме есть соответствующие методы обработки.

210. В задаче классификации распознавания статистических образов, когда априорная вероятность неизвестна, (BC)?

А. Критерий минимальных потерь
B. Решение N-P
C. Критерий минимальных максимальных потерь
D. Критерий минимальной вероятности ложного срабатывания

Правильный ответ: (БК)

@liu xuan320

Вариант А, априорная вероятность должна использоваться в критерии минимальных потерь.

Вариант Б при байесовском принятии решений для априорной вероятности p(y) делится на два случая: известный и неизвестный.
1. Если p(y) известно, вы можете напрямую использовать формулу Байеса, чтобы найти апостериорную вероятность;
2. p(y) неизвестно, поверхность решения может быть рассчитана с использованием решения Нимана-Пирсона (решение N-P).
Решение Нимана-Пирсона (решение NP) можно резюмировать как нахождение порога a, то есть:
Если p(x|w1)/p(x|w2)>a, то x принадлежит w1;
Если p(x|w1)/p(x|w2)

Вариант C, правило максимальных и минимальных потерь, в основном используется для решения проблемы, когда априорная вероятность неизвестна или ее трудно вычислить при использовании правила минимальных потерь.

211. Каков алгоритм решения задачи предсказания в модели скрытой лошади? (D)

А. Прямой алгоритм
B. Обратный алгоритм
C. Алгоритм Баума-Уэлча
Д. Алгоритм Витерби

Правильный ответ: (Д)

@liu xuan320

A, B: прямой и обратный алгоритмы решают задачу оценки, то есть, учитывая модель, находят вероятность конкретной последовательности наблюдений и используют ее для оценки модели, которая лучше всего соответствует последовательности.
C: Алгоритм Баума-Уэлча решает проблему обучения модели, то есть оценку параметров, Это метод обучения без учителя, который в основном реализуется через итерацию EM;
D: Решение алгоритма Витерби состоит в том, чтобы дать модель и конкретную выходную последовательность, а также найти последовательность состояний, которая, скорее всего, даст этот результат. Например, наблюдение за погодой (последовательность состояний) через изменения водорослей (выходная последовательность) представляет собой проблему прогнозирования и проблему декодирования при общении.

212. В целом метод k-NN ближайших соседей лучше работает в случае (B).

A. Образцов много, но типичность не очень хорошая
B. Несколько образцов, но хорошая типичность
C. Образец распределяется комками
D. Проба распределяется по цепочке

Правильный ответ: (В)

Анализ: Алгоритм K-ближайшего соседа в основном полагается на окружающие точки, поэтому, если выборок слишком много, они должны быть неразличимы. Поэтому следует выбрать Б.

Кластерная форма выборки довольно сбивает с толку. Это должно означать, что вся выборка распределена в кластерной форме, так что kNN не может использовать свое преимущество в поиске соседей. Общая выборка должна иметь хорошую типичность и небольшое количество выборок, что более подходит .

213. Среди следующих методов методы, которые можно использовать для уменьшения размерности признаков, включают (ABCD)

А. Анализ главных компонентов PCA
B. Линейный дискриминантный анализ (LDA)
C. Глубокое обучение SparseAutoEncoder
D. Матричное разложение по сингулярным числам SVD
E. Метод наименьших квадратов

Правильный ответ: (ABCD)

Анализ: все три распространенных метода уменьшения размерности, ABD, являются линейными. Глубокое обучение — это метод уменьшения размерности, относительно новый, на самом деле, если подумать, это тоже метод уменьшения размерности, потому что, если количество нейронов в скрытом слое меньше, чем во входном слое, приведет к уменьшению размерности, но если в скрытом слое больше нейронов, чем во входном слое, это не уменьшение размерности.

Метод наименьших квадратов является решением линейной регрессии, также является проекцией, но не выполняет уменьшение размерности.

214. Что из следующего является алгоритмами машинного обучения на основе ядра? (BCD)

A. Максимизация ожидания (EM) (алгоритм максимального ожидания)
B. Радиальная базисная функция (RBF) (радиальная базисная функция ядра)
C. Линейный дискриминационный анализ (LDA) (анализ главных компонентов)
D. Машина опорных векторов (SVM)

Правильный ответ: (BCD)

Анализ: функция ядра радиального базиса является очень часто используемой функцией ядра, а обычный метод анализа главных компонентов является линейным, но когда встречается нелинейность, метод ядра также может использоваться для преобразования нелинейных задач в линейные задачи. Функции ядра также очень важны, когда SVM имеют дело с нелинейными проблемами.

215. Попробуйте вывести формулу расстояния от любой точки x в пространстве выборки до гиперплоскости (w, b).

216. Загрузите или запрограммируйте из Интернета сверточную нейронную сеть и протестируйте ее на данных распознавания рукописных символов MNIST.

Подробнее см.:Серия послеклассных упражнений Чжоу Чжихуа «Машинное обучение» (6): Глава 5.10 — Эксперимент со сверточной нейронной сетью

217. Каково реальное значение функции активации в нейронной сети? Какими необходимыми свойствами должна обладать функция активации? Какие еще атрибуты являются хорошими атрибутами, но не являются необходимыми?

@Hengkai Guo

Позвольте мне рассказать о моем понимании хорошей функции активации, некоторые места могут быть не строгими, добро пожаловать на обсуждение. (Часть ссылки относится к функции активации.)
1. Нелинейный: то есть производная не является константой. Это условие было упомянуто многими предыдущими ответчиками, и оно является основой многослойной нейронной сети, которая гарантирует, что многослойная сеть не вырождается в однослойную линейную сеть. Это и есть функция активации.
2. Дифференцируемость почти всюду: Дифференцируемость гарантирует вычислимость градиентов при оптимизации. Традиционные функции активации, такие как сигмоида, везде дифференцируемы. Для кусочно-линейных функций, таких как ReLU, она дифференцируема почти везде (то есть недифференцируема только в конечном числе точек). Для алгоритма SGD, поскольку почти невозможно сходиться к положению, где градиент близок к нулю, конечные недифференцируемые точки не будут иметь большого влияния на результаты оптимизации [1].
3. Простой расчет: как сказал субъект, существует много нелинейных функций. В крайнем случае, многослойная нейронная сеть также может действовать как нелинейная функция, подобно тому, как она рассматривается как операция свертки в сети в сети [2]. Однако количество вычислений функции активации в прямом направлении нейронной сети пропорционально количеству нейронов, поэтому в качестве функции активации больше подходит простая нелинейная функция. Это одна из причин, по которой ReLU более популярен, чем другие функции активации, использующие такие операции, как Exp.
4. Насыщенность: Насыщенность относится к проблеме, когда градиент близок к нулю в некоторых интервалах (то есть градиент исчезает), поэтому параметры не могут продолжать обновляться. Наиболее классическим примером является сигмоида, производная которой близка к 0, когда x является относительно большим положительным значением и относительно небольшим отрицательным значением. Более крайним примером является ступенчатая функция, которая насыщается везде, потому что ее градиент равен 0 почти во всех положениях и не может использоваться в качестве функции активации. Производная ReLU всегда равна 1, когда x>0, поэтому она не будет насыщаться даже при больших положительных значениях. Но в то же время при x5. Монотонность: то есть знак производной не меняется. Этим свойством обладает большинство функций активации, за исключением sin, cos и т. д. Лично понимаю, что монотонность делает направление градиента в функции активации нечастым, что облегчает сходимость обучения.
6. Ограниченный выходной диапазон. Ограниченный выходной диапазон делает сеть относительно стабильной для некоторых относительно больших входных данных, поэтому в функциях ранней активации преобладают такие функции, как Sigmoid и TanH. Но это приводит к упомянутой выше проблеме исчезающего градиента, а принуждение вывода каждого слоя к фиксированному диапазону ограничивает его выразительность. Следовательно, этот тип функции используется только в некоторых случаях, когда требуется определенный диапазон выходных данных, например, вывод вероятности (логарифмическая операция в функции потерь может компенсировать эффект исчезновения ее градиента [1]) и функция вентиля в LSTM. .
7. Приближающееся к тождественному преобразованию (тождество): т. е. примерно равное х. Преимущество этого заключается в том, что величина выходных данных не увеличивается значительно с глубиной, что делает сеть более стабильной, а градиенты могут быть более легко переданы обратно. Это немного противоречит нелинейности, поэтому функция активации в основном лишь частично удовлетворяет этому условию.Например, TanH имеет только линейную область вблизи начала координат (0 в начале координат и производная в начале координат равна 1), а ReLU только тогда, когда х>0 является линейным. Это свойство также упрощает получение диапазонов параметров инициализации [5][4]. Кроме того, природа этого преобразования идентичности также заимствована некоторыми другими конструкциями сетевой структуры, такими как ResNet [6] в CNN и LSTM в RNN.
8. Меньше параметров: Большинство функций активации не имеют параметров. Использование одного параметра, такого как PReLU, немного увеличивает размер сети. Другим исключением является Maxout [7].Хотя у него нет параметров, количество входных каналов, необходимых для k-канального Maxout, в k раз больше, чем у других функций с тем же количеством выходных каналов, что означает, что количество нейронов также должно быть изменено в k раз; однако, если не учитывать количество выходных каналов, функция активации может уменьшить количество параметров в k раз по сравнению с исходным.
9. Нормализация: это концепция, появившаяся недавно.Соответствующая функция активации SELU[8].Основная идея состоит в том, чтобы автоматически нормализовать распределение выборки до распределения нулевого среднего и единичной дисперсии, тем самым стабилизируя обучение. До этого эта идея нормализации также использовалась при проектировании сетевых структур, таких как пакетная обработка. Нормализация[9].

218. Нейронная сеть метода градиентного спуска легко сходится к локальному оптимуму, почему он широко используется?

@李振华

Знать ответ

219. Алгоритмы EM, HMM, CRF.

Не очень уместно ставить эти три вместе, но они связаны друг с другом, поэтому я соединил их здесь. Обратите внимание на идею сосредоточиться на алгоритме.
(1) ЭМ-алгоритм
Алгоритм ЕМ используется для оценки максимального правдоподобия или максимальной апостериорной оценки моделей со скрытыми переменными и состоит из двух шагов: Е-шаг для ожидания и М-шаг для максимизации. По сути, алгоритм EM по-прежнему является итеративным алгоритмом, и текущие переменные вычисляются путем непрерывного использования параметров предыдущего поколения для оценки скрытых переменных до сходимости.
Примечание. Алгоритм EM чувствителен к начальному значению, а EM — это алгоритм, который непрерывно решает аппроксимацию максимизации нижней границы для решения максимизации функции логарифмического правдоподобия, что означает, что алгоритм EM не может гарантировать нахождение глобального оптимальное значение. Следует также освоить экспортный метод ЭМ.
(2) Алгоритм НММ
Скрытые марковские модели — это генеративные модели для маркировки задач. Имеется несколько параметров (π, A, B): вектор вероятности начального состояния π, матрица перехода состояния A, матрица вероятности наблюдения B. Есть три элемента, называемые марковской моделью.
Три основные проблемы Маркова:
Задача расчета вероятности: учитывая модель и последовательность наблюдений, вычислить вероятность выхода последовательности наблюдений в соответствии с моделью. – «Алгоритм прямого-обратного
Задача обучения: знать последовательность наблюдений, оценить параметры модели, то есть использовать оценку максимального правдоподобия для оценки параметров. – «Баум-Уэлч (то есть алгоритм EM) и оценка максимального правдоподобия.
Задача прогнозирования: узнайте модель и последовательность наблюдений и решите соответствующую последовательность состояний. – «Аппроксимационный алгоритм (жадный алгоритм) и алгоритм Вибита (динамическое программирование для поиска оптимального пути)
(3) Условное случайное поле CRF
Плотность условного распределения вероятностей набора выходных случайных величин при заданном наборе входных случайных величин. Условное случайное поле предполагает, что выходная переменная представляет собой марковское случайное поле, а то, что мы обычно видим, является случайным полем с линейной цепью, то есть дискриминантной моделью, которая предсказывает выход на основе входа. Метод решения - оценка максимального правдоподобия или регуляризованная оценка максимального правдоподобия.
Причина, по которой HMM и CRF всегда сравнивают, заключается главным образом в том, что и CRF, и HMM используют знания о графах, но CRF использует марковские случайные поля (неориентированные графы), а HMM основан на байесовских сетях (с диаграммой). И CRF также имеет: проблемы расчета вероятности, проблемы обучения и проблемы прогнозирования. Приближенный метод расчета аналогичен HMM, за исключением того, что алгоритм EM не требуется для задачи обучения.
(4) Сравнение HMM и CRF
Принципиально то, что базовые понятия разные, одно — порождающая модель, другое — дискриминационная модель, что также приводит к разным решениям.

220. Несколько моделей, обычно используемых CNN.

221. Почему SVM с ядром может классифицировать нелинейные задачи?

Суть функции ядра заключается в скалярном произведении двух функций, и эту функцию можно представить как многомерное отображение на входное значение в SVM. Обратите внимание, что ядро не соответствует непосредственно карте, ядро — это просто внутренний продукт.

222. Часто используемые функции ядра и условия функций ядра.

Выбор функции ядра следует начинать с линейного ядра, а в случае многих признаков не обязательно выбирать ядро Гаусса, а выбирать модель от простого к сложному. Функция ядра, на которую мы обычно ссылаемся, является положительно определенной функцией суммы.Необходимым и достаточным условием является то, что для любого x, принадлежащего X, матрица Грама, соответствующая K, должна быть полуположительно определенной матрицей.
Радиальный базис ядра RBF, значение этого типа функции зависит от расстояния между конкретными точками, поэтому ядро Лапласа фактически является ядром радиального базиса.
Линейное ядро: в основном используется для линейно разделимых случаев.
полиномиальное ядро

223. Повышение и бэггинг.

(1) Случайный лес
Случайные леса решают проблему, заключающуюся в том, что деревья решений склонны к переоснащению, которое в основном оптимизируется двумя операциями:
1) Boostrap извлекает образцы значений из мешка с заменой
2) Определенное количество признаков (обычно sqr(n)) каждый раз выбирается случайным образом.
Проблема классификации: голосование по бэггингам используется для выбора категории с наибольшей частотой
Проблема регрессии: прямое получение среднего значения результатов каждого дерева.

(2) AdaBoost усиления
Суть Boosting на самом деле заключается в аддитивной модели, которая изучает несколько классификаторов, изменяя веса обучающих выборок и выполняя некоторые линейные комбинации. Adaboost — это аддитивная модель + экспоненциальная функция потерь + алгоритм априорного распределения. Adaboost — это повторное обучение от слабого классификатора, при котором вес данных или распределение вероятностей постоянно корректируются, и в то же время увеличивается вес выборок, неправильно классифицированных слабым классификатором в предыдущем раунде. Наконец, классификатор используется для голосования (но важность классификатора другая).
(3) GBDT бустинга
Преобразуйте базовый классификатор в двоичное дерево, используйте двоичное дерево регрессии для регрессии и используйте двоичное дерево классификации для классификации. По сравнению с приведенным выше Adaboost, функция потерь дерева регрессии представляет собой квадратную потерю, а экспоненциальная функция потерь также может использоваться для определения проблем классификации. Но как рассчитать общую функцию потерь? GBDT (Gradient Boosting Decision Tree) предназначен для решения задачи оптимизации общей функции потерь с использованием отрицательного градиента функции потерь при значении текущей модели для имитации аппроксимации остатка в задаче регрессии.
Примечание. Поскольку GBDT склонен к переоснащению, рекомендуемая глубина GBDT не должна превышать 6, а случайный лес может быть выше 15.
(4) XgBoost
Этот инструмент имеет следующие основные функции:
Поддержка линейных классификаторов
Функцию потерь можно настроить, и можно использовать частную производную второго порядка.
Добавлен термин регуляризации: количество листовых узлов, L2-норма выходного балла каждого листового узла.
Выборка функций поддержки
При определенных обстоятельствах поддерживается параллелизм, который используется только на этапе построения дерева, и каждый узел может искать функции разделения параллельно.

224. Проблемы, связанные с логистической регрессией.

(1) Вывод формулы должен уметь
(2) Основные понятия логистической регрессии
Это лучше всего анализировать с точки зрения обобщенных линейных моделей.Логистическая регрессия предполагает, что y подчиняется распределению Бернулли.
(3) L1-норма и L2-норма
На самом деле фундаментальная причина разреженности заключается в том, что L0-норма, то есть количество прямых статистических параметров, не равных 0, используется как правило, но на самом деле это непросто реализовать, поэтому L1-норма введено, и L1norm по существу предполагает, что априорный параметр подчиняется распределению Лапласа, а L2-норма предполагает, что априорный параметр является распределением Гаусса, Это принцип, по которому мы обычно используем изображения, чтобы ответить на этот вопрос в Интернете.
Однако решение L1-нормы сложнее и может быть решено методом спуска по координатной оси или методом наименьшего угла регрессии.
(4) Сравнение LR и SVM
Прежде всего, самая большая разница между LR и SVM заключается в выборе функции потерь, Функция потерь LR — это логарифмическая потеря (или логическая потеря), а функция потерь SVM — потеря шарнира.

Во-вторых, обе являются линейными моделями.
Наконец, SVM рассматривает только опорные векторы (то есть несколько точек, связанных с классификацией).
(5) Разница между LR и случайным лесом
Алгоритмы дерева, такие как случайный лес, нелинейны, а LR — линейны. LR больше фокусируется на глобальной оптимизации, тогда как древовидная модель — это в основном локальная оптимизация.
(6) Обычно используемые методы оптимизации
Саму логистическую регрессию можно решить по формуле, но поскольку сложность инверсии слишком высока, вводится алгоритм градиентного спуска.
Методы первого порядка: градиентный спуск, стохастический градиентный спуск, мини стохастический градиентный спуск. Стохастический градиентный спуск не только быстрее, чем исходный градиентный спуск, но и может в определенной степени подавлять возникновение локальных оптимальных решений в задачах локальной оптимизации.
Метод второго порядка: метод Ньютона, квазиньютоновский метод:
Вот подробное описание основных принципов метода Ньютона и применения метода Ньютона. Фактически, метод Ньютона заключается в постоянном обновлении положения касательной через пересечение касательной и оси x до тех пор, пока не будет достигнуто пересечение кривой и оси x для получения решения уравнения. В практических приложениях нам часто приходится решать задачи выпуклой оптимизации, то есть решать положение, в котором первая производная функции равна 0, и метод Ньютона может дать решение этой задачи. В практических приложениях метод Ньютона сначала выбирает точку в качестве отправной точки и выполняет разложение Тейлора второго порядка, чтобы получить точку с производной 0 для обновления до тех пор, пока не будут выполнены требования. В это время метод Ньютона становится вторым решение задачи первого порядка, которое более эффективно, чем решение первого порядка, быстрее. X, который мы часто видим, обычно представляет собой многомерный вектор, что приводит к понятию матрицы Гессе (то есть матрицы второй производной от x). Недостатки: метод Ньютона представляет собой итерацию фиксированной длины и не имеет ступенчатого множителя, поэтому он не может гарантировать стабильное снижение значения функции и даже дает сбой в тяжелых случаях. Кроме того, метод Ньютона требует, чтобы функция была производной второго порядка. А обратная сложность вычисления матрицы Гессе очень велика.
Метод квазиньютона. Метод построения приближенной положительно определенной симметричной матрицы матрицы Гессе без использования частных производных второго порядка называется методом квазиньютона. Идея квазиньютоновского метода заключается в использовании специального выражения для имитации матрицы Гессе или ее обратной так, чтобы выражение удовлетворяло квазиньютоновскому условию. В основном это метод DFP (аппроксимирующий обратную матрицу Hession), BFGS (непосредственно аппроксимирующий матрицу Hession) и L-BFGS (который может уменьшить объем памяти, требуемый BFGS).

225. Объясните принцип отсева с помощью байесовской вероятности.

справочный ответ

226. Почему многие лица, делающие лицо, в конце присоединяются к локальной подключенной беседе?

@ Сюй Хань

Возьмите FaceBook DeepFace в качестве примера:

Сначала DeepFace выполнил две полные свертки + одну пулинг для извлечения низкоуровневых элементов краев/текстур. Следуют три слоя Local-Conv.Причина использования Local-Conv здесь заключается в том, что лицо имеет разные черты в разных областях (положение распределения глаз/носа/рта относительно фиксировано), когда нет глобального локального признака При распределении , Local-Conv больше подходит для извлечения признаков.

227. Что такое коллинеарность и как она связана с переоснащением?

@abstractmonkey

Коллинеарность: в многомерной линейной регрессии оценка регрессии неточна из-за высокой корреляции между переменными. Коллинеарность создает избыточность, что приводит к переоснащению.

Решение: исключить корреляцию переменных/добавить весовую регуляризацию.

228. Почему всегда можно избежать плохих Локальных оптимумов, когда сеть достаточно глубокая (достаточно нейронов)?

Смотрите также:The Loss Surfaces of Multilayer Networks

229. Положительные и отрицательные образцы в машинном обучении.

В задаче классификации эту проблему относительно легко понять.Например, в примере распознавания лиц легко понять положительный образец, который является изображением лица.Выбор отрицательного образца связан с проблемой В частности, если вы хотите сделать для распознавания лиц учащихся в классе, отрицательные образцы — это окна, стены и т. д. в классе, то есть это не может быть грязное изображение сцены, которое не имеет ничего общего делать с проблемой, которую вы хотите изучить Такие отрицательные образцы бессмысленны. Отрицательные образцы можно генерировать на основе фона, иногда нет необходимости искать дополнительные отрицательные образцы. Как правило, для обучения 3000–10000 положительных образцов требуется 5 000 000–100 000 000 отрицательных образцов.В поле взаимного золота положительные и отрицательные отношения обычно корректируются до 3: 1–5: 1 путем выборки перед входом в модель.

230. Каковы инженерные методы выбора признаков в машинном обучении?

1. Рассчитайте корреляцию между каждой функцией и переменной отклика: обычно используемые методы в инженерии заключаются в вычислении коэффициента Пирсона и коэффициента взаимной информации.Коэффициент Пирсона может измерять только линейную корреляцию, а коэффициент взаимной информации может измерять различные корреляции хорошо. , но расчет относительно сложен. К счастью, этот инструмент включен во многие наборы инструментов (например, MINE sklearn).После получения корреляции вы можете сортировать и выбирать функции;
2. Построить модель одного признака и отсортировать признаки по точности модели, тем самым отобрав признаки;
3. Выберите признаки по регулярному члену L1: Регулярный метод L1 имеет характеристики разреженного решения, поэтому он, естественно, имеет характеристики выбора признаков, но следует отметить, что признаки, не выбранные L1, не означают, что они не важны. , потому что эти две функции имеют высокую корреляцию. Функция может сохранить только одну функцию, если вы хотите определить, какая функция важна, вы должны пройти перекрестную проверку обычным методом L2 *;
4. Обучить предварительно выбранную модель, которая может оценивать функции: RandomForest и логистическая регрессия могут оценивать функции модели, а затем обучать окончательную модель после получения корреляции посредством оценки;
5. Выберите функции после комбинации функций: например, идентификатор пользователя и пользовательские функции наиболее сочетаются для получения большего набора функций, а затем выбирают функции.Этот подход относительно распространен в рекомендательных системах и рекламных системах.Основной источник миллиардного уровня Особенности заключается в том, что пользовательские данные относительно разрежены, а комбинированные функции могут учитывать как глобальную модель, так и персонализированную модель.Есть возможность расширить этот вопрос.
6. Выбор функций с помощью глубокого обучения. В настоящее время этот метод становится методом с популярностью глубокого обучения, особенно в области компьютерного зрения, поскольку глубокое обучение имеет возможность автоматически изучать функции, что также называется неконтролируемым. Причина изучения особенностей. После выбора функций нейронного слоя из модели глубокого обучения его можно использовать для обучения окончательной целевой модели.

231. В n-мерном пространстве лучший способ обнаружить выбросы: (C)

A. Создайте карту вероятностей нормального распределения
B. Сделайте блок-схему
C. Расстояние Махаланобиса
D. Сделайте точечную диаграмму

Ответ: (С)

Расстояние Махаланобиса — это статистический метод измерения многомерных выбросов, основанный на распределении хи-квадрат. Для получения дополнительной информации см.:От алгоритма K-ближайшего соседа, измерения расстояния до дерева KD, алгоритма SIFT+BBF.

232. В чем разница между логистической регрессией и общим регрессионным анализом? (Д)

A. Логарифмическая регрессия шансов предназначена для прогнозирования вероятности события.
B. Логарифмическую регрессию шансов можно использовать для измерения того, насколько хорошо модель подходит
C. Логарифмическая регрессия шансов может использоваться для оценки коэффициентов регрессии.
Д. Все вышеперечисленное

Ответ: (Д)
A: Логарифмическая регрессия шансов на самом деле предназначена для решения проблем классификации.
B: Логарифмическую регрессию шансов можно использовать для проверки соответствия модели данным.
C: Хотя логарифмическая регрессия вероятности используется для решения задач классификации, после создания модели соответствующие коэффициенты регрессии могут быть оценены на основе независимых признаков. Насколько я думаю, это только оценка коэффициента регрессии, и ее нельзя использовать напрямую в качестве регрессионной модели.

233. Что означают данные начальной загрузки? (Подсказка: проверьте разницу между "начальной загрузкой" и "бустированием") (С)

A. Выборка m признаков из общего числа M признаков с заменой
B. Выборка m признаков из общего числа M признаков без замены
C. Выборка n проб из общего количества N проб с заменой
D. Отберите n образцов из общего количества N образцов без замены.

Ответ: (С)

234. "Переобучение" происходит только при обучении с учителем. При обучении без учителя "переобучения" не бывает, то есть: (B)

А. да
Б. неправильно
Ответ: (В)

Мы можем оценить методы обучения без учителя с помощью метрик обучения без учителя, таких как: мы можем оценить модели кластеризации, изменив оценку ранда.

235. Для k-кратной перекрестной проверки верно следующее утверждение о k: (D)

О. Большее k не обязательно лучше, выбор большого k увеличит время оценки.
B. Выберите большее k, будет меньшее смещение (поскольку обучающий набор ближе к общему набору данных)
C. При выборе k, чтобы минимизировать дисперсию между наборами данных
Д. Все вышеперечисленное

Ответ: (Д)

Чем больше k, тем меньше смещение и тем дольше время обучения.Во время обучения следует также учитывать принцип, согласно которому дисперсия между наборами данных не сильно отличается.Например, для задачи классификации двух классов 2-кратное используется перекрестная проверка.Все данные относятся к классу A, а данные в обучающем наборе все к классу B. Очевидно, что эффект теста будет очень плохим.

236. В регрессионных моделях существует мультиколлинеарность, как вы решаете эту проблему?

1. Удалите эти две коллинеарные переменные
2. Мы можем сначала удалить коллинеарную переменную
3. Рассчитайте VIF (фактор инфляции дисперсии) и примите соответствующие меры.
4. Чтобы избежать потери информации, мы можем использовать некоторые методы регуляризации, такие как регрессия гребня и регрессия лассо.
Что из следующего верно: (Д)

A. 1
B. 2
С. 2 и 3
Д. 2, 3 и 4

Ответ: (Д)

Чтобы решить множественную общую линейность, вы можете использовать матрицу корреляции для удаления переменных с корреляцией выше 75% (с субъективными компонентами).Вы также можете использовать VIF, если значение VIF = 10 указывает на корреляцию выше. Мы также можем использовать методы гребневой регрессии и регрессии лассо с оштрафованными регулярными членами. Мы также можем добавить случайный шум к некоторым переменным, чтобы сделать переменные разными, но этот метод следует использовать осторожно, он может повлиять на предсказание эффекта.

237. Что означает высокое смещение модели и как мы можем его уменьшить? (Б)

A. Уменьшение признаков в пространстве признаков
B. Добавьте функции в пространство функций
C. Добавьте точки данных
ДБ и С
Е. Все вышеперечисленное

Ответ: (В)

Если смещение слишком велико, модель слишком проста, размерность данных недостаточна, и данные нельзя точно предсказать, поэтому давайте увеличим размерность!

238. Обучение модели дерева решений, разделение узлов атрибутов, какой из следующих графов является графом с наибольшим приростом информации: (A)

A. Outlook
B. Humidity
C. Windy
D. Temperature

Ответ: (А)

Прирост информации, повышение средней чистоты подмножества.

239. Для получения информации, разделения узлов дерева решений правильно следующее утверждение: (C)

1. Узлы с высокой степенью чистоты нуждаются в большем количестве информации, чтобы отличить
2. Прирост информации можно получить с "1 бит-энтропией"
3. Если для атрибута выбрано много категориальных значений, то этот прирост информации оказывается необъективным.

A. 1
B. 2
С. 2 и 3
Д. Все вышеперечисленное

Ответ: (С)

240. Если модель SVM не соответствует требованиям, какой из следующих методов может улучшить модель: (A)

A. Увеличьте значение параметра штрафа C
B. Уменьшить значение параметра штрафа C
C. Уменьшить коэффициент ядра (гамма-параметр)

Ответ: (А)

Если модель SVM не подходит, мы можем увеличить значение параметра C, чтобы увеличить сложность модели.

241. На следующем рисунке показана та же модель SVM, но используются гамма-параметры различных радиальных базисных функций ядра, которые имеют порядок g1, g2, g3, а правильный размер ниже: (C)

A. g1 > g2 > g3
B. g1 = g2 = g3
C. g1 < g2 < g3
D. g1 >= g2 >= g3
E. g1 <= g2 <= g3

Ответ: (С)

242. Предположим, мы хотим решить задачу классификации двух классов, мы уже установили модель, выход равен 0 или 1, а порог изначально установлен на 0,5, если оценка вероятности превышает 0,5, она оценивается как 1, в противном случае он оценивается как 0; если мы теперь используем другой порог больше 0,5, так что теперь о модели утверждения, правильный: (C)

1. Скорость отзыва модельной классификации будет снижена или останется неизменной.
2. Скорость отзыва модельной классификации увеличится
3. Точность классификации модели увеличится или останется неизменной
4. Точность классификации модели снизится

A. 1
B. 2
С.1 и 3
Д. 2 и 4
Е. Ничего из вышеперечисленного

Ответ: (С)

243. "Проблема CTR" - это такая проблема прогнозирования, что 99% людей не будут нажимать, а 1% нажмут, так что это очень несбалансированный набор данных. Предположим, теперь, когда мы построили модель для классификации, и с 99 % точности предсказания, мы можем сделать вывод, что: (B)

A. Точность предсказания модели уже очень высока, нам не нужно ничего делать
B. Точность предсказания модели невысока, нам нужно что-то сделать, чтобы улучшить модель
C. Неспособность делать выводы
Д. Ничего из вышеперечисленного

Ответ: (В)

Уровень точности прогноза 99% может означать, что ваши прогнозы точны для людей, которые не кликнули (поскольку 99% людей не кликнут, что является хорошим прогнозом). Это не означает, что ваша модель точно предсказывает людей, которые кликнули, поэтому для такого несбалансированного набора данных мы хотим сосредоточиться на небольшой части данных, то есть на тех, кто кликнул.

244. Используя алгоритм KNN с k = 1, задачу классификации двух классов на рисунке ниже, «+» и «o» представляют два класса соответственно, затем, используя метод перекрестной проверки, который берет только одну тестовую выборку, частота ошибок перекрестной проверки составляет Сколько: (B)

A. 0%
B. 100%
С. от 0% до 100%
Д. Ничего из вышеперечисленного

Ответ: (В)

Алгоритм KNN заключается в просмотре k выборок вокруг выборки, большинство из которых классифицируются как класс A, и мы делим выборку на класс A. Очевидно, что KNN с k=1 не является хорошим выбором на приведенном выше рисунке, и Частота ошибок классификации Всегда 100%.

245. Мы хотим обучить дерево решений на большом наборе данных, чтобы использовать меньше времени, мы можем: (C)

А. Увеличьте глубину дерева
B. Увеличьте скорость обучения
C. Уменьшить глубину дерева
D. Уменьшить количество деревьев

Ответ: (С)

A. Увеличение глубины дерева приведет к тому, что все узлы будут непрерывно разделяться, пока листовые узлы не станут чистыми.Поэтому увеличение глубины продлит время обучения.
B. В дереве решений нет параметра скорости обучения, который можно настроить. (в отличие от ансамблевого обучения и других методов обучения с шагами)
D. Дерево решений имеет только одно дерево, а не случайный лес.

246. Относительно утверждения нейронной сети верно следующее: (A)
1. Увеличение количества слоев нейронной сети может увеличить частоту ошибок классификации набора тестовых данных.
2. Уменьшение количества слоев нейронной сети всегда может снизить частоту ошибок классификации набора тестовых данных.
3. Увеличение количества слоев нейронной сети всегда может снизить частоту ошибок классификации набора обучающих данных.

A. 1
Б. 1 и 3
С. 1 и 2
D. 2

Ответ: (А)

Успех глубоких нейронных сетей доказал, что увеличение количества слоев нейронной сети может повысить способность модели к нормализации, то есть как набор обучающих данных, так и набор тестовых данных работают лучше.Однако большее количество слоев не обязательно гарантирует, что будет быть более хорошей производительностиАР Вест V.org/PDF/1512.03…. Поэтому нельзя однозначно сказать, что количество слоев хорошо или плохо, и можно выбрать только А.

247. Если мы используем нелинейно разделимую целевую функцию SVM в качестве объекта оптимизации, как мы можем гарантировать, что модель линейно разделима? (С)

А. Пусть С=1
Б. Пусть С=0
C. Пусть C=бесконечность
Д. Ничего из вышеперечисленного

Ответ: (С)

C бесконечность гарантирует, что всякая линейная неразделимость допустима.

248. После обучения модели SVM мы можем отбросить те выборки, которые не являются опорными векторами, или можем продолжить классификацию: (A)

А. Верно Б. Неверно

Ответ: (A) В модели SVM на границу решения действительно влияет опорный вектор.

249. Какой из следующих алгоритмов можно построить с помощью нейронных сетей: (Б)
1.KNN
2. Линейная регрессия
3. Логарифмическая регрессия шансов

А. 1 и 2
Б. 2 и 3
С. 1, 2 и 3
Д. Ничего из вышеперечисленного

Ответ: (В)
1. Алгоритм KNN не требует параметров обучения, а все нейронные сети требуют параметров обучения, поэтому нейронная сеть не может помочь
2. Простейшая нейронная сеть, персептрон, на самом деле является обучением линейной регрессии.
3. Мы можем построить логарифмическую регрессию вероятности с одним слоем нейронной сети.

250. Пожалуйста, выберите вариант ниже, к которому можно применить скрытую марковскую модель (HMM): (D)

A. Наборы данных последовательности генов
B. Набор данных просмотра фильмов
C. Набор данных фондового рынка
Д. Все вышеперечисленное

Ответ: (D) Пока это связано с проблемами временных рядов, вы можете попробовать HMM.

251. Мы строим модель машинного обучения с функциями 5000 и данными 1 млн. Как мы можем эффективно справиться с обучением таким большим данным: (F)

A. Мы случайным образом выбираем несколько образцов и тренируемся на этих небольших образцах.
B. Мы можем попробовать онлайн-алгоритмы машинного обучения
C. Мы применяем алгоритм PCA, чтобы уменьшить размерность и количество признаков.
ДБ и С
Е. А и Б
F. Все вышеперечисленное

Ответ: (Ф)

252. Мы хотим уменьшить количество признаков в наборе данных, то есть уменьшение размерности, Выберите следующую подходящую схему: (D)
1. Используйте метод выбора прямой функции
2. Используйте исключение обратной функции
3. Сначала мы используем все функции для обучения модели и получаем производительность на тестовом наборе.Затем мы удаляем функцию, переходим к обучению и используем перекрестную проверку, чтобы увидеть производительность на тестовом наборе.Если производительность лучше чем оригинал, мы можем удалить эту функцию.
4. Проверьте таблицу корреляции и удалите некоторые функции с самой высокой корреляцией.

А. 1 и 2
Б. 2, 3 и 4
С. 1, 2 и 4
D. All

Ответ: (Д)
1. Метод прямого выбора признаков и метод обратного исключения признаков являются нашими общими методами выбора признаков.
2. Если метод выбора прямого признака и метод исключения обратного признака не подходят для больших данных, здесь можно использовать третий метод.
3. Это также хороший способ использовать меру корреляции для удаления избыточных признаков.

Все буквы Д правильные.

253. Для случайных лесов и деревьев GradientBoosting верно следующее утверждение: (A)
1. В одном дереве в случайном лесу есть зависимость между деревьями, но нет зависимости между одним деревом в GradientBoosting Trees.
2. Обе модели используют случайные подмножества признаков для создания множества отдельных деревьев.
3. Мы можем генерировать одно дерево GradientBoosting Trees параллельно, потому что между ними нет зависимости, производительность модели обучения GradientBoosting Trees всегда лучше, чем у случайного леса.

A. 2
B. 1 and 2
C. 1, 3 and 4
D. 2 and 4

Ответ: (А)
1. Random forest основан на бэггинге, а Gradient Boosting tree основан на бустинге.Все говорят наоборот.В одном дереве random forest нет зависимости между деревьями и деревьями, а между одним деревом в GradientBoosting Trees является зависимостью.
2. Обе модели используют случайные подмножества признаков для создания множества отдельных деревьев.

Все А правильные.

254. Для преобразованных функций PCA (анализ основных компонентов) «независимое предположение» Наивного Байеса всегда выполняется, поскольку все основные компоненты ортогональны, это утверждение: (B)

А. Правильно
Б. неправильно
Ответ: (В)
Это утверждение неверно, во-первых, «не зависимые» и «некоррелированные» — разные вещи, а во-вторых, трансформированные признаки тоже могут быть коррелированы.

255. Правильное утверждение для PCA: (A)
1. Мы должны нормализовать данные перед использованием PCA
2. Мы должны выбрать главные компоненты, благодаря которым модель будет иметь наибольшую дисперсию.
3. Мы должны выбрать главные компоненты, которые обеспечивают наименьшую дисперсию модели.
4. Мы можем использовать PCA для визуализации данных в низком измерении.

A. 1, 2 and 4
B. 2 and 4
C. 3 and 4
D. 1 and 3
E. 1, 3 and 4

Ответ: (А)
1) PCA очень чувствителен к масштабу данных, например, если изменить единицу измерения с км на см, такой масштаб данных может оказать большое влияние на конечный результат PCA (от менее важных компонентов к очень важным компонентам).
2) Мы всегда должны выбирать главные компоненты, благодаря которым модель имеет наибольшую дисперсию.
3) Иногда левое изображение нуждается в помощи уменьшения размерности PCA в малых размерах