тест по машинному обучению

Анализ малых данных

КвазиНаучный блог Александра Дьяконова

Тест на знание машинного обучения

В начале учебного года провёл тестирование наших магистров первого года (ММП ВМК МГУ). Тест составлялся для онлайн-курса (но там, вроде, его пройти нельзя…) и состоит из 50 вопросов. Группа студентов небольшая — 16 человек, но определённые выводы можно сделать.

Что не знают студенты

Вопросы в пространстве двух первых компонент

Что знают студенты

Проблем не вызывают вопросы, которые сводятся к техническим действиям (оценить вероятность, посчитать производную и т.п.)

Что знают наши студенты

Те, кто оканчивал бакалавриат ММП ВМК МГУ, в среднем ответили правильно на 48.5% вопросов, «чужие» студенты — на 42%. С одной стороны, здорово, мы чему-то учим! А с другой — некоторые студенты не из нашего бакалавриата вообще ничего не слышали про машинное обучение (на многие вопросы можно отвечать из соображений здравого смысла, часть вопросов — по статистике, оптимизации и т.п.). Учитывая это, не многому мы научили:)

А что знают желающие поработать…

Я на днях беседовал с несколькими ребятами, которые проводят собеседования в своих компаниях. Все жаловались, что у и выпускников ШАДа слабые знания. Например, на вопрос о решении любой задачи отвечают, что решать надо бустингом. Что такое бустинг, многие не знают… особенно девушки. Я лично с подобным не сталкивался, почему-то ко мне на собеседования попадало мало ШАДовцев. Но да, большинство вопросов, скажем, про регуляризацию, индекс Джини, ассоциативные правила, ставит соискателей в тупик.

Интересную практику ввела компания АлгоМост — проводить тесты по МО с соискателями (причём основная беседа будет только с теми, кто прошёл тест). Желающие работать на позиции аналитика могут ответить в среднем только на 20-30% вопросов. Причём, простых вопросов (типа, какие векторы будут опорными в конкретной задаче, решаемой методом SVM).

Источник

📊 Проверьте свои навыки: 26 вопросов и ответов с собеседований по Data Science

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В этой статье приведены 26 вопросов с собеседований по Data Science, за каждым из которых следует приемлемый ответ. Вопросы будут смешаны по темам, но все они относятся к машинному обучению и Data Science. Я рекомендую сначала попробовать ответить на вопросы самостоятельно, и только после этого проверять свои ответы по тексту статьи.

Будь вы студентом вуза или опытным профессионалом, любой может проверить (или освежить) свои навыки, потратив совсем немного времени.

Сможете ли вы правильно ответить на все вопросы? Поехали!

1. В чем отличие между искусственным интеллектом, машинным обучением и Data Science? (Тема: Общее)

«Искусственный интеллект» (ИИ) – термин, относящийся к широкому диапазону приложений от робототехники до анализа текста, и являющийся комбинацией бизнес-аспектов и технических аспектов. Машинное обучение – это подмножество ИИ, фокусирующееся на узком диапазоне задач и выполняющее сугубо техническую роль. Data Science («наука о данных») – не подмножество машинного обучения, но использует его для анализа и предсказаний будущего. Она в основном ориентирована на бизнес-приложения.

2. Что такое рекомендательные системы? (Тема: Словарь)

Рекомендательные системы – это разновидность систем фильтрации информации, которая должна предсказывать предпочтения пользователя или рейтинги, которые пользователь дал бы товарам. Рекомендательные системы широко используются для фильмов, новостей, научных статей, товаров, музыки и многого другого.

3. Что такое нормальное распределение? (Тема: Статистика, Словарь)

Нормальное распределение, также известное как «график колокола», можно описать как распределение, при котором большинство наблюдений находится в центре, и по мере удаления от центра количество наблюдений падает. С точки зрения статистики наиболее важно то, что при нормальном распределении 68% данных находится в пределах одного стандартного отклонения от среднего значения, 95% – в пределах двух стандартных отклонений, и 99.7% – в пределах трех стандартных отклонений от среднего.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюГрафик нормального распределения.

4. В чем разница между линейной и логистической регрессией? (Тема: Алгоритмы регрессии и классификации)

Линейная регрессия – это статистический метод, в котором линия (или n-мерная плоскость в случае множества параметров) подстраивается под данные. Он используется для регрессии – когда целевое значение представляет собой действительное число. Логистическая регрессия – это метод классификации. Это трансформация линейной регрессии посредством функции сигмоиды, возвращающей вероятность соответствия входного набора классу 0 или классу 1.

5. Как выбрать число k для алгоритма кластеризации «метод k-средних» (k-Means Clustering), не смотря на кластеры?

Есть два метода выбора значения k для метода k-средних. Первый – это «метод локтя». Строится график зависимости функции потерь от количества кластеров k, и если представить, что график – это «рука», то лучшее значение количества кластеров будет там, где «локоть» этой «руки».

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюИллюстрация «метода локтя»

6. Тест имеет показатель истинной позитивности 100% и ложной позитивности 5%. В вашей популяции каждый тысячный имеет болезнь, на которую проверяет тест. Учитывая только то, что вы получили положительный результат теста, какова вероятность того, что вы действительно болеете этой болезнью? (Тема: Показатели классификации)

Если вы больны, тест это покажет (поскольку истинная позитивность абсолютна). Но если вы не больны, то тест выдаст результат, что вы больны, с вероятностью 5%, и с вероятностью 95%, что не больны. То есть, присутствует 5% ошибка, если вы не больны. Из 1000 человек один больной получит истинный положительный результат. Из остальных 999 человек 5% получат ложные положительные результаты – почти 50 человек. То есть, из 1000 человек 51 получит положительный результат теста, но всего один будет болен на самом деле. Вероятность, что вы больны даже при положительном результате теста, составляет всего около 2%!

7. Как преобразование Бокса-Кокса улучшает качество модели? (Тема: Статистика, Алгоритмы)

Преобразование Бокса-Кокса заключается в возведении данных в некоторую степень: в квадрат, куб, взятие квадратного корня (степень 1/2). Поскольку возведение в степень 0 всегда дает 1, под «степенью 0» в методе Бокса-Кокса подразумевается логарифмическая трансформация.

Логарифмическая функция может особенно улучшить качество модели, поскольку она превращает экспоненциальные функции в линейные. Это значит, что линейные модели вроде линейной регрессии смогут добиться намного лучших результатов.

Возведение в квадрат или в куб также может выпрямить распределение данных или выделить наиболее важные части данных.

8. Всегда ли методы градиентного спуска сходятся в одной и той же точке? (Тема: Нейронные сети)

Нет, методы градиентного спуска не всегда сходятся в одной и той же точке. Поскольку пространство ошибок может иметь несколько локальных минимумов, различные методы градиентного спуска могут сходиться в разных точках, в зависимости от их характеристик вроде момента или веса.

Ниже приведены GIF’ы разных оптимизаторов (методов градиентного спуска) с демонстрацией их работы в пространстве ошибок.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюАнимированное изображение можно посмотреть здесь.

9. Каковы ключевые шаги аналитического проекта? (Тема: Организация)

10. Что такое «проклятие размерности» (curse of dimensionality)? (Тема: Данные)

«Проклятие размерности» – это явления, которые возникают при анализе данных с большим количеством признаков (данных высокой размерности), которых не возникает в обычных двухмерном и трехмерном пространстве. Общая тема: при росте размерности разреженность растет так быстро, что рассчитать все значения, необходимые для модели, становится практически нереально из-за нехватки вычислительной мощности. Нужно отметить, что в пространствах очень высокой размерности Евклидово расстояние между двумя элементами настолько мало, что любые методы или методы машинного обучения, требующие расчета дистанции между двумя точками, перестают работать. (Это одна из причин, по которым для распознавания образов большой размерности предпочитают сверточные нейронные сети).

Полноту можно описать как «процент реально истинных результатов, которые наша модель правильно распознала». Точность можно описать как «процент реально истинных результатов среди тех, которые наша модель посчитала истинными».

12. Как бы вы справились с разными формами сезонности при моделировании временных рядов? (Тема: Временные ряды).

В реальных данных временных рядов (например, количества плюшевых мишек, закупаемых на фабрике игрушек) часто встречаются различные виды сезонности, которые могут пересекаться друг с другом. Годичная сезонность, вроде пика перед Рождеством и летнего спада, может сочетаться с месячной, недельной или даже дневной сезонностью. Это делает временной ряд нестационарным, поскольку среднее значение переменной различно для разных периодов времени.

Лучший способ удаления сезонности из данных – это дифференцирование временного ряда. Это процесс получения разности между датой x и x минус период сезонности, которым может быть год, месяц, или что-нибудь другое. При этом первый период сырых данных теряется, поскольку из них нечего вычитать.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюПример годичной и месячной сезонности (источник).

13. Часто считается, что Ложный Негативный результат хуже, чем Ложный Позитивный. Можете ли вы привести пример, когда Ложный Позитивный результат хуже Ложного Негативного? (Тема: Показатели классификации, Организация)

14. В чем разница между тестовым и валидационным наборами данных? (Тема: Данные, Организация)

Тестовый набор данных используется для оценки качества модели после ее обучения. Валидационный набор используется в процессе обучения для выбора гиперпараметров и предотвращения переобучения на тренировочном наборе.

15. В каких случаях вы бы предпочли использовать SVM, а не Случайный Лес (и наоборот)? (Тема: Алгоритмы)

И SVM, и Случайный Лес – мощные алгоритмы классификации. Если данные хорошо очищены и не содержат выбросов, SVM будет хорошим выбором. В противном случае, Случайный Лес может суметь адаптироваться к этим данным. SVM (особенно с широким поиском параметров) потребляет намного больше вычислительной мощности, чем Случайные Леса, так что при нехватке памяти Случайный Лес будет предпочтительнее. Случайный Лес также предпочтителен для задач мультиклассовой классификации, тогда как SVM предпочтителен для задач высокой размерности, таких, как классификация текста.

16. Что такое ансамбли, и чем они полезны? (Тема: Алгоритмы)

Ансамбли – это группы алгоритмов, которые «голосуют» для принятия финального решения. Ансамбли успешны, поскольку слабые стороны одной модели могут быть компенсированы сильными сторонами других моделей, это значит, что успешные модели должны быть диверсифицированы. Это также значит, что модели, входящие в ансамбль, должны иметь разные слабые стороны. Исследования показали, что правильно созданные ансамбли дают лучшие результаты, чем одиночные классификаторы.

17. Какие методы можно использовать для заполнения пропущенных данных, и каковы последствия невнимательного заполнения данных? (Тема: Очистка данных)

Если полное удаление пропусков невозможно, существует множество методов их заполнения – такие, как заполнение средним значением, медианой или модой. Какой из них лучше, зависит от контекста.

Другой метод – это использовать k ближайших соседей (KNN), чтобы определить ближайших соседей строки с пропущенными данными и использовать среднее значение, медиану или моду для этих соседей. Это обеспечивает большую настраиваемость и управляемость, чем можно добиться использованием статистических значений.

Если метод заполнения пропусков реализован неаккуратно, оно может привести к ошибке выборки – любая модель хороша настолько, насколько хороши ее исходные данные, и если данные отклоняются от реальности, то же самое будет с моделью.

18. Каковы основные предположения о данных, которые должны быть сделаны перед их передачей в модель линейной регрессии? (Тема: Алгоритмы)

Данные должны иметь нормальное остаточное распределение, статистическую зависимость ошибок и линейность.

19. В чем разница между Байесовской оценкой решения и Методом максимального правдоподобия? (Тема: Алгоритмы)

При Байесовской оценке решения модель обладает определенными знаниями о данных (априори). Может быть несколько значений параметров, описывающих данные, и, следовательно, мы можем искать несколько параметров, например, 5 альф и 5 гамм, которые это делают. В результате Байесовской оценки решения мы получим множество моделей, чтобы делать множество предсказаний (по одной для каждой пары параметров с теми же значениями априори). Таким образом, если нужно сделать предсказание для новых данных, оно рассчитывается как взвешенная сумма предсказаний имеющихся моделей.

Метод максимального правдоподобия не принимает во внимание значение априори, так что он аналогичен Байесовской модели, использующей какое-то фиксированное значение априори.

20. В каких случаях вы бы использовали MSE и MAE? (Тема: Метрики точности)

21. Что показывает P-значение о данных? (Тема: Статистика)

P-значение используется для проверки значимости результатов после статистического теста гипотезы. P-значения помогают анализирующему делать выводы и всегда находятся в диапазоне между 0 и 1.

22. Что такое ROC-кривая? Что такое AUC? (Тема: Метрики точности)

ROC-кривая – это кривая роста процента истинно позитивных результатов по мере роста процента ложных позитивных результатов. Полностью случайное предсказание будет изображаться прямой диагональной линией (черная штриховая линия на рисунке). Оптимальная модель будет как можно более близкой к оси y и к линии «y=1».

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюROC-кривые для разных классов (источник)

Одна из метрик того, насколько близка кривая ROC к этим линиям – AUC, или площадь под кривой (Area Under Curve). Чем выше AUC, тем лучше работает модель.

23. Что такое PCA, и чем он может помочь? (Тема: Алгоритмы)

Метод главных компонент (Principal Component Analysis, PCA) – метод сокращения размерности путем нахождения n ортогональных векторов, представляющих наибольшую вариантность из данных, где n – это размерность, до которой пользователь хочет сократить данные. Эти n векторов служат измерениями для новых данных.

PCA может помочь ускорить работу алгоритмов машинного обучения или визуализировать данные слишком большой размерности.

24. Объясните дилемму смещения-дисперсии (bias-variance tradeoff) и приведите примеры алгоритмов с высоким и низким смещением. (Тема: Алгоритмы)

Смещение (bias) – это ошибка, внесенная в вашу модель из-за чрезмерного упрощения алгоритма машинного обучения, которое может привести к недообучению. В процессе обучения модели делаются упрощенные предположения, чтобы сделать целевую функцию более простой для понимания. Алгоритмы машинного обучения с низким смещением включают деревья решений, KNN и SVM. Высоким смещением, в частности, отличаются линейная и логистическая регрессия.

Дисперсия (variance) – это ошибка, внесенная в вашу модель сложным алгоритмом машинного обучения, при котором модель усваивает также и шум из тренировочного набора данных, что приводит к плохой точности на тестовом наборе данных. Это может привести к высокой чувствительности и переобучению.

Обычно, по мере усложения модели вы увидите снижение ошибки вследствие уменьшения смещения модели. Однако, это происходит только до определенной точки – и если вы будете усложнять свою модель дальше, в конце концов вы ее переобучите.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениюДилемма смещения-дисперсии (источник).

25. Почему нелинейная функция Softmax часто бывает последней операцией в сложной нейронной сети? (Тема: Нейронные сети)

Потому, что она принимает вектор действительных чисел и возвращает распределение вероятностей. Какой бы вектор x ни подали на ее вход (неважно, положительных или отрицательных), на выходе будет набор чисел, пригодный в качестве распределения вероятностей: каждый элемент выходного значения будет неотрицательным, и их сумма будет равна 1.

26. Что такое векторизация TF/IDF? (Тема: NLP)

TF/IDF – это сокращение для Term Frequency/Inverse Document Frequency. Это числовая статистика, которая должна отражать, насколько данное слово важно для документа, являющегося частью набора документов. Она часто используется в качестве взвешивающего множителя при получении информации и извлечении текста. Значение TF/IDF увеличивается пропорционально количеству появлений этого слова в документе, но уменьшается пропорционально частоте использования этого слова во всем наборе документов, что помогает компенсировать тот факт, что некоторые слова в принципе встречаются чаще других.

На сколько вопросов вы ответили правильно? Эти вопросы относились к широкому диапазону тем, от нейронных сетей до очистки данных, от SVM до NLP, и от показателей классификации до статистики. Они должны хорошо показать, насколько вы знакомы с концепциями Data Science.

В следующей статье мы рассмотрим еще 26 вопросов и ответов с собеседований по Data Science. Спасибо за внимание!

Источник

Русские Блоги

Машинное обучение письменный тест отбор 100 вопросов

Трансфер от: AI Youdao

Вопрос 1. Какое из следующих утверждений является правильным? (Несколько вариантов)

А. АдаГрад использует первую производную

B. L-BFGS использует вторую производную

C. AdaGrad использует вторую производную

D. L-BFGS использует первую производную

Ответ:AB

Решимость: AdaGrad основан на алгоритме градиентного спуска. Алгоритм AdaGrad может автоматически регулировать скорость обучения α во время обучения и использовать более крупные обновления α для параметров с более низкой частотой появления, напротив, меньшие параметры для параметров с более высокой частотой появления. Альфа-обновление. Адаград отлично подходит для разреженных данных. Понятно, что алгоритм AdaGrad использует первые производные.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

L-BFGS основан на алгоритме оптимизации Ньютона, который использует производные второго порядка.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Q2. «Увеличение размера сверточного ядра, безусловно, улучшит производительность сверточной нейронной сети». Верно ли это утверждение?

Ответ:B

Решимость: Размер ядра свертки является гиперпараметром. Нет необходимости увеличивать его размер для увеличения производительности нейронной сети. Необходимо проверить и выбрать оптимальный размер.

Вопрос 3. Предположим, у вас есть 5 ядер свертки в первом слое сверточной нейронной сети.Каждое ядро ​​свертки имеет размер 7 × 7, имеет нулевое заполнение и имеет шаг 1. Размер входного изображения этого слоя составляет 224 × 224 × 3. Каков размер выходного сигнала этого слоя?

Ответ:C

Решимость: Обычно, если исходный размер изображения равен nxn, а размер фильтра равен fxf, размер сверточного изображения равен (n-f + 1) x (n-f + 1). Обратите внимание, что f обычно является нечетным числом.

Если вы учитываете наличие заполнения и шага, используйте s, чтобы представить длину шага, и p, чтобы представить длину дополнения. Если исходный размер изображения равен nxn, а размер фильтра равен fxf, то размер изображения свертки равен:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В приведенной выше формуле ⌊ ⋯ ⌋ означает округление вниз.

В этом примере n = 224, p = 0, f = 7 и s = 1, поэтому выходной размер этого слоя составляет 218×218.

Третье измерение вывода определяется количеством фильтров, которое составляет 5.

Ответ:B

Анализ: отношение исключающее-или (XNOR) является нелинейным.Линейная функция активации может решать только линейные задачи, но не нелинейные задачи. Если вместо ReLU используется линейная активация, нейронная сеть теряет способность аппроксимировать нелинейные функции.

Вопрос 5. Во время обучения машинному обучению размер мини-партии предпочтительно равен степени двойки, например 256 или 512. В чем причина этого?

A. Когда мини-пакет является четным, алгоритм градиентного спуска обучается быстрее

B. Для Mini-Batch установлено значение 2, чтобы удовлетворить требования к памяти процессора и графического процессора и облегчить параллельную обработку.

C. Функция потерь нестабильна, когда четные числа не используются

D. Ничего из перечисленного

Ответ:B

Вопрос 6. Какой из следующих методов можно использовать для уменьшения переоснащения? (Несколько вариантов)

А. Больше данных об обучении

Б. L1 регуляризация

C. L2 регуляризация

D. Уменьшить сложность модели

Ответ:ABCD

Решимость: Добавление обучающих образцов, регуляризация L1, регуляризация L2 и снижение сложности модели могут эффективно избежать переоснащения.

Вопрос 7. Что не так со следующим утверждением?

О. Когда целевая функция выпуклая, решение алгоритма градиентного спуска обычно является глобальным оптимальным решением.

B. Уменьшение размера PCA требует расчета ковариационной матрицы

C. Направление вдоль отрицательного градиента должно быть оптимальным направлением

Функция Д. Лагранжа может решать задачи оптимизации с ограничениями

Ответ:C

Вопрос 8. Какие из следующих форм алгоритм K-Means может не агрегировать?

А. Круговое распределение

Б. Спиральное распределение

C. Ленточное распространение

D. Выпуклое распределение полигонов

Ответ:B

Решимость: Алгоритм K-Means основан на измерении расстояния и не может собирать образцы невыпуклой формы.

Ответ:B

Решимость: L0 норма относится к числу всех ненулевых элементов в векторе, L1 норма относится к сумме абсолютных значений элементов в векторе, также известному как «оператор разреженной матрицы»; L2 норма относится к элементам в векторе И квадратный корень.

В этом примере норма L0 равна 5, норма L1 равна 19, а норма L2 равна √111.

Вопрос 10. Какое из следующих утверждений о регуляризации L1 и L2 является правильным?

A. Регуляризация L2 может предотвратить переоснащение и улучшить обобщающую способность модели, но L1 не может этого сделать

B. Технология регуляризации L2 также известна как Регуляризация Лассо.

C. Решение, полученное с помощью регуляризации L1, является более разреженным

D. L2 регуляризационное решение более разреженное

Ответ:C

Решимость: Регуляризация L1, L2 может предотвратить переоснащение и улучшить способность обобщения модели. Регуляризация L1 также называется регуляризацией Лассо. Решение, полученное с помощью регуляризации L1, является более разреженным, как показано на следующем рисунке:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Для L1 ограниченная область является квадратом, а точка пересечения, где квадрат и синяя область пересекаются, является высокой вероятностью, которую легко понять с точки зрения зрения и здравого смысла. Другими словами, квадратный выступ будет ближе к положению wlin, соответствующему оптимальному решению Ein, и w1 или w2 должны быть 0 на выступе. Таким образом, вероятность того, что решение w1 или w2 равно нулю, очень высока. Следовательно, решение регуляризации L1 является редким.

По этой же причине ограниченная область L2 является гладкой и равноудаленной от центральной точки, в то время как ограниченная область L1 является выпуклой и острой. Эти выпуклости ближе к оптимальному положению решения Ein, и на этих выпуклостях многие wj равны 0.

Вопрос 11. Есть N образцов, которые обычно используются для обучения и обычно используются для тестирования. Если значение N увеличивается, как изменяется разрыв между ошибкой обучения и ошибкой теста?

Ответ:B

РешимостьДобавление данных может эффективно уменьшить переоснащение и сократить разрыв между ошибкой обучающей выборки и ошибкой тестовой выборки.

D. Все вышеперечисленное возможно

Ответ:B

Решимость: Выходной диапазон ReLU равен [0, + ∞), выходной диапазон tanh равен (-1, + 1), а выходной диапазон Sigmoid равен (0, + 1).

Вопрос 13. При каких условиях метод ближайшего соседа k-NN работает лучше?

А. Больше образцов, но менее типично

B. Небольшой образец, но хорошая типичность

C. Образцы распределяются по кластерам.

D. Образцы распределяются по цепочке

Ответ:B

Решимость: Алгоритм ближайшего соседа K в основном опирается на окружающие точки, поэтому, если выборок слишком много, их трудно различить, а типичные легко различить.

Выборки являются неуклюжими или цепочечными, что приводит к путанице. Таким образом, kNN не может использовать свое преимущество поиска соседей. Общая выборка должна быть типичной, с меньшим количеством выборок, что более подходит.

Вопрос 14. Какой из следующих методов можно использовать для сокращения возможностей? (Несколько вариантов)

Б. Линейный дискриминантный анализ LDA

D. Матрица сингулярного разложения SVD

E. LeastSquares LeastSquares

Ответ:ABCD

Вопрос 15. Какой из следующих методов не может напрямую классифицировать текст?

C. опорная векторная машина

Ответ:A

Вопрос 16. Что в модели регрессии оказывает наибольшее влияние на компромисс между недостаточной и чрезмерной подгонкой?

А. Полиномиальный порядок

B. При обновлении весов w используется ли инверсия матрицы или градиентный спуск?

C. Использование постоянных терминов

Ответ:A

Решимость: Важно выбрать соответствующий порядок полиномов. Если порядок слишком велик, модель будет более сложной и склонной к переоснащению, если порядок невелик, модель будет слишком простой и склонной к недостаточному подгонке. Если есть что-то неясное в понятиях переоснащения и подгонки, см. Рисунок ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Вопрос 17. Предположим, у вас есть следующие данные: есть только одна переменная для ввода и вывода. Модель линейной регрессии (y = wx + b) была использована для подгонки данных. Так что же является среднеквадратичной ошибкой, полученной с помощью перекрестной проверки Leave-One Out?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Ответ:C

РешимостьОставьте один метод. Проще говоря, предполагается, что имеется N выборок, и каждая выборка используется в качестве тестовой выборки, а другие N-1 выборки используются в качестве обучающих выборок. Это дает N классификаторов и N результатов испытаний. Среднее из этих N результатов используется для измерения производительности модели.

Для этой задачи мы сначала нарисуем координаты 3 точек выборки:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Линейная подгонка с использованием двух точек делится на три случая, как показано на следующем рисунке:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В первом случае регрессионная модель имеет вид y = 2, а ошибка E1 = 1.

Тогда общая среднеквадратичная ошибка:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Вопрос 18. Какое из следующих утверждений об оценке максимального правдоподобия (MLE) является правильным (множественный выбор)?

A. MLE может не существовать

B. MLE всегда рядом

C. Если MLE присутствует, его решение не может быть уникальным

D. Если MLE существует, его решение должно быть уникальным

Ответ:AC

Решимость: Если функция максимального правдоподобия L (θ) является прерывистой в максимуме, а первая производная не существует, то MLE не существует, как показано на рисунке ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Другой случай состоит в том, что MLE не является уникальным, и максимальное значение соответствует двум θ. Как показано ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Вопрос 19. Если мы говорим, что модель «линейной регрессии» идеально подходит для обучающей выборки (ошибка обучающей выборки равна нулю), какое из следующих утверждений верно?

A. Ошибка тестового образца всегда равна нулю

B. Ошибка тестового образца не может быть нулевой

C. Ни один из приведенных выше ответов

Ответ:C

Решимость: Если ошибка обучающей выборки равна нулю, невозможно определить, равна ли ошибка тестовой выборки нулю. Стоит отметить, что при большом размере тестовой выборки может произойти переобучение, и модель не обладает хорошей способностью к обобщению!

Вопрос 20. В задаче линейной регрессии мы используем R-Squared для определения степени соответствия. В настоящее время, если функция добавлена, а модель не изменена, каков следующий оператор?

A. Если R-Squared увеличивается, эта функция имеет смысл

B. Если R-Squared уменьшается, эта функция не имеет смысла

C. Просто взглянув на одну переменную R-Squared, невозможно определить, значима ли эта функция.

D. Ничего из перечисленного

Ответ:C

Решимость: В задачах линейной регрессии R-Squared используется для измерения сходства между уравнением регрессии и выходом реальной выборки. Его выражение выглядит следующим образом:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В приведенной выше формуле часть числителя представляет сумму квадрата разности между истинным значением и прогнозируемым значением, аналогично среднеквадратичной ошибке MSE, а часть знаменателя представляет сумму квадрата разности между действительным значением и средним, аналогично дисперсии Var. По значению R-Squared оцените качество модели: если результат равен 0, модель плохо подходит, если результат равен 1, модель не содержит ошибок. В целом, чем больше R-Squared, тем лучше подходит модель. R-Squared отражает, насколько он точен, потому что с увеличением количества выборок R-квадрат неизбежно увеличивается, и он не может по-настоящему количественно оценить точность.

Для этого вопроса, рассматривая только R-Squared, мы не можем сделать вывод, значимы ли добавленные функции. Вообще говоря, с добавлением функции R-квадрат может стать больше или остаться неизменным, и эти два значения не обязательно могут быть положительно коррелированы.

Если используется Скорректированный R-квадрат:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

1, чем больше, тем лучше.

Вопрос 21. Какое из следующих утверждений об остатках в линейном регрессионном анализе является правильным?

А. Среднее значение остатков всегда равно нулю

B. Средства от остатков всегда меньше нуля

C. Средство остатков всегда больше нуля

D. Ничего из перечисленного

Ответ:A

РешимостьЦелью линейного регрессионного анализа является минимизация остатков. Остаточная сумма квадратов является функцией параметров.Чтобы найти минимальное значение остатков, частная производная остатков по параметрам равна нулю, а остатки равны нулю, то есть среднее значение остатков равно нулю.

Вопрос 22. Какое из следующих утверждений о гетероскедастичности является правильным?

А. Линейная регрессия имеет разные условия ошибки

B. Линейная регрессия имеет тот же термин ошибки

C. Член ошибки линейной регрессии равен нулю

D. Ничего из перечисленного

Ответ:A

РешимостьГетероскедастичность относительно гомоскедастичности. Так называемая гомоскедастичность заключается в обеспечении хороших статистических свойств оценщиков параметров регрессии Важное предположение классической модели линейной регрессии: члены случайных ошибок в общей функции регрессии удовлетворяют гомоскедастичности, то есть все они имеют одинаковую дисперсию. Если это предположение не выполняется, то есть члены случайной ошибки имеют различные дисперсии, то говорят, что модель линейной регрессии имеет гетероскедастичность.

Вообще говоря, появление сингулярных значений увеличит гетероскедастичность.

Вопрос 23. Что из следующего отражает сильную корреляцию между X и Y?

А. Коэффициент корреляции составляет 0,9

B. Значение p для нулевой гипотезы β = 0 составляет 0,0001.

C. Для неверной гипотезы, β = 0 с t-значением 30

D. Ничего из перечисленного

Ответ:A

Решимость: Понятие коэффициента корреляции нам знакомо, оно отражает степень линейной корреляции между различными переменными и обычно выражается как r.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Значения p и t не являются статистически значимыми, но их сравнивают с определенным порогом, чтобы получить заключение о двух альтернативах. Например, есть два предположения:

Нулевая гипотеза H0: нет «линейной» корреляции между двумя параметрами.

Альтернативная гипотеза H1: существует «линейная» корреляция между двумя параметрами.

Если пороговое значение составляет 0,05, а вычисленное значение p является небольшим, например 0,001, можно сказать, что «существует очень существенное доказательство отклонения гипотезы H0 и верования гипотезе H1. То есть существует« линейная »корреляция между двумя параметрами. Значение p используется только для Оценка значения, поэтому мы не можем сказать, что р = 0,06 лучше, чем р = 0,07.

Вопрос 24. Каким из следующих предположений мы руководствуемся при получении параметров линейной регрессии (множественный выбор)?

A. X и Y имеют линейные отношения (полиномиальные отношения)

B. Модельные ошибки статистически независимы

C. Ошибки обычно следуют нормальному распределению 0 средних значений и фиксированному стандартному отклонению

D. X неслучайный и не имеет ошибки измерения

Ответ:ABCD

РешимостьПри выводе и анализе линейной регрессии мы предположили, что вышеприведенные четыре условия выполняются.

Вопрос 25. Чтобы наблюдать линейную зависимость между тестом Y и X, X является непрерывной переменной, какая из следующих графиков больше подходит?

D. Ничего из перечисленного

Ответ:A

Решимость: Диаграмма рассеяния отражает взаимосвязь между двумя переменными. При тестировании линейной зависимости между Y и X наиболее удобно использовать диаграмму рассеяния.

Вопрос 26. В целом, какой из следующих методов обычно используется для прогнозирования непрерывных независимых переменных?

А. Линейная регрессия

Б. Логический обзор

C. И линейная регрессия и логистическая регрессия

D. Ничего из перечисленного

Ответ:A

Решимость: Линейная регрессия обычно используется для прогнозирования действительных чисел, а логистическая регрессия обычно используется для задач классификации.

C. Ничего из перечисленного

Ответ:C

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

А. Вертикальные смещения

B. перпендикулярные смещения

C. Оба смещения в порядке

D. Ничего из перечисленного

Ответ:A

Решимость: Модель линейной регрессии вычисляет функцию потерь, такую ​​как функция среднего квадрата потерь, используя вертикальные смещения. Вертикальные смещения обычно используются в анализе основных компонентов (PCA).

A. Простая линейная регрессия легко вызывает высокое смещение и низкую дисперсию.

B. Простая линейная регрессия легко вызывает низкое смещение и высокую дисперсию

C. Подгонка полинома третьего порядка приведет к низкому смещению и большой дисперсии

D. Полиномиальная подгонка третьего порядка имеет низкое смещение и низкую дисперсию

Ответ:AD

Используйте график для визуализации связи между отклонением и дисперсией:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Источник изображения: https://www.zhihu.com/question/27068705

Смещение можно рассматривать как разрыв между предсказанием модели и реальной выборкой. Если вы хотите получить низкое смещение, вы должны усложнить модель, но это легко вызвать переобучение. Дисперсию можно рассматривать как производительность модели на тестовом наборе.Если вы хотите получить низкую дисперсию, вы должны упростить модель, но это легко вызывает недооценку. В практических применениях необходимо взвешивать смещение и дисперсию. Если модель хорошо работает как на тренировочном образце, так и на тестовом наборе, то смещение и дисперсия будут меньше, что также является идеальной ситуацией для модели.

Q30.Если вы обучаете модель линейной регрессии, у вас есть следующие два предложения:

1. Если объем данных невелик, может произойти переобучение.

2. Если предполагается, что пространство маленькое, может произойти переоснащение.

Что касается этих двух предложений, верно ли следующее утверждение?

A. И 1 и 2 не правы

Б. 1 правильно, 2 неправильно

C. 1 неправильно, 2 правильно

D. Оба 1 и 2 являются правильными

Ответ:B

РешимостьДавайте сначала посмотрим на первое предложение. Если объем данных невелик, легко найти модель в пространстве гипотез, которая бы хорошо подходила к обучающей выборке и легко приводила к переобучению.

Снова обращаясь к второму предложению, если мы предположим, что пространство мало, включается меньше возможных моделей, и маловероятно, что мы сможем найти модель, которая может хорошо соответствовать образцу, и легко вызвать высокое смещение и низкую дисперсию, т.е. сотрудничество.

Итак, верно ли следующее утверждение?

A. Элемент X1, вероятно, будет исключен из модели

B. Функция X1, вероятно, будет включена в модель

C. Невозможно определить, отброшен ли признак X1

D. Ничего из перечисленного

Ответ: B

Решимость: Регрессия Лассо похожа на линейную регрессию, за исключением того, что она добавляет числовое ограничение на размер всех параметров на основе линейной регрессии, как показано ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Поэтому регрессия Лассо подходит для случая, когда число выборок мало, а размерность объекта велика, и удобно выбирать элементы из большего числа объектов. Например, данные ДНК имеют большой размерный признак. Мы только хотим найти фрагменты ДНК, связанные с определенными заболеваниями посредством регрессии Лассо.

В этой задаче, если значение признака X1 увеличивается в 10 раз, соответствующий коэффициент регрессии будет уменьшен, но не 0, чтобы гарантировать, что ограничение регуляризации β все еще выполняется.

Вопрос 32. Что касается выбора признаков, каковы следующие утверждения о регрессии Риджа и регрессии Лассо?

А. Хребет регрессии для выбора функции

Б. Лассо регрессия применяется к выбору признаков

C. Оба относятся к выбору функции

D. Ничего из перечисленного

Ответ:B

Решимость: Как мы уже упоминали в предыдущем вопросе, регрессия Лассо приведет к тому, что часть коэффициентов регрессии будет ограничена до 0, что имеет эффект выбора объекта.

Регрессия хребта, также известная как регрессия хребта, является нормальной линейной регрессией плюс регулярный член L2 для предотвращения перегрузки во время тренировки. Эффект регуляризации L2 аналогичен левой картинке предыдущего вопроса, и ограниченная область представляет собой круг.Таким образом, вероятность того, что коэффициент регрессии равен 0, мала, а вероятность очень велика. Поэтому, для сравнения, регрессию Лассо легче получить разреженные коэффициенты регрессии, что способствует отказу от избыточных или бесполезных признаков и подходит для выбора признаков.

Вопрос 33. Если в модель линейной регрессии добавлена ​​переменная объекта, что может произойти (множественный выбор)?

A. R-квадрат увеличивается, Отрегулируйте R-квадрат увеличивается

B. R-квадрат увеличивается, корректировка R-квадрат уменьшается

C. R-квадрат уменьшается, настройка R-квадрат уменьшается

D. R-квадрат уменьшается, Отрегулируйте R-квадрат увеличивается

Ответ:AB

Решимость: В задачах линейной регрессии R-Squared используется для измерения сходства между уравнением регрессии и выходом реальной выборки. Его выражение выглядит следующим образом:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В приведенной выше формуле часть числителя представляет сумму квадрата разности между истинным значением и прогнозируемым значением, аналогично среднеквадратичной ошибке MSE, а часть знаменателя представляет сумму квадрата разности между действительным значением и средним, аналогично дисперсии Var. В целом, чем больше R-Squared, тем лучше подходит модель. R-Squared отражает, насколько он точен, поскольку с увеличением количества выборок R-Squared неизбежно будет увеличиваться: он не может по-настоящему количественно оценить точность, но может быть только приблизительно определен.

Глядя только на R-Squared, нельзя сделать вывод о том, значимы ли добавленные функции. Вообще говоря, при добавлении функции R-квадрат может стать больше или остаться неизменным, и эти два значения не могут быть положительно коррелированы.

Если используется Скорректированный R-Squared:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

1, чем больше, тем лучше.

Добавьте переменную объекта. Если эта функция имеет смысл, Скорректированный R-квадрат увеличится. Если эта функция избыточна, Скорректированный R-квадрат уменьшится.

Вопрос 34. На следующих трех рисунках показано влияние использования разных моделей на одном и том же тренировочном образце (синяя кривая). Итак, какие выводы мы можем сделать (несколько вариантов)?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

A. Ошибка обучения первой модели больше, чем второй и третьей моделей

C. Вторая модель является наиболее «надежной», поскольку она лучше всего работает с неизвестными образцами.

D. Третья модель переоснащение

E. Все модели ведут себя одинаково, потому что мы не видим тестовые данные

Ответ:ACD

Решимость: Порядок многочленов, соответствующих моделям 1, 2 и 3, от малого до большого, то есть модель является простой или сложной. Чем проще модель, тем больше склонность к подгонке, чем сложнее модель, тем больше склонность к подгонке. Первая модель слишком проста и недостаточно приспособлена, третья модель слишком сложна и хорошо подходит для обучающей выборки, но влияние на тестовую выборку будет слабым, то есть переоснащение; вторая модель является наиболее «надежной» «Подходящий эффект хорош для тренировочного образца и тестового образца!

Вопрос 35. Какой из следующих показателей можно использовать для оценки модели линейной регрессии (множественный выбор)?

B. Adjusted R-Squared

Ответ:ABCD

РешимостьКонцепции R-Squared и Adjusted R-Squared, которые мы представили в 3-м квартале, могут использоваться для оценки моделей линейной регрессии. Статистика F относится к статистике, которая соответствует распределению F, когда верна нулевая гипотеза, и в основном используется в эконометрике.

RMSE относится к среднеквадратичной ошибке:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

MSE относится к среднеквадратичной ошибке:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

MAE относится к абсолютной ошибке оценки:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Вышеуказанные показатели могут быть использованы для оценки моделей линейной регрессии.

Q36. В линейной регрессии мы можем использовать нормальные уравнения для решения коэффициентов. Какое из следующих утверждений о нормальных уравнениях является правильным?

A. Не нужно выбирать фактор обучения

B. Когда количество функций велико, скорость работы будет низкой

C. Не требуется повторное обучение

Ответ:ABC

РешимостьДля решения коэффициентов линейной регрессии наиболее часто используемым методом является градиентный спуск, в котором используется итеративная оптимизация. Кроме того, есть еще один способ использования нормального уравнения, основанный на методе наименьших квадратов. Краткий вывод нормального уравнения приведен ниже.

Функция потерь Ein известной модели линейной регрессии имеет вид:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Вычислим производную Ein, пусть ∇Ein = 0:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Тогда мы можем рассчитать W:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Выше приведен процесс решения коэффициента W с использованием нормального уравнения. Можно видеть, что нормальный процесс решения уравнений не требует обучающего фактора, и нет итеративного процесса обучения. Когда количество объектов велико, инверсия матрицы XTX будет очень медленной. В этом случае алгоритм градиентного спуска будет лучше.

Что если матрица XTX необратима, это особая матрица? Фактически, большинство программ, которые вычисляют обратные матрицы, могут справиться с этой проблемой, а также вычислить обратную матрицу. Поэтому обычно псевдообратные матрицы разрешимы.

Y = β0 + β1X1 + β2X2 + ··· + βnXn

Правильно ли следующее утверждение (множественный выбор)?

О. Если переменная Xi меняет небольшую переменную ΔXi, остальные переменные не изменяются. Тогда Y изменит βiΔXi соответственно.

B. βi фиксировано, независимо от того, как меняется Xi

C. Влияние Xi на Y является независимым, и общее влияние X на Y является суммой соответствующих компонентов Xi

Ответ:ABC

Вопрос 38. Сколько коэффициентов (только один признак) мне нужно для построения простейшей модели линейной регрессии?

Ответ:B

Решимость: Простейшая модель линейной регрессии, имеющая только одну особенность, то есть Y = aX + b, которая содержит два коэффициента, a и b.

Вопрос 39. На следующих двух графиках показаны две подогнанные линии регрессии (A и B.) Исходные данные генерируются случайным образом. Теперь я хочу вычислить сумму соответствующих остатков A и B. Примечание. Шкала координат на двух рисунках одинакова.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Что касается суммы соответствующих остатков A и B, верно ли следующее утверждение?

C. A такой же, как B

D. Ничего из перечисленного

Ответ:C

Решимость: Сумма соответствующих остатков в A и B должна быть одинаковой. Функция потерь модели линейной регрессии:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Дифференцируйте функцию потерь и установите ∇J = 0, чтобы получить XW-Y = 0, то есть сумма остатков всегда равна нулю.

Q40. Если две переменные связаны, они должны быть линейными?

Ответ:B

РешимостьКорреляция не обязательно является линейной зависимостью, но также может быть нелинейной корреляцией.

Q41. Две переменные связаны, и их коэффициент корреляции r может быть нулевым. Правильно ли это предложение?

Ответ:A

РешимостьВ общем, коэффициент корреляции r = 0 является необходимым и недостаточным условием, чтобы две переменные были независимы друг от друга. То есть, если две переменные не зависят друг от друга, коэффициент корреляции r должен быть равен 0, а если коэффициент корреляции r = 0, они не обязательно независимы друг от друга. Коэффициент корреляции r = 0 показывает только то, что между двумя переменными нет линейной зависимости, и все же может существовать нелинейная зависимость.

Тогда, если две переменные связаны и существует нелинейная зависимость, то их коэффициент корреляции r равен 0.

Q42.Добавлено использование логистической регрессии для классификации образцов, чтобы получить точность обучающих образцов и точность тестовых образцов. Теперь добавьте новую функцию к данным и оставьте другие функции без изменений. Затем переучите тест. Правильно ли следующее утверждение?

A. Точность обучающих образцов определенно снизится

B. Точность обучающих образцов должна увеличиваться или оставаться неизменной

C. Точность тестового образца определенно снизится

D. Точность образца для испытаний должна увеличиваться или оставаться неизменной

Ответ:B

РешимостьДобавление дополнительных функций в модель обычно повышает точность обучающих выборок и уменьшает смещение. Однако точность тестового образца может не увеличиться, если только добавленные функции не являются действительными.

Точки знаний, соответствующие этому вопросу, также включают в себя увеличение сложности модели, хотя это уменьшит ошибку обучающей выборки, но она склонна к переобучению.

Вопрос 43. На рисунке ниже представлена ​​простая модель линейной регрессии, на которой отмечены остатки прогнозируемого значения и истинное значение каждой точки выборки. Как рассчитывается SSE?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Ответ:A

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Ответ:B

Вопрос 45. Предположим, что средняя зарплата компании составляет 35 000 долларов, а 25-й и 75% зарплаты составляют 21 000 и 53 000 долларов соответственно. Если чья-то зарплата составляет 1 доллар, можно ли считать ее выбросом?

C. Нужно больше информации, чтобы судить

D. Ничего из перечисленного

Ответ:C

Решимость: Выброс относится к отдельному значению в выборке, и его значение значительно отличается от оставшихся наблюдений образца, к которому он (или они) относится, также называемых выбросами, выбросами. В настоящее время существует два метода различения и устранения выбросов: физическая дискриминация и статистическая дискриминация.

Так называемый метод физической дискриминации заключается в оценке того, что измеренные значения данных отклоняются от нормальных результатов из-за внешних помех, человеческих ошибок и т. д. на основе имеющихся у людей знаний об объективных вещах, и оценке в любое время в ходе эксперимента. за исключением.

Статистический дискриминантный метод состоит в том, чтобы дать доверительную вероятность и определить доверительный предел. Любая ошибка, которая превышает этот предел, считается вне диапазона случайных ошибок и рассматривается как выброс. Когда о физической идентификации трудно судить, обычно используется статистическая идентификация.

В этом вопросе объем предоставленной информации слишком мал, чтобы быть уверенным, что он является выбросом.

Q46.В отношении «регрессии» и «корреляции», правильны ли следующие утверждения? Примечание: x является независимой переменной, а y является зависимой переменной.

А. Регрессия и корреляция взаимно симметричны между х и у

Б. Регрессия и корреляция асимметричны между х и у

C. Регрессия асимметрична между x и y, а корреляция симметрична между x и y

D. Регрессия симметрична между x и y, а корреляция асимметрична между x и y

Ответ:D

Решимость: Корреляция вычисляет степень линейной корреляции между двумя переменными и является симметричной. Другими словами, коэффициент корреляции между x и y такой же, как коэффициент корреляции между y и x, различий нет.

Регрессия обычно использует функцию x для прогнозирования выходных данных y, которая является однонаправленной и асимметричной.

Вопрос 47. Зная только среднее значение и медиану переменной, можно ли рассчитать асимметрию переменной?

Ответ:B

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Мы можем использовать соотношение между модой, медианой и средним арифметическим, чтобы определить, является ли распределение асимметричным или левосторонним, но чтобы измерить степень асимметрии распределения, нам нужно вычислить асимметрию.

Q48. Предположим, имеется n наборов данных. В каждом наборе данных среднее значение x равно 9, дисперсия x равна 11, среднее значение y равно 7.50, а коэффициенты корреляции между x и y равны 0,816. Все уравнения линейной регрессии y = 3.00 + 0.500 * x. Итак, являются ли эти n наборов данных одинаковыми?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Ответ:C

Решимость: То, что вам нужно знать, это квартет Анскомба. В 1973 году статистик Ф. Дж. Анскомб построил четыре странных набора данных. В этих четырех наборах данных среднее значение значения x равно 9,0, а среднее значение значения y равно 7,5, дисперсия значения x равна 10,0, дисперсия значения y равна 3,75, их корреляция равна 0,816, а линия линейной регрессии Оба y = 3 + 0,5x. Исходя только из этих статистических данных, фактическая ситуация, отраженная четырьмя наборами данных, очень похожа, но на самом деле четыре набора данных сильно отличаются, как показано на рисунке ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Соответствующий код Python:

Вопрос 49. Как количество наблюдений влияет на переоснащение (множественный выбор)? Примечание: параметры одинаковы во всех случаях.

A. Количество наблюдений мало, что может привести к переоснащению

B. Количество наблюдений невелико, и переоснащение не так просто

C. Множество наблюдений, склонных к переоснащению

D. Есть много наблюдений, и это не легко надеть

Ответ:AD

Решимость: Если количество наблюдений за образцом мало, а количество образцов мало, за счет увеличения сложности модели, такой как порядок полиномов, легко очень хорошо подогнать все точки отбора образцов, что приводит к переобучению. Однако, если имеется много наблюдений, выборка является более репрезентативной. В это время, даже если модель является сложной, переоснащение происходит нелегко, и полученная модель может более точно отражать реальное распределение данных.

Q50.Если для подбора данных выборки используется более сложная модель регрессии, то для отладки параметра регуляризации λ используется регрессия Риджа, чтобы уменьшить сложность модели. ЕслиКогда λ большое,Что касается смещения и дисперсии, каковы правильные следующие утверждения?

A. Если λ велико, отклонение уменьшается и дисперсия уменьшается

B. Если λ большое, отклонение уменьшается и дисперсия увеличивается

C. Если λ велико, отклонение увеличивается, а дисперсия уменьшается

D. Если λ большое, отклонение увеличивается и дисперсия увеличивается

Ответ:C

Решимость: Если лямбда велика, это означает, что сложность модели низкая. В это время, вероятно, произойдет подгонка, соответствующее отклонение возрастет, а дисперсия уменьшится. Сделайте краткое резюме:

λ мало: отклонение уменьшается, дисперсия увеличивается, и может произойти переоснащение

λ больше: отклонение увеличивается, дисперсия уменьшается, и может возникнуть недооценка

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Q51. Если для подбора данных выборки используется более сложная модель регрессии, то для отладки параметра регуляризации λ используется регрессия Риджа, чтобы уменьшить сложность модели. Если λ мало, каковы следующие утверждения о смещении и дисперсии?

A. Если λ мало, отклонение уменьшается и дисперсия уменьшается

B. Если λ мало, отклонение уменьшается, а дисперсия увеличивается

C. Если λ мало, отклонение увеличивается, а дисперсия уменьшается

D. Если λ мало, отклонение увеличивается, а дисперсия увеличивается

Ответ:B

Решимость: См. Q5.

Вопрос 52. Какое из следующих утверждений о регрессии Риджа является правильным (множественный выбор)?

A. Если λ = 0, это эквивалентно общей линейной регрессии

B. Если λ = 0, это не эквивалентно общей линейной регрессии

C. Если λ = + ∞, полученный весовой коэффициент очень мал, близок к нулю

D. Если λ = + ∞, полученный весовой коэффициент очень велик, близок к бесконечности

Ответ:AC

Решимость: Если λ = 0, член регуляризации отсутствует, что эквивалентно общей линейной регрессии. Для определения коэффициента можно использовать метод наименьших квадратов. Если λ = + ∞, «штраф» весового коэффициента на член регуляризации очень велик, а соответствующий весовой коэффициент очень мал, близок к нулю.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Для графического объяснения регуляризации, пожалуйста, обратитесь к моей статье:

Вопрос 53. На трех приведенных ниже остаточных графиках, что из следующего представляет худшую модель по сравнению с другими моделями?

Примечание:

Все остатки были стандартизированы

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

D. Невозможно сравнить

Ответ:C

РешимостьНе должно быть функциональных отношений между прогнозируемым значением и невязкой. Если есть функциональные отношения, это указывает на то, что эффект подгонки модели не очень хорош. В соответствии с рисунком, если абсцисса является прогнозируемым значением, а ордината является остатком, остаток должен быть представлен в виде случайного распределения, не связанного с прогнозируемым значением. Однако функция невязки и прогнозируемое значение на рисунке 3 имеют отношение квадратичной функции, что указывает на то, что модель не идеальна.

Вопрос 54. Какой из следующих методов не имеет замкнутого решения для коэффициентов?

А. Хребет возвращается

C. Ридж возвращается и Лассо

D. Ничего из перечисленного

Ответ:B

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Q55.Смотрите следующий набор данных:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Удалите a, b, c, d. Какая точка больше всего влияет на подобранную линию регрессии?

Ответ:D

Решимость: Линейная регрессия более чувствительна к выбросам в данных. Хотя точка с также является выбросом, она близка к линии регрессии, а остаток невелик. Следовательно, точка d оказывает наибольшее влияние на подобранную линию регрессии.

Вопрос 56. В простой линейной регрессионной модели (только одна переменная), если входная переменная изменяется на одну единицу (увеличивается или уменьшается), насколько изменится выход?

D. Масштабные коэффициенты для регрессионных моделей

Ответ:D

Q57. Логистическая регрессия ограничивает выходную вероятность до [0,1]. Какая из следующих функций это делает?

A. сигмовидная функция

D. Утечка функции ReLU

Ответ:A

Решимость: Выражение и график функции Sigmoid следующие:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Выходное значение сигмоидальной функции ограничено значением [0,1].

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Функция утечки ReLU:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Среди них λ является переменным параметром, например, λ = 0,01.

Вопрос 58. Каково следующее утверждение в линейной регрессии и логистической регрессии о частной производной функции потерь от весового коэффициента?

Ответ:B

Решимость: Функция потерь линейной регрессии:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Функция потерь логистической регрессии:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Выходной слой логистической регрессии содержит нелинейную функцию Сигмоида.Полная производная функции потерь на линейном выходе Z до функции Сигмоида такая же, как частная производная функции потерь линейной регрессии на линейном выходе Z.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Конкретный процесс деривации относительно прост и здесь опущен.

Q59. Предположим, мы используем логистическую регрессию для n мультиклассовой классификации и используем классификацию One-vs-rest. Какое из следующих утверждений является правильным?

A. Для n категорий необходимо обучить n моделей

B. Для n категорий необходимо обучить n-1 моделям

C. Для n категорий, только 1 модель должна быть обучена

D. Ничего из перечисленного

Ответ:A

РешимостьВ таксономии «один против остальных», если существует n категорий, то создается n биномиальных классификаторов, и каждый классификатор классифицирует одну из категорий и остальные категории. При выполнении прогнозов n классификаторов бинома используются для классификации, чтобы получить вероятность того, что данные принадлежат текущему классу, и класс с наибольшей вероятностью выбран в качестве окончательного результата прогнозирования.

В качестве простого примера, есть 3 категории, и категории: <-1, 0, 1>. Построить 3 двоичных классификатора:

Q60.На следующем рисунке показаны две разные модели логистической регрессии (зеленая и черная), соответствующие β0 и β1:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Что касается значений β0 и β1 в двух моделях логистической регрессии, верно ли следующее утверждение?

A. β1 зеленой модели больше, чем β1 черной модели

B. β1 зеленой модели меньше, чем β1 черной модели

C. β1 одинаков для обеих моделей

D. Ничего из перечисленного

Ответ:B

А. Нормальная вероятность графика

Б. Коробочный сюжет

C. расстояние Махаланобиса

Ответ:C

Решимость: График нормальной вероятности обычно используется для проверки соответствия набора данных нормальному распределению. Разброс графиков функциональных отношений между действительными числами и данными нормального распределения. Если этот набор действительных чисел подчиняется нормальному распределению, график нормальной вероятности будет прямой линией. Как показано ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучениютест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Коробчатая диаграмма (Box Plot) представляет собой вид статистической диаграммы, используемой для отображения группы данных, разбросанных по данным. Назван по форме как коробка. Как показано ниже:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Расстояние Махалонобиса в основном используется для вычисления расстояния между точкой выборки и набором данных.Преимущество в том, что оно имеет независимость от масштаба. Формула для расстояния Махаланобиса следующая:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В качестве простого примера, если рост и вес A равны (170, 60000), рост и вес B равны (170, 61000), а рост и вес C равны (160, 60000), где единицами роста и веса являются см Г. Согласно здравому смыслу, размеры тела A и B относительно схожи, но если используется евклидово расстояние, A и C относительно схожи. Причина в том, что дисперсия в измерении высоты меньше, а дисперсия в измерении веса больше. Расстояние Махаланобиса точно устраняет влияние дисперсии каждого измерения, нормализует дисперсию и делает отношения между объектами более совместимыми с реальной ситуацией.

Поэтому расстояние Махаланобиса больше подходит для оценки позиционного отношения между точкой выборки и набором данных, а также того, находится ли оно вне группы. Графики нормальной вероятности, коробчатые и точечные диаграммы являются интуитивно понятными и легко допускают ошибки.

В62. Каковы различия между логистической регрессией и множественным регрессионным анализом?

А. Логистическая регрессия используется для прогнозирования вероятности события

B. Логистическая регрессия, используемая для расчета индекса соответствия

C. Логистическая регрессия, используемая для оценки коэффициентов регрессии

D. все вышеперечисленное

Ответ:D

Решимость: Опция. Логистическая регрессия используется для решения проблемы классификации. Она может использоваться для прогнозирования вероятности события.

Вариант B. В целом, чтобы измерить, насколько хорошо реальные образцы соответствуют модели, логистическая регрессия может быть использована для расчета индекса соответствия.

Вариант C. После подбора модели логистической регрессии мы также можем судить о соотношении (положительной или отрицательной корреляции) между каждым независимым признаком и целевым выходом по значению коэффициента.

Вопрос 63. Какое из следующих утверждений о начальной загрузке является правильным?

A. Из общего числа M объектов извлеките m объектов с заменой (m 10, это означает сильную мультиколлинеарность. Кроме того, мы можем использовать допуск в качестве показателя мультиколлинеарности.

Коэффициент инфляции дисперсии (VIF): отношение дисперсии, когда есть мультиколлинеарность между объясняющими переменными, к дисперсии, когда нет мультиколлинеарности. VIF обратно связан с толерантностью. Подробное введение может проверить статистические данные.

Однако удаление связанных переменных может привести к потере информации. Чтобы сохранить эти переменные, мы можем использовать регуляризацию для «наказания» регрессионных моделей, таких как регрессия Риджа и Лассо. Кроме того, мы можем добавить некоторые переменные, связанные со случайным шумом, чтобы они отличались друг от друга. Однако добавление шума может повлиять на точность прогнозирования, поэтому этот метод следует использовать с осторожностью.

Вопрос 67. После оценки модели я обнаружил, что в модели наблюдается высокий уклон. Что мне делать?

А. Уменьшить количество функций в модели

B. Увеличить количество функций в модели

C. Увеличить размер выборки

D. Все приведенные выше утверждения верны

Ответ:B

Решимость: Если модель имеет высокий уклон, это означает, что модель слишком проста. Чтобы сделать модель более надежной, мы можем добавить больше возможностей в пространство функций. Добавление количества образцов уменьшит дисперсию.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В68. При построении модели дерева решений мы разделяем узел для определенного атрибута. Какое из четырех изображений ниже соответствует наибольшему приросту информации?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Ответ:A

Решимость: В «Статистических методах обучения» Ли Хана получение информации имеет следующие определения: информационное усиление функции g (D, A) для набора обучающих данных D, определяемое как эмпирическая энтропия H (D) для набора D и функция A для Эмпирическая условная энтропия H (D | A) для D при данных условиях, то есть

В этой задаче мы сначала вычислим эмпирическую энтропию H (D):

На рисунке 1 эмпирическая условная энтропия H (D | A):

H(D|A) = 5/14 * (-2/5*log(2/5)-3/5*log(3/5))

Прирост информации на рисунке 1:

На рисунке 2 эмпирическая условная энтропия H (D | A):

H(D|A) = 7/14 * (-3/7*log(3/7)-4/7*log(4/7))

Прирост информации на рисунке 2:

На рисунке 3 эмпирическая условная энтропия H (D | A):

H(D|A) = 8/14 * (-6/8*log(6/8)-2/8*log(2/8))

Прирост информации на рисунке 3:

На рисунке 4 эмпирическая условная энтропия H (D | A):

H(D|A) = 4/14 * (-2/4*log(2/4)-2/4*log(2/4))

Прирост информации на рисунке 4:

Очевидно, что Outlook 1 имеет наибольший информационный прирост.

Вопрос 69. При правильном разделении узлов в дереве решений следующее утверждение о получении информации является правильным (множественный выбор)?

A. Узлу с высокой степенью чистоты требуется больше информации для его описания.

B. Информационный выигрыш может быть получен с помощью «1-битной энтропии»

C. Если вы выберете атрибут со многими собственными значениями, прирост информации будет

Ответ: BC

В70.Если модель SVM не подходит, какой из следующих методов может решить эту проблему?

A. Увеличьте значение штрафного параметра C

B. Уменьшите значение штрафного параметра C

C. Уменьшить коэффициент ядра (гамма-параметр)

Ответ:A

Решимость: Модель SVM недостаточно приспособлена, что указывает на то, что модель слишком проста, и сложность модели необходимо увеличить.

Цели Soft-Margin SVM:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Чем больше значение C, тем сложнее соответствующий модельный месяц. Далее мы рассмотрим сложность модели, когда C принимает разные значения.

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Как видно из рисунка выше, когда C = 1, модель относительно проста, есть больше точек для ошибок классификации, и происходит подгонка. По мере того как C становится больше, модель становится все более сложной, а количество ошибок классификации уменьшается. Однако, когда значение C велико, хотя точность классификации повышается, вполне вероятно, что шум также обрабатывается, что может привести к перегрузке.

Для функции ядра SVM чем больше коэффициент ядра, тем сложнее модель. Например, соответствующий эффект классификации, когда коэффициент ядра равен 1, 10, 100, выглядит следующим образом:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Из рисунка видно, что когда коэффициент ядра относительно мал, линия классификации является относительно гладкой. По мере того, как коэффициент ядра становится все больше и больше, линия классификации становится все более сложной и искаженной.В итоге линия классификации становится независимой небольшой областью. Почему такая разница? Это связано с тем, что чем больше коэффициент ядра, тем меньше соответствующая функция ядра, линейная комбинация конечного числа функций ядра является более дискретной, а эффект классификации не является хорошим. Поэтому в SVM также появится переоснащение, и правильный выбор коэффициента ядра особенно важен.

Q71. Предположим, мы визуализируем различные значения гаммы (коэффициент ядра RBF γ) в алгоритме машины опорных векторов (SVM). По какой-то причине мы забыли визуализацию помеченных значений гаммы. Пусть g1, g2 и g3 соответствуют рисункам 1, 2 и 3 ниже. Правильно ли следующее утверждение о g1, g2 и g3?

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

E. g1 0: SV и правильная классификация

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

Для Soft-SVM (линейная неделимая) вы можете определить, является ли текущая выборка (xn, yn) SV, согласно соотношению между значением фактора Лагранжа αn и параметром C.

Если αn = 0: не SV, и классификация верна

Ответ:D

РешимостьВ этом вопросе рассматриваются основные понятия перекрестной проверки в k-кратном порядке и Bootstrap.

Перекрестная проверка по методу Leave-One-Out выбирает N-1 выборок каждый раз в качестве обучающего набора, а другую выборку в качестве набора проверки повторяется N раз. Следовательно, выход из одного метода эквивалентен обучению N моделей, что занимает больше всего времени.

5-кратная перекрестная проверка разделяет N выборок на 5 частей, 4 из которых используются в качестве обучающего набора, а другая используется в качестве проверочного набора и повторяется 5 раз. Следовательно, 5-кратная перекрестная проверка эквивалентна наличию 5 моделей для обучения.

Двойная 5-кратная перекрестная проверка эквивалентна 10 моделям для обучения.

Q94. Выбор переменной используется для выбора лучшего подмножества дискриминаторов. Если нужно рассмотреть эффективность модели, какую выборку переменных мы должны рассмотреть? (Несколько вариантов)

A. У нескольких переменных одна и та же функция?

Б. Является ли модель интерпретирующей

C. Содержит ли функция достоверную информацию

D. Перекрестная проверка

Ответ:ACD

Решимость: В этом вопросе рассматривается выбор характеристик модели.

Если несколько переменных пытаются выполнить одну и ту же работу, то может иметь место множественная коллинеарность, которая влияет на производительность модели и требует рассмотрения. Если функция содержит достоверную информацию, она всегда увеличивает достоверную информацию модели. Нам нужно применить перекрестную проверку, чтобы проверить общность модели. Что касается производительности модели, нам не нужно видеть интерпретируемость модели.

Q95. Что такое описание точности, отзыва и F1 алгоритма классификации? Что не так?

B. Показатель отзыва относится к отношению числа извлеченных связанных документов к общему количеству связанных документов в библиотеке документов и измеряет частоту повторных обращений в поисковой системе.

C. Правильная скорость, скорость возврата и значение F находятся между 0 и 1. Чем ближе значение к 0, тем выше точность или отзыв.

D. Чтобы разрешить конфликт между точностью и отзывом, были введены баллы F1

Ответ:C

TP-Predict положительные числа как положительные числа

FN-прогнозировать положительный класс как отрицательный номер класса

FP-прогнозировать отрицательные числа как положительные числа

TN-прогнозировать отрицательные классы как отрицательные числа классов

Точность определяется как: P = TP / (TP + FP)

Коэффициент отзыва определяется как: R = TP / (TP + FN)

Значение F1 определяется как: F1 = 2PR / (P + R)

Точность и отзыв и F1 находятся между 0 и 1. Точность и отзыв высокие, и значение F1 также высокое. Нет такого понятия, что чем ближе значение к 0, тем выше должно быть значение.

В96.Если в модель линейной регрессии добавлен дополнительный признак переменной, верно ли следующее утверждение?

A. R-Squared и Скорректированный R-Squared увеличатся

B. R-Squared остается без изменений

C. R-Squared и Скорректированный R-Squared уменьшатся

D. Ничего из перечисленного

Ответ:D

Решимость: В этом вопросе рассматриваются критерии оценки для моделей линейной регрессии, R-Squared и Скорректированный R-Squared.

В задачах линейной регрессии R-Squared используется для измерения сходства между уравнением регрессии и выходом реальной выборки. Его выражение выглядит следующим образом:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

В приведенной выше формуле часть числителя представляет сумму квадрата разности между истинным значением и прогнозируемым значением, аналогично среднеквадратичной ошибке MSE, а часть знаменателя представляет сумму квадрата разности между действительным значением и средним, аналогично дисперсии Var. По значению R-Squared оцените качество модели: если результат равен 0, модель плохо подходит, если результат равен 1, модель не содержит ошибок. В целом, чем больше R-Squared, тем лучше подходит модель. R-Squared отражает, насколько он точен, потому что с увеличением количества выборок R-квадрат неизбежно увеличивается, и он не может по-настоящему количественно оценить точность.

Глядя только на R-Squared, нельзя сделать вывод о том, значимы ли добавленные функции. Вообще говоря, с добавлением функции R-квадрат может стать больше или остаться неизменным, и эти два значения не обязательно могут быть положительно коррелированы.

Если используется Скорректированный R-квадрат:

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

1, чем больше, тем лучше. Если добавленные функции действительны, Скорректированный R-квадрат будет увеличиваться, в противном случае он будет уменьшаться.

Q97.Как показано на рисунке ниже, тот же набор данных обучен для получения 3 моделей. Для оценки этих 3 моделей, какое правильное утверждение? (Несколько вариантов)

тест по машинному обучению. Смотреть фото тест по машинному обучению. Смотреть картинку тест по машинному обучению. Картинка про тест по машинному обучению. Фото тест по машинному обучению

A. Первая модель имеет наибольшую ошибку обучения

B. Третья модель работает лучше всего, потому что ее ошибка обучения минимальна

C. Вторая модель является наиболее надежной и должна работать лучше всего на испытательном комплекте

D. Третья модель оснащения

Ответ:ACD

РешимостьВ этом вопросе рассматриваются понятия недостаточного оснащения и дополнительного оснащения моделей машинного обучения.

Очень просто, первая модель слишком проста, возникает недостаточное оснащение, ошибка обучения велика, а производительность на тренировочном и тестовом образцах низкая. Вторая модель лучше, имеет сильную способность к обобщению, а модель более надежна, она хорошо работает как на обучающей, так и на тестовой выборках. Третья модель слишком сложна, и возникает переоснащение. Хотя ошибка обучающей выборки невелика, она обычно плохо работает с набором тестовой выборки, а ее способность к обобщению очень мала.

При выборе модели следует избегать подгонки и подгонки.Для сложных моделей вы можете использовать методы регуляризации.

В98.Если используется модель линейной регрессии, каково правильное следующее утверждение?

A. Важно проверить выбросы, потому что линейная регрессия чувствительна к выбросам

B. Линейный регрессионный анализ требует, чтобы все переменные объекты имели нормальное распределение

C. Линейная регрессия в основном не предполагает мультиколлинеарности в данных

D. Ничего из перечисленного

Ответ:A

РешимостьВ этом вопросе рассматриваются некоторые основные принципы линейной регрессии.

Выброс является очень влиятельной точкой в ​​данных, которая может изменить наклон конечной линии регрессии. Поэтому удаление или обработка выбросов всегда были важны в регрессионном анализе.

Полезно понять распределение переменных характеристик. Характеристики переменных, аналогичные нормальному распределению, полезны для повышения производительности модели. Например, одна из вещей, часто выполняемых во время предварительной обработки данных, состоит в том, чтобы нормализовать функции данных к распределению (0,1). Но это не обязательно.

Мультиколлинеарность возникает, когда модель содержит несколько функций, которые связаны друг с другом. Следовательно, характеристики переменных в линейной регрессии должны минимизировать избыточность. С выбором абсолютно.

A. Var1 и Var2 сильно коррелированы

B. Var1 и Var2 имеют множественную коллинеарность, модель может удалить один из признаков

C. Для Var3 и Var1 невозможно иметь коэффициент корреляции 1,23

Ответ:ABC

РешимостьВ этом вопросе рассматриваются основные понятия коэффициентов корреляции.

Q100. Если между независимой переменной X и зависимой переменной Y существует очень нелинейная и сложная связь, то древовидная модель, вероятно, превосходит классический метод регрессии. Это утверждение правильно?

Ответ:A

РешимостьВ этом вопросе рассматривается выбор модели регрессии.

Когда данные нелинейные, классические регрессионные модели не очень обобщаемы, а древовидные модели обычно работают лучше.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *