соколов лекции машинное обучение
Машинное обучение 1
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 1-2 модулях.
Проводится с 2016 года.
Полезные ссылки
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+ @gmail.com (например, hse.cs.ml+171@gmail.com)
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/NRpKJ09prtRlMTli
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего задавать на форуме.
Семинары
Группа | Преподаватель |
---|---|
191 (МОП) | Хрушков Павел Вадимович |
192 (МОП) | Соколов Евгений Андреевич |
193 (МОП) | Садртдинов Ильдус Рустемович |
194 (АДИС) | Цвигун Аким Олегович |
195 (РС) | Каюмов Эмиль Марселевич |
196 (РС) | Шабалин Александр Михайлович |
197 (АПР) | Глазкова Екатерина Васильевна |
198 (ТИ) | Ульянкин Филипп @ppilif |
199 (МИ) | Семенкин Антон Александрович |
1910 (ПР) | Биршерт Алексей Дмитриевич |
ФЭН | Зехов Матвей Сергеевич |
Пермь (БИ) | Собянин Кирилл Валентинович |
Пермь (ПИ) | Собянин Кирилл Валентинович |
Консультации
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Итог = Округление(0.15 * ПР + 0.4 * ДЗ + 0.15 * КР + 0.3 * Э)
ПР — средняя оценка за самостоятельные работы на семинарах
ДЗ — средняя оценка за практические домашние работы на Python
КР — оценка за контрольную работу
Э — оценка за экзамен
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. Есть исключение: в течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!
Лекция 1 (3 сентября). Введение в машинное обучение. Основные термины, постановки задач и примеры применения. [Конспект] [Запись лекции]
Лекция 2 (10 сентября). Модель линейной регрессии. Подготовка данных для линейных моделей. Измерение ошибки в задачах регрессии. Устойчивые к выбросам функции потерь. Относительные функции потерь. [Конспект] [Запись лекции]
Лекция 3 (17 сентября). Переобучение. Отложенная выборка и кросс-валидация. Аналитическое решение для линейной регрессии и MSE. Градиентный спуск. [Конспект] [Запись лекции]
Лекция 4 (24 сентября). Стохастический градиентный спуск. SAG, Momentum, AdaGrad, Adam. Регуляризация линейных моделей. [Конспект] [Запись лекции]
Лекция 5 (1 октября). Разреженные линейные модели. Линейные классификаторы. Обучение линейных классификаторов через верхние оценки на пороговую функцию потерь. [Конспект] [Запись лекции]
Лекция 6 (8 октября). Метрики качества классификации. Доля верных ответов. Точность, полнота, F-мера и другие способы усреднения. ROC-кривая и PR-кривая, площади под ними. [Конспект] [Запись лекции]
Лекция 7 (15 октября). Оценивание вероятностей. Логистическая регрессия. [Конспект] [Запись лекции]
Лекция 8 (29 октября). Метод опорных векторов. Многоклассовая классификация. Метрики качества многоклассовой классификации. [Конспект по SVM] [Конспект по многоклассовой классификации] [Запись лекции]
Лекция 9 (5 ноября). Решающие деревья. Жадный алгоритм обучения дерева. Функционалы качества предикатов. Связь решающих деревьев и линейных моделей. Разложение ошибки на смещение и разброс. [Конспект по деревьям] [Конспект по BVD] [Запись лекции]
Семинары
Семинар 1. Типы данных и виды задач машинного обучения [Ноутбук]. Библиотека pandas [Ноутбук].
Семинар 2. Исследование данных. Библиотека scikit-learn. Подготовка данных для линейных моделей. [Ноутбук]
Семинар 4. Обработка данных. Работа с категориальными и текстовыми данными. Mean-target encoding. [Конспект] [Ноутбук]
Семинар 5. Метрики качества классификации. [Конспект]
Семинар 6. Оценивание вероятностей классов. Калибровка вероятностей. Квантильная регрессия. [Конспект] [Ноутбук]
Семинар 7. Решающие деревья. Критерии информативности. [Конспект] [Ноутбук]
Практические задания
Задание 1. Pandas и распределение студентов ПМИ по элективам.
Мягкий дедлайн: 25.09.2021 23:59 MSK.
Жесткий дедлайн: 28.09.2021 23:59 MSK.
Задание 2. Разведочный анализ данных, линейная регрессия и разработка признаков.
Мягкий дедлайн: 11.10.2021 23:59 MSK.
Жесткий дедлайн: 14.10.2021 23:59 MSK.
Задание 3. Градиентный спуск своими руками.
Мягкий дедлайн: 27.10.2021 23:59 MSK.
Жесткий дедлайн: 29.10.2021 23:59 MSK.
Задание 4. Градиентный спуск своими руками.
Мягкий дедлайн: 10.11.2021 23:59 MSK.
Жесткий дедлайн: 13.11.2021 23:59 MSK.
Теоретические домашние задания
Теоретические ДЗ не проверяются, но задачи из них могут войти в проверочные работы на семинарах.
Соревнования
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«[ПМИ] Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:
1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.
2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.
3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.
В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-3 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования сдадут в anytask отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
В некоторых соревнованиях данные взяты из завершившегося соревнования на Kaggle. Категорически запрещено использовать данные из оригинального соревнования для восстановления целевой переменной на тестовой выборке.
Соревнование 1
Бонусы за соревнования
За успешное участие в соревнованиях по анализу данных могут быть выставлены бонусные баллы, которые можно прибавить к оценке за любое практическое или теоретическое домашнее задание, а также за самостоятельную работу. Под успешным участием понимается попадание в топ-10% мест; если соревнование особо сложное и крупное, может рассматриваться и попадание в топ-20% мест. Конкретное число баллов определяется преподавателями и зависит от сложности соревнования и занятого места. За одно соревнование можно получить не более 5 баллов. Для получения оценки необходимо предоставить краткий отчёт о решении задачи.
Лекция Евгения Соколова «Машинное обучение, автоматизация и новые профессии»
29 ноября состоится первая лекция цикла «Data culture: машинное обучение и цифровая трансформация» на тему «Машинное обучение, автоматизация и новые профессии» в рамках проекта «Университет, открытый городу: лекции молодых ученых Вышки в Культурном центре ЗИЛ».
Машинное обучение — часть компьютерных наук, где изучаются методы извлечения закономерностей из данных. Распознавание лиц, поиск связей между мутациями в геноме и заболеваниями, перенос стиля с одной фотографии на другую, персональные рекомендации товаров или новостей — лишь малая доля задач, которые решаются сегодня методами машинного обучения. Мы поговорим о том, какие задачи машинное обучение позволяет автоматизировать, как это влияет на требования к специалистам, какие профессии могут исчезнуть, а какие уже сейчас начинают появляться.
Лектор — Евгений Соколов, заместитель руководителя департамента больших данных и информационного поиска факультета компьютерных наук НИУ ВШЭ, руководитель группы качества рекомендаций Яндекс.Дзен.
Начало лекции в 19:30.
Приглашаются все желающие.
Количество мест ограничено, просьба пройти электронную регистрацию.
Адрес: г. Москва, ул. Восточная, д. 4, корп. 1, ст. м. «Автозаводская», Лекторий Культурного центра ЗИЛ.
Справка
Проект «Университет, открытый городу: лекции молодых ученых Вышки в Культурном центре ЗИЛ» дает возможность познакомиться с открытиями и разработками успешных молодых исследователей университета.
С 2016 года лекции объединяются в циклы, каждый из которых посвящен определенной теме. Цикл состоит из четырех встреч, которые проходят в течение двух месяцев. По окончании цикла слушатели могут получить сертификат. Уже прошло пять циклов лекций: «Когнитивные науки и нейротехнологии», «Создание онлайн-игр», «Человек и город», «Медиа: вчера, сегодня, завтра» и «Глобальные технологические тренды». Тема шестого цикла – «Технологии будущего». Тема седьмого цикла – «Data culture: машинное обучение и цифровая трансформация».
Машинное обучение 2
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 3-4 модулях.
Проводится с 2016 года.
Полезные ссылки
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+ @gmail.com (например, hse.cs.ml+161@gmail.com)
Канал в telegram для объявлений: https://t.me/hse_cs_ml_2
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/E8grJC7Gn4nLuEv2
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.
Семинары
Группа | Преподаватель | Учебный ассистент |
---|---|---|
181 (МОП) | Зиннурова Эльвира Альбертовна | Лёша Биршерт, Илья Анищенко |
182 (МОП) | Соколов Евгений Андреевич | Ильдус Садртдинов |
Курс по выбору для ПМИ | Каюмов Эмиль Марселевич | Игорь Федоров |
Межампус | Трошин Сергей Дмитриевич | Шабалин Евгений |
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Итог = Округление(0.4 * ДЗ + 0.2 * К + 0.1 * ПР + 0.3 * Э)
ПР — средняя оценка за самостоятельные работы на семинарах
ДЗ — средняя оценка за практические домашние работы на Python
К — оценка за коллоквиум
Э — оценка за экзамен
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. Есть исключения, о них написано ниже.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!
Лекция 1 (22 января). Двойственные представления для линейной регрессии и SVM. Ядра. Теорема Мерсера. Способы построения ядер. Полиномиальные и гауссовы ядра. [Конспект] [Запись лекции]
Лекция 2 (29 января). Двойственная задача SVM. Типы объектов в SVM. Kernel trick. Аппроксимации ядер. Метод случайных признаков Фурье. [Конспект] [Запись лекции]
Лекция 3 (5 февраля). Смеси распределений. Модели со скрытыми переменными. KL-дивергенция. EM-алгоритм в общем виде, его сходимость. [Конспект] [Запись лекции]
Лекция 4 (12 февраля). Поиск аномалий. Методы на основе восстановления плотности. Local Outlier Factor. [Конспект] [Запись лекции]
Лекция 5 (19 февраля). Поиск аномалий. Одноклассовый SVM. Isolation Forest. Методы кластеризации. DBSCAN. [Конспект по аномалиям] [Запись лекции]
Лекция 6 (26 февраля). Методы кластеризации. Иерархическая кластеризация. Графовые методы. Спектральная кластеризация. [Конспект] [Запись лекции]
Лекция 7 (5 марта). Внешние метрики качества кластеризации. Тематическое моделирование. [Конспект по тематическому моделированию] [Запись лекции]
Лекция 8 (12 марта). Частичное обучение. Self-training. Вероятностные методы. S3VM. Регуляризация на основе лапласиана графа. [Конспект] [Запись лекции]
Лекция 9 (19 марта). Метод k ближайших соседей. Расстояния на текстах. Быстрый поиск ближайших соседей. Locality-sensitive hashing. [Конспект] [Запись лекции]
Лекция 10 (26 марта). Быстрый поиск ближайших соседей. Locality-sensitive hashing. NSW и HNSW. [Запись лекции]
Лекция 11 (9 апреля). Задача ранжирования. Метрики качества ранжирования. Примеры факторов ранжирования. Поточечный, попарный и списочный подходы. [Конспект] [Запись лекции]
Лекция 12 (23 апреля). Рекомендательные системы. Типичная архитектура рекомендательной системы. Memory-based подход. Методы на основе матричных разложений. [Конспект] [Запись лекции]
Лекция 13 (30 апреля). Рекомендательные системы. Свойства моделей, основанных на матричных разложениях. Неявная информация и iALS. Контентные модели. [Конспект] [Запись лекции]
Лекция 14 (14 мая, гостевая лекция, Дмитрий Симаков). AutoML. [Слайды] [Запись лекции]
Лекция 15 (21 мая). Рекомендательные системы. Холодные рекомендации. Метрики качества рекомендаций. [Конспект] [Запись лекции]
Лекция 16 (4 июня). Нейросетевые методы для табличных данных. [Запись лекции]
Семинары
Семинар 1. Задачи условной оптимизации и теорема Куна-Таккера. [Конспект]
Семинар 2. Задачи на построение ядер. Задачи на прямую и двойственную формулировки метода опорных векторов. [Конспект]
Семинар 3. Задачи на EM-алгоритм. [Конспект]
Семинар 4. Основы вероятностного подхода в машинном обучении. [Конспект]
Семинар 5. Спектральная кластеризация. [Конспект]
Семинар 6. Отбор признаков. Понижение размерности и PCA. [Конспект] [Конспект по PCA]
Семинар 7. Особенности метода k ближайших соседей. Метрики. [Конспект]
Семинар 8. Обучение метрик. [Конспект]
Семинар 9. Multi-label классификация. [Конспект]
Семинар 10. Попарные методы ранжирования. [Конспект]
Семинар 11. Uplift-моделирование.
Семинар 12. Матричные разложения в рекомендательных системах. Factorization machines. [Конспект]
Семинар 13. Интерпретация моделей. [Конспект]
Семинар 14. Differential privacy.
Теоретические задания
Теоретическое домашнее задание 5: ядровые методы [ссылка]
Теоретическое домашнее задание 6: EM-алгоритм [ссылка]
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
Задание 8. Метод опорных векторов и аппроксимация ядер
Мягкий дедлайн: 21.02.2021 01:59.
Жесткий дедлайн: 24.02.2021 01:59.
Задание 9. ЕМ-алгоритм
Мягкий дедлайн: 09.03.2021 01:59
Жесткий дедлайн: 13.03.2021 01:59
Задание 10. Обучение без учителя
Мягкий дедлайн: 28.03.2021 01:59
Жёсткий дедлайн: 01.04.2021 01:59
Задание 11. Обучение метрик
Мягкий дедлайн: 14.04.2021 00:59
Жесткий дедлайн: 18.04.2021 00:59
Задание 12. Несбалансированные задачи
Мягкий дедлайн: 10.05.2021 00:59
Жесткий дедлайн: 14.05.2021 00:59
Задание 13. Поиск ближайших соседей
Жесткий дедлайн: 19.05.2021 05:59
Соревнования
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:
1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.
2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.
3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.
В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-5 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования пришлют на почту курса отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
Коллоквиум
На каждого студента отводится 20 минут. За это время он должен ответить на 3 вопроса из теоретического минимума и решить задачу. Каждый вопрос из теоретического минимума «стоит» 7/3 балла, задача — 3 балла. Время на подготовку не предусмотрено.
Экзамен
Вопросы для подготовки к экзамену совпадают со списком вопросов к коллоквиуму.
Экзамен пройдёт дистанционно в письменном формате 21 июня. Продолжительность — 120 минут. В экзаменационном варианте будет 4 вопроса, из них два по теории, два в формате задач.
Машинное обучение 2/2019 2020
Содержание
О курсе
Курс читается для студентов 3-го курса ПМИ ФКН ВШЭ в 3-4 модулях.
Проводится с 2016 года.
Полезные ссылки
Почта для сдачи домашних заданий (на самом деле задания сдаются в AnyTask, но если он не работает, то присылайте на почту): hse.cs.ml+ @gmail.com (например, hse.cs.ml+161@gmail.com)
Чат в telegram для обсуждений (предназначение чата до конца не ясно, вопросы может быть правильнее задавать в чатах групп): https://t.me/joinchat/A5rlQBUrWTeXl7eBbnyBcQ
Оставить отзыв на курс: форма
Вопросы по курсу можно задавать на почту курса, а также в телеграм лектору (esokolov@) или семинаристу. Вопросы по материалам лекций/семинаров и по заданиям лучше всего оформлять в виде Issue в github-репозитории курса.
Семинары
Правила выставления оценок
В курсе предусмотрено несколько форм контроля знания:
Итоговая оценка вычисляется на основе оценки за работу в семестре и оценки за экзамен:
Итог = Округление(0.3 * ДЗ + 0.15 * П + 0.2 * К + 0.1 * ПР + 0.25 * Э)
ПР — средняя оценка за самостоятельные работы на семинарах
ДЗ — средняя оценка за практические домашние работы на Python
П — оценка за проект
К — оценка за коллоквиум
Э — оценка за экзамен
Правила сдачи заданий
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются. Даже при опоздании на одну секунду. Сдавайте заранее. Есть исключения, о них написано ниже.
При обнаружении плагиата оценки за домашнее задание обнуляются всем задействованным в списывании студентам, а также подаётся докладная записка в деканат. Следует помнить, что при повторном списывании деканат имеет право отчислить студента.
При наличии уважительной причины пропущенную проверочную можно написать позднее, а дедлайн по домашнему заданию может быть перенесён. Дедлайн по домашнему заданию переносится на количество дней, равное продолжительности уважительной причины. Решение о том, является ли причина уважительной, принимает исключительно учебный офис.
Лекции
Ко всем конспектам на GitHub есть исходники. Исправления и дополнения всячески приветствуются!
Лекция 13 (24 января). Двойственные представления для линейной регрессии и SVM. Ядра. Теорема Мерсера. Способы построения ядер. Полиномиальные и гауссовы ядра. [Конспект]
Лекция 14 (28 января). Двойственная задача SVM. Типы объектов, связь между решениями прямой и двойственной задач. Аппроксимация ядер. Метод случайных признаков Фурье. [Конспект]
Лекция 15 (7 февраля). Смеси распределений. Модели со скрытыми переменными. KL-дивергения. EM-алгоритм в общем виде, его сходимость. [Конспект]
Лекция 16 (14 февраля). Одноклассовые методы и поиск аномалий. Восстановление плотности. Одноклассовый метод опорных векторов. Isolation forest. [Конспект]
Лекция 17 (21 февраля). Спектральная кластеризация и лапласиан графа. Внешние метрики качества кластеризации.
Лекция 18 (28 февраля). Частичное обучение. Self-training. Вероятностные методы. S3VM. Графовые методы частичного обучения. [презентация по теме]
Лекция 19 (6 марта). Рекомендательные системы. Модели со скрытыми переменными. Implicit ALS. [Конспект]
Лекция 20 (13 марта). Рекомендательные системы. Метрики качества рекомендаций. [Конспект]
Лекция 21 (20 марта). Метрические методы. Метрики для текстов, WMD. Быстрый поиск ближайших соседей. Locality-sensitive hashing. [Конспект] [Запись вебинара]
Лекция 22 (27 марта). Locality-sensitive hashing. Композиции хэш-функций. Хэш-функции для косинусного и евклидова расстояний. NSW и HNSW. [Конспект] [Запись вебинара] [Конспект с вебинара]
Лекция 23 (10 апреля). Краудсорсинг: агрегация оценок, incremental relabeling, performance-based pricing (Валентина Фёдорова, Яндекс.Толока). [Слайды 1] [Слайды 2] [Запись вебинара]
Лекция 24 (17 апреля). Ранжирование. Метрики качества ранжирования, позиционные и каскадные метрики. PageRank. Методы ранжирования. [Конспект] [Запись вебинара] [Конспект с вебинара]
Лекция 25 (24 апреля). Ранжирование. Списочные методы и прямая оптимизация метрик качества ранжирования. Обобщённые линейные модели. [Запись вебинара] [Конспект с вебинара]
Семинары
Семинар 13. Решение задач условной оптимизации. Условия Куна-Таккера. [Конспект]
Семинар 14. Задачи на построение ядер. Задачи на прямую и двойственную формулировки метода опорных векторов. [Конспект]
Семинар 15. Задачи на вывод шагов EM-алгоритма. [Конспект]
Семинар 16. Задачи на вывод шагов EM-алгоритма. [Конспект]
Семинар 17. Байесовский подход. [Конспект]
Семинар 18. Спектральная кластеризация. [Конспект]
Семинар 19. Матричные разложения, ALS и HALS. Факторизационные машины. [Конспект]
Семинар 20. Метод k ближайших соседей. [Конспект]
Семинар 21. Генерация и отбор признаков. [Конспект]
Семинар 22. Интерпретация моделей. [Конспект]
Семинар 23. Обучение попарных соотношений. [Конспект]
Семинар 24. Обобщённые линейные модели. [Конспект]
Теоретические задания
Теоретическое домашнее задание 5: ядровые методы [ссылка]
Теоретическое домашнее задание 6: EM-алгоритм [ссылка]
Теоретическое домашнее задание 7: одноклассовые методы, частичное обучение, рекомендательные системы [ссылка]
Практические задания
За каждый день просрочки после мягкого дедлайна снимается 1 балл. После жёсткого дедлайна работы не принимаются, но есть исключение. В течение семестра каждый студент может не более 2 раз сдать задание после жёсткого дедлайна — в этом случае за каждый день просрочки продолжает вычитаться по одному баллу (если не оговорено иное).
Задание 8. Метод опорных векторов и аппроксимация ядер.
Мягкий дедлайн: 30.03.2020 02:59
Жесткий дедлайн: 03.04.2020 23:59
Задание 9. EM-алгоритм.
Мягкий дедлайн: 30.04.2020 07:00
Жесткий дедлайн: 03.05.2020 07:00
Задание 10. Рекомендательные системы.
Мягкий дедлайн: 25.05.2020 23:59
Жесткий дедлайн: 28.05.2020 23:59
Задание 11. Поиск ближайших соседей (бонусное задание).
Жесткий дедлайн: 12.06.2020 07:00
Задание 12. Обобщённые линейные модели (бонусное задание).
Жесткий дедлайн: 09.06.2020 23:59
Проект
Одной из форм контроля является проект. Результатом выполнения проекта должен быть отчёт, содержащий в себе:
Не нужно писать формальный текст — будет здорово, если у вас получится интересная и доступная обзорная статья.
Можно предлагать свои темы — их нужно вписать в ту же табличку. Такие темы нужно согласовать с лектором.
По умолчанию каждую тему может взять одна команда из 2-3 студентов. По согласованию с лектором одну тему может взять несколько команд.
Дедлайн сдачи отчёта и кода: 4 июня 23:59.
Соревнования
Правила участия и оценивания
В соревновании по анализу данных вам предлагается по имеющимся данным решить некоторую задачу, оптимизируя указанную метрику, и отправить ответы для заданного тестового множества. Максимальное количество посылок в сутки ограничено (как правило, разрешается сделать 2 посылки), ближе к концу соревнования вам будем необходимо выбрать 2 посылки, которые вы считаете лучшими. Тестовые данные делятся на публичные и приватные в некотором соотношении, на основе которых строятся публичный и приватный лидерборды соответственно, при этом публичный лидерборд доступен в течение всего соревнования, а приватный строится после его окончания для выбранных вами посылок.
В лидербордах каждого из соревнований присутствуют несколько базовых решений (бейзлайнов), каждое из которых соответствует определённой оценке. Например, для получения оценки не ниже 8 баллов необходимо, чтобы ваше решение на приватном лидерборде оказалось лучше соответствующего бейзлайна. Далее для студента, преодолевшего бейзлайн на N_1 баллов, но не преодолевшего бейзлайн на N_2 балла, итоговая оценка за соревнование рассчитывается по равномерной сетке среди всех таких студентов в зависимости от места в приватном лидерборде среди них; если быть точными, то по следующей формуле:
где M — количество студентов (из всех студентов, изучающих курс), преодолевших бейзлайн на N_1 баллов, но не преодолевших бейзлайн на N_2 балла;
i — место (начиная с 1) студента в приватном лидерборде среди всех таких студентов.
Единственное исключение из формулы — студенты, преодолевшие самый сильный бейзлайн, получают прибавку 1/M к своей оценке.
Чтобы вас не пропустили при проверке решений соревнования, необходимо использовать следующий формат для имени команды (вкладка Team):
«Имя Фамилия номер_группы»
В течение 3 суток после окончания соревнования в соответствующее задание на anytask необходимо прислать код, воспроизводящий ответы для посылки, фигурирующей в приватном лидерборде. При оформлении кода предполагайте, что данные лежат рядом с ним в папке data, а в результате выполнения кода ответы должны быть записаны в файл solution-N-Username.csv, где N — номер соревнования, Username — ваша фамилия. У нас должна быть возможность запустить код и получить те же ответы, что и в вашей посылке, — в частности, это означает, что:
1. Если вы отправляете файл *.py, мы будем запускать его при помощи команды python *.py в вышеуказанном предположении о местонахождении данных.
2. Если вы отправляете ноутбук *.ipynb, мы последовательно запустим все ячейки ноутбука и будем ожидать в результате его работы формирование файла с ответами.
3. Если вы отправляете код с использованием другого языка программирования, в том же письме направьте нам инструкцию по его запуску с тем, чтобы получить тот же файл с ответами.
В случае отсутствия кода, воспроизводящего результат, в установленный срок студенту выставляется 0 в качестве оценки за соревнование. Студенты, попавшие в топ-5 согласно приватному лидерборду, смогут получить бонусные баллы, если в течение недели после окончания соревнования пришлют на почту курса отчет о получении решения, фигурирующего в приватном лидерборде. Если не оговорено иное, использовать любые внешние данные в соревнованиях запрещено. Под внешними данными понимаются размеченные данные, где разметка имеет прямое отношение к решаемой задаче. Грубо говоря, сборник текстов с википедии не считается внешними данными.
Коллоквиум
Коллоквиум пройдёт 16 мая в zoom. Понадобится камера.
Схема опроса на коллоквиуме: