статьи по машинному обучению
Подборка: Более 70 источников по машинному обучению для начинающих
Индикатор кулачкового аналогового компьютера / Wiki
В нашем блоге мы уже рассказывали о разработке системы квантовой связи и о том, как из простых студентов готовят продвинутых программистов. Сегодня мы решили вернуться к теме машинного обучения и привести адаптированную (источник) подборку полезных материалов.
Это список предназначен для тех, кто только начинает изучать тему машинного обучения, например, с использованием Python (если вы хотите начать учить Python, вам в помощь эта статья).
Машинное обучение – это лишь одна из математических дисциплин, связанных с понятием «данные». Чтобы разобраться в том, что такое аналитика данных, анализ данных, наука о данных, машинное обучение и большие данные, прочитайте этот материал.
Вот инструменты, которые вам понадобятся:
Не страшно, если у вас установлен Python 2.7. Переходить на Python 3 нет необходимости. Вместо Anaconda вы можете воспользоваться pip или virtualenv. Не можете определиться? Прочитайте этот материал.
Для начала познакомьтесь с IPython Notebook (это займет 5-10 минут). Еще можете посмотреть это видео. Далее рассмотрите небольшой пример (это займет 10 минут) классификации цифр с использованием библиотеки scikit-learn.
Наглядное введение в теорию машинного обучения
Давайте побольше узнаем о машинном обучении: об идеях и особенностях. Прочитайте статью Стефани Йи (Stephanie Yee) и Тони Чу (Tony Chu) «Наглядное введение в машинное обучение. Часть 1».
Прочитайте статью профессора Педро Домингоса (Pedro Domingos). Во время чтения не торопитесь, делайте заметки. В статье можно выделить два основных момента:
Одних только данных недостаточно. Домингос писал: «…нет ничего удивительного в том, что для обучения нужны знания. Машинное обучение не может получить что-то из ничего, но может получить большее из меньшего. Обучение похоже на сельское хозяйство, где большую часть работы делает природа. Фермеры дают семенам питательные вещества, чтобы вырастить урожай. Так и здесь: чтобы создать программу, нужно совместить знания и данные».
Большое количество данных лучше детально продуманного алгоритма. Не пытайтесь изобретать велосипед и усложнять решения: выбирайте кратчайший путь, ведущий к цели. Домингос говорит: «Как правило, «глупый» алгоритм с большим количеством данных превосходит «умный» алгоритм с небольшим количеством данных. В машинном обучении главную роль всегда играют данные».
Итак, знания и данные имеют решающее значение. Это означает, что усложнять алгоритмы нужно только тогда, когда у вас действительно нет выбора.
Схема составлена на основе слайда из лекции Алекса Пинто (Alex Pinto) «Математика на страже безопасности: руководство по мониторингу с применением машинного обучения».
Обучайтесь на примерах
Выберете и рассмотрите один или два примера из представленных ниже.
Курсы по машинному обучению
Будет полезно, если вы начнете работать над каким-нибудь небольшим самостоятельным проектом – так у вас будет возможность применить полученные знания на практике. Можете воспользоваться одним из этих наборов данных.
Еще часто рекомендуют книгу «The Elements of Statistical Learning», но она, как правило, выступает в роли справочника. Книга бесплатная, поэтому скачайте ее или добавьте в закладки браузера.
Еще есть вот эти онлайн-курсы:
Изучаем Pandas
Чтобы работать с Python, вам необходимо познакомиться с пакетом Pandas. Вот список материалов, которые в этом помогут:
Еще больше материалов и статей
Вопросы, ответы, чаты
На данный момент лучшим местом для поиска ответов на свои вопросы является раздел о машинном обучении на stackexchange.com. Также есть сабреддит: /r/machinelearning. Присоединяйтесь к каналу по scikit-learn на Gitter! Еще стоит обратить внимание на обсуждения на Quora и большой перечень материалов по науке о данных от сайта Data Science Weekly.
Другие вещи, которые полезно знать
Послушайте и почитайте, что победители конкурсов Kaggle говорят о предложенных ими решениях. Например, почитайте блог «No Free Hunch».
Конкурсы или состязания лишь один из способов попрактиковаться. Вы можете начать проводить исследования:
Дайджест SkillFactory: 10 статей про Машинное Обучение, которые стоит прочитать
Сегодня сложно представить мир без технологий, ведь они прочно интегрировались в нашу жизнь. Каждый день мы пользуемся смартфонами, ноутбуками и другими устройствами, внутри которых таится, если не магия, то квинтэссенция научных трудов.
Одним из таких чудес можно назвать Машинное обучение (Machine Learning), которое включает в себя Искусственный интеллект и многое другое. А чтобы лучше разобраться с Машинным обучением, предлагаем вам прочитать ТОП-10 статей по данной теме.
1. 6 шагов по созданию проектов машинного обучения
В статье подробно разбирается, что же такое Машинное обучение, а также как построить собственный проект и где же используется данный раздел Искусственного интеллекта. Простыми словами объясняется последовательность действий, а также сфера использования.
Так, последовательность можно разделить на три действия. Сначала вам нужно собрать данные, затем смоделировать их и затем уже сделать развертку. При этом на каждом этапе что-то может пойти не так, из-за чего вы вернётесь на шаг назад. Способ сбора данных может быть тоже разным, от таблицы до списка или же другого способа.
Возьмём простой пример. Например, приготовление пирога. Выясняем, какие нам нужны ингредиенты, то есть собираем данные. Затем идёт моделирование или же алгоритм действий (замесить тесто, добавить начинку и так далее). Финалом станет готовый вкусный пирог.
2. Интересные и увлекательные проекты искусственного интеллекта
Искусственный интеллект задействуется не только в повседневных окружающих нас вещах или науке. Некоторые используют его для создания интересных проектов, развлекаясь с которыми можно пропасть на долгое время. Например, вы можете играть с ИИ в ассоциации или же рассматривать изображения котов, созданные нейронной сетью. Причём выглядят пушистые максимально реалистично, что поражает.
Или же, если вы любите рисовать, но не умеете, то к вашим услугам сервис AutoDraw, где любые ваши каракули Искусственный интеллект превратит в более-менее ровную и приятную картинку. В общем и целом, ИИ это не только полезно, но еще и весело.
3. Мифы в области исследований Машинного обучения
Машинное обучение — одна из тех сфер, в которой существует множество разнообразных мифов и заблуждений. Приведённая ниже статья отвечает на семь самых популярных мифов и обьясняет, что же с ними не так.
Например, один из мифов касается TensorFlow. Многие думают, что это библиотека для работы с тензорами, хотя на деле данная библиотека существует для работы с матрицами. Разница между двумя этими понятиями весьма большая, ведь если тензорное исчисление использует индексные обозначения, то матричное прячет их. Это одно из самых главных и, тем временем, простых различий.
4. Подборка книг по Machine Learning для новичков
Эта статья будет полезна тем, кто только начинает свой путь в огромном мире технологий и приступает к изучению Машинного обучения. Здесь вы найдёте самые популярные и необходимые книги, прочитав которые вы получите необходимую теоретическую базу и начнёте разбираться в данной сфере.
Полезно и то, что книги представлены как на русском, так и на английском языке. Конечно, скорее это проблема, которая означает, что книга так и не вышла в России. Но, с другой стороны, вы сможете не только подтянуть иностранный язык, но и обучиться его техническим тонкостям, так как английский язык в IT просто жизненно необходим.
5. Самые необходимые алгоритмы для Машинного обучения
Алгоритмы — неотъемлемая часть технической сферы, которая также не обошла стороной Машинное обучение. В статье приведены самые необходимые алгоритмы, которые помогут вам в работе. Например, метод главных компонент понадобится для того, чтобы уменьшить размерность данных, сохранив наибольшее количество информации. Данный алгоритм необходим при распознавании объектов, сжатии данных и других операциях.
В статье также приведены алгоритмы для нейросетей. Каждый из алгоритмов вы можете изучить с помощью иллюстраций, а также полезных гайдов.
6. Математика для Искусственного интеллекта
Машинное обучение и Искусственный интеллект тесно связаны с математикой. Более того, если вы уже долгое время занимаетесь разработкой программ, то это вовсе не значит, что у вас есть прямой билет к Искусственному интеллекту. А вот если вы хорошо знакомы с теорией вероятности и другими математическими аспектами, то это совсем другое дело.
В статье приведены базовые термины с формулами и примерами, что позволит вам без проблем разобраться с данной темой. Кроме того, в статье разбирается, что такое математическое ожидание, дисперсия и ковариация.
7. Руководство по машинному обучению для новичков
Машинное обучение — сложная, но интересная тема. Если вы новичок, то приведённая ниже статья поможет вам разобраться в азах. В статье приведены темы, которые нужно изучить перед тем, как переходить к самому Машинному обучению, например, алгебра, основы Python, библиотеки Python и так далее. Кроме того, развёрнуто объясняется, что же такое это Машинное обучение.
Если вы думаете, что Машинное обучение — это слишком сложно и не знаете, с какой стороны к нему подойти, то статья будет очень полезна для вас. Вы не только убедитесь, что данная сфера очень интересна, но и получите полноценную Дорожную карту, которая поможет вам в изучении этой глубокой, но такой интересной темы.
8. Очумелые ручки: создаём простую нейронную сеть
Искусственные нейронные сети тесно связаны с Машинным обучением, а также с нашим собственным мозгом, ведь они имитируют работу нейронной сети человека. Именно поэтому можно разобраться с работой искусственной нейронной сети, опираясь на биологию. Эта тема сложная, но поверьте, если вы постараетесь вникнуть, то все окажется довольно понятно.
Итак, в приведённой ниже статье разбираются основные понятия, такие, как нейрон, нейронная сеть, графы и так далее. Кроме того, с помощью схем и рисунков наглядно показывается работа мозга и нейронной сети. Кроме того, вы найдёте примеры кода, с помощью которого вы сможете создать собственную нейронную сеть.
9. Зачем нужно Машинное обучение?
Скорее всего, на Земле все еще есть люди, для которых Искусственный интеллект ассоциируется с роботами, чья цель — уничтожить человечество. На самом деле, это вовсе не так, а все эти технологии используются нами повсеместно. И все же, зачем нужно Машинное обучение, которое идёт бок о бок с Искусственным интеллектом?
Первое, что приходит в голову, это технология распознавания лиц. Причём это могут сделать не только различные «умные» системы, но и самые простые смартфоны. Причём еще менее 20 лет назад данная технология была почти нереальной. Кроме того, Машинное обучение используется в медицине и, с помощью Искусственного интеллекта, можно успешно находить различные, в том числе и тяжелые, болезни, которые может не заметить даже самый профессиональный доктор.
10. Какие ограничения существуют у Машинного обучения
Мы уже поговорили с вами об основных алгоритмах Машинного обучения, а также об основах. Кроме того, мы даже выяснили, в каких же сферах используется Машинное обучение. Теперь пришло время поговорить о его ограничениях. Да, к сожалению или к счастью, Искусственный интеллект не совершенен и порой это приводит к весьма неожиданным ситуациям.
Одной из главных проблем является этика. Например, возьмём машину, которой управляет искусственный интеллект. Кто будет виноват в том случае, если она собьёт человека на дороге? Ответ на данный вопрос найти крайне сложно, если вообще возможно. Однако, ИИ способен учиться, так что вполне возможно, что через несколько лет ответ на подобный вопрос будет весьма очевиден.
Кроме того, Искусственному интеллекту может просто не хватить данных для работы. Например, при изучении рентгеновских снимков больных. Если не предоставить ИИ достаточно данных, то он просто зайдёт в тупик.
Введение в машинное обучение
1.1 Введение
Благодаря машинному обучению программист не обязан писать инструкции, учитывающие все возможные проблемы и содержащие все решения. Вместо этого в компьютер (или отдельную программу) закладывают алгоритм самостоятельного нахождения решений путём комплексного использования статистических данных, из которых выводятся закономерности и на основе которых делаются прогнозы.
Технология машинного обучения на основе анализа данных берёт начало в 1950 году, когда начали разрабатывать первые программы для игры в шашки. За прошедшие десятилетий общий принцип не изменился. Зато благодаря взрывному росту вычислительных мощностей компьютеров многократно усложнились закономерности и прогнозы, создаваемые ими, и расширился круг проблем и задач, решаемых с использованием машинного обучения.
Чтобы запустить процесс машинного обучение, для начала необходимо загрузить в компьютер Датасет(некоторое количество исходных данных), на которых алгоритм будет учиться обрабатывать запросы. Например, могут быть фотографии собак и котов, на которых уже есть метки, обозначающие к кому они относятся. После процесса обучения, программа уже сама сможет распознавать собак и котов на новых изображениях без содержания меток. Процесс обучения продолжается и после выданных прогнозов, чем больше данных мы проанализировали программой, тем более точно она распознает нужные изображения.
Благодаря машинному обучению компьютеры учатся распознавать на фотографиях и рисунках не только лица, но и пейзажи, предметы, текст и цифры. Что касается текста, то и здесь не обойтись без машинного обучения: функция проверки грамматики сейчас присутствует в любом текстовом редакторе и даже в телефонах. Причем учитывается не только написание слов, но и контекст, оттенки смысла и другие тонкие лингвистические аспекты. Более того, уже существует программное обеспечение, способное без участия человека писать новостные статьи (на тему экономики и, к примеру, спорта).
1.2 Типы задач машинного обучения
Все задачи, решаемые с помощью ML, относятся к одной из следующих категорий.
1)Задача регрессии – прогноз на основе выборки объектов с различными признаками. На выходе должно получиться вещественное число (2, 35, 76.454 и др.), к примеру цена квартиры, стоимость ценной бумаги по прошествии полугода, ожидаемый доход магазина на следующий месяц, качество вина при слепом тестировании.
2)Задача классификации – получение категориального ответа на основе набора признаков. Имеет конечное количество ответов (как правило, в формате «да» или «нет»): есть ли на фотографии кот, является ли изображение человеческим лицом, болен ли пациент раком.
3)Задача кластеризации – распределение данных на группы: разделение всех клиентов мобильного оператора по уровню платёжеспособности, отнесение космических объектов к той или иной категории (планета, звёзда, чёрная дыра и т. п.).
4)Задача уменьшения размерности – сведение большого числа признаков к меньшему (обычно 2–3) для удобства их последующей визуализации (например, сжатие данных).
5)Задача выявления аномалий – отделение аномалий от стандартных случаев. На первый взгляд она совпадает с задачей классификации, но есть одно существенное отличие: аномалии – явление редкое, и обучающих примеров, на которых можно натаскать машинно обучающуюся модель на выявление таких объектов, либо исчезающе мало, либо просто нет, поэтому методы классификации здесь не работают. На практике такой задачей является, например, выявление мошеннических действий с банковскими картами.
1.3 Основные виды машинного обучения
Основная масса задач, решаемых при помощи методов машинного обучения, относится к двум разным видам: обучение с учителем (supervised learning) либо без него (unsupervised learning). Однако этим учителем вовсе не обязательно является сам программист, который стоит над компьютером и контролирует каждое действие в программе. «Учитель» в терминах машинного обучения – это само вмешательство человека в процесс обработки информации. В обоих видах обучения машине предоставляются исходные данные, которые ей предстоит проанализировать и найти закономерности. Различие лишь в том, что при обучении с учителем есть ряд гипотез, которые необходимо опровергнуть или подтвердить. Эту разницу легко понять на примерах.
Машинное обучение с учителем
Предположим, в нашем распоряжении оказались сведения о десяти тысячах московских квартир: площадь, этаж, район, наличие или отсутствие парковки у дома, расстояние от метро, цена квартиры и т. п. Нам необходимо создать модель, предсказывающую рыночную стоимость квартиры по её параметрам. Это идеальный пример машинного обучения с учителем: у нас есть исходные данные (количество квартир и их свойства, которые называются признаками) и готовый ответ по каждой из квартир – её стоимость. Программе предстоит решить задачу регрессии.
Ещё пример из практики: подтвердить или опровергнуть наличие рака у пациента, зная все его медицинские показатели. Выяснить, является ли входящее письмо спамом, проанализировав его текст. Это всё задачи на классификацию.
Машинное обучение без учителя
В случае обучения без учителя, когда готовых «правильных ответов» системе не предоставлено, всё обстоит ещё интереснее. Например, у нас есть информация о весе и росте какого-то количества людей, и эти данные нужно распределить по трём группам, для каждой из которых предстоит пошить рубашки подходящих размеров. Это задача кластеризации. В этом случае предстоит разделить все данные на 3 кластера (но, как правило, такого строгого и единственно возможного деления нет).
Если взять другую ситуацию, когда каждый из объектов в выборке обладает сотней различных признаков, то основной трудностью будет графическое отображение такой выборки. Поэтому количество признаков уменьшают до двух или трёх, и становится возможным визуализировать их на плоскости или в 3D. Это – задача уменьшения размерности.
1.4 Основные алгоритмы моделей машинного обучения
1. Дерево принятия решений
Это метод поддержки принятия решений, основанный на использовании древовидного графа: модели принятия решений, которая учитывает их потенциальные последствия (с расчётом вероятности наступления того или иного события), эффективность, ресурсозатратность.
Для бизнес-процессов это дерево складывается из минимального числа вопросов, предполагающих однозначный ответ — «да» или «нет». Последовательно дав ответы на все эти вопросы, мы приходим к правильному выбору. Методологические преимущества дерева принятия решений – в том, что оно структурирует и систематизирует проблему, а итоговое решение принимается на основе логических выводов.
2. Наивная байесовская классификация
Наивные байесовские классификаторы относятся к семейству простых вероятностных классификаторов и берут начало из теоремы Байеса, которая применительно к данному случаю рассматривает функции как независимые (это называется строгим, или наивным, предположением). На практике используется в следующих областях машинного обучения:
Всем, кто хоть немного изучал статистику, знакомо понятие линейной регрессии. К вариантам её реализации относятся и наименьшие квадраты. Обычно с помощью линейной регрессии решают задачи по подгонке прямой, которая проходит через множество точек. Вот как это делается с помощью метода наименьших квадратов: провести прямую, измерить расстояние от неё до каждой из точек (точки и линию соединяют вертикальными отрезками), получившуюся сумму перенести наверх. В результате та кривая, в которой сумма расстояний будет наименьшей, и есть искомая (эта линия пройдёт через точки с нормально распределённым отклонением от истинного значения).
Линейная функция обычно используется при подборе данных для машинного обучения, а метод наименьших квадратов – для сведения к минимуму погрешностей путем создания метрики ошибок.
4. Логистическая регрессия
Логистическая регрессия – это способ определения зависимости между переменными, одна из которых категориально зависима, а другие независимы. Для этого применяется логистическая функция (аккумулятивное логистическое распределение). Практическое значение логистической регрессии заключается в том, что она является мощным статистическим методом предсказания событий, который включает в себя одну или несколько независимых переменных. Это востребовано в следующих ситуациях:
Это целый набор алгоритмов, необходимых для решения задач на классификацию и регрессионный анализ. Исходя из того что объект, находящийся в N-мерном пространстве, относится к одному из двух классов, метод опорных векторов строит гиперплоскость с мерностью (N – 1), чтобы все объекты оказались в одной из двух групп. На бумаге это можно изобразить так: есть точки двух разных видов, и их можно линейно разделить. Кроме сепарации точек, данный метод генерирует гиперплоскость таким образом, чтобы она была максимально удалена от самой близкой точки каждой группы.
SVM и его модификации помогают решать такие сложные задачи машинного обучения, как сплайсинг ДНК, определение пола человека по фотографии, вывод рекламных баннеров на сайты.
Он базируется на алгоритмах машинного обучения, генерирующих множество классификаторов и разделяющих все объекты из вновь поступающих данных на основе их усреднения или итогов голосования. Изначально метод ансамблей был частным случаем байесовского усреднения, но затем усложнился и оброс дополнительными алгоритмами:
Кластеризация заключается в распределении множества объектов по категориям так, чтобы в каждой категории – кластере – оказались наиболее схожие между собой элементы.
Кластеризировать объекты можно по разным алгоритмам. Чаще всего используют следующие:
8. Метод главных компонент (PCA)
Метод главных компонент, или PCA, представляет собой статистическую операцию по ортогональному преобразованию, которая имеет своей целью перевод наблюдений за переменными, которые могут быть как-то взаимосвязаны между собой, в набор главных компонент – значений, которые линейно не коррелированы.
Практические задачи, в которых применяется PCA, – визуализация и большинство процедур сжатия, упрощения, минимизации данных для того, чтобы облегчить процесс обучения. Однако метод главных компонент не годится для ситуаций, когда исходные данные слабо упорядочены (то есть все компоненты метода характеризуются высокой дисперсией). Так что его применимость определяется тем, насколько хорошо изучена и описана предметная область.
9. Сингулярное разложение
В линейной алгебре сингулярное разложение, или SVD, определяется как разложение прямоугольной матрицы, состоящей из комплексных или вещественных чисел. Так, матрицу M размерностью [m*n] можно разложить таким образом, что M = UΣV, где U и V будут унитарными матрицами, а Σ – диагональной.
Одним из частных случаев сингулярного разложения является метод главных компонент. Самые первые технологии компьютерного зрения разрабатывались на основе SVD и PCA и работали следующим образом: вначале лица (или другие паттерны, которые предстояло найти) представляли в виде суммы базисных компонент, затем уменьшали их размерность, после чего производили их сопоставление с изображениями из выборки. Современные алгоритмы сингулярного разложения в машинном обучении, конечно, значительно сложнее и изощрённее, чем их предшественники, но суть их в целом нем изменилась.
10. Анализ независимых компонент (ICA)
Это один из статистических методов, который выявляет скрытые факторы, оказывающие влияние на случайные величины, сигналы и пр. ICA формирует порождающую модель для баз многофакторных данных. Переменные в модели содержат некоторые скрытые переменные, причем нет никакой информации о правилах их смешивания. Эти скрытые переменные являются независимыми компонентами выборки и считаются негауссовскими сигналами.
В отличие от анализа главных компонент, который связан с данным методом, анализ независимых компонент более эффективен, особенно в тех случаях, когда классические подходы оказываются бессильны. Он обнаруживает скрытые причины явлений и благодаря этому нашёл широкое применение в самых различных областях – от астрономии и медицины до распознавания речи, автоматического тестирования и анализа динамики финансовых показателей.
1.5 Примеры применения в реальной жизни
Пример 1. Диагностика заболеваний
Пациенты в данном случае являются объектами, а признаками – все наблюдающиеся у них симптомы, анамнез, результаты анализов, уже предпринятые лечебные меры (фактически вся история болезни, формализованная и разбитая на отдельные критерии). Некоторые признаки – пол, наличие или отсутствие головной боли, кашля, сыпи и иные – рассматриваются как бинарные. Оценка тяжести состояния (крайне тяжёлое, средней тяжести и др.) является порядковым признаком, а многие другие – количественными: объём лекарственного препарата, уровень гемоглобина в крови, показатели артериального давления и пульса, возраст, вес. Собрав информацию о состоянии пациента, содержащую много таких признаков, можно загрузить её в компьютер и с помощью программы, способной к машинному обучению, решить следующие задачи:
Пример 2. Поиск мест залегания полезных ископаемых
В роли признаков здесь выступают сведения, добытые при помощи геологической разведки: наличие на территории местности каких-либо пород (и это будет признаком бинарного типа), их физические и химические свойства (которые раскладываются на ряд количественных и качественных признаков).
Для обучающей выборки берутся 2 вида прецедентов: районы, где точно присутствуют месторождения полезных ископаемых, и районы с похожими характеристиками, где эти ископаемые не были обнаружены. Но добыча редких полезных ископаемых имеет свою специфику: во многих случаях количество признаков значительно превышает число объектов, и методы традиционной статистики плохо подходят для таких ситуаций. Поэтому при машинном обучении акцент делается на обнаружение закономерностей в уже собранном массиве данных. Для этого определяются небольшие и наиболее информативные совокупности признаков, которые максимально показательны для ответа на вопрос исследования – есть в указанной местности то или иное ископаемое или нет. Можно провести аналогию с медициной: у месторождений тоже можно выявить свои синдромы. Ценность применения машинного обучения в этой области заключается в том, что полученные результаты не только носят практический характер, но и представляют серьёзный научный интерес для геологов и геофизиков.
Пример 3. Оценка надёжности и платёжеспособности кандидатов на получение кредитов
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.