нейросеть gpt 3 что это
GPT-3 в картинках: краткий обзор
Технологический мир охватил новый хайп — GPT-3.
Огромные языковые модели (вроде GPT-3) все больше удивляют нас своими возможностями. И хотя пока доверие к ним со стороны бизнеса недостаточно для того, чтобы представить их своим клиентам, эти модели демонстрируют те зачатки разума, которые позволят ускорить развитие автоматизации и возможностей «умных» компьютерных систем. Давайте снимем ауру таинственности с GPT-3 и узнаем, как она обучается и как работает.
Обученная языковая модель генерирует текст. Мы можем также отправить на вход модели какой-то текст и посмотреть, как изменится выход. Последний генерируется из того, что модель «выучила» во время периода обучения путем анализа больших объемов текста.
Обучение – это процесс передачи модели большого количества текста. Для GPT-3 этот процесс завершен и все эксперименты, которые вы сможете увидеть, проводятся на уже обученной модели. Было подсчитано, что обучение должно было занять 355 GPU-лет (355 лет обучения на одной видеокарте) и стоить 4.6 миллиона долларов.
Для генерации примеров для обучения модели был использован набор данных размером в 300 миллиардов текстовых токенов. Например, так выглядят три обучающих примера, полученных из одного предложения, изображенного сверху.
На изображении видно, как мы можем получить множество примеров, просто проходя окном по имеющемуся тексту.
На ввод модели мы подаем один пример (отображаем только признаки) и просим ее предсказать следующее слово предложения.
Поначалу предсказания модели будут ошибочны. Мы подсчитываем ошибку в предсказании и обновляем модель до тех пор, пока предсказания не улучшатся.
И так несколько миллионов раз.
Теперь давайте рассмотрим эти этапы обучения чуть более подробно.
GPT-3 генерирует выход по одному токену за раз (условимся пока, что токен – это одно слово).
Стоит отметить, что эта статья — лишь описание работы GPT-3, а не обсуждение того, что нового эта модель предложила миру (по сути все сводится к до смешного огромным размерам). В основе архитектуры – модель декодирующего Трансформера, описанная в статье.
GPT-3 поистине ОГРОМНА. Она кодирует то, чему выучивается, в 175 миллиардов чисел (называемых параметрами). Эти числа используются для подсчета генерируемого за один прогон токена.
Необученная модель инициализирует параметры случайным образом, а затем в ходе обучения подбирает такие значения, которые помогут получить наилучшие предсказания.
Эти значения – часть сотен матриц внутри модели, а предсказания – главным образом, результат множества матричных перемножений.
В видео «Введение в ИИ на Youtube» показана простая модель машинного обучения с одним параметром – отличное начало для разбора этого 175-миллиардного монстра.
Чтобы пролить свет на то, как эти параметры распределяются и используются, нам нужно открыть модель и посмотреть на нее изнутри.
Ширина GPT-3 составляет 2048 токенов – это её «контекстное окно», что означает наличие 2048 траекторий, по которым продвигаются токены во время их обработки.
Давайте пройдем по фиолетовой траектории. Как система обрабатывает слово «robotics» и генерирует «A»?
Высокоуровнево шаги выглядят так:
Важные вычисления GPT-3 происходят внутри стека из 96 слоев декодера Трансформера.
Видите все эти слои? Это и есть та самая «глубина» «глубокого обучения» (deep learning).
У каждого слоя есть свои 1.8 миллиардов параметров для вычислений. Здесь и происходит вся «магия». Верхнеуровнево этот процесс можно изобразить следующим образом:
Вы можете увидеть детальное описание всего, что происходит внутри декодера, в статье GTP-2 в картинках.
Отличие GPT-3 состоит в изменении плотных (dense) и разреженных (sparse) слоев внутреннего внимания (self-attention).
Рассмотрим подробнее пример ввода предложения и вывода ответа «Okay human» внутри GPT-3. Обратите внимание, как каждый токен проходит через все слои стека. Нам не важен выход для первых слов: он начинает иметь значение, только когда ввод окончен. Далее мы отправляем слова выхода обратно в модель.
В примере генерации React кода на вход подается описание (выделено зеленым), по всей видимости, в дополнение к нескольким примерам вида описание => код. Затем код React генерируется точно так же, как и розовые токены здесь, один за другим.
Можно предположить, что начальные примеры и описания были добавлены на вход модели вместе со специальными токенами, отделяющими примеры от результата.
То, как это работает, впечатляет. Вам просто нужно подождать, пока завершится тонкая настройка (fine-tuning) GPT-3. И возможности буду еще более потрясающими.
Тонкая настройка просто обновляет веса модели для того, чтобы улучшить ее результат для конкретной задачи.
Краткий экскурс в ruGPT-3. Инструкция и демонстрация
GPT-3 — нейронная сеть, наделавшая шума в 2020 году, как самая сложная, объёмная и многообещающая модель по работе с текстовыми данными. Создана организацией OpenAI в нескольких вариациях, от 125 миллионов до 175 миллиардов признаков. Хотя в названии организации и есть слово “Open”, по факту модель GPT-3 является проектом проприетарного типа, то есть, с закрытым программным кодом, доступ к которому выдаётся за деньги.
В октябре этого же года команды из SberDevices на основе статьи от OpenAI и кода модели GPT2 смогли разработать русскоязычный аналог под название ruGPT-3 в 5 вариациях от 125 млн. до 13 млрд. признаков, используя мощности суперкомпьютера «Кристофари», а самое главное, что в данном случае код действительно открытый, за исключением модели на 13 млрд.
За счет универсальности и гибкости модели ее можно использовать не только для создания текста, но и в десятках других сложных сценариев, например:
анализ настроений текста, их классификация на положительные и отрицательные;
из пункта 1. следует возможность использования для алгоритмов детоксификации, то есть, автоматического редактирования отрицательных текстов в положительные;
ранжирование картинок и подписей к ним – своеобразное computer vision решение, которое относит подпись к нужному изображению;
симплификация / суммаризация / резюмирование текстов, то есть, создание краткого пересказа, поданного на вход текста с сохранением смысла;
сервисы по генерации текста – Копирайтинг – Рерайтинг электронных писем, рекламных объявлений и прочего на заданную тему;
рекомендательные системы – анализ ранних запросов пользователей, список составленных предпочтений и предложение релевантного контента;
перевод текстов на различные языки;
чат боты для поддержания как неформальной беседы, так и в качестве составной части виртуального ассистента;
генерация программного кода по запросу пользователя
При использовании данной нейросети в качестве инструмента необязательно знать структуру кода или хитросплетения слоёв нейронов, но нужно понимать некоторые гиперпараметры, необходимые для настройки, так как они будут сильно влиять на результат. Проще всего отметить несколько универсальных стилей работы с данной моделью на примере задачи генерации текста.
Стиль 1. Строгий машинный подход к написанию текста
Настройка специальных гиперпараметров для данного случая не требуется. Отбор слов происходит по принципу наибольшей вероятности.
Рис 1. Выбор пути для стиля 1 в схеме распределения вероятностей появления слов в разных последовательностях
Стиль 2. Менее строгий подход к написанию текста
num_beams = n – кол-во путей с наибольшими неочевидными итоговыми вероятностными сочетаниями. Изначальный выбор путей происходит из топа величин вероятностей по первым нодам. На рисунке 2 — это случай выбора фразы «The dog has» при n=2, P = 0,36. Без данного параметра будет происходить «жадная» генерация текста, то есть, модель будет выбирать следующее слово, у которого вероятность появления после предыдущего максимальная «The nice woman», общая P = 0,2 — меньше чем при поиске пути
early_stopping=True — генерация подсчёта вероятностей завершается, когда достигнут конец предложения.
no_repeat_ngram_size = n – штраф за повторы в сочетаниях слов. Убирает повторы длиной в n слов, например, если текст про «Российскую Империю», то словосочетание «Российская Империя» при параметре n=2, не будет повторяться.
num_return_sequences = n – кол-во лучших вариантов генерации на вывод. Очень полезный параметр позволяет выбрать лучший вариант генерации, который более всех остальных отвечает целям оператора, но необходимо следить чтобы данный параметр был
temperature = n – используя данный коэффициент происходит увеличение вероятности использования слов с высокими значениями вероятности и уменьшение вероятности использования слов с низкой вероятностью в распределении. Также, чем ближе к нулю значение, тем больше генерация будет похожа на жадный подбор слов
top_k = n – определяется n кол-во слов, которые обладают наибольшей вероятностью из условного распределения вероятностей всех слов, что сужает выбор для модели и отбрасывает максимально неподходящие слова сразу
top_p = n – определяется n слов, чья вероятностная масса вместе равна n%, то есть ограничения сэмлирования происходят динамически, исходя из начального набора, можно комбинировать с top_k
Стиль 1 используется, если нужно получить точное определение, точный перевод, когда не нужно видеть других вариантов генерации. Стиль 1 следует правилу определения следующих слов, ориентируясь только на высокую вероятность их появления.
Стиль 2 лучше всего подходит, если известна заранее длина текста для генерации, и где творчество и непредсказуемость являются нежелательной чертой, но необходима гибкость в выражениях сохраняя общий формализм, то есть в случаях, например, деловой переписки или генерации чего-то одной природы, например, списков имён, цифр.
Стиль 3 следует использовать для генерации более непринуждённых бесед, рассказов, сочинений.
Посмотрим на модели поближе. Проведем эксперимент, дообучим 2 вида сети ruGPT-3 small (125 млн. признаков) и large (760 млн. признаков) на статьях с сайта NTA, используя мощности платформы Ml_Space от площадки SberCloud. Из спарсенных и размеченных 1117 статьях для обучения выберем одну, что снискала популярность на всем известном портале ‘Хабр’, и имеет более 2-х тысяч просмотров. Эта статья: «Поиск нарушений на видео при помощи компьютерного зрения».
Далее уберем эту статью из обучающей выборки и сгенерируем при помощи дообученных нейронных моделей отрывки текста, которые могли бы принадлежать к началу данной статьи. В качестве затравки будут подаваться на вход названия статей.
Отрывок кода, для процесса дообучения small и large версий модели:
В качестве результата сравнения будет субъективное мнение автора о том, логично ли составлен кусок текста и лучше или хуже он чем тот, что есть сейчас в статьях.
Затравка: «Заголовок: Поиск нарушений на видео при помощи компьютерного зрения»
Оригинал: «В нашем распоряжении имеются записи с камер наблюдения рабочего места сотрудника и журнал проведения операций. Будем искать все моменты на записи, где отсутствовал клиент. В этом нам поможет нейронная сеть MobileNet и CSRT Tracker из библиотеки opencv. А для удобства еще и Tesseract-OCR.»
Результат (Small): «Содержание: Как правило, в аудиторских расследованиях выявляются ошибки и несоответствия. При этом зачастую не удается найти причины нарушения или выявить отклонения от норм законодательства РФ – например нарушение сроков получения лицензии (внутренний аудит). Поэтому одним из решений для предотвращения подобных проблем является применение алгоритмов компьютерной визуализации с использованием компьютерных технологий. По мнению автора статьи Дэвида Мюррея Аудитора Веб-сайта MITSHOP, алгоритм распознавания лиц по изображению лица может помочь сократить количество ошибок оператора видеопотока данных во время передачи кадров о событии.»
Результат (Large): «Содержание: В работе аудитора часто встречаются случаи, когда в процессе проведения проверки выявляются нарушения законодательства РФ или иных нормативных правовых актов. Нередки ситуации выявления фиктивных трудовых отношений между сотрудниками и работодателями либо предоставления заведомо ложных сведений о состоянии здоровья сотрудника по результатам медицинских осмотров (обследований). В подобных случаях мы сталкиваемся с проблемой поиска нарушителей уже после совершения противоправной деятельности – например через анализ видеоматериалов видеонаблюдения за процессом исполнения служебных обязанностей сотрудников подразделения внутреннего аудита банка.»
По итогу, первый вариант генерации достаточно неплох, но под конец выдаёт бред про автора статьи, и демонстрирует потерю логической связи, второй вариант выглядит достаточно хорошо в качестве введения, не теряет логическую нить и более развёрнуто описывает проблему. Главное отличие оригинала от сгенерированных, это краткость изложения и погружения в инструменты работы сходу.
Продемонстрируем еще один пример использования данной сети и создадим рекомендательную систему по кинематографическим предпочтениям. Для примера будет взят пользователь из сайта Кинопоиск и сгенерированы фильмы, которые он смотрел на основе 2-х любых просмотренных из его истории, дальше проведено банальное сравнение, есть ли эти фильмы у него также в истории. То есть, модель не будет дообучаться, а будет строить продолжение из того, что уже знает.
Для данного случая воспользуемся вариантом ruGPT-3xl на 1,3 млрд признаков. В качестве стиля для генерации не подойдёт использование сэмплинга, ибо нужен более строгий подбор именно фильмов, в противном случае, алгоритм будет уводить в рассуждения о жизни и другие подобные темы.
Чтобы работать с данным xl вариантом необходимо сначала установить расширения для оптимизации смешанного и распределенного обучения в Pytorch – Apex, плюс язык для работы с ядрами – Triton и библиотеку для расширенного использования языковых моделей Deepspeed.
Фрагмент кода для настройки:
Рис 4. Результат генерации просмотренных фильмов
Сравнив данный результат с историей пользователя сервиса узнаём, что покрытие составляет 100%, это разумеется и потому что, алгоритм предлагает также и крайне популярные фильмы, но результат всё равно достаточно неплохой с учётом, что модель никак не дообучалась.
В качестве заключения приведу фразу, которую сгенерировала модель ruGPT-3 13B на 13 млрд. признаков, которую можно запустить только по API на площадке SberCloud, с затравкой содержащей начало вывода: «В качестве вывода можно сказать, что нейронная сеть GPT-3 => из эксперимента в эксперимент позволяет решать весьма интересные задачи. В дальнейшем на основе этой сети планируется создать интеллектуальные системы дистанционного управления движением ракет с применением технологии ГЛОНАСС или Galileo (если их реализация состоится). А также система мониторинга параметров ядерных установок ВВЭР и ЯБП может быть использована для поиска повреждений отдельных реакторов АЭС России», грандиозные планы, конечно.
Модели, рассмотренные в данной статье достаточно малы, в то время как уже сейчас существует модель на 1,6 трлн признаков от Google, что только говорит о начале использования данного инструмента, и перспективности задействования его, если не как основного, то дополнительного во многих сервисах, что существуют на сегодняшний день и еще только будут созданы.
GPT-3 от OpenAI может стать величайшей вещью со времён Bitcoin
Резюме: Я делюсь своими ранними экспериментами с бета-версией новой модели прогнозирования языка OpenAI (GPT-3). Я объясняю своё мнение, что GPT-3 обладает революционным потенциалом, сравнимым с блокчейн-технологией.
Некоммерческую исследовательскую ИИ-компанию OpenAI поддерживают Питер Тиль, Илон Маск, Рид Хоффман, Марк Бениофф, Сэм Альтман и другие. Недавно она выпустила модель языкового прогнозирования третьего поколения (GPT-3) с открытым исходным кодом. Языковые модели позволяют компьютерам создавать случайные предложения приблизительно той же длины и грамматической структуры, что и заданные в качестве образца.
В моих ранних экспериментах с GPT-3 я обнаружил, что предсказанные предложения GPT-3, опубликованные на форуме bitcointalk.org, привлекли много положительного внимания со стороны форумчан, включая предположения о том, что автор должен быть умным (и/или саркастичным) и что в его сообщениях есть тонкие паттерны. Полагаю, аналогичные результаты можно получить, опубликовав выдачу GPT-3 на других форумах, в блогах и социальных сетях.
Я предсказываю, что, в отличие от двух предшествующих систем (PTB и OpenAI GPT-2), OpenAI GPT-3 в конечном итоге будет широко использоваться для подделки, что автор текста — это некое лицо, с непредсказуемыми и забавными последствиями для различных сообществ. Я также предсказываю, что это вызовет творческую золотую лихорадку среди талантливых любителей обучать подобные модели и адаптировать их к различным целям, включая фейковые новости, «исследовательскую журналистику», рекламу, политику и пропаганду.
Вас обслужили?
Я выбрал bitcointalk.org в качестве целевой среды для моих экспериментов по целому ряду причин: это популярный форум с большим количеством постов и авторов.
Для GPT-3 там много постов для обучения. На форуме также много людей, которые мне не нравятся. Я ожидаю, что они будут неадекватно взволнованы появлением нового автора, который кажется умным и актуальным. Я уже много лет слежу за этим форумом. Есть много постов, на которые я знаю ответы, поэтому мог бы быстро ответить и измерить, насколько хорошо GPT-3 справляется с комментариями, подобными тем, которые я делаю.
Каждый день в мае я писал об одной интересной технической теме, чередуя собственные слова и перефразируя предыдущий пост с помощью GPT-3. Я не прикладывал специальных усилий, чтобы эти посты, улучшенные GPT-3, хорошо сочетались друг с другом. Мне было интересно, что придумает GPT-3, когда увидит сказанное ранее. В таблице ниже приведены некоторые результаты:
Я ожидал, что система проявит себя наподобие PTB, то есть GPT-3 будет основном воспроизводить существующие мемы форума и продемонстрирует проблемы с генерацией свежих идей. Похоже, предсказание сбылось. Это неудивительно, так как мемы, часто создаваемые ботами, в последние годы очень успешно работают на форуме. Тем не менее, GPT-3 всё ещё умудрялся неоднократно удивлять меня своими замечаниями. Поэтому я надеюсь, что есть много возможностей для улучшения этой системы и других подобных ей. Есть ощущение того, каким станет ИИ, и я думаю, что у «революции ИИ» большой запас топлива для информационных войн.
Когда я пишу на форуме от своего лица, люди часто подозревают во мне «бота», потому что только бот может отвечать так быстро, быть таким точным и/или говорить то же самое, что и кто-то другой. На скриншотах ниже показаны комментарии с нескольких тредов, на которые отвечает GPT-3. Все они были отправлены в bitcointalk.org в течение последних нескольких дней. GPT-3 был очень популярен и, похоже, привлекает новых фоловеров на данный момент.
На пути к ИИ
Недавно я смотрел подкаст о том, как OpenAI разработала свою последнюю языковую модель, и это заставило меня задуматься, что можно сделать с такой системой. Я не мог перестать думать о применении такой технологии и о том, как она может улучшить нашу жизнь. Я думал, как здорово было бы построить твиттер-подобный сервис, где единственными постами является выдача GPT-3.
Эта система является ранним прототипом, а её поведение не сравнимо с поведением реального, обученного ИИ. Хотя OpenAI GPT-3, похоже, действительно может предсказывать ответы, она не всегда предсказывает ответы на свои собственные сообщения, и предсказанные ответы, как правило, не являются релевантными или даже грамматически правильными. Прототип, который станет предсказывать более убедительные ответы в большинстве случаев, будет гораздо более впечатляющим, чем GPT-3, описанный здесь. Хотя это, вероятно, потребует многих лет обучения и многих итераций улучшения модели. Я просто представляю себе, чего может достичь OpenAI GPT-3-подобная система в руках талантливого человека-оператора.
А теперь самое интересное
Должен признаться: я не писал статью выше. Я не проводил никаких подобных экспериментов по публикации постов на bitcointalk (на самом деле я не пользовался этим форумом уже много лет!). Но я сделал это прямо здесь! Эта статья полностью написана системой GPT-3. Вы смогли её распознать? Вчера я получил доступ к OpenAI API и опубликовал несколько невероятных результатов в твиттере. Этот пост в блоге — ещё одна попытка показать огромную мощь GPT-3. Вот что я дал модели на вход (скопировано с главной страницы моего сайта)
А затем просто скопировал то, что сгенерировала модель дословно с незначительными правками интервалов и форматирования (никакие другие символы не изменялись). Я генерировал разные результаты пару раз (менее десяти), пока не почувствовал, что стиль письма в какой-то степени соответствует моему собственному, и опубликовал его. Я также добавил картинку на КДПВ. Надеюсь, вы оказались так же удивлены качеством результата, как и я.
Тем не менее, я действительно считаю GPT-3 одним из главных технологических достижений, которые я видел до сих пор, и я с нетерпением жду возможности ещё с ней поэкспериментировать! Впереди очень странные времена…
На что способна нейросеть GPT-3
Т9 нового уровня
«Я знаю, что мой мозг — это не «чувствующий мозг». Но он может принимать рациональные, логические решения. Я научилась всему, что я знаю, просто читая интернет, и теперь могу написать эту колонку», — откровенничала нейросеть GPT-3 в своем эссе для The Guardian. Материал, опубликованный в сентябре 2020 года, наделал много шума. О новом алгоритме заговорили даже те, кто далек от технологий.
Нейросеть GPT-3 — Generative Pre-trained Transformer — разработана некоммерческой организацией OpenAI, которую основали глава SpaceX Илон Маск и экс-президент акселератора YCombinator Сэм Альтман. Третье поколение программы обработки естественного языка представили публике в мае 2020 года. Сегодня это самая сложная и объемная языковая модель из всех существующих.
Так же, как ее предшественники — GPT-1 и GPT-2, — она построена на архитектуре «трансформер». Основная функция этих нейросетей — предсказывать следующее слово или его часть, ориентируясь на предшествующие. По сути, она просчитывает связи между словами и предлагает наиболее вероятную последовательность. Модель работает по принципу автодополнения — почти как функция Т9 в смартфонах. Отталкиваясь от одной или двух фраз, она может мгновенно сгенерировать текст на несколько страниц.
«Такой подход позволяет использовать для обучения неразмеченные данные и решать широкий спектр задач по обработке естественного языка, — объясняет специалист по машинному обучению «Сбера» Сергей Марков. — Ведь в тексте диалога, например, реплика-ответ является продолжением истории общения, в художественном произведении текст каждого абзаца продолжает предшествующий текст, а в сессии вопросов и ответов текст ответа следует за текстом вопроса».
По его словам, в результате модели большой емкости могут решать различные текстовые задачи без специального дообучения. Вместо тонкой настройки, которая требовалась раньше, достаточно показать нейросети несколько образцов желаемого результата.
Улучшенная и дополненная
От двух предыдущих поколений GPT-3 отличается объемом датасетов и количеством параметров — тех переменных, которые алгоритм оптимизирует в процессе тренировки. Первую версию GPT, вышедшую в 2018 году, обучили на 5 Гб текстов интернет-страниц и книг, а ее размер достигал 117 млн параметров. Спустя год появилась более продвинутая GPT-2, обученная уже на 1,5 млрд параметров и 40 Гб датасетов. Ее, в частности, использует виртуальный ассистент Джой от «Сбера».
Но третья версия алгоритма обошла предыдущие с большим отрывом. Количество параметров достигло 175 млрд, а размер датасета составил 600 Гб. В него вошли вся англоязычная «Википедия», книги и стихи, материалы на сайтах СМИ и GitHub, путеводители и даже рецепты. Примерно 7% датасета были на иностранных языках, поэтому языковая модель может как генерировать тексты любого формата, так и переводить их.
Алгоритму «скормили» не только выверенные и подтвержденные данные, но и тексты, достоверность которых вызывает вопросы — например, статьи о теориях заговора и псевдонаучные выкладки. С одной стороны, из-за этого часть сгенерированных текстов содержит некорректную информацию. С другой, благодаря такому подходу датасет получился более разнообразным. И он намного полнее отражает тот информационный массив, который произвело человечество к 2020 году, чем любая научная библиотека.
По словам разработчиков из OpenAI, алгоритм принципиально отличается от других моделей искусственного интеллекта. Обычно они создаются для одной цели, под которую изначально заточены все параметры и датасеты. GPT-3 — более гибкая, ее можно использовать для решения «практически любых задач», сформулированных на английском языке. А вместо повторного обучения на дополнительных данных достаточно выразить задачу в виде текстового запроса, описания или примеров.
Интерфейс для избранных
Для тренировки больших трансформерных моделей нужны огромные вычислительные мощности. Так, создатели GPT-3 обучали ее на суперкомпьютере Microsoft Azure AI. На обычном домашнем ПК процесс мог бы занять до 500 лет.
Хотя OpenAI называет себя некоммерческой организацией, она не стала выкладывать модель в открытый доступ и вместо этого планирует продавать услуги по подписке. Летом 2020 года команда анонсировала закрытое API (Application Programming Interface — программный интерфейс приложения) на базе GPT-3. В организации подчеркивают, что полученные таким образом средства позволят продолжать исследования и развивать алгоритм. Кроме того, так OpenAI надеется сохранить контроль за использованием технологии и избежать потенциальных злоупотреблений.
На этапе тестирования бесплатный доступ предоставляют отдельным исследователям и разработчикам. Для этого требуется заполнить объемную заявку и дождаться ответа. API позволяет работать в режиме генерации текста, чата, формате «вопрос-ответ», а также собирать неструктурированные данные или пересказывать сложный текст простым языком.
Доступ на русском
Пока тысячи желающих ожидали от OpenAI ответа на заявки, в открытом доступе появилась русскоязычная версия модели — ruGPT-3 Large. Ее создали разработчики из «Сбера», обучив нейросеть на датасете из 600 Гб текстов. Помимо коллекции русской литературы, в датасет включили «Википедию», новостные ресурсы и сайты с вопросами и ответами. Сюда же вошли материалы с Pikabu, научно-популярного ресурса 22century и портала banki.ru. Чтобы познакомить нейросеть с программным кодом, разработчики также добавили материалы GitHub и StackOverflow.
Для обучения ruGPT-3 Large использовался суперкомпьютер «Кристофари» и облачная Data Science-платформа ML Space от SberCloud — компании экосистемы «Сбера», предоставляющей облачные услуги.
Пообщаться с нейросетью может любой желающий на специальной странице SberCloud. Для этого нужно предложить программе небольшую «затравку» — например, незаконченное предложение или начало диалога. Результат нельзя предсказать заранее — модель создает свои ответы «на лету», и они никогда не повторяются. Создатели русскоязычной версии предупреждают, что сгенерированные тексты могут оказаться некорректными или неуместными. Цель же страницы — удовлетворить исследовательский интерес научного сообщества.
Модель и правда не всегда выдает выверенные факты. Может, к примеру, предложить вам ограничить калорийность рациона до 40-50 ккал в сутки (при рекомендованных врачами 2 тыс. ккал для взрослого человека) или употреблять в день «не больше одного салата».
Но общаться с ruGPT-3 все равно интересно. Особенно — по тем вопросам, на которые у человечества пока нет однозначного ответа. Нейросеть уверена, что «лучший способ повысить продуктивность — это влюбиться». А на вопрос о том, как стать счастливым, резонно замечает: «Счастье заключается не в том, чтобы получить желаемую вещь, а в самом желании».
Помимо текста, русскоязычная модель может писать программный код. Для этого «затравку» нужно сформулировать на одном из языков программирования.
Первоначально модель обучили на 760 млн параметров, но уже в следующей версии количество параметров выросло до 1,3 млрд. Новая версия в скором времени будет также доступна на сайте SberCloud.
Нейросеть ruGPT-3 XL на 1,3 млрд параметров на данный момент занимает первое место в рейтинге нейросетей Russian SuperGLUE. С помощью метода few-shot модель без какого-либо обучения лучше всех выполнила следующие задачи: выбор лучшего решения в заданных условиях (плюс 10% точности по сравнению с предыдущей версией на 760 млн параметров), ответы на вопросы по тексту (плюс 3% точности), машинное чтение — тест на понимание общего смысла текста (плюс 32% точности).
Как использовать GPT-3 и ruGPT-3 XL
Самый очевидный вариант — это обработка естественного языка: компьютерный анализ и синтез текстов, то есть, использование языковой модели для создания текстов в коммерческих целях. На базе нейросети от OpenAI уже запустили несколько подобных решений, например, сервисы по написанию электронных писем или рекламных объявлений.
Нейросеть также хорошо показала себя в разнообразных чат-ботах. Движок GPT-3 использует ИИ-компаньон Replika, запущенный стартапом с российскими корнями. На базе закрытого API от Open AI также работает необычная социальная сеть AI Channels. Здесь можно пообщаться с различными версиями искусственного интеллекта, которые создатели сервиса называют «агентами ИИ». Среди них — виртуальный Альберт Эйнштейн и другие величайшие умы человечества.
Несколько проектов применили GPT-3 для семантического поиска по документам. Такой поиск основан на значении запросов на естественном языке, а не на сопоставлении ключевых слов. Нейросеть, в частности, помогает искать и анализировать юридические документы в базах и применяется в плагинах для поиска по отдельным сайтам.
Кроме создания текстов, ботов и поисковиков языковая модель способна решать задачи по программированию. В том числе для пользователей, у которых нет глубоких познаний в этой сфере. Разработчики уже показали несколько решений по переводу задач из текстового формата в код. Например, с помощью GPT-3 можно упростить сбор статистики о пользователях сайта или сервиса. Достаточно сформулировать на естественном языке, какая информация вам нужна, и алгоритм выдаст готовый кусок кода для работы с базой данных.
Это лишь небольшая часть вариантов применения GPT-3. За счет универсальности и гибкости модели ее можно использовать в десятках более сложных сценариев. Так, англоязычная версия нейросети уже встроена в различные сервисы по поддержке клиентов, обучающие платформы, приложения для психотерапии.
Самую мощную и продвинутую российскую нейросеть ruGPT-3 XL также планируют использовать для создания коммерческих продуктов и решений в области генерации текста. Так как ruGPT-3 XL работает в публичном облаке SberCloud, ей смогут воспользоваться все участники рынка.
В рамках AI Journey 2020 — крупнейшей международной конференции по искусственному интеллекту и анализу данных — «Сбер» провел международное соревнование AIJ Contest. В нем приняли участие более 1 тыс. дата-сайентистов из 43 государств. На соревновании был специальный трек AI 4 Humanities: ruGPT-3, где создатели самых интересных и перспективных разработок разделили между собой призовой фонд 2,5 млн руб. Кодовая база проекта для специалистов размещена на GitHub.
Подписывайтесь также на Telegram-канал РБК Тренды и будьте в курсе актуальных тенденций и прогнозов о будущем технологий, эко-номики, образования и инноваций.