Что такое компьютерный лингвист
Компьютерная лингвистика: кем можно работать с дипломом магистра?
Компьютерный лингвист — это достаточно новая профессия, которая находится на перекрестии математики, лингвистики и программирования, поэтому оконченная магистратура по любому из этих направлений дает право работать компьютерным лингвистом.
Компьютерный лингвист — это профессионал, который непосредственно работает с:
В общем, эта профессия очень тесно связана с автоматическим анализом человеческого языка и машинным обучением.
Компьютерный лингвист — это новая специализация
Мир компьютерных технологий развивается стремительными темпами, поэтому очень часто рождаются новые профессии, по которым еще нет обучени я в государственных учреждениях. Потому что государственная система образования просто не успевает за требованиями IT-индустрии.
Как вообще происходит рождение новых профессий в IT? Все достаточно просто. К примеру, есть какая-то условная специальность с определенным набором обязанностей. Данная специальность попадает в тренд и начинает развиваться быстрыми темпами. Нагрузка на специальность растет, требования увеличиваются и наступает такой момент, когда имеет смысл отделить от основной специальности какое-то отдельное направление со своими требованиями и нагрузкой и превратить его в новую специальность. Так рождаются новые IT-специализации, так же «родился» и компьютерный лингвист. То ест ь был момент, когда с работой компьютерного лингвиста справлялся какой-нибудь условный data science или разработчик. Но наплыл такой объем работы с распознаванием речи, что для этого пришлось выделить отдельно направление «компьютерный лингвист».
Компьютерный лингвист: особенности профессии
Компьютерный лингвист может исполнять следующие обязанности:
Исходя из обязанностей компьютерного лингвиста можно выделить следующие требования к данному специалисту. Компьютерный лингвист должен:
Компьютерная лингвистика: нужна ли магистратура для работы
Компьютерная лингвистика считается достаточно сложной профессией, поэтому если есть оконченная магистратура по математике, лингвистике или программировании, то это, безусловно, будет большим плюсом.
Компьютерная лингвистика сложна для самостоятельного обучения, потому что имеет достаточно высокий порог входа в профессию и, соответственно, большие требования к специалисту. Поэтому в эту профессию входят либо после обучения в ВУЗах по прямой или смежной специальности, либо после прохождения качественных курсов обучения, при этом имея за плечами большой опыт работы в смежной IT-специальности.
Требования к специальности «компьютерный лингвист» достаточн о высоки, потому что очень высокая доля ответственности. В основном, работа по такой специальности есть в крупных IT-компаниях, например Google, Mail.ru, Яндекс, Amazon, Apple, крупные аналитические компании, НИИ и др. Более мелкие организации реже нанимают компьютерных лингвистов, потому что попросту не имеют необходимый объем работы для озадачивания такого специалиста.
Заключение
Компьютерный лингвист — это профессия не для каждого. Она требует наличия определенных знаний и определенного опыта. Поэтому, чтобы с тать компьютерным лингвистом, нужно сделать эту специальность своей большой целью и достаточно долго к ней идти.
Из-за того, что «войти» в специальность достаточно сложно, компьютерный лингвист, как специалист, очень неплохо оплачивается. Но опять же, оплата в первую очередь зависит от опыта самого специалиста и уровня компании, где открыта вакансия по этой специальности.
Мы будем очень благодарны
если под понравившемся материалом Вы нажмёте одну из кнопок социальных сетей и поделитесь с друзьями.
Стоит ли учиться на компьютерного лингвиста? Личный опыт
В далеком 2012 году, я, только что сдав ЕГЭ (на то время баллы были хорошими), подала документы в университет на бакалаврскую программу «Фундаментальная и прикладная лингвистика». Я не понимала, что это такое, чему нас будут учить, кем я потом буду. Меня привлекло сложное название программы и описание в буклете абитуриентов. Да, в общем, я отучилась 4 года и до сих пор не поняла, правильный ли выбор я сделала.
Чтобы разобраться в этом, необходимо понять, что такое компьютерный лингвист. По современным определениям, компьютерная лингвистика – это
научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.
Возьмем обычного выпускника, который сдавал ЕГЭ по математике, русскому и английскому. Вот он поступает на компьютерную лингвистику, не зная, кем он будет на выходе.
В процессе обучения он успевает побыть в трех амплуа: человек, который отлично знает
современный русский язык, тенденции его изменения, как развивался русский язык (от древнерусского до наших дней), его морфологический строй, диалекты и немного литературу. Человек, который каким-либо образом не забыл это все после сдачи зимней сессии – филолог.
Добавим немного еще компетенций:
Человек, допустим, шарит в морфологии, синтаксисе, семантике, социолингвистике и других аспектах языка. Его не пугают такие понятия, как синтагматика и парадигматика, онтологии и тезаурусы, пропозиция, когнитивизм, прагматика и так далее. Знает английский язык и в идеале еще плюсом 1-2 других иностранных языка (в моем случае это заброшенные напрочь немецкий и испанский). И вот мы получаем лингвиста. Прикладного. Который знает, как теорию можно применить на практике.
Теперь, чтобы получить компьютерного лингвиста, мы добавим этому бедному студенту навыки программирования, машинного обучения и в принципе навыки natural language processing. Он знает, как можно обработать звучащую речь, как можно собрать коллекции текстов, как можно определить тональность отзыва о недавно вышедшем фильме. Разбирается в NLTK, других полезных библиотеках. Понимает, что омонимия может стать проблемой выделения именованных сущностей.
А, к чему это все. В итоге-то программировать я не научилась, я могу знать всю теорию, а как применить ее на практике не позволяет склад ума. И получается, что после выпуска я не компьютерный, а прикладной лингвист. Ни два ни полтора, как говорится.
И много ли вообще таких, кто посередине? Получается, что человек должен в идеале знать две абсолютно противоположные предметные области. Как вы думаете, легче научить человека с аналитическим складом ума разобраться в лингвистике, или наоборот, гуманитария научить программированию?
П.С. Работу по специальности я нашла — лингвист, который составляет справочники, решает проблемы омонимии, тестирует (ну, как тестирует, смотрит тексты), в которых должны правильно выделяться именованные сущности и так далее.
Цифровой лингвист
Для обеспечения потребности в обучении ИИ планируется введение новой профессии – цифровой лингвист, которая по данным «Атласа новых профессий» должна появиться в начале третьего десятилетия 21 века. Сегодня мы предлагаем вам узнать, чем именно будут заниматься эти специалисты и какие перспективы развития их ожидают.
В эпоху цифровизации особо актуальным вопросом является «налаживание отношений» между человеком и искусственным интеллектом. Ранее считалось, что эффективная работа с компьютерами подвластна только людям с техническим складом ума. Но теперь, когда компьютер можно найти практически в каждом доме, а техника научилась разговаривать и понимать человеческую речь, значительно увеличился спрос на специалистов, которые смогут сделать работу с искусственным интеллектом еще проще, еще понятнее.
Кто такой цифровой лингвист?
Цифровой лингвист – эксперт в области разработки лингвистических систем для семантического перевода текстов, обработки текстовой информации и создания новых способов общения между человеком и компьютером.
История развития лингвистики, как науки, длится уже не одно столетие. За все это время множество известных личностей посвящали жизнь изучению проблематики различных языков. Но изменившиеся условия жизни требуют от лингвистов, как и от специалистов других рыночных сегментов, освоения новых навыков межотраслевой коммуникации. Цифровой лингвист – очередной этап профессионального развития, на котором специалисту потребуется преодолеть множество подводных камней, которые, конечно же, принесут свои плоды.
Для освоения профессии цифрового лингвиста потребуется:
В компетенцию специалиста по цифровой лингвистике входит:
Какими личностными качествами должен обладать цифровой лингвист?
По сути, цифровой лингвист – это сочетание языковеда и специалиста в области компьютерных наук. Поэтому в этом специалисте объединяются качества, характерные для этих двух, казалось бы, несовместимых профессий.
Работа с компьютером и базами данных предполагает наличие математических и аналитических способностей, а также умения работать с большими потоками информации. Лингвистический же аспект дополняет профессию такими качествами, как:
Кроме того, обучение искусственного интеллекта потребует от специалиста усидчивости и терпения. А поскольку деятельность цифрового лингвиста связана с обнаружением ошибок, которые так или иначе возникают при работе с машинами, и поиском решений по их устранению, для него свойственно стремление к совершенствованию, упорство, способность длительное время концентрироваться на одной задаче, выполнять монотонную работу и структурировать большие потоки данных.
Преимущества профессии цифровой лингвист
В 2019 году вопрос о совершенствовании и распространении искусственного интеллекта был включен в национальную стратегию развития. Данное решение, а также тот факт, что цифровая лингвистика включена в перечень профессий будущего, открывает большие перспективы перед специалистами, работающими в этой области. Увеличение спроса на цифровых лингвистов, способных эффективно обучать речи машину, отмечается уже сейчас, а в дальнейшем он будет только возрастать.
Нельзя не сказать о том, что появление этой новой профессии открывает большие возможности для профессионального роста гуманитариев, чьи компетенции длительное время были ограничены. По данным аналитиков, многие лингвистические специальности постепенно устаревают, поэтому освоение нового направления позволит им сохранить конкурентоспособность на рынке труда.
Поскольку данная профессия находится на этапе становления, компании испытывают существенный дефицит кадров. Другими словами, сегодня, и в ближайшие годы, молодому специалисту будет очень просто найти место в крупнейших компаниях, работающих в сфере информационных технологий, которые смогут сделать выгодное предложение не только по дальнейшему обучению своего сотрудника, но и по заработной плате.
Недостатки профессии цифровой лингвист
Для цифровых лингвистов, как и для других профессий, связанных с компьютерными технологиями, характерен сидячий образ жизни и постоянное зрительное напряжение. Это увеличивает риск возникновения заболеваний опорно-двигательного аппарата, ухудшения зрения, дисфункции сосудистой системы.
Хотя получение образования по этому направлению не займет много времени, профессиональная деятельность подразумевает непрерывное обучение и развитие новых навыков, что потребует от цифрового лингвиста дополнительных усилий, готовности к совмещению работы с учебой и отказом от многих увлечений, ради карьерного роста.
Где можно получить профессию цифровой лингвист?
Специальность подойдет для людей, склонных к изучению информатики, иностранных языков и математики. По окончанию школы можно поступить в высшее учебное заведение, выбрав направление «Фундаментальная и прикладная лингвистика». Сразу скажем, что в некоторых ВУЗах страны уже сегодня действуют магистерские программы по обучению компьютерной и когнитивной лингвистике, которые позволяют работать в области автоматического анализа естественного языка. Поэтому выпускники этого года могут без проблем получить перспективную новую профессию, которая откроет перед ними большие возможности.
Для освоения профессии абитуриентам стоит обратить внимание на следующие образовательные организации:
Стоит отметить, что профессия цифрового лингвиста доступна не только выпускникам школ. Опытные программисты, переводчики и другие специалисты из смежных направлений могут пройти профессиональную переподготовку и дополнить свою базу знаний. Да и выпускникам ВУЗов, обучавшимся на факультетах иностранных языков или компьютерных технологий, можно будет увеличить уровень профессиональной компетенции на специальных курсах.
Компьютерный лингвист
разрабатывает программы для обработки естественного языка, создает инструменты распознавания текста и речи, системы перевода, голосовых ассистентов, персональных помощников, «умных» чат-ботов
Человека окружает большое количество языковой информации, представленной в разных форматах: аудио-, видео-, текстовом. Используя алгоритмы обработки текста, лингвист имеет возможность собрать информацию о необходимых объектах: например, нравится ли зрителям определенный фильм или за кого будут голосовать пользователи твиттера на выборах.
Компьютерные лингвисты разрабатывают программы, которые воспроизводят когнитивную языковую деятельность человека — умение читать, понимать на слух, говорить, участвовать в диалоге, переводить с одного языка на другой. В их задачи входит создание инструментов, которые помогают извлекать лингвистическую информацию из текстов, размечать лингвистические признаки в текстах, создавать ресурсы для хранения лингвистических единиц, например, для хранения слов, их значений, их семантических и морфологических свойств.
Компьютерные лингвисты востребованы крупными IT-компаниями, чья деятельность связана с обработкой больших объемов текстовых или речевых данных. Они могут работать в науке, СМИ, торговле, финансах, здравоохранении — везде, где требуется применение современных информационных технологий к лингвистическим данным.
Оценки рынка
16,1%
составит ожидаемый среднегодовой рост рынка обработки естественного языка в мире в период с 2016 по 2021 год (с 7,63 до 16,07 миллиардов долларов)
Татьяна Ландо, Google — о том, как общаться с ИИ и нужен ли миру общий язык
С повсеместным распространением интернета, растущим количеством устройств с естественно-языковыми интерфейсами в мире становится всё более популярной компьютерная лингвистика. Специалисты этой профессии работают в компаниях Google, Яндекс, Mail.Ru и ABBYY. В 2019 году вопрос совершенствования ИИ был включен в национальную стратегию развития, а компьютерная лингвистика — в перечень профессий будущего. Татьяна Ландо, лингвист-аналитик компании Google, рассказала «Хайтеку» об особенностях этой профессии, связи человеческого и компьютерного языков, взаимодействии человека и ИИ, а также необходимости автоматизации деятельности человека.
Читайте «Хайтек» в
Татьяна Ландо — старший лингвист Google, живет и работает в Лондоне. Занимается проектами в компьютерной лингвистике и анализе языковых данных, проводит консультации по вопросам автоматической обработки естественного языка, выступает с лекциями про диалоговые системы. С 2012 по 2016 была одним из основных организаторов конференции AINL — Artificial Intelligence & Natural Language. В 2016 году стала соредактором первого учебника на русском языке «Прикладная и компьютерная лингвистика».
О роли человека в компьютерной лингвистике
— Кто такой компьютерный лингвист — гуманитарий или технарь?
— Это очень сложный вопрос, потому что если спросить гуманитариев, то мы, компьютерные лингвисты, не совсем к ним относимся, а если спросить техническую сторону, то для них мы не очень хорошо программируем.
Но прелесть этой области заключается в том, что мы как раз можем приносить лучшее из разных миров друг в друга. Если мы говорим о создании разговорных агентов, то мои знания лингвистики помогают находить слабые места у современных технологий и предлагать решения, о которых люди, незнакомые с лингвистикой, могли бы не догадаться. Например, могу подсказать способы изменения слов. Естественно, это работает и в обратную сторону. Если исторически лингвисты считали частоты по корпусу, в том числе для определения авторства, чуть ли не вручную, то технари подсказывают программы и алгоритмы для автоматизации этих процессов, чтобы лингвисты концентрировались на более интересных проблемах.
— Чем занимается компьютерная лингвистика?
— Это направление посвящено, с одной стороны, созданию речевых, связанных с языком интерфейсов между человеком и компьютером, с другой стороны — компьютерной обработке языковых данных в самом широком смысле. В целом это любое пересечение лингвистики и компьютеров.
Компьютерная лингвистика помогает быстро обрабатывать огромные объемы данных. Многие лингвистические исследования включают в себя корпусную лингвистику, когда берется огромный массив текстов и по нему считаются какие-то явления и закономерности. Всё это гораздо быстрее и проще делать с помощью компьютерных алгоритмов. Помогают они и в установлении авторства: считают распределение частей речи, длину предложений, другие особенности, о которых сами авторы могут не задумываться. И когда возникает вопрос, кто написал то или иное произведение, можно сравнить этот количественный профиль с тем, что мы уже знаем об авторе, и выяснить, кто на самом деле был автором.
Я работаю над улучшением взаимодействия человека с техникой посредством языка. Поскольку язык для нас — наиболее привычный способ взаимодействия друг с другом, мне кажется, что давать команды на естественном языке проще, чем нажимать кнопки и вбивать фразы. Идеально было бы говорить кофеварке: «Свари мне кофе», или говорить холодильнику: «Закажи мне продукты, которые закончились», или чтобы компьютер автоматически переводил речь. Нам бы хотелось иметь такой универсальный инструмент: приложение в телефоне, программу или отдельное устройство, в которое мы говорим на одном языке, а оно идеально переводит на другой язык. Пока что это работает с очень ограниченным качеством, но технологии движутся в том направлении.
Компьютерная лингвистика — направление прикладной лингвистики, ориентированное на использование компьютерных программ для моделирования функционирования языка в тех или иных условиях, а также сфера применения компьютерных моделей языка в лингвистике и близких ей дисциплинах. Дисциплина зародилась в 60-е годы XX века и прежде всего представляла собой разработку методов для общения человека с ЭВМ на естественном или ограниченно естественном языке. Также к компьютерной лингвистике относятся создание гипертекстовых систем и автоматический перевод.
В 1980–1990 годы появилось новое направление — корпусная лингвистика, в рамках которой разрабатываются общие принципы построения лингвистических корпусов данных (текстов) с использованием современных компьютерных технологий. Корпус текстов — специально подобранные тексты из книг, журналов, газет, перенесенные на компьютерные носители и предназначенные для автоматической обработки. Также корпусная лингвистика занимается созданием программ для извлечения нужной информации из текстов.
С начала 2000-х Институт русского языка имени В. В. Виноградова РАН разрабатывает Национальный корпус русского языка из русскоязычных текстов объемом примерно 100 млн словоупотреблений.
Современный компьютерный лингвист разрабатывает программы для обработки естественного языка, инструменты распознавания текста и устной речи, системы перевода, голосовых помощников, умных чат-ботов.
— В России готовят специалистов по компьютерной лингвистике или подобные специалисты — это уникальные самоучки?
— В России готовят: я училась в России в СПбГУ, на кафедре прикладной лингвистики, и таких кафедр около десяти по стране. В Высшей школе экономики в Москве не так давно открылась новая кафедра по прикладной и компьютерной лингвистике. В Питере есть одна или две, а в Москве еще в РГГУ и МГУ.
— А как обстоят дела с таким обучением за рубежом?
— На Западе в последнее время есть тенденция сочетать Computer Science и Natural Language Processing вместе. Выпускники таких специальностей чаще больше технари, чем в России, но при этом их знания лингвистики могут быть очень разными, в зависимости от тех учреждений, в которых они учились. Есть кафедры, которые стараются совмещать и техническую, и лингвистическую стороны образования, а есть те, которые в основном опираются на техническую или лингвистическую сторону. Рынок этих специалистов сильно растет, особенно в США, хотя и чувствуется некоторая нехватка людей с двойным профилем.
Computer Science, с англ. «компьютерная наука» — наука о методах и процессах сбора, хранения, обработки, передачи, анализа и оценки информации с применением компьютерных технологий, обеспечивающих возможность ее использования для принятия решений. В России под это определение подпадают следующие направления подготовки специалистов: ВМиК (вычислительная математика и кибернетика), ИВТ (информатика и вычислительная техника) и другие.
Natural Language Processing, с англ. «обработка естественного языка» — общее направление ИИ и математической лингвистики. Изучает проблемы компьютерного анализа и синтеза естественных языков.
Язык компьютерный и человеческий
— Обычно людям легче дается изучение языка, если они уже знают другой язык из этой же группы. С обучением компьютера языку всё то же самое?
— Людям проще учить языки той же группы, потому что они похожи и лексически, и грамматически. Скажем, в русском языке у существительных есть падежи, а в романских нет, поэтому если мы учим другие славянские языки, то концепт падежей нам будет понятен плюс знаком лексический состав слов. Точно так же схожи итальянский и испанский языки: там есть одинаковые артикли, сочетания артиклей и предлогов, структура времен. И нам гораздо сложнее будет учить иероглифические языки, потому что там письмо сильно отличается от индоевропейской семьи языков.
В компьютерной лингвистике можно построить алгоритмы на одинаковом объеме данных, тогда алгоритм, работающий для одного языка, так же хорошо будет работать и для родственного. Например, если мы знаем, как правильно решить проблему с морфологией для автоматической обработки русского языка, такое же решение с другими данными будет применимо, предположим, для польского. В компьютерной лингвистике удобно группировать семьи по языкам и находить общее решение для определенной языковой семьи.
— Какие-то слова и их сочетания являются редкими, какие-то — общеупотребительными. Насколько важен такой анализ для машинного обучения?
— Частота слов и словосочетаний — это одна из основных, базовых вещей, которые можно узнать про язык: например, информационный поиск во многом опирается на метрику TF/IDF, которая основана на частотном анализе. Для классификации текстов очень важно сравнивать частоты внутри одной тематики со всем языком. Допустим, мы хотим классифицировать научные статьи по их темам: математика, физика или медицина. Одна из базовых методик — посмотреть, какие слова и словосочетания встречаются внутри математических, физических и медицинских статей, и сравнить их друг с другом. Там много разных факторов, но можно ожидать, что названия белков будут только в медицинских текстах, названия алгоритмов — в математике, а названия каких-то констант будут характерны только для физики.
TF/IDF — статистическая метрика, показывающая весомость конкретного слова в контексте документа, входящего в общую базу. TF — частота слова — отношение количества вхождения конкретного слов к суммарному набору слов в исследуемом тексте, отражение важности слова. IDF — обратная частота — инверсия частотности, с которой определенное слово фигурирует в коллекции текстов. Метрика TF/IDF обычно используется поисковыми системами для определения релевантности той или иной страницы запросу, а также для определения близости разных текстов друг другу для их группировки.
— Получив часть фразы, человек всегда ожидает ее продолжения. Можно ли научить компьютер таким же образом предсказывать выражения и использовать это, например, для коррекции распознавания речи?
— Конечно, можно, но у любого «можно» есть своя применимость и качество. Ни одна из задач, которыми сейчас занимается компьютерная лингвистика, не решена и никогда не будет решена на 100%. Потому что язык складывается из слов, словосочетаний, устойчивых выражений, пословиц и поговорок, а также из того, как каждый конкретный человек этим пользуется. Есть люди, у которых более богатый словарный запас. Многие выражения записаны в словаре, особенно старые пословицы и поговорки. Распространенные языковые выражения, пословицы, поговорки, устойчивые словосочетания можно просто, условно говоря, переписать в словарь компьютера и примерно объяснить. И сопоставить с какими-то синонимами. И тогда у компьютера будет это в базе.
Но надо понимать, что современные системы, даже те, которые выглядят очень умными, не понимают всё, что именно им говорят люди. Научить компьютер понимать фразы нельзя, но можно создать ресурсы, которые будут симулировать понимание. Можно задать алгоритму, что «Сказав “А”, скажи “Б”» — синоним фразы «Закончи мысль». Но нельзя сказать, что компьютер понимает, что именно это значит.
— Переводчики в видеочатах или мессенджерах в режиме реального времени пока работают не очень хорошо. С чем это связано?
— Алгоритмы ИИ обучаются на текстах, написанных на двух языках. Эти тексты сравниваются, чтобы точно можно было сказать, какой кусок текста в языке А соответствует какому куску текста в языке Б. Проблема в том, что большая часть этих алгоритмов обучается на книгах, субтитрах, сайтах, которые написаны литературным языком. А люди, в том числе в чатах, используют разговорный язык и не всегда говорят грамматические корректно, бывает много опечаток, пунктуация зачастую выбрасывается из текста. Например, я никогда не ставлю точки в конце предложения, когда пишут в мессенджерах. Поэтому алгоритмам не хватает именно такой спонтанной, разговорной, чатовой речи. Но мы не можем обучаться на пользовательских данных, потому что это персональная информация и она никому не доступна. Получается, что мы обучаем системы на одних типах языка, а применяем на других. И всегда при таком переносе качество сильно страдает.
Взаимодействие человека и искусственного интеллекта
— Зачем вообще будущему ИИ понимать людей и их язык?
— Это философский вопрос. Понимание и язык очень сильно связаны у людей, потому что мы демонстрируем свое понимание с помощью языка. С точки зрения ИИ не до конца понятно, чего именно мы от него хотим. И я не уверена, что понимание ему на самом деле нужно.
Конечно, чтобы создать идеальный перевод с одного языка на другой, нужен переводчик, идеально владеющий обоими языками. Поэтому какие-то модели понимания для того, чтобы создать идеальный автоматический переводчик, тоже должны существовать. Мы можем добиться какого-то порога с помощью тех техник симуляции понимания, которые сейчас используются во всех алгоритмах искусственного языка. Но стопроцентными они никогда не будут, а сравнивать их с хорошими человеческими переводчиками тоже не придется.
Есть еще неязыковой аспект искусственного языка, где больше этических вопросов, например, самодвижущиеся автомобили. Как они должны отрабатывать столкновение с другими машинами? Как должно быть устроено принятие решений, если машина едет по дороге и перед ней выскакивает человек? Люди принимают решение мгновенно, но на что должен опираться алгоритм, чтобы принять такое решение? И в тот момент, когда вместо алгоритма у нас будет глубокое понимание, возникнет тот самый сильный ИИ. Я не уверена, что это в принципе возможно. Поэтому для того, чтобы хорошо работали алгоритмы, в первую очередь компьютерной лингвистики, понимание необязательно. Любое понимание будет симулироваться какими-то моделями и алгоритмами в достаточной степени, чтобы выполнять большую часть задач, которые мы хотим автоматизировать. Например, холодильник, который сам покупает молоко.
— Одной из главных проблем создания ИИ называют отсутствие естественного языкового интерфейса для общения человека с компьютером. А как же многочисленные голосовые помощники?
— Голосовые помощники — это голосовой интерфейс между человеком и компьютером. Соответственно, все помощники, которые сейчас существуют, заточены под какие-то задачи. Абсолютного интерфейса, который бы покрывал все их, конечно, сейчас нет. Плюс качество современных технологий еще далеко от совершенства, бывают случаи с разными голосовыми помощниками, когда они что-то понимают, а если эту фразу сформулировать иначе, то перестают ее понимать. Или если сформулировать в более разговорной форме, помощник может сломаться. Если сформулировать простым языком, похожим на язык поисковых запросов, то помощник понимает лучше.
Речь идет не о том, что интерфейса совсем не существует, а о том, что качество и разнообразие дел, с которыми голосовые помощники могут помогать, еще недостаточно развиты для полного их использования. Мы всё равно вынуждены использовать клавиатуру и мышку для взаимодействия с компьютером. Телефоны чуть лучше в этом плане, для них проще создавать софт. Но стандартный десктоп еще далек до полного управления, хотя такие технологии могли бы быть очень полезны, например, пожилым людям.
— Идея общемирового языка была популярна среди фантастов. Можно ли построить такую универсальную модель для всех языков и нужна ли вообще она нам?
— У нас уже есть английский как универсальный язык общения, и я боюсь, что его вряд ли кто-то сможет сдвинуть с этих позиций. Есть направление универсальной грамматики, которое говорит, что языки строятся примерно по одним и тем же принципам, и можно создать такую общую модель, которая будет описывать все языки с разными вариациями. Это красивое теоретическое построение, и оно легло в основу довольно большого количества лингвистических течений. Особенно в XX веке.
Синтаксические парсеры и многие модели машинного обучения сейчас одинаковы, просто применяются к разным данным, и получаются результаты на разных языках в зависимости от того, к каким данным их применили. Есть модели, которые смешивают похожие языки внутри одной семьи, чтобы увеличить количество данных и в среднем увеличить качество.
С практической точки зрения не всегда понятно, зачем нужна такая универсальная модель. Она, кажется, не совсем применима, особенно в последнее время. Сейчас в тренде машинное обучение и нейронные сети, то есть разработчики пытаются одним алгоритмом решить задачу целиком. Например, перевод текста: на входе текст на одном языке, на выходе — на другом, а в середине какая-то композиция нейронных сетей и других алгоритмов машинного обучения. В такой парадигме эти универсальные подходы к языкам не актуальны.
Автоматизация деятельности: за и против
— Голосовые помощники упрощают жизнь. Настигнет ли нас такой момент, когда вся наша деятельность будет таким образом упрощена?
— Всю деятельность так упростить невозможно и не нужно, потому что упрощать всегда нужно рутинные операции и действия, которые мы выполняем по необходимости. Например, мы кликаем мышкой, потому что так нужно управлять компьютером сейчас. Хорошо оптимизировать промежуточные шаги, сделать человека более продуктивным, освободить ему время. Если мы можем использовать в том числе голосовой интерфейс для этого, то было бы удобно. Например, сейчас популярен тренд на создание голосовых интерфейсов к автомобилям просто потому, что если едешь за рулем и не хочешь снимать руки с руля, то проще сказать: «Включи дальний свет» или «Мигни “спасибо” той машине, которая меня пропустила».
— А что автоматизировать нельзя ни в коем случае?
— Самовыражение. Вообще можно автоматизировать всё, кроме того, что люди хотят делать сами. И нужно автоматизировать вещи, которые требуют большой точности, но нужно хорошо понимать, как мы строим эти алгоритмы, как их проверяем и насколько можем им доверять. И нужно ли действительно доверять всё алгоритмам или строить помощников для людей, которые принимают решения. В современных самолетах есть автопилот, но пилоты всё равно нужны, потому что в крайних случаях люди принимают решение эффективнее или быстрее, чем машина. То же самое с медициной: мы можем себе представить роботов, которые будут оперировать людей вместо хирургов, но я бы не хотела этого как минимум потому, что опыт в машинах накапливается не так, как в людях, и погрешность алгоритмов всегда существует.
Действия человека зависят от профессионализма, но в каких-то случаях люди будут принимать более вменяемые решения или осознавать лучше, когда можно рисковать и насколько этот риск контролируем. Это тоже зависит от развития технологий в ближайшие годы. Но в ближайшие несколько десятилетий я бы не хотела, чтобы роботы принимали решения относительно моих медицинских вопросов. Но роботы могут быть чрезвычайно полезны при анализе огромного количества медицинской информации, которая сейчас существует, чтобы помогать врачам в поиске этой информации и помогать изучать какие-то рутинные вещи.
— Какую свою работу вы бы отдали роботу?
— Я работаю в разработке Google Assistant лингвистом, и моя задача заключается в том, чтобы понять, как сделать его еще более понимающим и полезным с точки зрения языковых систем. Чтобы система лучше понимала людей, а ее качество было лучше, чем сейчас. Чтобы возможности расширялись и сценарии, которые программа может поддерживать, усложнялись, а язык был более разговорным. Поэтому построение роботов роботам пока еще рано отдавать.
Я с удовольствием готова аутсорсить какие-то рутинные вещи, которые делаю в своей личной жизни, например, покупку продуктов, напоминания, я и так пользуюсь довольно много напоминаниями, таймером или будильником, то есть гораздо проще просто сказать: «Окей, Гугл, разбуди меня завтра в 9 утра», — чем брать телефон и нажимать кнопки. Я хочу, чтобы мой дом знал, что перед моим приходом нужно включить отопление сильнее, а пока меня нет дома, экономить. Хорошо автоматизировать наши маленькие действия, которые не обязательно делать самим.