Что такое корпус национальный корпус русского языка

Что такое Корпус?

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус имеет две важные особенности. он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах &#151 литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века;

синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990-2000-х годов;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;

акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)

Источник

О проекте

Организация проекта

Почтовый адрес администрации Корпуса: 119019 Москва, Г-19, Волхонка, 18/2, Институт русского языка им. В. В. Виноградова РАН, Отдел корпусной лингвистики и лингвистической поэтики.

С 2011 по 2014 гг. создание и развитие корпуса поддерживалось Программой Президиума РАН «Корпусная лингвистика» № 36-П (сайт программы).

В проекте участвуют специалисты Института русского языка им. В. В. Виноградова РАН [ИРЯ РАН], Института языкознания РАН [ИЯз РАН], Института проблем передачи информации РАН [ИППИ РАН], Всероссийского института научной и технической информации РАН [ВИНИТИ РАН] и Института лингвистических исследований РАН [ИЛИ РАН] в (совместно с государственным университетом [СПбГУ]), Казанского (Приволжского) федерального университета, Воронежского государственного университета, Саратовского государственного университета. Подробная информация о сотрудниках проекта, на разных этапах принимавших участие в работе над Корпусом, размещена на странице «Участники».

Подробнее об истории создания корпуса см. статью Д. В. Сичинавы «Национальный корпус русского языка: очерк предыстории» (2005).

Основной корпус письменных текстов

Создание основного корпуса письменных и устных текстов. В этой работе выделяется ряд подзадач:

Создание представительного корпуса письменных текстов XVIII века. Эта задача решалась группой КГУ под руководством В. Д. Соловьёва и группой ИРЯ под руководством С. О. Савчук при поддержке программы Президиума РАН «Историко-культурное наследие и духовные ценности России» (руководитель проекта Д. В. Сичинава).

Создание представительного корпуса письменных текстов XIX — первой половины XX века. Эта задача решалась группой ИЛИ РАН под руководством М. Д. Воейковой и Н. Н. Казанского при поддержке грантов РФФИ № 03-04-00226а (руководитель проекта Л. А. Вербицкая), № 06-04-03817в (руководитель проекта Е. В. Рахилина), программы ОИФН РАН (проект «Пополнение текстовых ресурсов корпуса (тексты первой половины ХХ в.)», руководитель С. О. Савчук). С 2015 г. в корпус включены тексты в дореформенной орфографии, представляющие собой электронные версии оригинальных изданий XVIII — начала XX вв.

Создание представительного корпуса современных письменных текстов (середины XX — начала XXI века). Эта задача решалась группой ИРЯ РАН (с участием сотрудников ряда других институтов) под руководством А. М. Молдована и В. А. Плунгяна при поддержке проектов ОИФН РАН «Формирование и метатекстовая разметка корпуса текстов второй половины XX и XXI вв.» (руководитель В. А. Плунгян), «Подготовка окончательного варианта корпуса современного русского языка: коррекция баланса и редактирование» (руководитель Е. В. Рахилина), проектов Федерального агентства по образованию «Электронный корпус русского языка: научно-исследовательский и обучающий Интернет-ресурс», «Информационное наполнение банка данных о русском языке, его истории и современном состоянии» (руководитель А. М. Молдован).

Разработка принципов морфологической и разметки для сбалансированного корпуса письменных текстов, разработка программного обеспечения и разметка корпусов. Эта задача решалась группой ИРЯ РАН при поддержке ОИФН РАН (проекты «Создание программного обеспечения для Национального корпуса текстов русского языка», руководители А. Я. Шайкевич и С. А. Шаров, «Программное обеспечение Национального корпуса русского языка XIX-XXI вв.», руководители они же, «Лексико-семантическая и таксономическая разметка подмассива сбалансированного корпуса», «Морфосемантическая разметка и снятие морфологической и лексической омонимии в Национальном корпусе русского языка», «Модель управления глагола и текст: теоретические и прикладные аспекты», — руководитель всех трёх Е. В. Падучева, «Процессы словообразования в текстовой динамике», руководитель О. Н. Ляшевская, «Конструкции и динамика текста», руководитель Е. В. Рахилина).

Общие принципы морфологической разметки текста были разработаны В. А. Плунгяном при участии Г. И. Кустовой, А. Е. Полякова и Д. В. Сичинавы.

Программное обеспечение для морфологической разметки Корпуса разработано Д. В. Панкратовым, А. Е. Поляковым и В. А. Титовым и в дальнейшем развивалось Т. А. Архангельским и А. И. Зобниным на базе программ автоматического морфологического анализа русских письменных текстов Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко). Теоретической разработкой принципов морфологического анализа для этих программ занимались Л. Л. Иомдин и В. З. Санников (Mystem) и Н. Н. Леонтьева (Dialing). В создании и усовершенствовании программного обеспечения Национального корпуса в целом (системы поиска, метатекстовой разметки, семантической разметки и др.) принимали участие на различных этапах работы А. А. Аброскин, Т. А. Архангельский, Н. В. Григорьев, С. В. Давыдов, А. И. Зобнин, Б. П. Кобрицов, А. В. Кондратьев, Д. В. Панкратов, А. Е. Поляков, В. А. Титов, О. М. Урюпина и С. Ю. Шустрова.

В работах по морфологической разметке принимал участие большой коллектив специалистов, а также студентов и аспирантов лингвистических вузов Москвы. Наиболее значительный объем работ был выполнен О. Л. Бирюк, Д. С. Ганенковым, Е. А. Гришиной, О. В. Драгой, Г. И. Кустовой, Ю. А. Ландером, О. Н. Ляшевской, Т. А. Майсаком, Е. А. Пшехоцкой, Ю. Д. Семьяновой, Д. В. Сичинавой и С. В. Уляхиной.

В экспертизе результатов морфологической и акцентной разметки участвовали П. М. Аркадьев, А. В. Венцов, Д. С. Ганенков, Е. А. Гришина, Г. И. Кустова, О. Н. Ляшевская, Н. В. Перцов.

В разработке и внедрении в Корпус словообразовательно-семантической разметки участвовали Е. Ю. Калинина, Г. И. Кустова, О. Н. Ляшевская, Е. В. Падучева, В. А. Плунгян, Е. В. Рахилина, С. Ю. Толдова, Е. Б. Чекменёва и О. Ю. Шеманаева (Подлесская). Программные средства для семантической разметки разработаны А. Е. Поляковым и А. И. Зобниным.

Разработчики Корпуса приносят благодарность следующим издательским коллективам и фондам, предоставившим для архива Корпуса электронные версии находящихся в их распоряжении текстов:

Редакции журнала «Альфа и Омега»
Издательству «Аграф»
Издательству «Вагриус»
Редакции «Еженедельного Журнала»
Издательству «Захаров»
Издательству «Звенья»
Редакции газеты «Известия»
Фонду ИНДЕМ
Издательскому дому
Фонду имени протоиерея Александра Меня
Издательству «Мир и Образование»
Санкт-Петербургскому отделению издательства «Наука»
Издательству «Научный мир»
Фонду «Общественное мнение»
Издательству «О. Г. И.»
Издательству «Пальмира»
Издательству «Русский путь»
Дому-музею Марины Цветаевой
Издательству «ЭКСМО»
Издательству «Ad Marginem»
Издательству «FreeFly»

Корпус СМИ 1990-2000-х годов (газетный корпус)

Создание подкорпуса современных текстов средств массовой информации. Эта задача решается группой ИРЯ РАН под руководством С. О. Савчук; в работе участвуют также Л. А. Алексеевский и М. С. Кудинов. За предоставленные тексты разработчики корпуса приносят благодарность Д. В. Левоняну и С. С. Рубакову (Corpus Technologies).

Корпус региональной и зарубежной прессы

Подкорпус российских региональных газет подготовлен при поддержке РГНФ (грант 13-24-01004). В корпус региональной и зарубежной прессы включен иллюстративный лингвистический корпус СМИ Гродненщины, подготовленный в рамках проекта БРФФИ Г13Р-050 преподавателями кафедры общего и славянского языкознания Гродненского государственного университета имени Янки Купалы, научный руководитель проекта — заведующий кафедрой Л. В. Рычкова; в проекте участвовали А. Ю. Станкевич, И. А. Чепикова, Е. Н. Мохань. Ссылки на публикации представлены в разделе «Публикации» и на http://studiorum.ruscorpora.ru/

Корпус устных текстов (корпус живой русской речи)

Создание подкорпуса записей устной речи. Эта задача решалась группой ИРЯ РАН под руководством Е. А. Гришиной при поддержке грантов РГНФ № 03-04-00226а (руководитель проекта Л. А. Вербицкая) и РФФИ № 06-06-80133а (руководитель проекта В. А. Плунгян), проекта Федерального агентства образования «Разработка и апробация информационного ресурса “Корпус живой русской речи”» (руководитель А. М. Молдован), программы Президиума РАН «Корпусная лингвистика». Разработчики корпуса приносят благодарность М. В. Китайгородской, М. Л. Каленчук, Н. Н. Розановой, Д. М. Савинову, Е. С. Скачедубовой, Е. В. Щигель, О. В. Антоновой, Е. В. Корпечковой (ИРЯ РАН), А. С. Герду и М. В. Русаковой (СПбГУ), О. Б. Сиротининой (Саратовский государственный университет), Исследовательскому коллективу филологического факультета СПбГУ под руководством А. С. Асиновского (А. С. Асиновский, Н. В. Богданова, С. Б. Степанова, Т. Ю. Шерстинова, И. В. Королева и др.; Мультимедийный корпус русского языка повседневного общения «Один речевой день»), Ю. А. Гунько, Т. И. Петровой, А. Е. Цесарской, О. В. Лыс (Дальневосточный федеральный университет, Владивосток), предоставившим для Корпуса материалы записей устной речи.

Акцентологический корпус (корпус истории русского ударения)

Создание подкорпуса текстов, несущих информацию об истории русского ударения. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке гранта РФФИ № 08-06-00371-а (руководитель проекта Е. А. Гришина). В работе над проектом участвовали Н. В. Перцов, С. В. Пискунова, А. Е. Поляков, С. О. Савчук, Д. В. Сичинава.

Дальнейшее развитие корпуса осуществлялось при поддержке программы «Корпусная лингвистика», в рамках которой были подготовлены и включены в состав корпуса уникальные материалы фонотеки ИРЯ им. В. В. Виноградова РАН.

В 2015 г. в акцентологический корпус включён подкорпус наивной поэзии — это стихотворные тексты, написанные поэтами-любителями, не публикующимися в признанной литературной периодике. Эстетические достоинства этих текстов не важны для исследования русской акцентологии, но регулярность чередований ударных и безударных слогов в русском стихе дает бесценный материал для уяснения множества вопросов, связанных с расстановкой ударений в словах современными носителями русского языка.

За предоставление текстов непрофессиональных литераторов с сайта stihi.ru НКРЯ благодарит команду Поиска Mail.Ru и лично Андрея Кутузова. Акцентуация произведена автоматически с помощью программы, написанной Юрием Зеленковым.

В состав акцентологического корпуса включена коллекция текстов, собранная студентами Казахстанского филиала МГУ им. М. В. Ломоносова в 2011 г. За предоставленные материалы приносим благодарность руководителю практики к. ф. н., доц. Казахстанского филиала МГУ С. М. Треблер и к. ф. н., доценту МГУ И. Б. Качинской.

Мультимедийный корпус

Создание мультимедийного корпуса. Эта задача решалась группой под руководством Е. А. Гришиной при поддержке грантов РФФИ № 10-0600151-а и № 15-06-04334а (руководитель проектов С. О. Савчук), №11-06-00030а (руководитель проекта Е. А. Гришина), программы ОИФН «Генезис и взаимодействие социальных, культурных и языковых общностей», программы Президиума РАН «Корпусная лингвистика», программы ОИФН РАН «Язык и информационные технологии». См. также Список участников проекта.

Параллельные корпуса письменных текстов

Создание корпусов параллельных текстов. Разработку англо-русского, русско-английского и немецко-русского корпусов решали совместно группа ИРЯ РАН под руководством Д. О. Добровольского и группа Воронежского университета под руководством А. А. Кретова (Е. Н. Подтележникова, И. А. Меркулова, К. М. Шилихина, Ю. П. Плешкова, Ю. П. Суворова). На начальных этапах в работе принимала участие также группа СПбГУ под руководством В. Б. Касевича. Над параллельными французско-русским и русско-французским корпусами работала группа ИПИ РАН под руководством И. М. Зацмана и Анны А. Зализняк (Н. В. Бунтман, О. С. Кожунова, М. Г. Кружков), а также французские исследователи (В. Бене и С. Луазо). Испанско-русские и русско-испанские тексты выровнены С. Ю. Бочавер и В. С. Люсиной, итальянско-русские и русско-итальянские — К. Д. Балакиной, А. Бонолой, Ф. Бьяджини и В. Нозедой (наряду с текстами, предоставленными А. Барентсеном), латышско-русские и русско-латышские — Н. В. Перковой, эстонско-русские — М. В. Боровиковой, армянско-русские и русско-армянские — Т. О. Шавриной. Русско-болгарский компонент основывается на текстах, любезно предоставленных Великотырновским университетом (группой под руководством проф. Гочо Гочева). Параллельные польско-русский и русско-польский корпуса развивались совместно группой Варшавского университета под руководством М. Лазинского и группой РГГУ под руководством С. О. Минлос. Над параллельными украинско-русским и русско-украинским корпусами работал коллектив украинских специалистов (М. А. Шведова, О. А. Тищенко-Монастырская, А. Л. Кривенко), над белорусско-русским и русско-белорусским — коллектив Института языка и литературы НАНБ под руководством В. А. Кощенко (И. В. Глинник, О. В. Мицкевич, А. В. Зубов, И. Л. Копылов, а также Ю. А. Стасевич (Коровко) и Е. Н. Скопинова). В основе многоязычного корпуса лежат тексты, любезно предоставленные А. Барентсеном (Амстердам); ряд текстов привлечён разработчиками НКРЯ дополнительно, кроме того, выравнивание текстов полуавтоматически уточнено. Ряд английских, немецких и французских текстов совокупным объёмом 10 тыс. параллельных предложений любезно предоставлен компанией ABBYY (проект ABBYY Lingvo Pro). Общую координацию проектов параллельных корпусов осуществлял Д. В. Сичинава. В работе принимали участие программисты Т. А. Архангельский и А. П. Печёный. Работа велась при поддержке проектов ОИФН РАН «Программное обеспечение корпуса параллельных текстов: разработка методики выравнивания» (руководитель Д. О. Добровольский), «Пополнение и развитие корпуса параллельных текстов» (руководитель Д. О. Добровольский), проекта «Корпусная лингвистика» (руководитель Д. О. Добровольский), гранта РГНФ № 11-24-01004a/Bel «Корпусные сопоставительные исследования русского и белорусского языков и разработка параллельных электронных корпусов» (руководитель А. М. Молдован), гранта РФФИ № 12-06-33038 «Контрастивные корпусные исследования русских и французских глагольных категорий в поливариантных параллельных текстах» (руководитель Д. В. Сичинава).

Корпус диалектных текстов

Работа по созданию корпуса русских диалектных текстов осуществлялась группой ИРЯ РАН под руководством А. Б. Летучего, а затем И. Б. Качинской, при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и грантов РФФИ № 06-04-03818в и РГНФ 09-04-12159в (руководитель проектов В. М. Живов). Принципы разметки были разработаны А. Б. Летучим при участии В. С. Мальцевой и В. А. Плунгяна, а затем доработаны И. Б. Качинской при участии Е. В. Моисеевой и Д. В. Сичинавы. Программные средства для разметки корпуса разработаны Т. А. Архангельским. Разработчки Корпуса приносят благодарность И. И. Исаеву, Л. Л. Касаткину и С. К. Пожарицкой за консультации по разработке принципов формата разметки и по отбору и представлению диалектных текстов, Л. Л. Касаткину и Р. Ф. Касаткиной (ИРЯ РАН), С. К. Пожарицкой (МГУ), В. Е. Гольдину (Саратовский государственный университет), С. П. Праведникову (Курский государственный педагогический университет), А. И. Рыко (Санкт-Петербургский государственный университет), предоставившим для Корпуса диалектные тексты.

Корпус поэтических текстов

Работа по созданию корпуса русских поэтических текстов осуществлялась группой ИРЯ РАН под руководством В А. Плунгяна при поддержке проекта ОИФН РАН «Создание новых подкорпусов Национального корпуса» (руководитель В. А. Плунгян) и гранта РГНФ 08-04-12127в «Создание информационной системы «Корпус русской поэзии» в рамках Национального корпуса русского языка» (руководитель Н. В. Перцов). Принципы разметки поэтических текстов были разработаны В. А. Плунгяном при участии Е. А. Гришиной, К. М. Корчагина, Н. В. Перцова, А. Е. Полякова и Д. В. Сичинавы. Наиболее значительный объем работ по сбору и разметке поэтических текстов был выполнен Т. А. Архангельским, Д. А. Ивановой, К. М. Корчагиным и Д. В. Сичинавой; активное участие в работе над поэтическим корпусом принимали также Н. К. Богомолова, Е. А. Гришина, Е. Н. Ловля, Б. В. Орехов, Д. А. Эршлер. Координация работ и редактирование разметки поэтического подкорпуса осуществлялась В. А. Плунгяном и К. М. Корчагиным при участии Д. В. Сичинавы. За предоставленные тексты разработчики Корпуса благодарят П. М. Нерлера, издательство «Академический проект», а также сетевые проекты «Русская виртуальная библиотека» и «Фундаментальная электронная библиотека».

Обучающий корпус русского языка

Работа по созданию обучающего корпуса осуществляется группой ИРЯ РАН при поддержке проекта Федерального агентства по образованию «Разработка и апробация электронного ресурса «Обучающий корпус русского языка»» (руководитель А. М. Молдован).

Поисковая система

Поиск по корпусу осуществляется поисковой системой Яндекс.Сервер. Для поиска грамматической и метатекстовой информации задействованы способности Яндекс.Сервера по поиску скрытых свойств (атрибутов) документов и фрагментов текста. Поисковая выдача также формируется при помощи средств Яндекс.Сервера.

Дизайн и поддержка сайта

Поддержка сайта осуществляется компанией «Яндекс».

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *