Что такое корпус в лингвистике

Лингвистический корпус

Ко́рпусная лингви́стика — раздел языкознания, занимающийся разработкой, созданием и использованием текстовых (лингвистических) корпусов. Термин введён в употребление в 60-х годах XX века в связи с развитием практики создания корпусов, которому начиная с 80-х способствовало развитие вычислительной техники.

Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

Целесообразность создания текстовых корпусов объясняется:

Содержание

История

Размер в один миллион слов достаточен для лексикографического описания только самых частотных слов, поскольку слова и грамматические конструкции средней частоты встречаются по несколько раз на миллион слов (со статистической точки зрения язык является большим набором редких событий). Так каждое из таких обыденных слов англ. polite (вежливый) или англ. sunshine (солнечный свет) встречается в БК всего 7 раз, выражение англ. polite letter лишь один раз, а такие устойчивые выражения как англ. polite conversation, smile, request ни разу.

По этим причинам, а также в связи с ростом компьютерных мощностей, способных работать с большими объемами текстов, в 1980-е годы в мире было предпринято несколько попыток создать корпуса большего размера. В Великобритании такими проектами были Банк Английского (Bank of English) и Британский Национальный Корпус (British National Corpus, BNC). В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А. П. Ершова.

Современное состояние

Наличие большого количества текстов в электронной форме существенно облегчило задачу создания больших представительных корпусов размером в десятки и сотни миллионов слов, но не ликвидировало проблем: сбор тысяч текстов, снятие проблем с авторскими правами, приведение всех текстов в единую форму, балансировка корпуса по темам и жанрам отнимают много времени. Представительные корпуса существуют (или разрабатываются) для немецкого, польского, чешского, словенского, финского, новогреческого, армянского, китайского, японского и других языков.

Национальный корпус русского языка, создаваемый при РАН, содержит на сегодняшний день более 140 млн словоупотреблений.

Наряду с представительными корпусами, которые охватывают большой набор жанров и функциональных стилей, в лингвистических исследованиях часто используются и оппортунистические коллекции текстов, например, газеты (часто Wall Street Journal и New York Times), новостные ленты (Рейтер), коллекции художественной литературы (Библиотека Мошкова или Проект Гутенберг).

Проблемы

Проблема представительности

Корпус состоит из конечного числа текстов, но он призван адекватно отражать лексикограмматические феномены, типичные для всего объема текстов в соответствующем языке (или подъязыке). Для представительности важен как размер, так и структура корпуса. Представительный размер зависит от задачи, поскольку он определяется тем, как много примеров может быть найдено для исследуемых феноменов. В связи с тем, что со статистической точки зрения язык содержит большое число относительно редких слов (Закон Ципфа), для исследования первых пяти тысяч наиболее частотных слов (например, убыток, извиняться) требуется корпус размером около 10-20 миллионов словоупотреблений, в то время как для описания первых двадцати тысяч слов (незатейливый, сердцебиение, роиться) уже требуется корпус свыше ста миллионов словоупотреблений.

Проблема разметки

К первичной разметке текстов относятся этапы, обязательные для каждого корпуса:

Проблема представления результатов

В больших корпусах возникает проблема, которая ранее была неактуальной: поиск по запросу может выдавать сотни и даже тысячи результатов (контекстов употребления), которые просто физически невозможно просмотреть в ограниченное время. Для решения этой проблемы разрабатываются системы, позволяющие группировать результаты поиска и автоматически разбивать их на подмножества (кластеризация результатов поиска), либо выдающие наиболее устойчивые словосочетания (коллокации) со статистической оценкой их значимости.

Веб как корпус

Использование поисковых машин

На практике ограниченность такого подхода приводит к тому, что проверить, например, сочетаемость двух слов проще всего через запрос вида «слово1 слово2». По полученным результатам можно судить, насколько распространено такое сочетание и в каких текстах оно чаще встречается. См. также статистика запросов.

Использование веб-страниц

Второй способ заключается в автоматическом извлечении большого количества страниц из Интернета и их дальнейшем использовании в качестве обычного корпуса, что дает возможность провести его разметку и использовать лингвистические параметры в запросах. Этот способ позволяет быстро создать представительный корпус для любого языка в достаточной степени представленного в Интернете, но его жанровое и тематическое разнообразие будет отражать интересы пользователей Интернета. [2]

Всё большую популярность в научной среде получает использование Википедии — как корпуса текстов. [3]

Источник

Что такое корпус?

Статья № 1 цикла расскажет о лингвистическом корпусе языка. Цикл статей составлен на основе материала из лекций курса «Введение в корпусную лингвистику», который читает Левинзон Анна Иосифовна, ст. преподаватель Школы лингвистики гуманитарного факультета НИУ ВШЭ. Этот курс каждый может пройти совершенно бесплатно онлайн на сайте «Открытое образование»

Для изучения гуманитарного знания в 21 века применяются новые компьютерные технологии, позволяющие обрабатывать огромные объемы текстов. Сочетание компьютерных технологий и нового взгляда на языковые феномены и привело к возникновению новой науки – корпусной лингвистики.

Картина Рембрандта «Урок анатомии доктора Тульпа» может помочь объяснить, как происходит процесс изучения языка с помощью корпуса (лат. Corpus «тело»). Этот процесс изучения данных языка, анализа данных, доступный широкой аудитории интересующихся (как на картине), состоящей из школьных учителей, студентов, любителей, переводчиков. Однако, при сравнении существования языкового корпуса, следует подчеркнуть, что корпус – это живой организм, как живой и сам язык исследования.

Первым большим компьютерным корпусом считается Брауновский корпус (БК, англ. Brown Corpus, BC), который был создан в 1960-е годы в Университете Брауна и содержал 500 фрагментов текстов по 2 тысячи слов в каждом, которые были опубликованы на английском языке в США в 1961 году. В результате он задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.Итак, лингвистический корпус – это большой массив языкового материала, где счет идет на сотни миллионов и миллиарды словоупотреблений. Языковой материал при этом не сконструирован, а взят из реального существования слов в языке, в разных его регистрах, стилях, типах текстов, письменной и устной форме в виде отрывков. Естественно, что такие объемы данных могут существовать и существуют только в электронном виде.

Существуют самые разные корпуса от авторских, до корпуса текстов маленьких детей. Примеры см. на илл.

Что такое корпус языка? Корпус – это коллекция текстов, предназначенная специально для изучения языка, не для чтения.

С помощью поддержки государства создаются национальные корпуса определенного языка страны. Например, Национальный корпус русского языка ruscorpora.ru

Выбор текстов для национального корпуса основан на культурной репрезентативности, отбор их производят авторы корпусов на основе своего решения о правилах включения или не включения определенных текстов в корпус. Репрезентативность корпуса соблюдается, если в нем представлены значимые для культуры тексты, если в нем не преобладают тексты оригинальных авторов, пишущих художественную литературу, и если этот корпус будет большим, не менее 100 млн словоупотреблений. См. илл.

Читайте также:  калорийность рис отварной с морковью и луком

Из корпуса исследователь языковых явленийя может получить достоверные сведения о словоупотреблении и находить точные словоформы, а не только слова, но и грамматические категории благодаря своей лингвистической разметке. Очень многие онлайн-словари построены по принципу корпуса, например, корпусной словарь linguee.ru – незаменимый ресурс для переводчиков и преподавателей иностранного языка, где значение слова дается из контекста, путем сопоставления имеющихся в интернете текстов на двух языках и их выравнивания. В отличие от словаря, который фиксирует норму, принятую на определенном этапе развития языка, корпус не даст такой информации, но даст сведения о существовании, распространении и функционировании слова в языке.

Сбалансированность корпуса

Необходимость сбалансированности текстов очевидна. В корпус должны входить тексты как письменные, так и устные, как написанные литераторами, так и сказанные грузчиками в порту, в пропорциях, которые свойственны реально существующему языку в целом. Для того чтобы составить сбалансированный корпус языка, необходимо выделить внутри него подъязыки. Один из первых в истории корпусов американского английского языка университета Браун делал балансировку следующим образом:

Национальный корпус русского языка (НКРЯ) также не является единым массивом, но включает разнообразные подкорпуса – от поэтического до мультимедиа, составленные на основе тех текстов, которые авторы посчитали важными и значимыми.

И последнее свойство корпуса, необходимое для проведения лингвистических исследований – разметка, то есть, специальные обозначения для каждого слова в текстовом отрывке. Она может быть самой разнообразной, в качестве примера приводится разметка НКРЯ.

Рекомендуемые ресурсы:

В. Плунгян. Корпусная лингвистика – лекция на сайте «Постнаука»

Источник

Корпусная лингвистика

Казалось бы, что нового может появиться в лингвистике, как в науке? Языки формировались тысячелетиями, их изучение ведётся многие века – и за это время должны были устояться все методы, все подходы. Но на самом деле лингвистика постоянно развивается: и лучший пример этого развития – теория корпусов.

Что такое корпусная лингвистика?

Лингвистический корпус – это собрание текстов, которые:

То есть, корпус представляет собой большую базу данных, в которой хранятся естественно сформированные человеком тексты. В этом и есть их основная ценность, в естественном происхождении материала.

Когда исследователь – например, разработчик онлайн-переводчика – изучает какой-то язык (принципы построения фраз, частотные словосочетания и т. д.), ему необходимо работать именно с реально использованными текстами. Он не может просто составить нужный программе для примера текст, потому что это будет искусственный материал, сделанный самим исследователем – а значит, он не показателен. Корпуса же имеют настоящий коммуникативный контекст, они реально использовались для решения тех или иных задач. Соответственно, этот материал просто бесценен для разработчиков и исследователей.

История корпусов

Сам термин появился в 60-х – вместе с первым корпусом (Брауновский корпус, 1961-й год) но настоящее развитие теория корпусов получила только в конце 80-х, когда эволюция компьютеров наконец вышла на достаточный для обработки таких собраний текстов виток. Дело в том, что изначально, в 60-е и 70-е, электронных мощностей хватало только на работу с корпусами в миллион слов: это всего 500 текстовых фрагментов по 2 тысячи слов в каждом (Брауновский был как раз таким). Для сравнения: в этой статье 753 слова.

В масштабах языка такой корпус совершенно непредставителен: например, в Брауновском корпусе слово «polite» – вежливый – встречалось всего 7 раз. И это при том, что «polite» – одно из самых обыденных и употребительных слов.

Естественно, что как только компьютерная техника получила большие мощности, лингвисты начали создавать более масштабные корпуса. Уже в 90-х использовались собрания текстов, включавшие в себя сотни миллионов слов, а сегодня и миллиардные корпуса – это не редкость. В качестве примера можно привести Acquis Communautaire – базу данных Евросоюза, содержащую переводы европейского законодательства на 22 языка. В ней как раз около миллиарда слов.

Зачем нужны корпуса с практической точки зрения?

Тексты, входящие в корпус, обрабатывают при помощи специального ПО: анализируют, раскладывают на составляющие. Эти составляющие – часто встречающиеся слова и словосочетания, а также условия, при которых они используются (контекст) – стали основой для современных систем машинного перевода.

С точки зрения основ машинный перевод работает очень просто: система подключена к базе данных – корпусу (или к нескольким корпусам, об этом ниже) – и активно использует поиск по паттернам: словам и словосочетаниям. Находя в корпусе соответствующий по составу и условиям использования паттерн, автоматический переводчик выдаёт его в качестве результата.

Виды корпусов

Современная лингвистика выделяет три типа корпусов:

Особую ценность для автоматизации профессионального перевода имеют тематические корпуса – например, корпус, сформированный Гранжером и Петч-Тайсоном (Granger and Petch-Tyson). Это собрание статей по биохимическим исследованиям, содержащее 500 000 слов.

Корпуса – это «фундамент» машинного перевода

Именно проработанность корпусов определяет качество работы машинного перевода. Например, Google Translate действительно хорошо переводит только в направлении с английского на другие языки и чуть хуже с других языков на английский. При этом система сравнительно плохо работает с парами языков, не включающими в себя английский вообще.

Это связано не с тем, что Google Translate – американская разработка. Причина заключается в том, что именно английский язык с точки зрения лексикографии и теории перевода более прост в обращении – это хорошо показал в своих работах Стиг Йоханссон (Stig Johansson), разрабатывавший корпусы норвежского и английского языков. Грубо говоря, машине проще всего понимать логику именно английского языка – соответственно, и качество перевода будет выше. Кроме того, корпусная лингвистика английского языка более развита.

В конечном счёте, именно теория корпусов позволила машинному переводу развиться до уровня, на котором он находится сейчас. И именно благодаря развитию корпусов, их масштабированию и расширению, качество перевода в автоматических системах продолжает повышаться.

Источник

Что такое Корпус?

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Читайте также:  сан гиг тест обучение

Национальный корпус имеет две важные особенности. он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах &#151 литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века;

синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990-2000-х годов;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;

акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

Читайте также:  Что такое масло м сити

мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)

Источник

Понятие лингвистического корпуса

Корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair)

Прежде, чем говорить о корпусной лингвистике, необходимо определить само понятие лингвистического корпуса. По-английски это будет linguistic corpus или text corpus, множественное число linguistic corpora (corpuses употребляется реже). Существует довольно много определений, которые сходятся в одном: корпус есть «некоторый филологический объект».

Вот несколько дефиниций:

● корпус — это организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов;

● корпус – это набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа;

● корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится в электронном виде и позволяет организовать компьютеризированный поиск;

● пожалуй, наиболее полное определение: корпус есть собрание отрывков текстов в электронной форме, отобранных в соответствии с внешними критериями, чтобы наиболее полно представлять язык или вариацию языка. Функционирует как источник данных для лингвистических исследований. (John Sinclair)

Вот примеры корпусов:

● тексты конкретного писателя или писателей;

● тексты за конкретное десятилетие или столетие;

● современные тексты определённой тематики;

● современные тексты, адекватно представляющие язык или общество.

В одном из определений было сказано, что корпус может быть как устным, так и письменным. Вообще, существует мнение, что лингвистические корпусы не являются ни устными, ни письменными, ни печатными, а представляют собой четвёртую фактуру речи — тексты на машинном носителе — тот самый digital text. Впрочем, с этим взглядом можно спорить.

Понятно, что корпус — это набор текстов, с которыми можно что-то делать. Но что же может делать корпус? Ответ может показаться неожиданным: сам корпус не может делать ничего. Но мы можем использовать специальное программное обеспечение, чтобы искать в корпусе что-либо и производить некоторые вычисления. Что же мы можем искать? В первую очередь, это слова и фразы, которые имеют культурную или лингвистическую значимость.

Кроме того, предметом поиска могут являться какие-либо пометки, которые вы добавили к корпусу, например, пометка «существительное».

А вот примеры того, что может нам выдать поиск по корпусу:

● все употребления выбранного слова в непосредственном контексте;

● вариации и последовательность в использовании лексики;

● слова, которые чаще всего стоят рядом с выбранным словом;

● наиболее важные различия между двумя наборами текстов;

● как тот или иной писатель использует слова и фразы;

● интертекстуальность: значение слова как сумма его употреблений;

● скрытые (потенциальные) модели использования лексики;

● развитие концептов во времени;

В частности, нам, как переводчикам, наиболее актуальны возможности поиска контекстов слов, имеющих несколько переводных эквивалентов, а также подбор эквивалентов терминологических и фразеологических словосочетаний в параллельных корпусах, о которых мы будем говорить в следующих лекциях.

Важнейшее свойство корпуса – репрезентативность, то есть, способность отражать все свойства проблемной области. Репрезентативность определяется фонетическими, морфологическими, синтаксическими и стилевыми параметрами корпуса. Именно репрезентативность отличает корпус от простого набора текстов. Не в последнюю очередь репрезентативность зависит от размера корпуса.

Эмпирический подход в сравнении с хомскианской лингвистикой

Некоторые русскоязычные источники указывают, что впервые идея о том, что достоверные лингвистические данные могут быть получены лишь из большого массива текстов, была высказана Р.Г. Пиотровским в 60-х годах. На самом деле, осмысленные исследования в области корпусов начались ещё в сороковые годы (Блумфилд, Фрайс и Бонджерс). Но в 50-60-е годы возобладала концепция Ноама Хомского (1) (хомскианская лингвистика, chomskyan linguistics). Она заключалась в том, что нужно изучать лишь competence (языковое знание, «язык» по Соссюру), а не performance (языковое употребление, «речь» по Соссюру). Ведь число высказываний естественного языка бесконечно, поэтому исследовать их бессмысленно. С другой стороны, количество языковых правил, которые и составляют competence, конечно. Поэтому их можно исследовать. Таким образом, произошёл уход от эмпирики в сторону рационализма и интроспекции (использования интуиции носителей языка). Тем не менее, некоторые учёные продолжали использовать корпусные методики и в период безраздельного господства генеративной лингвистики.

Так, Чейф считает, что корпусный лингвист должен не только описывать явления языка, но и стараться объяснить их. Вообще, в центре внимания корпусной лингвистики оказалась языковая личность, то есть, её речевая деятельность, массовая коммуникация, проблема её описания.

Корпусная лингвистика

Традиционная лингвистика

Основное внимание – изучение речи Основное внимание – изучение языка Цель – описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов Цель – описание и объяснение языка В своих исследованиях опирается на данные корпуса текста В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи Предпочитает квантитативные (количественные) методы Предпочитает квалитативные (качественные) методы Видит себя частью традиций, базирующихся на эмпирических методах Видит себя частью традиций, базирующихся на рационалистических методах Текст рассматривается как некоторая физическая сущность Текст рассматривается как некоторая абстракция Составление грамматики конкретных языков Изучает языковые универсалии Основное внимание уделяется форме Основное внимание – не только форме, но и содержанию Рассматривает тексты в глобальной перспективе Рассматривает тексты в локальной перспективе Фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами Анализирует некоторую конкретную, искусственно ограниченную, проблемную область В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала Предпочитает логические рассуждения Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте Предпочитаются искусственные примеры, из изолированных от текста словоупотреблений Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода Предпочитает дедуктивные методы обработки эмпирического словесного материала Верит в научные открытия, основанные на обработке эмпирических данных Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д.

1 Основатель генеративной лингвистики

2 Например, корпус в принципе не может дать ответ на вопрос, какие конструкции в данном языке

Курс «Корпусная лингвистика» (А.Б. Кутузов), ТюмГУ
Лицензия Creative commons Attribution Share-Alike 3.0 Unported

06.06.2016, 6710 просмотров.

Источник

Портал знаний