|
Это - персональный сайт курса лекций по корпусной лингвистике Рыкова В.В.
|
Это - персональный сайт курса лекций по корпусной лингвистике Рыкова В.В.
На этом персональном сайте размещены материалы к курсу лекций по корпусной лингвистике Рыкова В.В.
Курс читался в Гродненском Университете имени Янки Купалы в апреле 2002 года
Краткое содержание лекций
|
~
Корпусная лингвистика.
Рыков. В.В. (г.Москва)
Сопоставление корпусной и традиционной лингвистик, а также традиционного лингвиста и "корпусного". Очень условное и преувеличенное - для понимания сущности описываемого подхода.
Корпусная лингвистика <==> Традиционная лингвистика
1 Основное внимание – изучение речи <==> Основное внимание – изучение языка
2 Цель –описание языка в том виде, как он проявил себя в речи, представленной в виде специально подобранного корпуса текстов <==> Цель – описание и объяснение языка
3 В своих исследованиях опирается на данные корпуса текста <==> В своих исследованиях идёт от теории к её объяснению и подтверждению в фактах речи
4 Предпочитает квантитативные методы <==> Предпочитает квалитативные методы
5 Видит себя частью традиций, базирующихся на эмпирических методах <==> Видит себя частью традиций, базирующихся на рационалистических методах
6 Текст рассматривается как некоторая физическая сущность <==> Текст рассматривается как некоторая абстракция
7 Составление грамматики конкретных языков <==> Изучает языковые универсалии
8 Основное внимание уделяется форме <==> Основное внимание – не только форме, но и содержанию
9 Рассматривает тексты в глобальной перспективе <==> Рассматривает тексты в локальной перспективе
10 Фокусирует своё внимание на как можно более широком взгляде на текст, неограниченном ни какими догмами <==> Анализирует некоторую конкретную, искусственно ограниченную, проблемную область
11 В своих выводах опирается на наблюдение речевой деятельности, проявленной в виде текстов <==> Опирается на интуицию в отборе речевого материала, в отборе эмпирических материалов своих исследований
12 Часто пользуется вероятностными методами и статистикой для первичной обработки речевого материала <==> Предпочитает логические рассуждения
13 Проводится работа с лингвистическими данными (словоупотреблениями) в том виде, в каком они встречались в контексте <==> Предпочитаются искусственные примеры, из изолированных от текста словоупотреблений
14 Предпочитает индуктивные методы обработки эмпирического словесного материала, считает их сутью научного метода <==> Предпочитает дедуктивные методы обработки эмпирического словесного материала
15 Верит в научные открытия, основанные на обработке эмпирических данных <==> Верит в открытия, основанные на процедурах, оценках, сравнениях и т.д., т.е., как результат многовековых исследований
Стадии работы:
Корпусная лингвистика имеет дело с уже собранным материалом.
1.Необходимо представить структуру речевой действительности.
2.Выявить, какие материальные ограничения есть на составление корпуса.
3.Отбор текстов и составление корпуса текста.
4.Компиляция корпуса.
Определение корпуса текстов:
1.Некоторое собрание текстов.
2.В основе лежит логический замысел, логическая идея, объединяющая эти тексты.
3.Воплощение логической идеи:
правила организации текстов в корпус
алгоритмы и программы анализа корпуса текстов
сопряжённая с этим идеология и методология
4.Корпус текстов принадлежит к четвёртой фактуре речи.
*Фактуры речи:
устная речь
письменная речь
печатная речь
тексты на машинном носителе
Корпус текстов:
некоторый филологический объект;
организованное словесное множество, элементами которого являются определённым образом отобранные тексты;
организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов.
Самые популярные, распространенные, важные корпуса текстов.
Название Год Количество словоупотреблений Язык
1 BUC 1964 1 000 000 Англ.(USA) печатный
2 AHI 1971 5 000 000 Англ.(USA) печатный
3 LOB 1978 1 000 000 Англ.(G.B) печатный
4 Birmingem corpus 1987 20 000 000 Англ.(G.B) печатный
5 Kolhapur corpus 1988 1 000 000 Aнгл.(Индийский)
6 TOSCA 1988 1.5 000 000 Англ.(G.B) печатный
7 SEU Corpus 1989 1 000 000 Англ.(G.B) печатный
8 CHILDES 1990 20 000 000 Aнгл.(детский) устный
9 Nijmengen 1991 132 000 000 Англ.(G.B) печатный, устный
10 LLELC 1991 50 000 000 Англ. печатный, устный
11 Map Task Corpus 1991 147 000 000 Англ.(Scotland) устный
12 LCLE 1992 10 000 000 Англ. печатный (для иностранцев)
13 SEC 1992 53 000 000 Англ.(G.B) устный
14 Wellington Corpus 1993 1 000 000 Англ.(Новозеланд.) печатный
15 POW 1993 65 000 000 Англ.(детский) устный
16 BNC 1995 100 000 000 Англ.(G.B) устный, письменный, печатный
17 Corpus of Spoken 1991 2 000 000 Англ.(USA) устный
18 ICLE 1997 200 000 000 Англ. письменный (для иностранцев)
19 Bank of English 1997 320 000 000 Англ.(G.B) печатный
Основная задача компьютерной лингвистики.
Полное и системное отражение содержательного общения на языке. Основной особенностью направления исследования, которое можно назвать информационно-семиотическое направление лингвистических исследований, является подход к рассмотрению прикладных проблем лингвистики строго в коммуникативных процессах. При этом в центре внимания оказывается не язык (естественный), как система, и не проблема его формализации (имеющая самые различные толкования), а процесс содержательного общения на языке, и по возможности точное его описание, которое может быть использовано для решения научно-технических задач информатики.
Первая попытка достаточно полного и системного отражения “содержательного общения на языке” в сфере печатной речи была предпринята составителями BUC.
Корпусная лингвистика сделала возможным:
1. Уточнить результаты и выводы, проведённых ранее исследований речи.
2. Произвести новые, более широкие и системные по охвату эмпирического речевого материала лингвистические исследования..
В центре внимания корпусной лингвистики оказалась языковая личность, т.е., её речевая деятельность, массовая коммуникация, проблема её описания.
Главная цель:
лингвистическое описание языковой системы (подход от конкретного изучения коммуникации людей),
особый способ отражения речевого материала в корпусе текстов, который может использоваться в свою очередь другими лингвистическими дисциплинами.
Корпусная лингвистика имеет две черты, дающие основание претендовать на положение самостоятельной дисциплины:
1. Характер используемого словесного материала.
2. Специфика инструментария.
Таким образом, корпус текстов, с одной стороны, это исходный речевой материал для корпусной лингвистики и для других лингвистических дисциплин; с другой стороны, результат деятельности корпусной лингвистики.
"Отступления" корпусной лингвистики:
1. КЛ не отрицает ценности и необходимости речевых данных не представленных в корпусной форме;
КЛ утверждает то, что из корпуса текстов невозможно извлечь все возможные лингвистические выводы, т.е., что корпус текстов не является самодостаточным.
Классификация корпуса текстов.
По степени организации и структурированности
1. Электронный архив – это тексты на электронном носителе, но их форма представленая на машинном носителе не стандартизирована и не унифицирована.
2. Электронная библиотека – тексты здесь представлены однородным и стандартизированным образом.
3. Корпус текстов – форма стандартизирована и унифицирована, тексты предназначены для отражения части лингвистической реальности.
4. Субкорпус – это некоторая автономная часть корпуса.
По хронологическому признаку:
1. Синхронический;
2. Мониторный (отслеживает текущее состояние языка);
3. Диахронический.
По индексации:
1. Простой;
2. Аннотированный.
По языку:
1. Одноязычный;
2. Двуязычный;
3. Многоязычный.
По способу применения и использования корпуса:
1. Исследовательский;
2. Иллюстративный;
3. Параллельный.
По способу существования корпуса:
1. Динамический;
2. Статический.
Программы анализа корпуса.
1. Программы составления конкордансов.
2. Программы индексирования или аннотирования.
Конкорданс – список словоформ встречающихся в тексте, расположенных в алфавитном порядке. В противоположногсть словарю – слово даётся с его словесным окружением.
Конструирование и применение корпусов.
Единой методики для всех языков нет. Так как разные языки, традиции, технологические процессы. Но основные требования таковы:
1. Кто пользователь корпуса? (индивид, группа, лингвистическое общество).
2. Какова логическая идея, которая положена в основу корпуса?
3. С каким объёмом данных мы будем работать при составлении корпуса? На сколько это необходимо и реалистично?
4. Используем отрывки из текстов, полные тексты или то и другое.
5. Процедура отбора текстов в корпусе. Для разных целей по-разному:
обследование речевого материала,
сканирование текстов,
окончательное формирование, составление корпуса.
6. Стандартизированное представление корпуса на уровне отраслевых стандартов, т.е., представление всего корпуса как продукта:
аннотация всего текста в целом
унифицированное представление словесного материала текста.
7. Аннотирование, индексирование словесного материала текста.
Лингвистические исследования, базирующееся на корпусе текстов.
Применение корпусов текста в исследовании языка.
1. Подбор нужного корпуса текстов:
доступность,
достаточность словесного материала,
является ли данный корпус представительным для поставленной задачи,
каким образом были отобраны тексты,
достоверно ли представление индексов (если он индексирован).
2. Насколько необходимо данное исследование (адоптация целей и задач исследования под наличный корпус текстов).
3. Практические рекомендации:
анализировать то, что ясно и явно представлено в машиной форме,
искать то, что легко найти,
подсчитывать то, что легко подсчитывается.
Проблемная область.
Это область реализации языковой системы, содержащая феномены, подлежащие лингвистическому описанию. Проблемная область для конкретного корпуса может быть сколь угодно велика или сколь угодно мала. Всё определяется выбранным объектом анализа.
В идеале проблемная область имеет 2 измерения:
1 языковое измерение, проявляющееся в существовании потенциальной возможности, появления других употреблений, дополняющих массив имеющихся реализаций;
2 речевое измерение, представленное речевыми высказываниями.
3
В корпусной лингвистике, как правило, языковой аспект фактически игнорируется, т.к. изначально фиксируется область привлекаемых языковых данных – реализации языковой системы. Однако для регулярно изменяемых корпусов данных, языковой аспект проблемной области сразу проявляется при разработке принципов модификации корпуса. Кроме того, для лингвистического исследования (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, т.к. его следует реконструировать в результате анализа.
Репрезентативность.
Важнейшее свойство корпуса текстов – его репрезентативность. Т.е., способность отражать все свойства проблемной области. Соблюдаются ли пропорции, которые наблюдаются проблемной области. Простейший способ преобразования проблемной области в корпус это пропорциональное сужение проблемной области. Репрезентативность определяется параметрами:
фонетическими,
морфологическими,
синтаксическими,
стилевыми.
~
Краткое содержание лекций (в формате Word)
E-mail: rykov-cl@narod.ru
|