Курс корпусной лингвистики - три статьи по теме

Статья 1 - Статья была напечатана в сборнике «Тверской лингвистический меридиан» в 1999 году

Рыков В.В. (Москва)

ПРАГМАТИЧЕСКИ ОРИЕНТИРОВАННЫЙ КОРПУС ТЕКСТОВ


Now computer readable corpora are important instrument for various linguistic studies. So called corpus linguistics is one of the leading scientific streams in modern phylological and many other studies. The advent of Internet and other new technologies has had a great impact on speech relationships in modern society. The increasing number of texts now are easyly available for use. More and more people in different countries can easily communicate now between themselves. And more of it - they are often involved in new, unknown for them kinds of communication. Hence many people need for their everyday practice, for learning and research the corpora of texts that would represent the desired mode of communication to learn, the literary genre for research, the proper subset of unknown language to study etc. Now there is a crucial need for quick constructing of the so called user defined corpus of texts. It would reflect the current need of various kinds of people for a proper collection of sample texts. So there should be a definite relationship between the pragmatical goal of the person and the structure of the user defined corpus of texts.
The purpose of this study is to research the pattern of relationship between the pragmatical goal of the member of communication and the structure of the corpus of texts he needs. The proposed approach states that the concise definition of the concepts of corpus of texts, text archive, collection of texts should be given.
Also we should describe the scope of possible range of pragmatical goals of the corpus users and their influence on corpus design criteria.


Речевые отношения в современном обществе все более совершенствуются и усложняются. Появляются и очень быстро становятся активными новые формы общения людей. Ярким примером этого явления может служить появление Интернет.
Можно сказать, что современное информационное общество приносит новый стиль в речевые отношения людей и это требует глубокого лингвистического изучения. Новые отношения требуют новой риторики, т.к. как и тысячи лет назад человеку требуется понимать новые виды речи и уметь эффективно строить свою речь в новых условиях коммуникации.
Каждому человеку по-прежнему требуется умение извлекать нужную ему информацию из обращенной к нему речи или прочитанного текста для принятия адекватного решения в своей деловой и повседневной жизни.
Также остро необходима и способность порождать уместную, эффективную
устную или письменную речь как в новых, так и в традиционных условиях
деловой и бытовой коммуникации.
Каждая речь должна находиться в рамках культурных традиций
данного общества. Трудно себе представить, чтобы деловое письмо или
научная статья, написанные вне рамок соответствующих культурных
традиций, могли бы быть достаточно эффективными и даже просто достичь
адресата.
Можно также сказать, что по-прежнему остается актуальной проблема
оптимизации обучения построению эффективной речи. Существует мнение,
что эта проблема сейчас стоит даже как никогда остро. Есть много
подходов к решению этой проблемы. Некоторые подходы решают эту
проблему в рамках существующих традиций, развивая их в соответствии с
изменившимися обстоятельствами.
Одна из таких традиций основывается на традиционной риторической
тренировке - т.е. обучению и усвоению образцовых для данной культуры и
условий коммуникации текстов. По сути человеку, желающему научиться
эффективно строить свою речь в определенных условиях, предлагается
корпус образцовых или учебных текстов, на базе которых он проходит
соответствующee обучение.
Другими словами, обучающемуся предлагается корпус образцовых
текстов, ориентированных на усвоение и использование их как прототипа
для последующих речевых действий в определенных условиях коммуникации.
Таким образом, корпус текстов, ориентированный на определенную
прагматическую цель, или прагматически ориентированный корпус текстов
(ПК) может рассматриваться как часть решения проблемы оптимизации
речевых отношений в современном обществе.
Конечно, функциональная роль ПК не сводится и не может быть
сведена только к проблеме оптимизации обучения или оптимизации речевых
отношений в обществе. Прагматической целью, лежащей в основе
построения соответствующего ПК может быть не только тот или иной вид
обучения, но и широкий спектр различных практических и научных
исследований и применений.
Однако, прежде всего требует более глубокого научного описания
само понятие корпус текстов как объект филологического изучения.

Корпус текстов - это определенным образом организованное множество, элементами
которого являются тексты. Организация корпуса может быть самая разная
- в зависимости от прагматических целей его создателя или
пользователя. Тексты, которые суть составляющие элементы корпуса,
могут представлять собой целое оригинальное словесное произведение или
какую-либо его часть.
Как правило, предполагается, что весь корпус записан на магнитном
(машинном) носителе и расположен компактно в одном месте. Далее
имеется в виду для определенности именно такие корпуса текстов. Это не
мешает нам говорить о корпусах текстов, виртуально расположенных в
различных местах, однако объединенных прагматическим замыслом его
пользователя или создателя. Например, корпус текстов А.С.Пушкина. Как
правило, то обстоятельство что, что корпус не обязательно весь
находится в одном месте и на машинном носителе не влияет на
справедливость дальнейших рассуждений.
С появлением Интернет отдельные тексты корпуса могут также
находиться в различных точках земного шара, будучи тем не менее
доступны для обработки по каналам связи. Фактически речь идет о
различии между физической и логической организацией корпуса как
некоторого единства. И здесь, безусловно, рассматривается логическая
организация ПК.
В 60-е годы в Брауновском университете (США) впервые был создан
большой корпус текстов на машинном носителе. Его авторы У.Френсис и
Г.Кучера спроектировали его как набор из пятисот двухтысячесловных
прозаических печатных текстов американского варианта английского
языка. Тексты принадлежали пятнадцати наиболее массовым жанрам
англоязычной печатной прозы США.
Его авторы употребили слово "корпус" в значении "совокупность
текстов, считающаяся представительной для данного языка, диалекта или
другого подмножества языка, предназначенная для лингвистического
анализа" (Френсис, 1983).
Корпус сопровождался не только обширным описанием, но и большим
количеством материалов его первичной статистической обработки -
частотный и алфавитно-частотный словарь, разнообразные статистические
распределения.
Появление Брауновского корпуса в 1963 году вызвало всеобщий
интерес и оживленные дискуссии. Прежде всего они коснулись принципов
отбора текстов и состава потенциально решаемых на таком корпусе задач.
У.Френсис и Г.Кучера ставили целью представить корпус текстов,
отвечающих ясным и четким критериям отбора:
1.Происхождение и состав текста (автор должен был быть урожденным
носителем американского варианта английского языка, диалог должен был
занимать менее половины объема текста)
2.Синхронизация (включены были тексты, впервые изданные в 1961
году)
3.Продуманное соотношение численной представленности различных
жанров и отбор отдельных текстов при помощи особой вероятностной
процедуры.
4.Доступность для компьютерной обработки (специальные пометы для
передачи графических особенностей текста и т.п.)
Сам факт появления представительного корпуса из случайно
отобранных текстов массовой печатной продукции США означал крупный
поворот, пользуясь терминологией В.В.Виноградова, от изучения языка
художественной литературы к изучению литературного языка.
В процессе дискуссии были выяснены и сформулированы требования к
отбору текстов - объем отдельного текста должен статистически
достоверно отражать его стилевые особенности, а численный состав и
соотношение жанров должны адекватно представлять стилевые особенности
жанров и их относительный вес. Двухтысячесловный барьер на длину
текста и численная представленность пятнадцати жанров печатной прозы
США в основном удовлетворили требованиям лингвистической теории и
практики. Брауновский корпус быстро превратился в популярный объект
исследования и даже в некоторый стандарт для создания других
аналогичных корпусов.
Вскоре его авторы с гордостью сообщали, что речевой материал
корпуса послужил объектом самых разных исследований - от простейших
подсчетов частот отдельных букв до сочетаемости слова "good",
выполненного философом из Гонконга (Френсис, 1983). Все эти подсчеты
могли теперь быть быстро выполнены на компьютере. Более того,
появилась возможность их сравнения и верификации, т.к. речевой
материал был один и тот же и он хорошо был известен в мире
лингвистики.
Именно это имели в виду составители корпуса, сделав слово
"стандартный" составной частью его полного названия.
Получается, что, как объект исследования, корпус текстов
представляет собой сверхсложную многоуровневую динамическую систему.
Отношения в такой системе, возникающие на уровне "корпус текстов -
отдельный его текст", а также другие проблемы, так или иначе связанные
с корпусом текстов как лингвистическим объектом, стали изучаться новой наукой
- корпусной лингвистикой.
В процессе использования Брауновского корпуса пришло понимание
того, что некоторые корректные лингвистические сравнения можно успешно
провести только на большом объеме речевого материала, определенным
образом организованного в корпус.
Причем результаты таких сравнений могут быть качественно иными,
если исследования проходят в рамках некоторого лингвистически
корректно разработанного подхода, включающего в себя правила
организации текстов в корпус, алгоритмы их анализа и своя сопряженная
с этим научная методология.
Такой подход был назван "корпусной лингвистикой". Большие объемы текстов стали массово использоваться в качестве
первичных данных для изучения функционирования языка. Использование
компьютера в обработке этих данных предполагало и потребовало
формализации соответствующих лингвистических алгоритмов.
Вскоре появился британский аналог Брауновского корпуса - LOB
(Lancaster-Oslo/Bergen) корпус, названный, как и Брауновский, по месту
его создания. Его создатели почти в точности придерживались принципов,
положенных в основу формирования Брауновского корпуса - та же средняя
длина текста, те же способы его представления на машинном носителе.
Даже состав пятнадцати жанров теперь уже британской массовой печатной
продукции был примерно тем же, равно как и год их публикации- 1961.
Этим была достигнута важная цель. Теперь можно было сравнивать не
только два варианта (американский и британский) английского языка,
речевой материал которых был представлен массовым и однородным
образом. Сами программы лингвистической обработки соответствующих
текстов на машинных носителях могли быть применимы без переделки к
текстам того или другого корпуса.
Действительно, последовательные филологические сравнения можно
теперь было проводить не на отдельных образцах изящной словесности, а
на массово представленных текстах, доступных компьютерной обработке.
Можно отметить также, что соответствующий поворот начал
происходить и в лексикографии. Примером может служить пакет словарей
типа COBUILD. Последовательно применяя принцип компьютерной обработки
реального речевого материала, используемого в соответствующих сферах
коммуникации, был построен принципиально новый тип словарей (Sinclair,
1987).
Результаты самых разных исследований на материале этих корпусов
были разнообразны и многочисленны. Были проведены
соответствующие исследования и в нашей стране (Рыков, 1986). Также у
нас были развернуты работы по созданию машинного фонда русского языка
(Материалы, 1990).
Возрастающие требования лингвистов к представленной в корпусах
информации заставила их создателей снабдить каждое слово набором
лингвистических помет. Появились соответствующие версии (tagged
versions) Брауновского и других корпусов.
Также были предприняты усилия по объединению и координации усилий
лингвистов разных стран, работающих над созданием корпусов текстов на
языках, отличных от английского. В 1992 году была создана организация
Европейская корпусная инициатива (ECI). В ее "активе" около 40-50
корпусов текстов на европейских языках, каждый объемом от 12 тысяч до
пяти миллионов слов. Это объединение поставило себе
целью не только создание более представительных корпусов текстов на
как можно большем числе европейских языков, но и создание корпусов так
называемых "параллельных" текстов. Сначала на английском, французском,
немецком, испанском языках.
Оценивая почти полувековую практику машинной обработки и создания
лингвистических корпусов, было отмечено, что родилось новое быстро
растущее направление в лингвистике - "корпусная лингвистика" - со
своими традициями, признанными авторитетами, научными центрами,
методами и проблематикой.
Список самых распространенных корпусов текстов, ставших уже
стандартными очень велик и быстро растет. Список же корпусов, созданных
"ad hoc", для какой-либо прагматической цели велик и трудно обозрим.
Легкость доступа к огромным массивам разнообразного
лингвистического материала при помощи все более доступного компьютера
привело к качественно новым результатам. Это
оценивается даже как ренессанс эмпирического подхода (прежде всего
вероятностных и статистических методов) в лингвистике после бурного
расцвета генеративно-синтаксических теорий в 60-х годах.
В ходе формирования этого, как и всякого другого нового
направления, в процесс обсуждения были вовлечены такие вопросы как
научный инструментарий, соотношение теории и эмпирии, основные
направления исследований и многое другое. Обсуждая перспективы
использования персонального компьютера, как основного инструмента
исследования, авторы почти всех исследований не скрывают своего
энтузиазма.
Можно согласиться, что для этого есть пока все основания.
Соотношение же теории и практики в корпусной лингвистике в высокой
степени взаимосвязано. Например, по словам Черча, появление достаточно
удовлетворительных программ грамматического разбора, основанных на
вероятностном подходе. При этом сами вероятностные данные были
получены при анализе больших корпусов текстов.
Что касается практических результатов, то их искать надо прежде
всего в области лексикографии. Следует отметить появление нового типа
словарей, завоевывающих все большее признание массового читателя -
словарей нового типа: построенных на "корпусном" компьютерном
материале при помощи компьютера и компьютером же напечатанных.
Прежде всего это уже упоминавшиеся словари типа COBUILD.

Статья 2 - была напечатана в трудах конференции ДИАЛОГ-2000

КОРПУС ТЕКСТОВ КАК ПРИНЦИП САМООРГАНИЗАЦИИ ПРЕДМЕТНОЙ ОБЛАСТИ

С.В. Клименко *, В.В. Рыков **

* Институт Физики Высоких Энергий, Протвино, Московская область. klimenko@sirius.ihep.su

** Институт языкознания РАН, Бол. Кисловский пер., д. 1/12, Москва, 103009, Россия. Rykov2000@mail.ru.


CORPUS OF TEXTS AS A PRINCIPLE OF SELF_ORGANISATION

Internet contains oceans of information. So - searching in Internet can be compared with drinking salt sea water. Some people describe it as both rewarding and frustrating. A valuable information can be found. Still typically many irrelevant documents are also retrieved and many relevant ones are missed. Mismatches between words of the user''s query and document contents are a main cause of retrieval failures in word-bound search algorithms which are used by most Internet search machines. The proposition to make a shift from word-bound search to the conceptual retrieval is under discussion. This paper discusses applying corpus linguistics principles to convert word-bound user query into conceptual retrieval and so to improve search performance using corpus linguistics approach.

Развитие систем информационного поиска неизбежно приводит к выводу об ограниченности поисковых алгоритмов, основанных на лексических соответствиях. Эффективным может быть только поиск, тем или иным способом моделирующим предметную область, сформулированную в запросе, и сопоставляющим ему предметную область информационного пространства, в котором происходит поиск. Наиболее быстро растущая область применения различных систем информационного поиска сейчас является Интернет. Интернет содержит моря информации, но получить из него необходимые знания зачастую так же сложно, как и напиться из моря ().
Известно, что качество поиска резко повышается при условии применения даже простейшего тезауруса, индексирующего запросы пользователей, а также документы, просматриваемые при поиске. Ситуация резко усложняется при поиске информации в сети Интернет. Здесь разнообразие запросов соперничает с почти безграничным разнообразием информации, содержащейся во всемирной сети. Простейший и довольно эффективный выход казалось бы очевиден. Известно, что современные мощные поисковые системы имеют программы-«роботы», просматривающие содержащиеся в сети документы, и составляющие свои поисковые индексные файлы, отражающие состав и местонахождение этих документов. Эти индексные файлы являются простейшим отражением многообразия информации, в которой происходит поиск. Как уже говорилось, это отражение происходит на лексическом уровне. Как правило, при просмотре происходит отбор ключевых слов из текстов просматриваемых документов. Такой список становится поисковым образом документа (ПОД) для данной информационной поисковой системы (ИПС).
Эффект использования такого рода поисковых алгоритмов зачастую описывается упоминавшейся уже выше метафорой моря. Дело осложняется еще тем, что, как показывает практика, массовый «юзер» всемирной сети в своем запросе использует в среднем два слова (Gauch, 1999). Говорить о точном представлении предметной области поиска в таких случаях не приходится. Типичным результатом такого рода запросов является длинный список найденных документов, содержащих массу нерелевантных единиц. И в то же время очевидно, что масса необходимой информации теряется.
Разрыв пытаются преодолеть с двух сторон – построением алгоритмов автоматического дополнения и расширения поискового образа запроса (ПОЗ) - так называемое “query expansion”. А также совершенствованием механизмов индексации пространства поиска. И та и другая деятельность не может обойтись без мощной лингвистической поддержки.
Что касается текстов, то давно уже существуют алгоритмы более точного извлечения из них знаний. Например, так называемые концептуальные графы могут быть получены алгоритмически из текстов самых разных функциональных стилей – документальной прозы, информатики, газетных статей и даже некоторых жанров художественной прозы (Новиков, 1984). Эти концептуальные структуры достаточно полно отражают состав понятий, отраженный в тексте. Такая структура может служить поисковым образом документа. Однако, алгоритм получения таких онтологических структур не является универсальным. Более того, он также требует резкого увеличения времени индексирования отдельного документа по сравнению с простым извлечением из текста информативной лексики. Это затрудняет применение подобных алгоритмов в реальных системах информационного поиска.
Более того, соединение отдельных концептуальных графов в единую структуру, отражающую онтологию данной предметной области, тоже не является тривиальной задачей. Однако, так или иначе, увеличение эффективности информационного поиска идет через сравнение именно семантических структур поискового запроса и просматриваемых при поиске текстов. Видимо, как обычно, требуется найти компромисс между глубиной и полнотой отражения содержания текста и скоростью его обработки. Компромисс также следует найти на пути синтеза созданных понятийных структур отдельных текстов, в единую структуру, отражающую все поисковое информационное поле.
Одним из подобных компромиссов может стать концепция так называемого корпуса текстов. Рассмотрим это понятие подробнее. Первый корпус текстов (так называемый Брауновский корпус) был создан в США в 60-е годы и был предназначен для отражения лингвистических особенностей американской печатной прозы. Этот корпус был занесен на магнитный носитель и содержал пятьсот двухтысячесловных отрывков разных текстов печатной прозы США общим объемом около миллиона слов. Возможно неожиданно для самих его создателей, Брауновский корпус а) стал своеобразным стандартом для создания других подобных корпусов; б) послужил импульсом для создания новой науки – корпусной лингвистики; в) область применения корпуса текстов и методов корпусной лингвистики оказалась намного шире и разнообразнее, чем ожидали его создатели (Рыков, 1996).
Корпус текстов как своеобразное словесное единство является одним из ключевых понятий так называемой корпусной лингвистики. Для того, чтобы описать методологию применения корпуса текстов для оптимизации решения поисковых задач, существенно необходимо уточнить само понятие «корпус текстов». Прежде всего, здесь присутствует обычная полисемия. Корпус текстов Пушкина или корпус текстов газеты «Известия» за 2000 год имеют общие черты, но те существенные свойства корпуса, которые нам требуются для решения поставленных задач, здесь не присутствуют.
Для этого уточним определяемое понятие, определив его как термин «компьютерный корпус текстов» (ККТ) и разберем, какими являются его существенные свойства. Это тем более необходимо, что это понятие, как часто употребляемое всуе, является довольно многозначным и аморфным. Результат нашего рассуждения, а по сути и само определение выглядит как матрица дистрибутивного различения, часто применяемая в лингвистике.
Для этого сравним с определяемым понятием уже упоминавшиеся понятия корпус текстов Пушкина (КП), корпус текстов газеты «Известия» (КИ) и разберем, какие признаки их объединяют и различают. Для более точного определения признаков, которые нам потребуются для дальнейшего изложения, присоединим к анализируемым терминам корпус пословиц, расположенный на машинном носителе (КПС).
Прежде всего, объединяющим их признаком является логическое единство замысла (ЛЗ). Другим признаком является конечный размер (КР), справедливым для всех трех близких понятий. Первым признаком, отличающим компьютерный корпус текстов, от двух первых понятий является обязательное расположение его на машинном носителе (МН). Но КПС также может быть расположен на машинном носителе. Такую же картину дистрибутивного различения дает признак, который отражает факт стандартного представления или разметки словесного материала в корпусе для удобства его программной обработки (СТ).
Теперь мы переходим к тем признакам, которые присущи только ККТ и определяют некоторую его уникальную способность служить инструментом для решения многих задач в области информатики. Существенно важными для нас могут быть два признака, которые в корпусной лингвистике называются sampling и representativeness – отбор и представительность. Действительно, первый из этих признаков – способ отбора текстов в корпус (СО) – может быть применен только к двум последним понятиям – ККТ и КПС. Мы не можем по своему усмотрению отбирать тексты для корпуса текстов Пушкина или газеты «Известия». Но мы можем отобрать тексты для ККТ и корпуса пословиц (КПС).
Наконец, последним и самым важным свойством является представительность (РП). Оно определяет – какую внекорпусную реальность отражает корпус (или желает отразить его составитель). Строго говоря, все остальные корпусные сущности, которые мы хотим различить, этим свойством не обладают. Действительно, тексты, входящие в корпус текстов Пушкина, газету Известия и даже специально отобранные для машинного корпуса пословиц, строго говоря, отражают только самих себя. Вернее, они отражают, соответственно, мир образов, понятий, лингвистические и прочие особенности текстов Пушкина, газеты «Известия» или русских пословиц. Для того, чтобы выразить эту мысль яснее, можно привести один показательный пример. Частота встречаемости редкого слова “berserk” в двух популярных английских газетах различалась почти на порядок. Понятно, что трудно говорить о представленности какой-либо предметной области или достаточно обширного подмножества языка (например устной или печатной речи).
Если воспользоваться аналогиями объектно-ориентированного программирования, то корпус текстов будет абстрактным классом, а ККТ – его конкретным подклассом с доопределенными нам нужными свойствами.

КП КИ ККТ КПС
ЛЗ + + + +
КР + + + +
МН - + + +
СТ - + + +
СО - - + +
РП - - + -
Матрица дистрибутивного различения для определения термина «Компьютерный корпус текстов».

Существенно важным для дальнейшего изложения является свойство репрезентативности или представительности ККТ. Это его свойство отражать лежащую вне его реальность, изначально заложенное при его создании широко используется для различных приложений. Здесь мы опишем направления использования этого свойства для оптимизации поиска информации – прежде всего неподготовленными пользователями в сети Интернет.
Для решения этой задачи на помощь приходит другой принцип корпусной лингвистики - опора на эталонный корпус текстов, адекватно отражающий данный тип коммуникации. Такой корпус помогает решить лингвистические трудности, исходя не из идеализированных представлений и моделей, а реального речевого материала, уже употреблявшегося в данном типе коммуникации.
Этот подход для решения задачи перехода от лексического способа формулировки запроса к понятийному поиску был реализован и описан уже несколько лет назад (Gauch, 1999). Реализовывается этот подход у авторов по следующему алгоритму. Сам процесс они называют расширением запроса (expanding query). Запрос расширяется и становится "концептуальным" (conceptual), используя обращения к оперативному корпусу необходимой лексики (online database) и так называемым специализированным "матрицам подобия" (similarity matrix). Таким способом устраняется бессмысленное лексическое сравнение (word matching) при поиске и осуществляется переход к концептуальному поиску (conceptual retrieval).
Здесь же авторы делают важное замечание. Как уже говорилось, для автоматизированного перехода от слов к понятиям служат матрицы подобия. Они расширяют исходную лексику пользовательского запроса до понятийного. В принципе, если такой переход лексически однороден, то достаточно одной матрицы подобия. Приходится же выбирать одну из нескольких. Другими словами, одно и то же слово будет по-разному расширяться и формироваться понятийный ПОЗ. В зависимости от того, в какой понятийной или специализированной области происходит поиск.
На понятийную область может указать снова эталонный корпус текстов, отражающий лексику соответствующей понятийной области и соответствующим образом организованный.. Если обратиться к приведенному выше примеру о лексическом поиске по заголовку этой статьи, то специализированная матрица подобия должна сформировать такой ПОЗ, релевантными которому были бы только ПОДы документов с лингвистической информацией (по корпусной лингвистике).
Мы приходим к выводу, что автоматический переход в ИПС от лексической формы запроса к понятийному (дескрипторному) ПОЗ возможен. Он требует в качестве предварительной основы создания корпуса текстов, содержащего реальный речевой материал, использовавшимся в такого рода информационных запросах. То есть в речевой модели, основанного на реально происходивших актах коммуникации. Алгоритмическое и программное моделирование такого подхода, который декларируется как корпусная лингвистика, показывает, что такой канал принципиально неоднороден. Это явление обусловлено гетерогенностью коммуникативной среды Интернет (Клименко, Крохин, 1997).
Выходом из этого противоречия может быть более строгое определение понятийных границ области поиска. То есть разбиение коммуникативной среды на однородные (гомогенные) среды с последующим моделированием каждой из них в отдельности.

1. Баранов А.Н. Автоматизация лингвистических исследований: корпус текстов как лингвистическая проблема // Русистика сегодня. - Москва, 1998. - N.1-2. - C.179-191.
2. Кавасаки Г. Выложиться в Web // Computerworld Россия. - М., 2000. - N.1. - C. 14-15.
3. Клименко С.В., Крохин И.В. и др. Электронные документы корпоративных сетях. - М., 1999. - 272 с.
4. Клименко С.В., Рыков В.В. Диалоговое извлечение знаний из корпуса текстов // Диалог-99. - Москва-Таруса, 1999.
5. Маурер Г. Управление знаниями на основе Web-технологий // Computer Weekly. - 1988. - N.34-36. - C. 34-37.
6. Новиков А.И., Нестерова Е.Н. Реферативный перевод. – М., 1984.
7. Рыков В.В. Корпусная лингвистика (научно-аналитический обзор) // РЖ: Социальные и гуманитарные науки: Зарубежная литература. -М.:ИНИОН, 1996. - N.4 - С.43-51.
8. Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан. Теоретический сборник. Ред. Сусов И.П. - Тверь, 1999. - Вып. 3. - С. 89-96.
9. Рыков В.В. Прагматически ориентированный корпус текстов // Диалог-99. - Москва-Таруса, 1999.
10. Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.::Наука, 1989.
11. Черный А.И. Заметки об информатике и дескрипторах // Азгальдов Э.Г. и др. Дескрипторный словарь по информатике. - М.: ВИНИТИ., 1991. - С.3-13.
12. Gauch S. et al. A Corpus Analysis Approach for Automatic Query Expansion and its Extension to Multiple Databases // ACM Transactions on Information Systems. – 1999. – Vol. 17. – N. 3. – P. 250-269.
13. Kilgariff A. Comparing Corpora // International Journal of Corpus Linguistics. - Philadelphia: John Benjamins, 1999. - Vol. 4(2). www.itri.bton.ac.uk/~Adam.Kilgariff/ijcl.ps.pz
14. Mooers C.N. "Mooers" law, or why some retrieval systems are used and other are not /

Статья 3 - была напечатана в трудах конференции ДИАЛОГ-2001

ЛОГИЧЕСКАЯ ИНДУКЦИЯ И ДЕДУКЦИЯ КАК ПРИНЦИПЫ ОТРАЖЕНИЯ ПРЕДМЕТНОЙ ОБЛАСТИ В КОРПУСЕ ТЕКСТОВ

С.В. Клименко *, В.В. Рыков **

* Институт Физики Высоких Энергий, Протвино, Московская область. klimenko@sirius.ihep.su

** Институт языкознания РАН, Бол. Кисловский пер., д. 1/12, Москва, 103009, Россия. Rykov2000@mail.ru.


LOGICAL INDUCTION AND DEDUCTION AS PRINCIPLES OF KNOWLEDGE DOMAIN REFLECTION IN THE CORPUS OF TEXTS

Internet contains oceans of information. So - searching in Internet can be compared with drinking salt sea water. Some people describe it as both rewarding and frustrating. A valuable information can be found. Still typically many irrelevant documents are also retrieved and many relevant ones are missed. Mismatches between words of the user''s query and document contents are a main cause of retrieval failures in word-bound search algorithms which are used by most Internet search machines. The proposition to make a shift from word-bound search to the conceptual retrieval is under discussion. This paper discusses applying corpus linguistics principles to convert word-bound user query into conceptual retrieval and so to improve search performance using corpus linguistics approach. The special feature of semiotically correctly assembled text corpus as reflection of extra-corpus reality is under discussion. The two reciprocally balanced approaches of corpora generation are described. The first is deductive approach. It means a methodology based on the movement from general description of corpus to the program based algorithm of proper text selection. The so called frame based approach serves as example of it. The reverse inductive movement – from a definite set of texts to the self-organised corpus based on neuro-computing systems is also discussed.

Развитие систем информационного поиска неизбежно приводит к выводу об ограниченности поисковых алгоритмов, основанных на лексических соответствиях. Эффективным может быть только поиск, тем или иным способом моделирующим предметную область, сформулированную в запросе, и сопоставляющим ему предметную область информационного пространства, в котором происходит поиск. Наиболее быстро растущая область применения различных систем информационного поиска сейчас является Интернет. Интернет содержит моря информации, но получить из него необходимые знания зачастую так же сложно, как и напиться из моря (Клименко, Рыков, 2000).
Известно, что качество поиска резко повышается при условии применения даже простейшего тезауруса, индексирующего запросы пользователей, а также документы, просматриваемые при поиске. Ситуация резко усложняется при поиске информации в сети Интернет. Здесь разнообразие запросов соперничает с почти безграничным разнообразием информации, содержащейся во всемирной сети. Простейший и довольно эффективный выход казалось бы очевиден. Известно, что современные мощные поисковые системы имеют программы-«роботы», просматривающие содержащиеся в сети документы, и составляющие свои поисковые индексные файлы, отражающие состав и местонахождение этих документов. Эти индексные файлы являются простейшим отражением многообразия информации, в которой происходит поиск. Как уже говорилось, это отражение происходит на лексическом уровне. Как правило, при просмотре происходит отбор ключевых слов из текстов просматриваемых документов. Такой список становится поисковым образом документа (ПОД) для данной информационной поисковой системы (ИПС).
Эффект использования такого рода поисковых алгоритмов зачастую описывается упоминавшейся уже выше метафорой моря. Дело осложняется еще тем, что, как показывает практика, массовый «юзер» всемирной сети в своем запросе использует в среднем два слова (Gauch, 1999). Говорить о точном представлении предметной области поиска в таких случаях не приходится. Типичным результатом такого рода запросов является длинный список найденных документов, содержащих массу нерелевантных единиц. И в то же время очевидно, что масса необходимой информации теряется.
Разрыв пытаются преодолеть с двух сторон – построением алгоритмов автоматического дополнения и расширения поискового образа запроса (ПОЗ) - так называемое “query expansion”. А также совершенствованием механизмов индексации пространства поиска. И та и другая деятельность не может обойтись без мощной лингвистической поддержки.
Что касается текстов, то давно уже существуют алгоритмы более точного извлечения из них знаний. Например, так называемые концептуальные графы могут быть получены алгоритмически из текстов самых разных функциональных стилей – документальной прозы, информатики, газетных статей и даже некоторых жанров художественной прозы (Новиков, 1984). Эти концептуальные структуры достаточно полно отражают состав понятий, отраженный в тексте. Такая структура может служить поисковым образом документа. Однако, алгоритм получения таких онтологических структур не является универсальным. Более того, он также требует резкого увеличения времени индексирования отдельного документа по сравнению с простым извлечением из текста информативной лексики. Это затрудняет применение подобных алгоритмов в реальных системах информационного поиска.
Более того, соединение отдельных концептуальных графов в единую структуру, отражающую онтологию данной предметной области, тоже не является тривиальной задачей. Однако, так или иначе, увеличение эффективности информационного поиска идет через сравнение именно семантических структур поискового запроса и просматриваемых при поиске текстов. Видимо, как обычно, требуется найти компромисс между глубиной и полнотой отражения содержания текста и скоростью его обработки. Компромисс также следует найти на пути синтеза созданных понятийных структур отдельных текстов, в единую структуру, отражающую все поисковое информационное поле.
Одним из подобных компромиссов может стать концепция так называемого корпуса текстов. Рассмотрим это понятие подробнее. Первый корпус текстов (так называемый Брауновский корпус) был создан в США в 60-е годы и был предназначен для отражения лингвистических особенностей американской печатной прозы. Этот корпус был занесен на магнитный носитель и содержал пятьсот двухтысячесловных отрывков разных текстов печатной прозы США общим объемом около миллиона слов. Возможно неожиданно для самих его создателей, Брауновский корпус а) стал своеобразным стандартом для создания других подобных корпусов; б) послужил импульсом для создания новой науки – корпусной лингвистики; в) область применения корпуса текстов и методов корпусной лингвистики оказалась намного шире и разнообразнее, чем ожидали его создатели (Рыков, 1996).
Корпус текстов как своеобразное словесное единство является одним из ключевых понятий так называемой корпусной лингвистики. Для того, чтобы описать методологию применения корпуса текстов для оптимизации решения поисковых задач, существенно необходимо уточнить само понятие «корпус текстов». Прежде всего, здесь присутствует обычная полисемия. Корпус текстов Пушкина или корпус текстов газеты «Известия» за 2000 год имеют общие черты, но те существенные свойства корпуса, которые нам требуются для решения поставленных задач, здесь не присутствуют.
Для этого уточним определяемое понятие, определив его как термин «компьютерный корпус текстов» (ККТ) и разберем, какими являются его существенные свойства. Это тем более необходимо, что это понятие, как часто употребляемое всуе, является довольно многозначным и аморфным. Результат нашего рассуждения, а по сути и само определение выглядит как матрица дистрибутивного различения, часто применяемая в лингвистике.
Для этого сравним с определяемым понятием уже упоминавшиеся понятия корпус текстов Пушкина (КП), корпус текстов газеты «Известия» (КИ) и разберем, какие признаки их объединяют и различают. Для более точного определения признаков, которые нам потребуются для дальнейшего изложения, присоединим к анализируемым терминам корпус пословиц, расположенный на машинном носителе (КПС).
Прежде всего, объединяющим их признаком является логическое единство замысла (ЛЗ). Другим признаком является конечный размер (КР), справедливым для всех трех близких понятий. Первым признаком, отличающим компьютерный корпус текстов, от двух первых понятий является обязательное расположение его на машинном носителе (МН). Но КПС также может быть расположен на машинном носителе. Такую же картину дистрибутивного различения дает признак, который отражает факт стандартного представления или разметки словесного материала в корпусе для удобства его программной обработки (СТ).
Теперь мы переходим к тем признакам, которые присущи только ККТ и определяют некоторую его уникальную способность служить инструментом для решения многих задач в области информатики. Существенно важными для нас могут быть два признака, которые в корпусной лингвистике называются sampling и representativeness – отбор и представительность. Действительно, первый из этих признаков – способ отбора текстов в корпус (СО) – может быть применен только к двум последним понятиям – ККТ и КПС. Мы не можем по своему усмотрению отбирать тексты для корпуса текстов Пушкина или газеты «Известия». Но мы можем отобрать тексты для ККТ и корпуса пословиц (КПС).
Наконец, последним и самым важным свойством является представительность (РП). Оно определяет – какую внекорпусную реальность отражает корпус (или желает отразить его составитель). Строго говоря, все остальные корпусные сущности, которые мы хотим различить, этим свойством не обладают. Действительно, тексты, входящие в корпус текстов Пушкина, газету Известия и даже специально отобранные для машинного корпуса пословиц, строго говоря, отражают только самих себя. Вернее, они отражают, соответственно, мир образов, понятий, лингвистические и прочие особенности текстов Пушкина, газеты «Известия» или русских пословиц. Для того, чтобы выразить эту мысль яснее, можно привести один показательный пример. Частота встречаемости редкого слова “berserk” в двух популярных английских газетах различалась почти на порядок. Понятно, что трудно говорить о представленности какой-либо предметной области или достаточно обширного подмножества языка (например, устной или печатной речи).
Если воспользоваться аналогиями объектно-ориентированного программирования, то корпус текстов будет абстрактным классом, а ККТ – его конкретным подклассом с доопределенными нам нужными свойствами.

КП КИ ККТ КПС
ЛЗ + + + +
КР + + + +
МН - + + +
СТ - + + +
СО - - + +
РП - - + -
Матрица дистрибутивного различения для определения термина «Компьютерный корпус текстов».

Существенно важным для дальнейшего изложения является свойство репрезентативности или представительности ККТ. Это его свойство отражать лежащую вне его реальность, изначально заложенное при его создании широко используется для различных приложений. Здесь мы опишем направления использования этого свойства для оптимизации поиска информации – прежде всего неподготовленными пользователями в сети Интернет.
Для решения этой задачи на помощь приходит другой принцип корпусной лингвистики - опора на эталонный корпус текстов, адекватно отражающий данный тип коммуникации. Такой корпус помогает решить лингвистические трудности, исходя не из идеализированных представлений и моделей, а реального речевого материала, уже употреблявшегося в данном типе коммуникации.
Этот подход для решения задачи перехода от лексического способа формулировки запроса к понятийному поиску был реализован и описан уже несколько лет назад (Gauch, 1999). Реализовывается этот подход у авторов по следующему алгоритму. Сам процесс они называют расширением запроса (expanding query). Запрос расширяется и становится "концептуальным" (conceptual), используя обращения к оперативному корпусу необходимой лексики (online database) и так называемым специализированным "матрицам подобия" (similarity matrix). Таким способом устраняется бессмысленное лексическое сравнение (word matching) при поиске и осуществляется переход к концептуальному поиску (conceptual retrieval).
Здесь же авторы делают важное замечание. Как уже говорилось, для автоматизированного перехода от слов к понятиям служат матрицы подобия. Они расширяют исходную лексику пользовательского запроса до понятийного. В принципе, если такой переход лексически однороден, то достаточно одной матрицы подобия. Приходится же выбирать одну из нескольких. Другими словами, одно и то же слово будет по-разному расширяться и формироваться понятийный ПОЗ. В зависимости от того, в какой понятийной или специализированной области происходит поиск.
На понятийную область может указать снова эталонный корпус текстов, отражающий лексику соответствующей понятийной области и соответствующим образом организованный.. Если обратиться к приведенному выше примеру о лексическом поиске по заголовку этой статьи, то специализированная матрица подобия должна сформировать такой ПОЗ, релевантными которому были бы только ПОДы документов с лингвистической информацией (по корпусной лингвистике).
Мы приходим к выводу, что автоматический переход в ИПС от лексической формы запроса к понятийному (дескрипторному) ПОЗ возможен. Он требует в качестве предварительной основы создания корпуса текстов, содержащего реальный речевой материал, использовавшимся в такого рода информационных запросах. То есть в речевой модели, основанного на реально происходивших актах коммуникации. Алгоритмическое и программное моделирование такого подхода, который декларируется как корпусная лингвистика, показывает, что такой канал принципиально неоднороден. Это явление обусловлено гетерогенностью коммуникативной среды Интернет (Клименко, Крохин, 1997).
Выходом из этого противоречия может быть более строгое определение понятийных границ области поиска. То есть разбиение коммуникативной среды на однородные (гомогенные) среды с последующим моделированием каждой из них в отдельности. Методология такого построения, безусловно должна основываться на логических принципах. В данном случае плодотворными, адекватными поставленной задаче и взаимно дополняющими друг друга оказываются принципы логической индукции и дедукции.
Дедуктивный подход к построению ККТ может быть описан следующим образом. Двигаясь от общего описания внекорпусной реальности, которую мы хотим отразить, мы конструируем это описание, пользуясь методом логической дедукции. Например, какой набор жанров печатной прозы или какой состав функциональных стилей должен быть отражен в ККТ. Эта процедура может быть названа определением корпуса на метауровне (Holmes, 1996). В принципе, при достаточно четком и формальном описании требуемого разнообразия текстов, на этом можно было бы и остановиться. При этом было бы отделено логическое описание требуемого ККТ и его физическое представление. Сами тексты могут находиться в локальной сети или даже в Интернете. В таком случае мы будем иметь так называемый виртуальный корпус текстов.
При необходимости локализовать ККТ в компактный набор файлов, мы производим отбор текстов из общего доступного нам архива, двигая


DIALOG conference

mailto:rykov2000@mail.ru



Hosted by uCoz