Статьи по КЛ и КМ за 2004 год

Корпусная лингвистика и онтология речевой деятельности - тензисы выступления на конференции в Крыму (Партенит) в сентябре 2004 г.

Секция

·I. Когнитивные стили и дискурсивные практики

· Когнитивные модели экономической, политической и научной коммуникации


Тезисы доклада



Корпус текстов может рассматриваться как достаточно сложно организованная онтология речевой деятельности, отражающую в себе все жанровое разнообразие представленного в нем рода словесности (например - устную, письменную или печатную речь), и занимает промежуточное положение между реальными коммуникативными процессами в обществе, которые он представляет, и формализованной лингвистической теорией, для которой он является источником для исследования. Правильно построенный корпус должен быть организован как формализованная онтология представленного в нем фрагмента речевой деятельности (рода словесности), полученного при помощи определенным образом реализованного процесса так называемой концептуализации. Такой подход к роли и способу составления корпуса противопоставляется так называемому литературоведческому способу, при котором состав текстов корпуса определяется их культурной значимостью.
Также корпус текстов, как сложное словесное единство, включает в себя разнообразную информацию не только о составе и структуре своего речевого материала, но также и другие формализованные методы его представления (индексирование слов, морфологическая информация и т .д.). Следовательно, его также можно рассматривать как специальным образом построенную семиотическую систему. Корпус есть сложно организованное знаковое единство или семиотическая система, денотатами которой являются отраженные в нем различные компоненты речевой деятельности.


Термин «онтология» давно уже стал модным в научной литературе. В первом его значении – как описание существенных свойств предметной области - он употреблялся в отечественной лингвистической литературе более двадцати лет назад . Для изучения языка как общественного явления это означало описание реальных коммуникативных процессов, происходящих в обществе . Особенности этого подхода (его условно можно назвать онтологическим) хорошо можно видеть на примере коммуникативных процессов, реализованных при помощи текстов печатного рода словесности, особенно в жанрах художественной литературы. Для того, чтобы коммуникация при помощи печатного текста произошла, он должен быть не только напечатан, поступить в книготорговую сеть, но и прочитан не только критиками, но и массовым читателем. Следовательно, коммуникативный подход означает изучение тех текстов художественной литературы, которые реально читает широкая публика.
Нетрудно видеть, что этот подход принципиально противопоставлен литературоведческому подходу, одним из универсалий которого является констатация дурного вкуса массового читателя. Этот подход сводится к критическому отбору лучших образцов художественной литературы, воспитанию хорошего (по мнению критиков) художественного вкуса у читающей публики.
Онтология в описанном выше смысле может рассматриваться как представление в интуитивно понимаемых терминах о предметной области (речевой деятельности) для определенных целей. Тогда составителям корпуса текстов, отражающего даже такой фрагмент речевой деятельности, как художественная литература, нужно прежде всего декларировать, какой подход будет реализован при отборе текстов для корпуса – онтологический или литературоведческий. То есть хотим ли мы видеть в корпусе те тексты, которые читает массовый читатель или то, что им хотелось бы, чтобы он читал. Авторы Брауновского корпуса совершенно ясно декларировали так называемый онтологический подход. Они отбирали тексты для своего корпуса в букинистических магазинах – то, что реально прочитано массовым читателем. Не побоимся назвать это чтивом. Но это реальность и онтология массовых коммуникативных процессов в данной области речевой деятельности. Одним из уникальных свойств такого корпуса является то, что любой его текст может быть заменен равнозначным в смысле процедуры статистического отбора.
Этот подход предопределил успех Брауновского корпуса у самых разных «читателей» и способствовал прогрессу корпусной лингвистики. Ничто не мешает собрать корпус текстов шедевров художественной прозы или поэзии. Только это по существующей терминологии будет называться электронной библиотекой.
Далее – если мы теперь будем рассматривать корпус текстов как отражение онтологии речевой деятельности в описанном выше смысле, то тогда и только тогда он будет обладать своими уникальными свойствами. Действительно, лингвистическая теория опирается, как правило, на лингвистические наблюдения или факты, которые, в свою очередь, берутся из речевого материала. Эти лингвистические наблюдения должны быть легко проверяемы, не зависеть от выбранного речевого материала, а также адекватно отражать тот фрагмент речевой деятельности, который стремится описать данная лингвистическая теория.
Таким требованиям отвечает и должен отвечать корпус текстов – особым образом организованное словесное единство. Корпус текстов расположен на машинном носителе, но он отличается от электронного архива или библиотеки. Как уже отмечалось, он также не есть электронное собрание художественных текстов, отобранных квалифицироанными филологами по критерию их культурной значимости. Даже мультимегасловный корпус газетных текстов может отразить только язык газетной публицистики, а не язык в целом и только при условии, что в нем правильно представлены все достаточно разнообразные жанры газетной прозы.
Однако, практика научных исследований показала, что для достаточно сложных предметных областей (таких как, в нашем случае, речевая деятельность) часто необходима структура, занимающая промежуточное положение между представлением о том, что существует в действительности (реальные коммуникативные процессы в обществе) и строго формализованной (в нашем случае линвистической) теорией. Такая структура также называется онтологией, это второе значение этого термина. Такая онтология лежит между тем, что должно быть представлено и его теоретическим обобщением. По-видимому, это вполне соответствует той функции, которую выполняет корпус текстов, являясь с одной стороны достаточно сложно организованной онтологией речевой деятельности и выступая, с другой стороны, в качестве исходного материала для получения новых эмпирических фактов, обогащающих и развивающих лингвистическую теорию.
Следовательно, словесный материал корпуса должен быть организован в онтологическую систему, отражающую в себе все жанровое разнообразие представленного в нем рода словесности (например - устную, письменную или печатную речь). В сущности, правильно построенный корпус должен представлять собой формализованную онтологию представленного в нем фрагмента речевой деятельности (рода словесности), полученного при помощи определенным образом реализованного процесса так называемой концептуализации. Здесь неизбежно приходится обращаться и формализовывать не только состав речевого материала, включенного в состав корпуса, но и к его структуре, а также к другим формализованным методам его представления (индексированию слов, морфологической информации т .д.) – то есть к той компоненте структуры корпуса, которая суммируется одним из четырех классических признаков корпуса – системе его разметки.
По сути это специальным образом организованная семиотическая система корпуса текстов. И сам корпус можно рассматривать как сложно организованное знаковое единство или семиотическую систему, денотатами которой являются различные компоненты речевой деятельности.

II Международный конгресс исследователей русского языка - "Русский язык: исторические судьбы и современность".

II Международный конгресс исследователей русского языка



"Русский язык: исторические судьбы и современность".


Конгресс состоится 18-21 марта 2004 г. на филологическом факультете МГУ.

Председатель Оргкомитета Конгресса -
ректор МГУ, академик РАН В.А. Садовничий


Корпус текстов – новый тип словесного и знакового единства

В.В. Рыков
Московский Физико-Технический Институт (МФТИ)

Корпус текстов, состояние языка, определение корпуса текстов, представительность корпуса, общая филология, фактура речи


Classical corpus definition is discussed according to the General Philology paradigm invented and developed by MSU Professor Yu. V. Rozhdestvensky. Only corpora reflecting the whole scope of speech activity can be treated as universal and hence can be used as reliable source of scientific investigation.


Первый компьютерный корпус был создан в США (так называемый Брауновский корпус текстов) вот уже почти сорок лет назад. За это время было созданы другие корпуса текстов – похожие и не похожие на Брауновский. Созданные корпуса текстов стали использоваться в самых разнообразных исследованиях. Соответственно, появилось много публикаций, описывающих не только результаты этих исследований, но и свойства корпуса текстов как нового типа словесного единства. Появилась новая наука – корпусная лингвистика. Получили названия разнообразные жанры корпусов текстов – двуязычные, учебные и т.п.
Однако разнообразие жанров и областей применения породило проблему более точного описания термина «корпус текстов» и, соответственно, определения и описания этого нового типа словесного единства. Определение, ставшее уже общепризнанным, наделяет корпус текстов следующими качествами - расположение на машинном носителе, все тексты корпуса получены специальными процедурами отбора для того, чтобы корпус стал репрезентативным и размечены на машинном носителе однородным образом для удобства обработки его компьютером, а также что весь корпус имеет конечный размер. В результате получается четыре минимальных базовых качества, делающих собрание текстов корпусом – расположение на магнитном носителе (machine readable form), процедуры отбора (sampling) и репрезентативность (representativeness), единство разметки или представления корпуса на этом носителе и конечный размер.
Это определение никем не оспаривается, но иногда понимается по-разному, а иногда, похоже, не совсем верно понимается. Можно сделать вывод, что существует проблема интерпретации того, что такое корпус. Также можно утверждать, что корпус текстов настолько новый филологический феномен, что количество и качество публикаций с адекватным описанием этого необычного типа словесного единства оставляют простор для достаточно неадекватных суждений. Очевидно, что правильные ответы на эти вопросы имеют не только теоретическое, но и практическое значение. Поэтому в этой работе делается попытка более глубокого анализа и описания корпуса текстов, как нового типа словесного единства, исходящее как из традиционного его определения, так и из всего многообразия практики его реализации.
Расположение текстов корпуса на машинном носителе выглядит как наиболее тривиальное требование или свойство. В отечественной филологической традиции существует простая, понятная, однако не слишком широко известная парадигма научного описания этого свойства – система понятий общей филологии, разработанной профессором МГУ Ю.В.Рождественским. Одним из изначальных понятий этой науки считается фактура речи, которая рассматривается как материал речи, соединенный с орудиями речи. Каждая фактура речи формирует свой род словесности. Из четырех фактур речи первые три уже давно известны. Это устная, письменная и печатная. У четвертой фактуры речи орудием письма является компьютер, а материалом – машинный носитель. Сейчас мы все видим, что в четвертой фактуре речи формируется довольно новый род словесных произведений. Многие жанры этой фактуры имеют прототиы или аналоги в исторически более ранних ранних фактурах. Например – электронные книги, письма. Но многие – нет.
Обратив теперь внимание на корпус текстов, можно утверждать, что это один из жанров нового рода словесности, возникший в четвертой фактуре речи и не имеющий прямых аналогов в устной, письменной или печатной речи. Он появился впервые именно на машинном носителе, записанный и подготовленный особым образом при помощи компьютера как орудия речи.
Более показательным может показаться другое свойство корпуса. Это приготовленное достаточно сложным образом словесное произведение, строго говоря, никто не читает в обычном смысле этого слова. Конечно, есть достаточно много жанров печатной речи, которые крайне редко читают подряд – например словари или энциклопедии. Но для корпуса это свойство оказывается существенно усиленным. В данном случае компьютер выступает даже не просто как средство визуализации текста на машинном носителе. Между его читателем (пользователем) и его текстами стоит достаточно сложный программный интерфейс, позволяющий сделать выборку словесного материала из корпуса по разнообразно сформулированным запросам. Одно только это свойство позволяет говорить о корпусе как о сложном знаковом единстве.
Как можно видеть, приложение парадигмы общей филологии позволяет более четко и вполне адекватно осмыслить даже такие казалось бы простые на вид понятия, как написание и чтение текста. Гораздо сложнее обстоит дело с двумя другими свойствами корпуса – процедурами отбора (sampling) при его создании и репрезентативностью как конечным результатом этого процесса. Здесь они выступают в диалектическом единстве.
Действительно, отбор текстов в корпус производится по ясно описанным и четко выполненным критериям. Эти критерии и следующие этим критериям процедуры отбора и конструирования (или проектирования) корпуса – так называемые design criteria – должны отразить в составе текстов корпуса то, ради чего этот корпус создавался. В нашем примере ставший уже классическим Брауновский корпус текстов (далее – БК) создавался для того, чтобы отразить специфические особенности печатной прозы США 60-х годов ХХ века. Этот специальный набор признаков и процедур, использующихся для создания корпуса текстов с целью отражения определенной лингвистической реалии, описывается парой взаимосвязанных признаков – отбором и репрезентативностью. Корпус для того, чтобы считаться корпусом, а не архивом или библиотекой, должен быть особым образом построен (отобран) и отвечать критерию репрезентативности, который по своей сути является знаковым. Однако, здесь важно, что, как уже было сказано выше, репрезентативность – это и есть то свойство, которое делает корпус корпусом, отличает его от более аморфных образований, расположенных также на машинном носителе - например электронного архива или библиотеки. Репрезентативность (representativeness) – это название того набора принципов или требований, на основе которых был организован или составлен корпус.
Однако практика составления и использования корпусов текстов (далее КТ) дает основания утверждать, что существет много жанров КТ, построенных по несколько другому принципу. Эти принципы основаны на том, что из доступного составителям множества текстов составляется КТ, отвечающий какой-либо специфической потребности его составителя (отладка системы машинного перевода, обучение иностранному языку и т.п.). Такие КТ можно назвать специальными. Очевидно, что использоваться они должны, как правило, в тех целях, для которых они спроектированы. Вообще говоря, нельзя быть уверенным в надежности лингвистического исследования многообразия лексического состава какого-либо языка, если материалом для него послужил специальный корпус. Специальный корпус не всегда может быть объективным отражением внешней по отношению к нему речевой деятельности, так как он предназначен для использования его только для тех целей, для которых он был спроектирован.

Корпус текстов как семиотическая система и онтология речевой деятельности - доклад на конференции Диалог 2004

~

Корпус текстов как семиотическая система и онтология речевой деятельности

Corpus of Texts – a Semiotic System and Speech Activity Ontology

В.В. Рыков

Московский Физико-Технический Институт
Rykov2000@mail.ru

Ключевые слова: корпус текстов, корпусная лингвистика, репрезентативность, фактура речи, онтология, семиотика, речевая деятельность.


Text corpus can be treated as a complexly organized speech activity ontology. Really - it describes and represents in itself all the genre variety of real picture and distribution of communication processes in human society – oral, written, printed speech as an area of knowledge. This ontology stands between social speech activity processes which it reflects and at the same time it is the source of data for formal linguistic theory. The corpus as an ontology is the result of specially designed procedures of so called speech activity conceptualization which could be called as processes of sampling and representation as well. This approach stands in opposition to the process of best text selection which is close to the literary criticism and does not reflect the real picture of communication processes in human society. Text corpus as a special kind of word unity includes also various information concerning the genre structure of communication processes it reflects, marking up tokens, word tags etc. Hence text corpus is also a specially organized sign structure or semiotic system. The denotates of this semiotic system are various parts of outer speech activity, its inner properties and organization.



Корпус текстов может рассматриваться как достаточно сложно организованная онтология речевой деятельности, отражающую в себе все жанровое разнообразие представленного в нем рода словесности (например - устную, письменную или печатную речь), и занимает промежуточное положение между реальными коммуникативными процессами в обществе, которые он представляет, и формализованной лингвистической теорией, для которой он является источником для исследования. Правильно построенный корпус должен быть организован как формализованная онтология представленного в нем фрагмента речевой деятельности (рода словесности), полученного при помощи определенным образом реализованного процесса так называемой концептуализации. Такой подход к роли и способу составления корпуса противопоставляется так называемому литературоведческому способу, при котором состав текстов корпуса определяется их культурной значимостью.
Также корпус текстов, как сложное словесное единство, включает в себя разнообразную информацию не только о составе и структуре своего речевого материала, но также и другие формализованные методы его представления (индексирование слов, морфологическая информация и т .д.). Следовательно, его также можно рассматривать как специальным образом построенную семиотическую систему. Корпус есть сложно организованное знаковое единство или семиотическая система, денотатами которой являются отраженные в нем различные компоненты речевой деятельности.

|
Термин «онтология» давно уже стал модным в научной литературе. В первом его значении – как описание существенных свойств предметной области - он употреблялся в отечественной лингвистической литературе более двадцати лет назад [2]. Для изучения языка как общественного явления это означало описание реальных коммуникативных процессов, происходящих в обществе [2]. Особенности этого подхода (его условно можно назвать онтологическим) хорошо можно видеть на примере коммуникативных процессов, реализованных при помощи текстов печатного рода словесности, особенно в жанрах художественной литературы. Для того, чтобы коммуникация при помощи печатного текста произошла, он должен быть не только напечатан, поступить в книготорговую сеть, но и прочитан не только критиками, но и массовым читателем. Следовательно, коммуникативный подход означает изучение тех текстов художественной литературы, которые реально читает широкая публика.
Нетрудно видеть, что этот подход принципиально противопоставлен литературоведческому подходу, одним из универсалий которого является констатация дурного вкуса массового читателя. Этот подход сводится к критическому отбору лучших образцов художественной литературы, воспитанию хорошего (по мнению критиков) художественного вкуса у читающей публики [3].
Онтология в описанном выше смысле может рассматриваться как представление в интуитивно понимаемых терминах о предметной области (речевой деятельности) для определенных целей. Тогда составителям корпуса текстов, отражающего даже такой фрагмент речевой деятельности, как художественная литература, нужно прежде всего декларировать, какой подход будет реализован при отборе текстов для корпуса – онтологический или литературоведческий. То есть хотим ли мы видеть в корпусе те тексты, которые читает массовый читатель или то, что им хотелось бы, чтобы он читал. Авторы Брауновского корпуса совершенно ясно декларировали так называемый онтологический подход. Они отбирали тексты для своего корпуса в букинистических магазинах – то, что реально прочитано массовым читателем [5]. Не побоимся назвать это чтивом. Но это реальность и онтология массовых коммуникативных процессов в данной области речевой деятельности. Одним из уникальных свойств такого корпуса является то, что любой его текст может быть заменен равнозначным в смысле процедуры статистического отбора.
Этот подход предопределил успех Брауновского корпуса у самых разных «читателей» и способствовал прогрессу корпусной лингвистики. Ничто не мешает собрать корпус текстов шедевров художественной прозы или поэзии. Только это по существующей терминологии будет называться электронной библиотекой [5].
Далее – если мы теперь будем рассматривать корпус текстов как отражение онтологии речевой деятельности в описанном выше смысле, то тогда и только тогда он будет обладать своими уникальными свойствами. Действительно, лингвистическая теория опирается, как правило, на лингвистические наблюдения или факты, которые, в свою очередь, берутся из речевого материала. Эти лингвистические наблюдения должны быть легко проверяемы, не зависеть от выбранного речевого материала, а также адекватно отражать тот фрагмент речевой деятельности, который стремится описать данная лингвистическая теория.
Таким требованиям отвечает и должен отвечать корпус текстов – особым образом организованное словесное единство. Корпус текстов расположен на машинном носителе, но он отличается от электронного архива или библиотеки. Как уже отмечалось, он также не есть электронное собрание художественных текстов, отобранных квалифицироанными филологами по критерию их культурной значимости [3]. Даже мультимегасловный корпус газетных текстов может отразить только язык газетной публицистики, а не язык в целом и только при условии, что в нем правильно представлены все достаточно разнообразные жанры газетной прозы.
Однако, практика научных исследований показала, что для достаточно сложных предметных областей (таких как, в нашем случае, речевая деятельность) часто необходима структура, занимающая промежуточное положение между представлением о том, что существует в действительности (реальные коммуникативные процессы в обществе) и строго формализованной (в нашем случае линвистической) теорией [4]. Такая структура также называется онтологией, это второе значение этого термина. Такая онтология лежит между тем, что должно быть представлено и его теоретическим обобщением. По-видимому, это вполне соответствует той функции, которую выполняет корпус текстов, являясь с одной стороны достаточно сложно организованной онтологией речевой деятельности и выступая, с другой стороны, в качестве исходного материала для получения новых эмпирических фактов, обогащающих и развивающих лингвистическую теорию.
Следовательно, словесный материал корпуса должен быть организован в онтологическую систему, отражающую в себе все жанровое разнообразие представленного в нем рода словесности (например - устную, письменную или печатную речь). В сущности, правильно построенный корпус должен представлять собой формализованную онтологию представленного в нем фрагмента речевой деятельности (рода словесности), полученного при помощи определенным образом реализованного процесса так называемой концептуализации [1]. Здесь неизбежно приходится обращаться и формализовывать не только состав речевого материала, включенного в состав корпуса, но и к его структуре, а также к другим формализованным методам его представления (индексированию слов, морфологической информации т .д.) – то есть к той компоненте структуры корпуса, которая суммируется одним из четырех классических признаков корпуса – системе его разметки [5].
По сути это специальным образом организованная семиотическая система корпуса текстов. И сам корпус можно рассматривать как сложно организованное знаковое единство или семиотическую систему, денотатами которой являются различные компоненты речевой деятельности.




Литература

1. Клещев А.С., Артемьева И.Л. Отношения между онтологиями предметных областей // НТИ. Сер. 2. –M.: 2002. – N 1. – С. 4-23.
2. Котов Р.Г., Якушин Б.В. Онтология языка как общественного явления. – М.: Наука, 1983.
3. Рождественский Ю.В. Принципы современной риторики. – М., 2000.
4. Рыков В.В. Корпус текстов как новый тип словесного единства // Труды Международного семинара Диалог-2003. – М.: Наука, 2003.
5. McEnery T., Wilson A. Corpus Linguistics. – Edinburgh, 1997.



Corpus of Texts – a Semiotic System and Speech Activity Ontology


Key words: text corpus, corpus linguistics, ontology, semiotics, speech activity, knowledge



Text corpus can be treated as a complexly organized speech activity ontology. Really - it describes and represents in itself all the genre variety of real picture and distribution of communication processes in human society – oral, written, printed speech as an area of knowledge. This ontology stands between social speech activity processes which it reflects and at the same time it is the source of data for formal linguistic theory. The corpus as an ontology is the result of specially designed procedures of so called speech activity conceptualization which could be called as processes of sampling and representation as well. This approach stands in opposition to the process of best text selection which is close to the literary criticism and does not reflect the real picture of communication processes in human society. Text corpus as a special kind of word unity includes also various information concerning the genre structure of communication processes it reflects, marking up tokens, word tags etc. Hence text corpus is also a specially organized sign structure or semiotic system. The denotates of this semiotic system are various parts of outer speech activity, its inner properties and organization.


~


Конференции Диалог

E-mail: rykov2000@mail.ru



Hosted by uCoz