КОРПУС ТЕКСТОВ И РЕЧЕВАЯ ДЕЯТЕЛЬНОСТЬ – ПРОБЛЕМЫ ПОДОБИЯ

Аннотация

...

Корпус текстов как сложная знаковая система предназначен для того, чтобы отразить в составе своих текстов другую знаковую систему - речевую деятельность. Корпус текстов (структура, состав и объем его таксонов) должен после процесса конструирования отразить в себе свойства (мероны) всего жанрового разнообразия речи.




...

Текст

...

КОРПУС ТЕКСТОВ И РЕЧЕВАЯ ДЕЯТЕЛЬНОСТЬ – ПРОБЛЕМЫ ПОДОБИЯ

В.В. Рыков

МФТИ, Москва

rykov2000@mail.ru


Корпус текстов как сложная знаковая система предназначен для того, чтобы отразить в составе своих текстов другую знаковую систему - речевую деятельность. Корпус текстов (структура, состав и объем его таксонов) должен после процесса конструирования отразить в себе свойства (мероны) всего жанрового разнообразия речи.




Корпус текстов – отражающая знаковая система|
Корпус текстов (КТ) по своему определению должен отразить в составе своего речевого материала сложный семиотический объект – речевую деятельность человека. Только тогда, исследуя тем или иным способом, для тех или иных целей КТ можно быть уверенным, что полученные результаты применимы и справедливы для речевой деятельности в целом.
Действительно, современная речь – это сложное распределение самых разных текстов по всевозможным родам и видам словесности. Собрать самостоятельно достаточно представительное собрание таких текстов не представляется возможным для отдельного исследователя. Корпус текстов, как продукт коллективного труда предназначен отразить в составе своих текстов сложную конфигурацию речевой деятельности общества.
Следовательно, КТ сам по себе должен представлять собой сложно спроектированную систему, имеющую в своем составе набор специально отобранных текстов, имеющую сложную структуру и другие системные свойства, которые должны быть достаточно четко определены.

Корпус текстов – системная доминанта

Электронная библиотека (ЭБ), электронный архив (ЭА), корпус текстов (КТ), набор текстов (НТ), специальный КТ – эти понятия можно выстроить в один ряд [7,8]. Но их объединяет только то, что все они представляют собой определенным образом организованное множество текстов на машинном носителе. Несколько труднее выразить те свойства, которые их отличают. Проще всего выразить или сгруппировать их вокруг доминанты или основной идеи, замысла, лежащих в основе алгоритма отбора текстов для них. Это касается прежде всего проблемы того, чем отличается корпус текстов от названных выше чем-то родственных ему объектов.
Одной из отличительных особенностей КТ может служить одно из его системных свойств – доминанта. Доминанта представляет собой характерное функциональное свойство системы, для реализации которой адаптируются все остальные ее элементы, их взаимосвязи и свойства [4].
В нашем случае при составлении ЭБ доминантой является удовлетворение потребностей потенциального читателя (читателей) или отражение литературного вкуса автора или составителя библиотеки. Принципы отбора текстов в ЭА, образующие его доминанту, могут быть разнообразными – архив текстов организации, электронной конференции и т.п.
Что касается специальных КТ, то их доминантой служит одна или совокупность определенных целей – обучение иностранному языку, отладка систем машинного перевода и т.п. [7,8,10].
Трудно ручаться за объективность результатов, полученных на таких массивах текстов. Они невольно будут отражать субъективные цели их составителей (их литературный вкус), особенности документов какой-либо организации, методологии обучения иностранному языку или отладки лингвистических систем. Странно было бы ожидать достоверных и универсальных результатов, полученных на «корпусе», представляющем собой ЭА какой-нибудь конференции в Интернете или ЭБ, составленной каким-либо (зачастую анонимным) сетевым автором [7,8].

Системная доминанта КТ

Итак, доминантой КТ изначально декларируется отражение в составе своих текстов всего (или достаточно большой части) разнообразия речевой деятельности общества. Этой системной доминанте должны быть подчинены все другие свойства КТ – его структура, функции, состав.
Отдельные части КТ (входящие в его состав тексты) и связи между ними (их структура) должны быть подчинены, согласованы или поставлены в соответствие с доминантой всей системы в целом – КТ [7,8,10].
Такое понятие доминанты дает нам возможность сопоставлять такие разнородные характеристики КТ, состав входящих в него текстов и жанров, их свойства, связи и отношения.
Важно также то, что исходными объектами, их свойствами, связями и отношениями из которых конструируется КТ, являются тексты, их жанры, связи между ними – то есть сама РД. КТ, как сконструированная из них система, должен быть максимально адаптирован к РД, которую он призван отразить. При достижении этого свойства произойдет переход из количества множества текстов на машинном носителе в качество сложно организованной системы, которой является КТ [10].


Новая парадигма отношения к речи

Существование такой доминанты неизбежно влечет за собой выводы о свойствах текстов и составе жанров, представленных в этом КТ. Они действительно должны отражать разнообразие речевой деятельности, происходящей ежесекундно в обществе. Это разнообразие может не соответствовать требованиям изящной словесности и даже элементарной культуры речи. В устной речи и особенно сейчас в Интернете существуют жанры или функциональные стили, которые не вполне соответствуют этим требованиям. При составлении корпуса следует иметь в виду, что в соответствии со вкусом составителя формируются не КТ, а описанные выше собрания текстов на машинных носителях. Если же составить КТ (отобрать в него тексты, задать структуру отношений между ними) согласно вкусам составителей, то результаты, полученные на речевом материале такого корпуса, будут отражать вкусовые предпочтения его составителей.
Нетрудно видеть, что неуклонное следование таким принципам в отношении к речевому материалу задает новую парадигму отношения к речи, где в каком-то смысле равные права имеют самые разные виды речи – устной, письменной и на машинных носителях [6,7,8].

Переход количества в качество

Сформированный таким образом корпус представляет собой (или должен представлять) словесное и системное единство. Это единство отражает в себе состав речевого материала, при помощи которого реально осуществлялась коммуникация в устном, печатном или в другом роде словесности. Печатный текст только тогда может быть представлен в КТ, если он был прочитан массовым читателем. Это должно быть выявлено и подтверждено в соответствующих исследованиях. Например, в Японии уже много лет ежегодно проводятся исследования состава текстов, используемых для общения японцами из различных социальных слоев в реальной повседневной жизни в рамках общенациональной программы «языкового существования» (генгу сейкацу) [6]. Если в обществе не читают Пушкина или Диккенса, то соответствующие жанры должны быть представлены в КТ в адекватной этому лингвистическому факту мере.
Только тогда мы сможем наблюдать явление, давно известное в философии и системном анализе – переходе количество в качество. Правильно (в описанном выше смысле) КТ будет своеобразным зеркалом, отражающим реальную повседневную речевую деятельность.
Критерием этого, как и в оптическом зеркале, так и в радиотелескопе должна быть взаимозаменяемость и даже потеря отдельных деталей без ущерба для выполнения основной функции (отражения). Нельзя ничем заменить Пушкина или Диккенса (которые и должны входить в ЭБ, а не в корпус). Но можно легко и без ущерба заменить или выбросить любой текст из правильно составленного корпуса.


Речевая деятельность – таксономия и мерономия

Для того, чтобы отразить РД в КТ, нужно прежде всего создать ее простейшую модель – т.е. представить себе онтологию РД [1]. Это значит, что нужно описать –
1. Какие объекты (в нашем случае тексты) входят в ее состав,
2. Какие их свойства (прежде всего интересующие нас свойства)
3. Какие связи между этими объектами.
Для этого используется таксономия. Термин "таксономия" применяется для обозначения учения о классификации любых объектов, рассматриваемых в качестве самостоятельных целых. При классификации таксономия выделяет классы (виды, типы, категории) объектов, рассматривает процедуры распределения объектов (индивидов) на группы (таксоны), распределяет, образно говоря, "объекты " по “кучкам" [2,3,5].
Важный ответ на второй вопрос - какие объекты (в нашем случае тексты) должны войти (быть сгруппированы) в таксон равносилен классификации свойств, выраженных в признаках, которые эти свойства образуют в объектах данной предметной области. Этот второй аспект типологии С.В. Мейен назвал мерономией [2,3,5]. Соответственно, свойства объектов, составляющих группу (таксон) называют меронами.
Когда мы рассматриваем РД с целью отразить в КТ самые общие, онтологические ее свойства, то нас прежде всего интересует вопрос – какие ее свойства (мероны) должны быть отражены?


Структура и состав корпуса – мероны и таксоны

В данном случае мы проявляем интерес к понятию мерона потому, что он характеризует (может характеризовать) ряд повторяющихся (по крайней мере по данному признаку) объектов (текстов). Похожие друг на друга свойства разных объектов, выражаемые в данном сравнительном исследовании общим (инвариантным, повторяющимся) признаком или ансамблем признаков называется мероном. То есть мерон – система элементов общего рода, моделирующая сходные свойства членов некоторого таксона [2,3,5]. Может, здесь для понимания сути мерона до некоторых пределов уместна аналогия с генами в биологии.
Действительно, теперь, после того, как были рассмотрены проблемы соотношения корпуса как системы с внешней средой, которая должна быть отражена, - речью, следует перейти к некоторым внутренним свойствам КТ как системы – прежде всего его структуре и составу.
Структура КТ представляет собой множество определенным образом связанных между собой групп текстов. Как уже говорилось, в теории систем такие группы называют таксонами. Каждая группа текстов корпуса (таксон) отражает некоторую часть РД. Структурные связи между группами текстов в корпусе также отражают (по замыслу его составителей) структуру РД.
В разных корпусах и в разных лингвистических традициях эти группы могут называться по-разному. Например, самая элементарная группа текстов в Брауновском корпусе (БК) называется жанром. Составляющие эту группу или жанр тексты должны отразить в своем речевом материале все речевые свойства (мероны) соответствующего фрагмента РД. Для БК это определение звучит так - прозаическая печатная речь США, состоящая из текстов, впервые напечатанных в 1961 году, авторы которых родились в США.

Мероны текстов в речи и в корпусе.

Однако, ситуация выглядит не такой простой, как может показаться. РД можно разбивать на таксоны различным образом, выполняя требование однородности по выбранному набору меронов. Но обычно принято это делать по признаку общности условий коммуникации. Принято вместе группировать в таксоны репортажи и отдельно передовые статьи в газетных текстах. Их вполне могут читать разные группы читателей, не говоря уже о газетной и литературной традиции деления таких текстов на жанры. В Брауновском корпусе есть отдельные таксоны (жанры) для художественной прозы (fiction) – такие как love story, detective, science fiction. Еще раз - характерно то, что выбраны должны быть самые массово представленные жанры, прочитанные «широкой читательской массой», а не шедевры, отмеченные вниманием литературоведов.
Следовательно, меронами РД, образующим ее таксоны, должны быть внешние свойства текстов, характеризующие время коммуникации, параметры канала коммуникации (газета, электронная конференция, чат в Интернете, детектив), массовость представленных в канале текстов. Эти таксоны РД должны быть отражены в таксонах (жанрах) КТ.
Но, исследование показывает, что такие таксоны из текстов, сгруппированные по таким их внешним свойствам, часто бывают неоднородны по своим внутренним свойствам (стилевым признакам или меронам). К таким таксонам (жанрам) относятся, например, документы. Часто даже наиболее однородные по составу меронов газетные жанры, прошедшие несколько стадий редактуры и правки, могут содержать в себе (и попасть в КТ) тексты с «чужими» меронами. При этом для этого могут быть причины именно внешнего свойства, учитываемые автором текста. Причем, зная уже известные, «свои» мероны этого жанра, такие тексты легко обнаружить даже статистически, при помощи компьютера. Так, в Брауновском корпусе в одном газетном репортаже 60-х годов был текст, содержащий все стилевые признаки (мероны) художественной прозы [9]. Для этого были причины - этот репортаж описывал инаугурацию президента Кеннеди!


Выводы

1. Корпус текстов представляет и должен представлять собой систему, объективно отражающую речевую деятельность во всем ее разнообразии и в полном объеме, независимо от того, соответствует ли эта РД научным взглядам, литературным предпочтениям или вкусам его составителей.
2. Фактически структура деления на таксоны (их состав и взимосвязи) КТ должна отражать структуру речевых коммуникаций в обществе.
3. Критерием объединения текстов РД, объединяющим их в таксоны, должны быть внешние свойства текстов, характеризующие время коммуникации, параметры канала коммуникации, массовость представленных в канале текстов. Эти таксоны РД должны быть отражены в таксонах (жанрах) КТ.
4. Каждая группа текстов корпуса (жанр, таксон) может быть неоднородной по свои внутренним, стилевым, лингвистическим свойствам (меронам).




Литература

1. Котов Р.Г., Якушин Б.В. Онтология языка как общественного явления. – М.: Наука, 1983.
2. Мейен С.В., Шрейдер Ю.А. Методологические аспекты теории классификации // Вопросы Философии.-1976.-N 12.- с.6
3. Мейен С. В. Таксономия и мерономия // Вопросы методологии в геологических науках. – Киев, 1977.- с. 25-33.
4. Мельников Г.П. Системология и языковые аспекты кибернетики. – М.: Сов. Радио, 1980.
5. Раутиан А.С. Апология сравнительного метода: о природе типологического знания // Гомологии в ботанике: опыт и рефлексия. Современные проблемы репродуктивной биологии растений и вопросы охраны природы. - СПб.: Санкт-Петербургский союз ученых, 2001.- С. 65-72.
6. Рождественский Ю.В. Принципы современной риторики. – М., 2000.
7. Рыков В.В. Корпус текстов как новый тип словесного единства // Труды Международного семинара Диалог-2003. – М.: Наука, 2003.
8. Рыков В.В. Корпус текстов как онтология речевой деятельности // Труды Международного семинара Диалог-2004. – М.: Наука, 2004.
9. Рыков В.В. Ритмическая организация прозаической речи. АКД. – М.:МГУ, 1986.
10. McEnery T., Wilson A. Corpus Linguistics. – Edinburgh, 1997.


...

Annotation in English - Publishing - Публикация

...

The paper will be published in the Transactions of The Third International Congress of Russian language researchers "Russian Language: its Historical Destiny and Present State ...

Статья будет напечатана в Трудах III Международного Когресса исследователей русского языка. -

Русский язык: исторические судьбы и современность.

В дополненном и переработанном виде статья была напечатана в сборнике -

Труды международной конференции Корпусная лингвистика 2006 . СПб.: Изд-во С.-Петерб. ун-та, 2006. - С. 347-355.




...


The Third International Congress of Russian Language Researchers

E-mail: rykov2000@mail.ru



Hosted by uCoz