Статьи по КЛ и КМ за 2004 год - часть 2

Корпус текстов как семиотическая система и онтология речевой деятельности - конференция по КЛ в Петербурге - октябрь 2004 г.

~

Корпус текстов (КТ) новый и сложный тип словесного единства. С одной стороны он рядоположен таким структурам, как электронная библиотека, электронный архив, особым образом организованный набор текстов для специальных целей (например обучение языку на ПК, отладка систем машинного перевода). С другой стороны должен быть существенный признак, отличающий КТ от родственных ему текстовых структур на машинном носителе. Таким признаком является свойство КТ отражать в себе речевую деятельность (или некоторый представительный ее фрагмент например печатную речь), рассматриваемую как совокупность речевых актов в разных фактурах речи - устной, письменной, печатной или на машинном носителе. Так, признанный классический образец - Брауновский корпус - дает достаточно ясное представление о том, что читали американцы в 1961 году, какие жанры, их сравнительные объемы, не говоря уже о более сложных лингвистических параметрах.

Тогда можно сказать, что КТ может рассматриваться как достаточно сложно организованная онтология речевой деятельности, отражающая в себе все жанровое разнообразие представленного в нем рода словесности (например - устную, письменную или печатную речь), и занимающая промежуточное положение между реальными
коммуникативными процессами в обществе, которые он представляет, и
формализованной лингвистической теорией, для которой он является источником для
исследования. Следовательно, правильно построенный КТ должен быть организован как
формализованная онтология представленного в нем фрагмента речевой деятельности
(рода словесности), полученного при помощи определенным образом реализованного
процесса так называемой концептуализации. Такой подход к роли и способу
составления КТ противопоставляется так называемому литературоведческому
способу, при котором состав текстов КТ определяется их культурной значимостью и скорее ближе к понятию электронной библиотеки.


Термин онтология давно уже стал модным в научной литературе. В первом его
значении как описание существенных свойств предметной области - он
употреблялся в отечественной лингвистической литературе более двадцати лет назад. Для изучения языка как общественного явления это означало описание реальных
коммуникативных процессов, происходящих в обществе . Особенности этого подхода
(его условно можно назвать онтологическим) хорошо можно видеть на примере
коммуникативных процессов, реализованных при помощи текстов печатного рода
словесности, особенно в жанрах художественной литературы. Для того, чтобы
коммуникация при помощи печатного текста произошла, он должен быть не только
напечатан, поступить в книготорговую сеть, но и прочитан не только критиками, но
и массовым читателем. Следовательно, коммуникативный подход означает изучение
тех текстов художественной литературы, которые реально читает широкая публика.
Нетрудно видеть, что онтологический подход, реализованный в КТ,принципиально противопоставлен
литературоведческому подходу, одним из универсалий которого является констатация
дурного вкуса массового читателя. Этот подход сводится к критическому отбору
лучших образцов художественной литературы, воспитанию хорошего (по мнению
критиков) художественного вкуса у читающей публики.
Онтология в описанном выше смысле может рассматриваться как представление в
интуитивно понимаемых терминах о предметной области (речевой деятельности) для
определенных целей. Тогда составителям корпуса текстов, отражающего даже такой
фрагмент речевой деятельности, как художественная литература (а должна быть отражена далеко не только художественная литература), нужно прежде всего
декларировать, какой подход будет реализован при отборе текстов для корпуса
онтологический или литературоведческий. То есть хотим ли мы видеть в корпусе те
тексты, которые читает массовый читатель или то, что им хотелось бы, чтобы он
читал. Авторы Брауновского корпуса совершенно ясно декларировали так
называемый онтологический подход. Они отбирали тексты для своего корпуса в
букинистических магазинах то, что реально прочитано массовым читателем. Не
побоимся назвать это чтивом. Но это реальность и онтология массовых
коммуникативных процессов в данной области речевой деятельности. Одним из
уникальных свойств такого корпуса является то, что любой его текст может быть
заменен равнозначным в смысле процедуры статистического отбора.
Этот подход предопределил успех Брауновского корпуса у самых разных читателей
и способствовал прогрессу корпусной лингвистики. Ничто не мешает собрать корпус
текстов шедевров художественной прозы или поэзии. Только это по существующей
терминологии будет называться скорее электронной библиотекой.

Далее если мы теперь будем рассматривать корпус текстов как отражение
онтологии речевой деятельности в описанном выше смысле, то тогда и только тогда
он будет обладать своими уникальными свойствами. Действительно, лингвистическая
теория опирается, как правило, на лингвистические наблюдения или факты, которые,
в свою очередь, берутся из речевого материала. Эти лингвистические наблюдения
должны быть легко проверяемы, не зависеть от выбранного речевого материала, а
также адекватно отражать тот фрагмент речевой деятельности, который стремится
описать данная лингвистическая теория.
Таким требованиям отвечает и должен отвечать корпус текстов - особым образом
организованное словесное единство. Корпус текстов расположен на машинном
носителе, но он отличается от электронного архива или библиотеки. Как уже
отмечалось, он также не есть электронное собрание художественных текстов,
отобранных квалифицироанными филологами по критерию их культурной значимости.
Даже мультимегасловный корпус газетных текстов может отразить только язык
газетной публицистики, а не язык в целом и только при условии, что в нем
правильно представлены все достаточно разнообразные жанры газетной прозы.


Также КТ, как сложное словесное единство, включает в себя разнообразную информацию не только о составе и структуре своего речевого материала, но также и другие формализованные методы его представления (индексирование слов, морфологическая информация и т .д.). Следовательно, его также можно рассматривать как специальным образом построенную семиотическую систему. КТ есть сложно организованное знаковое единство или семиотическая система, денотатами которой являются отраженные в нем различные компоненты речевой деятельности.


E-mail: rykov2000@mail.ru



Hosted by uCoz