Еще три статьи по корпусной лингвистике

Статья 1 - Корпус текстов как реализация объектно-ориентированной парадигмы. - Напечатана в Диалоге-2002

Корпус текстов как реализация объектно-ориентированной парадигмы

В.В. Рыков
Московский Физико-Технический Институт
Россия, 141700, Московская обл., г. Долгопрудный, Институтский пер., д. 9
rykov2000@mail.ru


Ключевые слова: корпусная лингвистика, объектно-ориентированное программирование, репрезентативность


Проблема репрезентативности используемого корпуса данных является весьма актуальной для любого лингвистического исследования. Это существенно важно как для теоретических изысканий, так и задач прикладной лингвистики – например для отладки и совершенствования алгоритмов обработки текстовой информации. Репрезентативность как доказанное качество, присущее сконструированному корпусу текстов определяет достоверность полученных на нем результатов. Проблему можно рассматривать как проблему адекватного отражения, адаптации или интеграции больших массивов текстов или некоторых иных фрагментов речевой деятельности в существенно меньший по объему корпус текстов. Для решения этой проблемы предлагается модель (парадигма) объектно-ориентированного программирования. Предлагаются для применения такие классические методы ООП как наследование, полиморфизм, инкапсуляция и другие.

Анализ этой проблемы показал, что деятельность по составлению или компиляции корпуса текстов чрезвычайно разнообразна и, следовательно, довольно неоднородна. Во-первых, это определяется разнообразием задач, стоящих перед составителем корпуса. Во-вторых, мы наблюдаем здесь обычную полисемию термина - в данном случае термина «корпус текстов».
Или, другими словами, корпус текстов – родовое понятие множества довольно разнообразных объектов. Зачастую эти объекты связывает только общее родовое имя. Корпусная лингвистика оперирует с некоторым достаточно четко определенным подмножестом этого разнообразного семейства [3]. В корпусной лингвистике принято определение корпуса, основывающееся на четырех признаках [6]. Этими основными содержательными признаками, которые определяют специфику этого своеобразного рода словесного единства являются следующие: 1) расположение корпуса на машинном носителе, 2) стандартизованное представление словесного материала на этом машинном носителе, позволяющем применять стандартные программы его обработки, 3) конечный размер, 4) репрезентативность как результат особой процедуры отбора.
В соответствии с этим построим ход дальнейших рассуждений. Достаточно ясно, что первые три признака определяют некоторый набор текстов, расположенный на машинном носителе и представленный в виде, удобном для программной обработки. Последний признак, определяющий корпус, есть признак репрезентативности. Корпус должен с максимальной объективностью представить разнообразие изучаемого явления, и дать в то же время объективную картину бытования этого явления в речевой практике носителей данного языка [4,6].
Это единственный нетривиальный признак корпуса, в отличие от первых трех. Именно это свойство, по замыслу основоположников корпусной лингвистики превращает набор текстов на машинном носителе в уникальное словесное единство – корпус текстов [6]. Это свойство корпуса настолько важно, что иногда говорят о репрезентативности как о результате процесса самоорганизации корпуса, рассматриваемого, безусловно, как метафора [5]. Тогда, по идее, лежащей в основании корпусной лингвистики, корпус текстов отразит объективную картину речевой деятельности независимо от воли его создателя.
Однако, проблема состоит в том, что в речевая действительность чрезвычайно разнообразна, представлена в разных фактурах (устная, письменная, печатная речь и т.д.). Разнообразие зафиксированных в ней лингвистических явлений просто необозримо. В 60-е годы первые корпусы текстов претендовали на то, что они универсальные, то есть отражают статистически корректно всю картину бытования данного языка или некоторый представительный ее фрагмент [6]. Например, Брауновский корпус текстов был создан для отражения печатной речи США 60-х годов с удовлетворительной для того времени степенью репрезентативности.
Но сейчас (например, в профессиональной дискуссионной конференции в Интернете) свободно обсуждаются такие корпуса текстов, как корпус пословиц или корпус английских текстов, предназначенных для отладки систем машинного перевода. В качестве примера можно упомянуть также корпус политических метафор [1]. Очевидно, что здесь критерий отбора текстов для своего корпуса его создатель задает сам, исходя из целей своей практической или научной деятельности. В этом случае критерием репрезентативности для него будет служить требование максимально объективно представить в создаваемом корпусе бытование интересующего его явления. Представим, что мы скомпилировали корпус английских пословиц, максимально репрезентативно отражающий их употребление в речевой практике носителей английского языка определенного времени и географического региона. Будет ли этот корпус репрезентативен для изучения английской политической метафоры? И наоборот?
Из вышесказанного можно видеть, что проблема методологии достижения репрезентативности корпуса текстов является актуальной и недостаточно разработанной [6]. Также можно утверждать, что критерии отбора текстов в корпус и оценки его репрезентативности распадаются на два класса. В первый класс войдут корпусы текстов, созданные по критериям, преследующим цель отразить в себе объективную картину речевой деятельности, существующей не зависимо от исследователя. В другой класс войдут корпусы, построенные ad hoc, для отражения, как уже говорилось, некоторого интересующего явления или для конкретного вида деятельности (корпус пословиц, газетных заголовков, политических метафор, переводов). Методологии построения первого класса корпусов так или иначе строятся на основе принципа дедукции – реализации проблемы корректоности движения от общего (объективно существующей речевой практики носителей языка) к отражающей это общее частному корпусу текстов. Методологии построения второго класса корпусов текстов, как представляется, должны заниматься проблемой корректности отражения частного, единичного лингвистического феномена в корпусе текстов, призванным отразить в себе этот феномен [3]. Теория и практика утверждают, что оба эти подхода тем не менее редко применяются в чистом виде, а, как правило, присутствует некоторая их комбинация.
Можно сказать, что объективная реальность состоит в следующем. Практика показывает, что корпусная лингвистика оперирует как минимум с двумя разными типами объектов (корпусов текстов). Один тип корпуса текстов имеет целью отразить бытование некоторого лингвистического или культурного феномена в общественной речевой практике – например корпус пословиц или корпус политических метафор в газетной речи. Другой тип корпуса универсален – он ставит перед собой задачу отразить в себе все многообразие речевой деятельности или некоторого рода словесности (например, печатную или устную речь).
В обоих случаях мы зачастую можем говорить пока о репрезентативности только как о статистической оценке результата такого отражения в корпусе текстов. Однако статистические критерии оценки здесь не всегда являются единственными или определяющими. Ведь корпус выступает как некоторый объект, призванный послужить моделью некоторой внешней по отношению к нему реальности. Методология конструирования такого объекта как корпус, зачастую должна зависеть от типа корпуса.
Подходящая методология может служить основой для корректного решения проблемы репрезентативности. Тогда можно говорить и о стратегиях достижения репрезентативности. Например, говорят о пропорциональных, а также о классификационных стратегиях [1]. Основанная на правильной парадигме стратегия может послужить не только эффективным инструментом для конструирования корпуса текстов и послужить основой для построения методологии оценки его репрезентативности.
Одним из примеров альтернативной методологии, достаточно подробно разработанной в деталях и широко опробованной на практике может служить парадигма объектно-ориентированного программирования (ООП). Классические методы ООП – наследование, полиморфизм, инкапсуляция и другие [2]. Могут быть применены в практике конструирования новых корпусов текстов и для правильной оценки и описания соотношения между существующими корпусами. За недостатком места проиллюстрируем этот подход на прмере парадигмы наследования. Наследование (inheritance) - это процесс, посредством которого один объект может приобретать свойства другого. Основная стратегия построения универсального корпуса текстов (так называемая пропорциональная стратегия), заключающаяся в пропорциональном сужении предметной области (речевой деятельности) может быть описана как стратегия наследования. Брауновский корпус, построенный на основе такой методологии послужил своеобразным образцом (классом) при создании сначала полностью аналогичных ему корпусов – объектов (LOB корпус и т.д.).
1. Баранов А.Н. Проблема репрезентативности корпуса данных (на примере политической метафорики) // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
2. Буч Г. Объектно-ориентированный анализ и проектирование. С примерами приложений на С++. – М.:, 1999 г.
3. Клименко С.В., Рыков В.В. Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
4. Рыков В.В. Корпус текстов как отражение состояния русского языка // Труды Международного конгресса "Русский язык: исторические судьбы и современность" . – Москва: МГУ, 2001 г.
5. Holmes-Higgin P., Ahmad K. Assembling and Viewing a Corpus of Texts: Self-organisation, Logical Deduction and Spreading Activation as Metaphors // Euralex’96 Proceedings. – Stockholm, 1996.
6. McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999.

Key words: corpus linguistics, object-oriented programming, representativeness

Text Corpus Design as Application of Object Oriented Paradigm / Vladimir Vasil’evich Rykov (Moscow Institute of Physics and Technology, 9 Institutsky per., Dolgoprudny, Moscow region, 141700, Russia, rykov2000@mail.ru)

The application and development of current IT software or NLP research requires large amounts of specific linguistic resources (LR). Mostly they are called text corpora. However existing text corpora sometimes are compiled either for specific tasks (FAQ corpus, corpus of proverbs or corpus of newspaper political metaphors) or to reflect the public speech activity in general or its specific fragment (printed prosaic speech). It seems that they are two distinct types of corpora or distinct objects with different design criteria.The large scale and sometimes the heterogeneity of LR for the corpus design and other reasons are orientative towards the complexity of the problem of corpus design and corpus representativeness. The suitable representation techniques or methodology captures selective textual information from the LR and reflects it in the text corpus. In order to put it into practice a variety of methods for acquisition, adaptation and integration of LR have been proposed in the NLP research area since the 60''s. Still it goes without saying that the quality of many IT applications or NLP research activities largely depend on the representativeness of the used corpora. In both types of corpora the evaluation of representativeness is not the statistical problem only. It hardly depends on the corpus design criteria and methodology. So – we can and must treat the target text corpus as a specific object. It should reflect in its properties the required qualities of outer textual data. There are well known and widely used set of procedures of proper object construction in modern programming. Its name is Object Oriented Programming (OOP) methodology. It includes such a logical design procedures as encapsulation, inheritance, polymorphism et al. These design methods can be used for desired or specific text corpora compilation. Really - objects (and hence corpora) come into existence as a result of calls to certain methods and routines that create them. Each object (corpus) in the universe has a unique identity, an encapsulated state, and a set of methods that can be called to interact with it. These topics are under discussion.

КОРПУСНАЯ ЛИНГВИСТИКА И ЛЕКСИКОГРАФИЯ – ПРОБЛЕМА РЕПРЕЗЕНТАТИВНОСТИ - напечатана в Трудах Конференции по лексикографии (г. Гродно апрель 2002 г.)

КОРПУСНАЯ ЛИНГВИСТИКА И ЛЕКСИКОГРАФИЯ – ПРОБЛЕМА РЕПРЕЗЕНТАТИВНОСТИ

Рыков В.В
Москва

В любой человеческой деятельности можно выделить формальную или рутинную и творческую, неформальную компоненту. Это в полной мере относится и к работе лексикографа. Еще В.В. Виноградов цитировал слова, ставшие классикой, – нет ничего тяжелее, чем составлять словарь и писать грамматику. Не всегда можно четко провести грань между рутинной и творческой работой при составлении словарей. Однако можно утверждать, что методология корпусной лингвистики не только изменила это соотношение, но и внесла много нового в саму лексикографию. В значительной степени потребности лексикографии стимулировали появление и развитие корпусной лингвистики. В данной работе, однако, не ставится цель разобрать все аспекты соотношения между этими двумя лингвистическими дисциплинами.
Составление словаря, как правило, основывается на некотором корпусе текстов. Сейчас, имея корпус текстов в машинном формате, нетрудно составить конкорданс всех его лексических единиц. Имея такой конкорданс, квалифицированный лексикограф сможет составить соответствующий словарь. Процедура перехода корпус – словарь сейчас представляется достаточно формальной. Неформальная проблема, как представляется, заключается в другом. Что за словарь получается из корпуса текстов?
Действительно, если мы возьмем в качестве исходного корпуса для составления словаря ставший уже классическим Брауновский корпус текстов, то что у нас получится за словарь? В какой степени этот словарь будет представлять американкий вариант английского языка? Или – какой словарь получится из Британского национального корпуса текстов? Будет ли он отвечать требованиям, предъявляемым к словарю? Здесь мы приходим к проблеме репрезентативности корпуса текстов – и, следовательно, к проблеме репрезентативности полученного из этого корпуса словаря.
Следовательно, проблема репрезентативности используемого корпуса данных является весьма актуальной как для лексикографии, так и для любого лингвистического исследования. Это существенно важно как для теоретических изысканий, так и задач прикладной лингвистики – например для отладки и совершенствования алгоритмов обработки текстовой информации. Репрезентативность как доказанное качество, присущее сконструированному корпусу текстов определяет достоверность полученных на нем результатов. Эту проблему также можно рассматривать как проблему адекватного отражения, адаптации или интеграции больших массивов текстов или некоторых иных фрагментов речевой деятельности в существенно меньший по объему корпус текстов.
Например, процесс создания первого, Брауновского корпуса текстов, состоял из набора формальных процедур и творческих решений. С одной стороны он строился на основе статистических процедур. Но статистика применялась, тем не менее, в сочетании с волевыми решениями авторов корпуса, базирующимися на профессиональной интуиции.
Для достижения максимальной объективности этого сложного процесса требуется построение максимально формализованных, прозрачных для проверки и контроля процедур. Одним из способов решения этой проблемы предлагается модель (парадигма) объектно-ориентированного программирования. Обсуждается применение таких классических методов ООП как наследование, полиморфизм, инкапсуляция и другие.

Действительно, анализ этой проблемы показал, что деятельность по составлению или компиляции корпуса текстов чрезвычайно разнообразна и, следовательно, довольно неоднородна. Во-первых, это определяется разнообразием задач, стоящих перед составителем корпуса. Во-вторых, мы наблюдаем здесь обычную полисемию термина - в данном случае термина «корпус текстов».
Или, другими словами, корпус текстов – родовое понятие множества довольно разнообразных объектов. Зачастую эти объекты связывает только общее родовое имя. Корпусная лингвистика оперирует с некоторым достаточно четко определенным подмножестом этого разнообразного семейства [3]. В корпусной лингвистике принято определение корпуса, основывающееся на четырех признаках [6]. Этими основными содержательными признаками, которые определяют специфику этого своеобразного рода словесного единства являются следующие: 1) расположение корпуса на машинном носителе, 2) стандартизованное представление словесного материала на этом машинном носителе, позволяющем применять стандартные программы его обработки, 3) конечный размер, 4) репрезентативность как результат особой процедуры отбора.
В соответствии с этим построим ход дальнейших рассуждений. Достаточно ясно, что первые три признака определяют некоторый набор текстов, расположенный на машинном носителе и представленный в виде, удобном для программной обработки. Последний признак, определяющий корпус, есть признак репрезентативности. Корпус должен с максимальной объективностью представить разнообразие изучаемого явления, и дать в то же время объективную картину бытования этого явления в речевой практике носителей данного языка [4,6].
Это единственный нетривиальный признак корпуса, в отличие от первых трех. Именно это свойство, по замыслу основоположников корпусной лингвистики превращает набор текстов на машинном носителе в уникальное словесное единство – корпус текстов [6]. Это свойство корпуса настолько важно, что иногда говорят о репрезентативности как о результате процесса самоорганизации корпуса, рассматриваемого, безусловно, как метафора [5]. Тогда, по идее, лежащей в основании корпусной лингвистики, корпус текстов отразит объективную картину речевой деятельности независимо от воли его создателя.
Однако, проблема состоит в том, что в речевая действительность чрезвычайно разнообразна, представлена в разных фактурах (устная, письменная, печатная речь и т.д.). Разнообразие зафиксированных в ней лингвистических явлений просто необозримо. В 60-е годы первые корпусы текстов претендовали на то, что они универсальные, то есть отражают статистически корректно всю картину бытования данного языка или некоторый представительный ее фрагмент [6]. Например, Брауновский корпус текстов был создан для отражения печатной речи США 60-х годов с удовлетворительной для того времени степенью репрезентативности.
Но сейчас (например, в профессиональной дискуссионной конференции в Интернете) свободно обсуждаются такие корпуса текстов, как корпус пословиц или корпус английских текстов, предназначенных для отладки систем машинного перевода. В качестве примера можно упомянуть также корпус политических метафор [1]. Очевидно, что здесь критерий отбора текстов для своего корпуса его создатель задает сам, исходя из целей своей практической или научной деятельности. В этом случае критерием репрезентативности для него будет служить требование максимально объективно представить в создаваемом корпусе бытование интересующего его явления. Представим, что мы скомпилировали корпус английских пословиц, максимально репрезентативно отражающий их употребление в речевой практике носителей английского языка определенного времени и географического региона. Будет ли этот корпус репрезентативен для изучения английской политической метафоры? И наоборот?
Из вышесказанного можно видеть, что проблема методологии достижения репрезентативности корпуса текстов является актуальной и недостаточно разработанной [6]. Также можно утверждать, что критерии отбора текстов в корпус и оценки его репрезентативности распадаются на два класса. В первый класс войдут корпусы текстов, созданные по критериям, преследующим цель отразить в себе объективную картину речевой деятельности, существующей не зависимо от исследователя. В другой класс войдут корпусы, построенные ad hoc, для отражения, как уже говорилось, некоторого интересующего явления или для конкретного вида деятельности (корпус пословиц, газетных заголовков, политических метафор, переводов). Методологии построения первого класса корпусов так или иначе строятся на основе принципа дедукции – реализации проблемы корректоности движения от общего (объективно существующей речевой практики носителей языка) к отражающей это общее частному корпусу текстов. Методологии построения второго класса корпусов текстов, как представляется, должны заниматься проблемой корректности отражения частного, единичного лингвистического феномена в корпусе текстов, призванным отразить в себе этот феномен [3]. Теория и практика утверждают, что оба эти подхода тем не менее редко применяются в чистом виде, а, как правило, присутствует некоторая их комбинация.
Можно сказать, что объективная реальность состоит в следующем. Практика показывает, что корпусная лингвистика оперирует как минимум с двумя разными типами объектов (корпусов текстов). Один тип корпуса текстов имеет целью отразить бытование некоторого лингвистического или культурного феномена в общественной речевой практике – например корпус пословиц или корпус политических метафор в газетной речи. Другой тип корпуса универсален – он ставит перед собой задачу отразить в себе все многообразие речевой деятельности или некоторого рода словесности (например, печатную или устную речь).
В обоих случаях мы зачастую можем говорить пока о репрезентативности только как о статистической оценке результата такого отражения в корпусе текстов. Однако статистические критерии оценки здесь не всегда являются единственными или определяющими. Ведь корпус выступает как некоторый объект, призванный послужить моделью некоторой внешней по отношению к нему реальности. Методология конструирования такого объекта как корпус, зачастую должна зависеть от типа корпуса.
Подходящая методология может служить основой для корректного решения проблемы репрезентативности. Тогда можно говорить и о стратегиях достижения репрезентативности. Например, говорят о пропорциональных, а также о классификационных стратегиях [1].
Одним из примеров альтернативной методологии, достаточно подробно разработанной в деталях и широко опробованной на практике может служить парадигма объектно-ориентированного программирования (ООП). Классические методы ООП – наследование, полиморфизм, инкапсуляция и другие [2]. Они могут быть применены в практике конструирования новых корпусов текстов и для правильной оценки и описания соотношения между существующими корпусами. Эта методология предлагается для обсуждения. За недостатком места проиллюстрируем этот подход на примере парадигмы наследования. Наследование (inheritance) - это процесс, посредством которого один объект может приобретать свойства другого. Основная стратегия построения универсального корпуса текстов (так называемая пропорциональная стратегия), заключающаяся в пропорциональном сужении предметной области (речевой деятельности) может быть описана как стратегия наследования. Брауновский корпус, построенный на основе такой методологии, послужил своеобразным образцом (классом) при создании сначала полностью аналогичных ему корпусов – объектов (LOB корпус и т.д)., созданных на основе стратегии наследования.
Основанная на правильной парадигме стратегия может послужить не только эффективным инструментом для конструирования корпуса текстов и послужить основой для построения методологии оценки его репрезентативности. Предлагаемая объектно-ориентированная методология, может представлять один из подходов к конструированию репрезентативного корпуса текстов. Это, в свою очередь, может послужить базовым материалом для составления словаря, объективно обладающего необходимыми лексикографическими свойствами.



Литература

.
1. Баранов А.Н. Проблема репрезентативности корпуса данных (на примере политической метафорики) // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
2. Буч Г. Объектно-ориентированный анализ и проектирование. С примерами приложений на С++. – М.:, 1999 г.
3. Клименко С.В., Рыков В.В. Логические индукция и дедукция как принципы отражения предметной области в корпусе текстов // Труды Международного семинара Диалог ‘2001 по компьютерной лингвистике и ее приложениям. – Аксаково, 2001 г.
4. Рыков В.В. Корпус текстов как отражение состояния русского языка // Труды Международного конгресса "Русский язык: исторические судьбы и современность" . – Москва: МГУ, 2001 г.
5. Holmes-Higgin P., Ahmad K. Assembling and Viewing a Corpus of Texts: Self-organisation, Logical Deduction and Spreading Activation as Metaphors // Euralex’96 Proceedings. – Stockholm, 1996.
6. McEnery T., Wilson A. Corpus Linguistics. – Edinburgh: Edinburgh University Press, 1999.

Корпус текстов как отражение состояния русского языка - Статья была напечатана в трудах Конгресса по русскому языку (март 2001 г.)

Корпус текстов как отражение состояния русского языка

В.В.Рыков

Состояние языка, русский язык, корпусная лингвистика, корпус текстов.

Институт языкознания РАН

103009, Москва, Бол. Кисловский пер., 1.12

факс: 290-05-28

rykov2000@mail.ru

Summary

If we want to study the current state of any language we should have quite a complete and representative picture of it. This picture should have a set of qualities to reflect the state of the language and to be a source of its study. Properly designed machine readable corpus of texts and so called corpus linguistics approach reflecting national tradition is proposed by the author.


Для изучения состояния языка удобно иметь легко доступный и компактный речевой материал, достаточно полно отражающий речевую деятельность его носителей. Другими словами существует потребность в корпусе текстов, обладающем описанными выше свойствами. Такие корпусы текстов уже составлены для многих языков мира. Для удобства использования они, как правило, расположены на магнитном носителе.
Необходим мощный и легко доступный источник реального речевого материала, составленный как для отражения каждой конкретной сферы общественно-языковой практики, так и общего состояния языка.
Формирование национального корпуса текстов, должно соответствовать своей филологической традиции. Традиция построения подобных корпусов на русском языке, находится в процессе становления. Иноязычные традиции могут быть учтены, но не могут быть имитированы или взяты за образец, потому что они - иноязычные. Эти традиции, если доказательно подтверждено их существование, должны быть осмыслены критически в свете новейших достижений отечественной филологии.
Что такое правильно составленный корпус текстов? Использование статистического подхода к установлению языковой нормы является характерной чертой американской лингвистики, но отнюдь не отечественной. Легкость доступа к огромным массивам разнообразного лингвистического материала при помощи все более доступного компьютера безусловно должно привести к качественно новым результатам, но эти результаты должны отражать реальное состояние языка.
Структура корпуса и его компоненты могут и должны быть составлены в соответствии с определенной научной целью. Можно отразить не только в целом состояние русского языка, но и речевые особенности отдельного его функционального стиля, а также другие специфические особенности национального языка и речи. Например, отразить не только язык художественной литературы, но и деловой письменности а также устной речи.
Действия, состав которых реализует филологический замысел создателя корпуса на практике, должны также удовлетворять таким критериям как системность отбора, стандартизация в подготовке, унификация разметки и многим другим.
Корпус, в силу своего определения, может и должен служить исходным речевым материалом, легко доступным для любой его обработки в соответствии с той или иной научной задачей и предоставлять для этого соответствующие программные средства. Несмотря на то, что понятие "корпус текстов" давно уже применяется в отечественной и зарубежной лингвистике, логические критерии его организации разработаны еще недостаточно. Видимо, как было сказано выше, это связано с историей и национальными особенностями этого научного направления.
Следовательно, с одной стороны следует и можно говорить о корпусе текстов как о некотором логически организованном целом. Есть все основания говорить о метафоре или категории так называемой корпусной лингвистики – метафоре корпусообразующей логической дедукции. Речь идет о совокупности логических процедур, при помощи которых происходит отбор текстов для включения их в корпус.
Однако сама деятельность по созданию и использованию национального корпуса текстов неизбежно требует разработки и тщательного обсуждения соответствующего набора категорий, учитывающих национальную традицию. Только тогда можно будет точно обсуждать и сравнивать реальные и потенциальные результаты любого исследования корпуса. И здесь неизбежно приходится внимательнее изучить и учесть связь между внутренними свойствами корпуса, содержащего исходный речевой материал исследования, так и внешними обстоятельствами и условия его создания, содержательно соотнесенные с задачами национальной филологической традиции и общественно-языковой практики.


Литература

1. Рыков В.В. Прагматически ориентированный корпус текстов // Тверской лингвистический меридиан - Выпуск 3. – Тверь: ТГУ, 1999-- С. 89-96.
2. Рыков В.В. Прагматически ориентированный корпус текстов // Актуальные проблемы современной лексикографии. - М : МГУ, 1999 - С. 165-172.


Международный конгресс исследователей русского языка "Русский язык: исторические судьбы и современность" состоялся 13-16 марта 2001 г. на филологическом факультете МГУ

Диалог - Сайт Международного семинара ДИАЛОГ создан Ассоциацией компьютерной лингвистики и интеллектуальных технологий (КОЛИНТ)

Международная научная конференция - СОВРЕМЕННЫЕ ПРОБЛЕМЫ ЛЕКСИКОГРАФИИ



Hosted by uCoz