Статьи по управлению знаниями



Rykov V.V.

(Moscow Physics and Technology Institute – State University)


Key words: question answering system, agent, ontology, text corpus, knowledge processing

The last few years showed the dramatic increase of interest in language-independent information systems (information retrieval, information extraction, knowledge acquisition, search systems) that can process many types of structured and semi-structured data sources. Mutual efforts of researchers with build-ups in various languages allow developing international framework. This is dramatically important for applications in worldwide use and Europe particularly, since people prefer to deal with their native language, but more and more tasks over time require international systems able to interact with user worldwide. New linguistic technologies must provide single framework for: knowledge management, effective methods for interacting with existing database technologies, agent technologies, etc.

MAQAO project is intended to reach different objectives both for integration in research area and developing new techniques in computational linguistics, knowledge management, agent-based systems and multimodal interfaces.
MAQAO project has three main parts reflecting the contemporary directions in NLP, knowledge management and multimodal interfaces. These parts form the basis for the development of project prototypes. The first part deals with knowledge management. We intend to develop an intelligent environment for linguistic knowledge management as a prototype (Thesaurus Constructor). The second part concerns the information extraction and has a text corpora processing tool for knowledge acquisition as a prototype (Knowledge Editor). And the third part of the project is a design of an information system with natural language interface (MAQAO QA component). All these parts are described briefly below.
The main goal of the first part of the project is to create an integrated environment that will facilitate the majority of time-consuming linguistic tasks such as elaboration or correction of thesauri and ontologies for a specific knowledge domain. Having connection with other thesauri and ontologies (like WordNet) and being compliant with the most widespread knowledge representation standards such an environment can dramatically reduce expenditures for experts and knowledge engineers and improve the quality of information systems.
The complexity of modern information reality does not give any chance to develop knowledge bases for different kinds of information systems neither in manual nor in fully automatic way. It is obvious that the best results can be achieved only having an optimal balance between these two approaches. In the context of information retrieval and knowledge acquisition we have these two methods as statistics and linguistics.
The main objective of this part of the project is to develop methods and algorithms for processing of the text corpus representing some knowledge domain in order to extract semantic data and metadata and build a knowledge base. The second objective is to develop, adopt or improve standards for storing such knowledge bases to use them in various types of information systems including question answering systems, search systems, data warehouses etc. On this stage we will enhance algorithms in orientation on multilingual systems. This approach is especially important for Internet sites because of the fact that globalisation processes unite rather economical issues than languages and cultural habits.
· We intend to use an agent paradigm for the prototype. So the prototype of text corpus processing tool (Knowledge Editor) will be developed as a multi-agent system. Agent-based approach to the prototype architecture will bring many benefits to the whole project since this approach has a lot of distinctive characteristics - Autonomy. Intelligence and reasoning core allow linguistic agents make decisions and act autonomously.
· Communication. Extended communicative capabilities with ontology support allow agents to organize efficient data flow.
· Mobility. Agents can migrate across networks and process different types of datasources.
The prototype will have a distributed architecture and consist of several components with definite roles. Every component has a number of agents with certain tasks and behaviors. The agent-based prototype will have following features: distributed data processing, multiplatform support, asynchronous computation, decentralized data flow, high fault tolerance

From current point of view in the development of multiagent systems we rely on the existing frameworks (JADE) and standards (FIPA). The functionality of agent-based system consists of agents itself and of properties and rules for gathering information. Therefore a set of techniques will be developed in this project to describe agents’ behavior.
The objective of the third part of the project is to design an information retrieval system with natural language interface. As a project prototype we propose agent-based and ontology-supported Multilingual Question Answering System (MAQAO QA component). The main features of the MAQAO QA component are: multilingual interface, agent-supported user dialog, agent-supported access to datasources (knowledge bases, thesauri, ontologies, dictionaries, digital libraries), XML-based ontology description of datasources, active multimodal user dialog support.
It is very important to develop friendly interfaces that can be an intermediary between a user and a variety of information systems. Our approach supposes natural language processing (NLP) as a main cornerstone for creation of such intelligent interfaces. Since the majority of users are not familiar with the specific features of a given information system we are intended to design a technology that understand the natural language query, process and then pass it to the information system. User does not need anymore to accommodate to the specific requirements of the variety of information systems and to translate every time his/her query already formulated in natural language to a number of keywords or an expression with logical operators. Moreover, due to capabilities of query preprocessing and knowledge domain annotation only the most relevant information will form the answer.


В.В. Рыков

Московский Физико-Технический Институт

Ключевые слова: вопросно-ответные системы, агенты, онтологии, корпус текстов, обработка знаний

Информационный поиск при помощи вопросно-ответных (Question Answering – QA) систем принципиально отличается от поиска документов по ключевым словам. Наглядно это можно проиллюстрировать следующим примером. На вопрос о телефонном номере жителя Нью-Йорка Джона Смита обычная ИПС выдает список городских телефонных книг, где содержится это имя. QA же система даст сразу ответ – номер телефона. Современные QA системы уже могут ответить на вопросы типа: «Какие страны посетил Путин в 2002 году?»
Очевидно, что при создании QA систем приходится сталкиваться с существенно другими методами обработки знаний по сравнению с уже привычными методами проектирования и программирования документоориентированных ИПС. Прежде всего нужно уметь извлекать знания из текстов, уметь представить их в формализованном виде, понимать вопрос пользователя на естественном языке (ЕЯ), синтезировать правильный ответ на ЕЯ. Можно сказать, что способность ответить на вопрос является доминирующим свойством для любой системы, осуществляющей работу с текстами или взаимодействие с пользователем на ЕЯ.
Однако современная информационная практика предъявляет еще более высокие требования к таким системам. Тексты-источники знаний могут быть записаны в разных форматах и на разных языках. Следовательно проектируемая система должна быть адаптируема к самым разным условиям и режимам работы. Такие режимы работы могут реализованы при условии применения трех условий - лингвистических технологий обработки текстов, технологий обработки знаний и агентных технологий, позволяющих реализовывать различные режимы работы с разнородными данными. В докладе описывается проект такой системы, соответственно состоящий из трех частей. Первая (основная) часть релизует главную ее функцию – генерацию ответа на вопрос на ЕЯ. Вторая часть обрабатывет тексты, содержащие знания по данной предметной области (ПО), используя тезаурусы (типа WordNet) и/или формируя тезаурусы ПО, а также соответствуюшие базы знаний (БЗ). Третья компонента реализует связь с пользователем, которая может осуществляться в различных режимах или языках.
Столь разнородные и зачастую противоречивые задачи смогут быть осуществлены при помощи функционального распараллеливания их на автономные программы (агенты), снабженные начальными знаниями для их выполнения (онтологиями). Эта часть разработки опирается на признанные и опробованные агентные программные системы (JADE) и стандарты (FIPA). При помощи агентов можно реализовать:
- доступ к любым БД, содержащим тезаурусы, словари, бызы знаний, онтологии, файлы любых форматов (agent supported access to datasources).
- заданный режим диалога с пользователем (agent supported dialog),
- прочие действия, требующие адаптации к текущей ситуации.

Рыков В.В.
Кандидат филологических наук
Доцент МФТИ

Процессы без людей – проблемы интеграции и пути их решения - конф МФТИ - ноябрь 2004 г.

Практическая деятельность человека чаще всего выражается в его действиях над самыми разными объектами. В процессе интеграции такой деятельности в современную ИС ее принято описывать бизнес процессами, состоящими из бизнес действий над бизнес объектами.
Как правило, проектирование ИС происходит при той или иной форме взаимодействия заказчика, знающего предметную область (ПО), в которой протекает деятельность, которую требуется интегрировать в ИС, и постановщиком (аналитиком). Интерфейс между ними реализуется сначала на словесном уровне и начинается с выяснения набора объектов и действий над ними, которые и составляют эту ПО. Как правило, желательным результатом этого первого этапа создания ИС является процессная схема, представленная в графическом виде в определенной нотации. Существуют прграммные системы, позволяющие проверить такую нотацию на непротиворечивость и соответствие стандартам (ARIS, BPwin и др.) [1, 4, 5, 6].
На втором этапе приходится расщеплять составленную ранее процессную схему на рутинную и творческую составляющие. Здесь реализуется так называемый принцип рутинного подкрепления творческих процессов принятия решений - процедура проектирования сводится к выделению автоматизируемых бизнес процессов, которые могли бы протекать без вмешательства человека и последующей инкорпорации их в построенную процессную схему, соединение их с творческими, неформализуемыми составляющими ИС. Далее, на третьем этапе, каждый из объектов, определяющих рутинные составляющие, подвергается дальнейшей формализации с целью записи их в БД – т.е. с целью описания их как частей полностью автоматизированного бизнес процесса [1].
В процессе выполнения этих трех этапов ставшей уже классической схемы приходится сталкиваться в той или иной форме с проблемами интеграции в единую ИС совершенно разнородных бизнес объектов. Наиболее проблемным является третий этап – построение формальной модели программно реализованного бизнес процесса, выполняемого без вмешательства человека. В сфере финансовых услуг, где такие процессы используются в наибольшей степени, их называют процессами класса Straight Through Processing (STP) или по-русски это называется «сквозная обработка данных» [4,5].
Следовательно, для того, чтобы спроектировать STP бизнес процесс нужно решить следующие проблемы [3,6,7]:
1. Интегрировать в него необходимые бизнес объекты (БО) – Datasource Integration. Дело в том, что они могут иметь самый разнообразный формат и природу. Это могут быть БД разных систем, сообщения, файлы и многое другое, содержащие, в свою очередь таблицы, документы, транзакции и т.д.
2. Синхронизовать бизнес действия над БО – Event Integration. Действительно, бизнес действия, входящие в состав данного STP бизнес процесса протекают в определенных временных интервалах и находятся зачастую в сложных временных зависимостях. Начало, конец, особые ситуации в процессе выполнения любого действия обозначаются как асинхронные события (business events). Для описания этого существуют уже XML-подобные языки (например, PSL – Process Specification Language).
3. Решить проблему именования. – Vocabulary Integration. Здесь речь идет о компоненте, пока отсутствующей на рынке интеграционных платформ [6,7]. Имется в виду не только управление справочно-нормативной информацией. Одни и те же единицы интеграции разных уровней (поля БД и многое другое) могут иметь разные имена и наоборот – у разных единиц одинаковые имена, в силу того, что они могли создаваться в разное время разными людьми.
Конечно, эти проблемы присутствуют в разной степени и в разном объеме при проектировании ИС. Однако, успешные и достаточно общие подходы к решению этих проблем безусловно повышает скорость и качество проектирования, а также различные параметры производительности уже готовых ИС. Также может быть много подходов к решению этих проблем – в зависимости от многих причин. Так, разработаны форматы метаданных для единообразного описания любых источников данных (CWM), существует технология мэппинга этих метаданных в онтологию, отражающую самые существенные свойства интегрируемых частей. Резко повышает гибкость и опреативность процедур мэппинга технология интеллектуальных многоагентных систем, приобретающую все большую популярность в ИТ [3,4,5,6,7].
Все это в целом позволяет говорить о возможности реализации когнитивной структуры – метаонтологии, представляющей собой динамический образ работающего без вмешательства человека бизнес процесса, формирующейся методом мэппинга из интегрируемых источников данных (бизнес объектов) при помощи технологии интеллектуальных агентов как практически реализуемой в разных формах информационной технологии интеграции разнородных бизнес объектов и бизнес действий в STP бизнес процесс. При необходимости такое онтологическое описание БП может быть преобразовано в более удобные для обработки XML формы (XPDL, BPML, BPEL, RDF/T) [2,5,7] .


1. Беляев И. П., Капустян В. М. Процессы и концепты. – М. , 1997.
2. Лукашева Н. К. Универсальный онтологический подход к описанию бизнес процессов. Теория и практика. Дипломная работа на степень бакалавра. – М.: МФТИ, 2004.
3. Круговец А.С. Технология многоагентных систем, их применение и реализация на основе технологии dot NET. Дипломная работа на степень бакалавра. – М.: МФТИ, 2003.
4. Резниченко А. К процессам без людей // PCWEEK/RE. – N. 34. – 2004 г.
5. Технологии IBM для электронного бизнеса. - М., 2004. – http://www-106.ibm.com/developerworks/patterns/ru_ru/
6. Тропин В.А. Интеграция бизнес процессов методом онтологий. Дипломная работа на степень бакалавра. – М.: МФТИ, 2003.
7. Omelayenko B. Ontology-Mediated Business Integration // Proceedings of the 13-th EKAW 2002 Conference, , October 1-4, LNAI 2473. - Siguenza, Spain, 2002. - pp. 264-269.

Парадигма трех миров и управление знаниями - конф МФТИ - ноябрь 2004 г.

Сейчас все чаще употребляется термин «управление знаниями». Однако употребляется этот термин часто неоднозначно и по-разному. Начнем с определений.
«Под управлением знаниями в общем случае понимается дисциплина, которая обеспечивает интегрированный подход к созданию, сбору, организации, доступу и спользованию информационных ресурсов организации . Эти ресурсы включают в себя корпоративные базы данных, текстовую информацию, такую как документы, описывающие правила и процедуры, и, что наиболее важно, неявные знания и опыт сотрудников организации» [9].
Это достаточно авторитетное определение международной фирмы IBM. Согласно этому определению, видно, что управление знаниями есть достаточно сложная и совершенная система управления информацией. Об этом же говорит и другое определение ниже.
»Под корпоративными знаниями понимается различная деловая информация, которую необходимо иметь для поддержки на высоком уровне основных бизнес-процессов предприятия, а также для быстрого реагирования на динамику рынка. В более широком смысле знания - это информация, материализованная в процессе решения конкретной задачи в виде каких-то конкретных действий людей, стремящихся достичь своих конкретных целей» [3].
Рассмотрим другие определения.
«При внедрении технологий управления знаниями особое внимание мы уделяем стратегии создания и развития хранилищ корпоративных данных, которую мы увязываем со стратегическими аспектами развития всей компании и потребностями конкретных бизнес-процессов» [5].
Согласно этому определению получается, что управление знаниями есть достаточно сложная и совершенная система управления данными.
На самом деле противоречия в этих определениях нет. Во-первых, во многих англоязычных публикациях специально отмечают, что knowledge management – это единый термин, определяющий определенного уровня сложности кибернетическую программную систему. И это не есть management of knowledge.
Тем не менее, до сих пор не прекращаются попытки разобраться, в чем разница между тремя понятиями – данные, информация и знания [2]. Для этого лучше всего начать с классики. Великий славянский философ восемнадцатого века Григорий Сковорода в своем сочинении «Потоп змиин» описал концепцию трех миров. Согласно его описанию, в первый мир входит окружающая нас реальность (по английски Reality – R). Во второй мир входит внутренний мир человека (английский термин Mind или М). Третий мир, согласно Г. Сковороде, есть мир знаков (signs – или S) [7]. Действительно, этот мир не пересекается ни с одним из первых двух миров. Трудно сомневаться в автономности существования мира знаков в эпоху Интернета. Особенно, если это было предсказано более двухсот лет назад. Независимо от Сковороды к открытию третьего мира пришли некоторые западные философы XX века – например Карл Поппер. Этот мир он даже называл «третьим миром» [4]. Эта парадигма давно уже не является периферийной, полузабытой или невостребованной. Философия Карла Поппера входит в аспирантский минимум [6]. О концепции трех миров Г. Сковороды недано вышла солидная книга с одноименным названием. Автор – сотрудник Института славяноведения РАН [8].
Как известно, философские

Hosted by uCoz