+7 (985) 905 09 22
veselovskiy1@gmail.com

Аналитика и поиск



Концептуальные основы построения
самообучающихся аналитических систем
с извлечением знаний из текстов по различным
тематическим областям


     Для реализации описанного в предыдущем разделе процесса распознавания, понимания и синтеза речи предложен программный комплекс интеллектуальных систем. Этот комплекс включает самообучающуюся аналитическую систему с извлечением знаний из текстов, а также интеллектуальные системы анализа и синтеза речи. В данном разделе рассмотрим концептуальные основы построения самообучающейся аналитической системы, которая предназначена прежде всего для семантического анализа с целью определения смысла распознаваемой слитной речи от неизвестных дикторов.
Отметим, что без понимания смысла речи, как было показано выше, невозможно достоверное распознавание речевого сигнала. При этом система должна обеспечивать семантический анализ отдельных лексических единиц, а также  словосочетаний, предикатов, предложений и абзацев текста. Это обеспечивает смысловое сопровождение процесса распознавания речи и выделения ключевых слов в рамках определенной тематики описываемых событий или действий, выраженных в смысловом контексте формируемого текстового представления речи. Для этого требуется эффективная интеллектуальная обработка с использованием больших объемов знаний и реализации логического вывода в реальном масштабе времени при шумовом воздействии. Отметим, что современные интеллектуальные системы не обеспечивают решения указанных задач ввиду эффекта «комбинаторного взрыва». Как показано в работе [2], эта задача успешно решается на основе стохастической информационной технологии. Одновременно с этим обеспечивается возможность эффективного распознавания речи в шумах. Этому посвящен последующий раздел.
В данном разделе описан порядок построения и применения самообучающихся интеллектуальных аналитических систем с извлечением знаний из текстов для понимания смысла речи. Эти изделия  подробно описаны в [3, 4].
Как было отмечено выше, указанные системы создаются на основе стохастической информационной технологии, разработанной в России.  Цель - построение на базе современного компьютера (машины Тьюринга) нового виртуального компьютера для эффективной лингвистической, семантической и логической обработки текстов.
Выбор тематики аналитических систем определяется содержанием неструктурированной текстовой информации, полученной в ходе смыслового анализа распознаваемого речевого сигнала. При этом аналитические функции, реализуемые в системе, которые связаны с индуктивным и дедуктивным логическим выводом, аналогией, обобщением, сравнением и др., широко применяются в ходе семантического анализа распознаваемого текста. Отметим, что при самообучении системы происходит формирование «картины мира» и системы семантической классификации понятий, словосочетаний и предикатов, входящих в состав «картины мира», без которых не возможен полноценный семантический анализ текстов.
Отметим, что данная система обеспечивает возможность извлечения знаний из речевых образов, при этом описание  параметров и характеристик речевых сигналов, как было показано выше, автоматически переводится в текстовый вид и представляется в виде соответствующих предикатов и словосочетаний. Указанные предикаты и словосочетания содержат необходимые классификационные параметры различных звуков, а также описание дополнительных характеристик.
Первым уровнем обработки после выделения лексемы из слитной речи является его морфологический анализ. На втором уровне проводится синтаксический анализ, который реализуется с помощью специальной базы знаний, представленной в виде правил продукций, обеспечивающие синтаксический разбор простых и сложных предложений текста. При этом в лингвистический индекс каждого слова заносятся соответствующие синтаксические коды, определяющие данное слово как член предложения.
Семантический анализ текста начинается с автоматически выполняемой  классификации общего словаря и специальных толковых словарей терминов и определений по заданным предметным областям, которые связаны с тематикой данной аналитической системы.
При классификации активно используются аналитические функции индуктивного и дедуктивного анализа и синтеза связи слов, обрабатываемых в толковых словарях. В результате образуются семантические классификаторы, представленные в виде таблиц. Входом в таблицы являются стохастические индексы основ слов, строки таблицы содержат иерархию подклассов каждого слова и конечный класс, к которому данное слово принадлежит. Поскольку классификатор сделан для всех частей речи словарей, он позволяет определять типы, а также подклассы и классы объектов и связей между ними.
С помощью классификатора формируются правила продукций семантического анализа текста, которые записываются в специальную базу знаний. После проведения пословного семантического анализа лингвистический индекс каждого слова дополняется его семантическими характеристиками. В результате этого завершается процедура лингвистического анализа текста, после которого каждое слово каждого предложения будет представлено двумя стохастическими индексами: уникальным стохастическим индексом – идентификатором и лингвистическим индексом данного слова, содержащего все его морфологические, синтаксические и семантические характеристики, необходимые для дальнейшей индексации и разбора.
После этого переходят к построению таблицы индексов данного текста в составе локальных, корпоративных баз данных или сайтов Интернет. Левый столбец таблицы содержит индексы неповторяющихся основ слов, входящих в текстовые документы по данной тематике, а строки содержат лингвистический индекс и адресную часть  в виде совокупности индексов названия текстовых документов, индекса абзаца, предложения и предиката, в котором содержится данный индекс слова. Таблицы индексов текста используются при первичном поиске ответов или необходимых предложений текста с применением ключевых слов. Поиск по ключевым словам является основой для реализации второго уровня поиска с использованием семантики, извлечения знаний из текстов и аналитики.
Затем переходят к формированию концептуального описания предметной области текстов на основе выделенных в стохастической форме предикатов. Концептуальное описание представляется также в виде таблицы. Левый столбец содержит стохастические индексы всех неповторяющихся словосочетаний и предикатов индексируемого текста, строки включают индексы типов объектов и отношений между ними, а также (с использованием классификаторов) соответствующие им классы. Кроме этого, в состав таблицы также входит адресная часть, включающая индексы текста, абзаца и предложения, куда входят предикаты, которые содержат указанные классы объектов и отношений между ними. Это позволяет, используя классификатор и концептуальное описание предметной области, производить более точный повторный поиск необходимой информации после выполнения поиска по ключевым словам с тем, чтобы более полно и точно находить необходимые ответы или предложения, используя близкие по смыслу слова, словосочетания и предикаты, активно применяя семантический анализ текста.
На основе сформированного концептуального описания предметной области текста, а также используя формализованное описание функций определения, обобщения, сравнения, выбора, аналогии, дедукции и индукции, анализа и синтеза автоматически формируются правила продукций, содержащие необходимые типы и классы логически связанных предикатов предметной области текста. На основе этих функций могут формироваться деревья логического вывода, содержащие необходимые комбинации исходных логических функций, которые требуются пользователю системы для получения результата аналитического анализа с целью формирования обобщенных семантических характеристик словосочетаний, предикатов и сформированных из них предложений текста. Отметим, что текст, формируемый после распознавания вводимых речевых сигналов может также использоваться для эволюционного развития описания предметной области – «картины мира». При этом для повышения эффективности распознавания речи введение аналитического поиска существенно увеличивает полноту поиска и обработки информации исходных текстовых файлов или сайтов. Это обусловлено тем, что непосредственно к декларативной составляющей текстовых баз добавляются новые знания, извлекаемые из текста с помощью базовых аналитических функций и их заданных комбинаций. За счет комбинаций базовых функций исходная аналитическая система может автоматически настраиваться на заданную предметную область и эффективно использоваться в той области, к которой относится вводимая речевая информация: например, управление, социальное обеспечение, финансирование, образование, культура, спорт и другие.
Для извлечения знаний из больших объемов неструктурированных текстов  различных типов (диссертации, монографии, учебно-методическая, справочно-энциклопедическая литература и др.), которые связаны с проблемой распознавания речи с использованием описанного выше многоуровневого анализа речевых и текстовых сообщений аналитическая система может работать в автоматическом вопросно-ответном режиме. Здесь могут применяться разные варианты работы, например, осуществление точного семантического поиска, если информация непосредственно содержится в тексте и может быть выдана по запросу.
В более сложных случаях автоматически реализуются аналитические функции, которые после предварительной  обработки информации с использованием процедур логического вывода, эквивалентных преобразований дают ответы на поставленные вопросы. Доказано, что если в системе  может быть синтезирован алгоритм, который выдает ответ на поставленный вопрос с применением индексированной текстовой базы, то может быть создан аналитический алгоритм с использованием комбинаций разных функций, который обеспечит представление пользователю заданной информации.
В результате повышается эффективность формирования «картины мира» и обеспечивается полнота представленных понятий и связей между ними. На основе полученных предикатов, входящих в «картину мира», автоматически формируются правила продукций  по различным проблемным областям, в том числе и по проблеме распознавания речи. В этом случае между предикатами семантической сети, которые отображают «картину мира», выделяются семантические связи типа «условие-заключение», «причины-следствия», цели, определения и другие.
Как известно, правила продукций представляют собой символьную конструкцию вида «если (условие), то (заключение)». При этом условия содержат совокупность предикатов, объединенных логическими связками «и», а заключение содержит предикат, который выполняется, если все предикаты, входящие в условие, являются истинными для какой-то конкретной ситуации, соответствующей исследуемым объектам или процессам в определенной области знаний, например, при распознавании речи. Все полученные правила автоматически проверяются на их смысловую корректность. После стохастической индексации записываются в базы знаний. Таким образом, производится наполнение всех отмеченных баз знаний, используемых в комплексном процессе понимания текста.
Представление словосочетаний, предикатов «картины мира» и правил продукций в стохастически индексированном виде дает возможность использовать эффективные алгоритмы логического вывода, а также  (с помощью стохастической информационной технологии) исключить проблему «комбинаторного взрыва». Без решения этой проблемы построение описанной выше системы распознавания с использованием многоуровневого анализа, понимания смысла и синтеза речи в принципе невозможно. Кроме этого стохастическая информационная технология, позволяет эффективно реализовывать функции помехозащищенности и нормализации речи. Ответ на вопрос, что позволяет стохастической информационной технологии решать эту сложную проблему, дан в следующем разделе.



Литература



1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.
2. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.
3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент  РФ №2273879,  номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.
4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.
5. Современный русский язык: Учеб. для филол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. – 928с.
6. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. – 76 с.
7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.
8. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.
9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент  РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.
10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. – М.: Прометей, 2007. – 27с.
11. Галунов В.И., Чистович Л.А. О связи моторной теории с общей проблемой распознавания речи. Акустический ж., т. 11, с.417-426.
12. Сорокин В.И. Моторная теория восприятия речи и теория внутренней модели // В сб.: Информационные процессы, ИПИ РАН. Том 7. 2007, №1, с.1-12
13.Марков А.А. Об одном применении статистического метода // Известия АН, 1916, сер.6, X, №4, с.239-
14. Elinek F. Распознавание непрерывной речи статистическими методами // ТИИЭР 64, 1976, №4, с.131-160.
15. Elinek F. Разработка экспериментального устройства, распознающего раздельно произнесенные слова // ТИИЭР 73, 1985, №11, с.91-99.
16. Галунов В.И. Помехоустойчивость как системообразующий фактор речи // Проблемы и методы экспериментально-фонетических исследований, 2002, с.205-300.
17. Галунов В.И. Речь как система //  Труды XIII сессии РАО, 2003, т.3, с.19-21.
18. Kraft D. Speech perception // J. Phonetics, 1979, 7, p.279-312.
19. Галунов В.И., Соловьев А.Н. Современные проблемы в области распознавания речи
20. Liedtke C.-E., Buckner J., Grau O. et al. AIDA: A system for the knowledge based interpretation of remote sensing data // 3d Airborne Remote Sensing Conference and Exhibition. – 1997. – Vol.2. – P. 313-320.
21. Бабин Д.Н., Холоденко А.Б. Использование лексических анализаторолв в распозновании образов // Труды международного семинара диалог – 99, Таруса, 1999.

   
stochastica-intell.ru Адрес: Москва
Тел.: +7 (985) 905 09 22
E-mail:
создание сайтов
IT-ГРУППА “Цитрон”