+7 (985) 905 09 22
veselovskiy1@gmail.com

ЛИНГВИСТИКА

СОЗДАНИЕ ЭВРИСТИЧЕСКИХ МЕТОДОВ ОБРАБОТКИ ТЕКСТОВ НА РУССКОМ И АНГЛИЙСКОМ ЯЗЫКАХ

 

 

 Обоснование выбора направления методики исследований

 Стохастика как основа для выбора направления и методики исследования

 

     Основным при разработке программного обеспечения понимания неструктурированной текстовой информации на основе создания эвристических методов обработки текстов на русском и английском языках  является использование лингвистического и семантического анализа. Эти виды анализа требуют доступа и обработки к большим объемам знаний (например, к «картине мира») и решения проблемы BigData. Применение стохастической технологии в отличие от существующих систем позволяет решить эту проблему без возникновения эффекта комбинаторного взрыва [1].

Это обусловлено тем, что современные методы обработки символьной информации, представляющей знания, используют вычислительные алгоритмы над строками символов, которые реализуются по известным алгоритмам машины Тьюринга. Указанные алгоритмы, предназначенные для реализации вычислительных функций, не ориентированы на эффективное выполнение операций логического вывода в пространстве семантической сети и при использовании правил продукций [2].

Данное положение объясняется прежде всего тем, что в существующих алгоритмах поиска имя (наименование) символьной конструкции и ее физический адрес в памяти компьютера суть два различных элемента. Поэтому на каждом шаге логического вывода сначала производится поиск нужной символьной конструкции путем перебора на множестве всех возможных ее значений, а затем определяется адрес с целью  дальнейшей обработки. По данному адресу выбирается необходимая символьная информация для реализации следующего шага логического вывода. При этом поиск очередной логически связанной символьной конструкции также производится путем перебора.

Известно [2], что для поиска одной произвольной записи среди неупорядоченного множества элементов теоретический предел объема вычислений составляет  Nlog2N, где N – число записей в массиве, по которому выполняется поиск.  Поэтому при выполнении поисковых операций для каждого элемента поискового запроса (например, каждого слова поискового запроса) на большом массиве записей получается огромный объем вычислений. Это не позволяет в реальном масштабе времени проводить поиск на больших объемах информации (проблема BigData).

В результате время логического вывода увеличивается по экспоненциальному закону в зависимости от N, где N – число возможных символьных конструкций знаний [2].

Покажем важность решения проблемы комбинаторного взрыва на примере попыток создания ведущими корпорациями мира (Microsoft, Google и др.) интеллектуальных поисковых систем с семантическим анализом текста. Отметим, что данные корпорации в настоящее время разработали эффективные системы поиска по ключевым словам.

Для сокращения количества вычислений на этапе поиска во всех поисковых системах используется предварительная обработка текстовой информации – так называемая индексация. В процессе такой обработки для каждого слова индексируемых текстов указывается его уникальное значение (индекс), а также наборы указателей на тексты и позиции в текстах, в которых это слово встречалось. Такой формат представления информации называется «обратный индекс». Это обуславливает необходимость поиска каждого слова во множестве N = 105 символьных конструкций, что определяется средним объемом словаря, в котором производится поиск ключевых слов. При этом высокая производительность современных компьютеров и методов распараллеливания поисковых операций позволяет избежать существенного замедления процесса поиска и реализует его в масштабе реального времени.

За счет использования обратного индекса возможно быстро находить тексты, в которых имеется группировка слов поискового запроса. Поэтому при реализации традиционного поиска по ключевым словам эффекта «комбинаторного взрыва» не возникает по причине использования обратного индекса и предварительной индексации текстов.

Для перехода к процедуре семантического анализа текстов с целью понимания смысла возникает необходимость логического вывода на множестве всех возможных  понятий словаря (N = 105), словосочетаний, максимальное число которых N = 1010, а также предикатов, описывающих «картину мира» (эволюционную предметную область)  проиндексированных текстов. При этом в процессе построения траектории логического вывода на множестве указанных символьных конструкций, как правило, требуется выполнить несколько шагов логического вывода.

Это связано с необходимостью неоднократного перебора на множестве N символьных элементов, который неминуемо приводит к эффекту комбинаторного взрыва.

Например, при классификации понятий, словосочетаний и предикатов «картины мира» для их семантического анализа требуется произвести логический вывод на множестве 105 понятий и дефиниций толкового словаря. При этом необходимо  выполнить два этапа логического вывода.

На первом этапе для классификации понятий необходимо осуществить не менее N(1) = 105.105 =1010 обращений к понятиям и дефинициям толкового словаря. На втором этапе при классификации словосочетаний и предикатов требуется не менее N(2) = 1010.105 = 1015 обращений к толковому словарю. Общее число обращений к словарю для классификации понятий и словосочетаний будет равно N = N(1) + N(2)> 1015.

Отметим, что минимально возможное время логической обработки такого количества  N = 1015 понятий и их дефиниций для современных компьютеров с быстродействием V = 109 (оп/c) примерно равно T = 106 (с). Это соответствует приблизительно 12 суткам. При построении интеллектуальных систем распознавания речи на базе Интернет классификация словосочетаний и предикатов предметной области должна осуществляться регулярно в реальном времени, соответствующем частоте обновления информации в проиндексированных текстах на сайтах системы. Поэтому для традиционных технологий обработки символьной информации указанная классификация, не реализуемая в реальном масштабе времени, не обеспечивает корректность семантического анализа.

Даже однократный перебор на множестве всех возможных словосочетаний, максимальное число которых N = 1010, требует не менее T = 10(с) времени, что также не соответствует требованиям к быстродействию интеллектуальной поисковой системы.

Таким образом, при логическом выводе на реальных множествах символьных конструкций неструктурированной текстовой информации число переборов увеличивается по экспоненциальному закону. В этом случае возникающий комбинаторный взрыв делает невозможным создание интеллектуальных систем распознавания речи с семантическим анализом текста и понимания смысла в реальном масштабе времени на основе использования традиционной технологии поиска [2].

При реализации лингвистического анализа текстов, на основе которого реализуется понимание смысла, актуальность задачи «комбинаторного взрыва» также существенно возрастает. Это обусловлено комплексом причин.

  1. Многозначные слова имеют различные морфологические индексы. Это обусловлено тем, что разные части речи имеют различные правила словообразования, которые должны учитываться при поиске. Особенно это актуально для агглютинативных языков (английский и др.).
  2. Синтаксический анализ предложения базируется на построении и проверки гипотез синтаксического разбора слов в предложении анализируемого текста. Для синтаксического анализа предложений используются множества правил лингвистического анализа. Данные правила объединяются в сложную иерархическую систему групп знаний и логического вывода. Смысловая неоднозначность омонимов приводит к возможности появления нескольких корректных вариантов синтаксического разбора одного и того же предложения. Синтаксический анализ приводит, как правило, к нескольким гипотезам разбора предложения. Для устранения комбинаторного взрыва при использовании традиционных технологий используются вручную формируемые правила группировки лингвистических конструкций и правил лингвистического анализа. Это обеспечивает возможность создания предметно-ориентированных семантических систем, но он не способствует созданию универсальных систем логического вывода, которые обеспечивают необходимую полноту и корректность поиска в любой проблемной области. Реализация корректного синтаксического анализа невозможна без одновременного применения методов семантического анализа, связанного с использованием картины мира, что требует решения проблемы BigData [2, 12].

Указанная проблема решается с помощью стохастической информационной технологии. Сущность новой технологии заключается в стохастическом (случайном) преобразовании символьных конструкций (формульных выражений), правил продукций, элементов семантической сети, слов, словосочетаний, предикатов, названий, предложений, абзацев и других текстовых конструкций в уникальные стохастические индексы (коды заданной длины) [2].

Это обеспечивает взаимооднозначное соответствие между произвольной символьной конструкцией и ее стохастическим индексом. При этом  полученные уникальные индексы имеют двойственный характер: с одной стороны, они являются именем указанных символьных конструкций, с другой, - они определяют адрес, по которому   необходимо произвести обращение к другим элементам знаний, которые непосредственно логически (семантически) связаны  с исходной символьной конструкцией [2].

При этом в процессе формирования индекса с помощью стохастической хэш-функции отображаются имеющиеся между символьными элементами связи типа «часть-целое» или «род-вид». Так, например, при создании индекса словосочетаний используется индекс отдельных слов. Формирование стохастического индекса предиката производится на основе входящих в него индексов словосочетаний и отдельных слов.

Индекс предложения реализуется с использованием стохастических индексов словосочетаний, предикатов, входящих в данное предложение и т.д. При этом за счет свойств стохастического преобразования обеспечивается уникальность каждого полученного индекса со сколь угодно малой, заданной вероятностью коллизий [2].

На основе информации о составе каждого индекса (из каких индексов он образован) автоматически формируются новые знания о том, в какие индексы по критерию «часть-целое» и «род-вид» входит каждый элемент. Это позволяет в режиме активизации индексной информации путем реализации функций самообучения и автоматического формирования новых знаний описывать в индексной форме все возможные прямые логические связи исходного элемента с другими элементами на множестве пространства поиска.

В качестве этих элементов могут быть слова, словосочетания, предикаты, предложения, правила продукций и другие формы представления знаний.

Таким образом, после реализации описанного режима самообучения и автоматического получения индексных форм и логических связей над множеством элементов семантической сети или правил продукций формируется уровень метазнаний.

Указанный уровень метазнаний в виде некоего виртуального информационного поля определяет все возможные траектории логического вывода на каждом его шаге, отбирая только семантически связанные символьные конструкции (слова, словосочетания, предикаты, правила продукций и др.) и элементы знаний.

За счет этого устраняется  необходимость полного перебора на каждом шаге логического вывода и снимается проблема комбинаторного взрыва. При этом каждая траектория логического вывода содержит в качестве своих элементов только неповторяющиеся символьные конструкции знаний. Повторение символьных конструкций приводит к образованию циклов, что свидетельствует о необходимости корректировки баз знаний с целью  устранения указанных повторов [2].

Поэтому при реализации любой траектории логического вывода требуется обработать не более M<<N символьных элементов знаний, представленных уникальными стохастическими индексами. Следовательно, время логического вывода при использовании описанного метода, основанного на стохастической информационной технологии, будет линейно зависеть от числа M логически или семантически связанных символьных конструкций (слов, словосочетаний, предикатов, элементов семантической сети или правил продукций) [2].

Количество Mэлементов, применяемых в процессе построения любой траектории логического вывода будет значительно ниже, чем максимальное число N этих элементов в пространстве поиска требуемых символьных конструкций. Например, при описанной выше процедуре классификации понятий и словосочетаний предметной области с использованием толкового словаря, максимальная  траектория  логического  вывода  содержит  не  более M = 103 семантически связанных по критерию «род-вид»  символьных элементов словаря. Логический вывод производится в текстовых структурах словаря Ожегова при определении множества всех понятий, относящихся к классу «место».  Поэтому при классификации понятий и словосочетаний предметной области текста с использованием стохастической информационной технологии требуется не более N = 105 . 103 = 108  обращений  к толковому словарю. При этом минимально возможное время логического вывода T = 10-1 (с).

Отметим, что предложенный метод логического вывода на основе стохастической информационной технологии позволяет выбрать минимально допустимую и наиболее вероятную траекторию логического вывода на любом множестве семантически связанных символьных конструкций и построить метаправила для обеспечения обработки знаний в заданное время. Это дает возможность создать на базе существующих компьютеров эффективные  интеллектуальные системы, работающие в любом поисковом пространстве без сужения множества возможных гипотез лингвистического анализа и смыслового поиска в реальном масштабе времени. Указанные системы описаны в патентах [3, 4]. Учитывая важность обеспечения эффективного логического вывода на множестве правил продукций при выполнении комплексной обработки текстовой информации (на русском и английском языках) с использованием баз знаний рассмотрим более подробно метод логического вывода на основе стохастической информационной технологии.

 

 

 Эвристические методы обработки текстов на русском и английском языках

       Основой для изучения различных языков и, в частности, русского и английского, является их типологическая классификация. Данная классификация устанавливает сходство и различие языков в их наиболее важных свойствах грамматического строя. В типологической классификации языки объединяются на основе общих признаков, отражающих наиболее существенные черты языковой системы. Самой известной из типологических классификаций является морфологическая классификация языков, характеризующаяся таким понятием как способ соединения морфем, выражающих то или иное грамматическое значение. Согласно этой классификации русский язык относится к флективным языкам, то есть языкам гибкого типа, для которых характерна полифункциональность аффиксальных морфем. Английский язык относится к агглютинативным языкам, то есть к языкам, являющимся своеобразным антиподам флективного языка, так как в них нет внутренней флексии. Поэтому в составе слов легко выделяются морфемы и в каждой части речи представлен лишь один тип словоизменения. Для агглютинативных языков характерна развитая система словоизменительной и словообразующей аффиксации, при которой аффиксы характеризуются грамматической однозначностью, последовательно присоединяясь к корню. Они выражают одно грамматическое значение [6].

       Указанные свойства русского и английского языков должны найти свое отражение при проведении лингвистического анализа текстов. Прежде всего это связано с формированием словарей морфоформ для всех слов русского и английского языков, а также при заполнении базы знаний правилами морфологического и синтаксического анализа. Указанные правила являются основой эвристического, основанного на знаниях процесса анализа неструктурированного текста.

       Таким образом, эвристический анализ – это анализ текстов, основанных на знаниях, которые вводятся в базу знаний экспертами и инженерами по знаниям данной проблемной области (в рассматриваемом случае для проведения полного лингвистического анализа текста). При этом система должна самостоятельно формировать алгоритмы выполнения заданных функций анализа на основе логического вывода. Для эффективного проведения логического вывода на множестве знаний в предыдущем разделе была обоснованно выбрана стохастическая информационная технология. Данная технология является основой создания эффективных интеллектуальных систем нового поколения, предложенных для обработки знаний, полученных эвристическим путем.

       Известно, что одной из  основных  проблем,   возникающих   при   разработке интеллектуальных систем для полного лингвистического анализа и понимания смысла текста является определение возможных траекторий логического вывода на множестве правил продукций [2]. Это обеспечит отход от переборного метода логического вывода, который в больших базах знаний приводит к комбинаторному взрыву.

       Для решения этой проблемы в [2] предложен метод определения возможных траекторий, поиска целей и предварительного выбора кратчайшего пути логического вывода, основанный на построении сети правил продукций и оперативного режима их обработки  с  использованием  стохастических индексов и кодов. За счет применения стохастической информационной технологии, как будет показано ниже, проблема комбинаторного взрыва полностью снимается, поскольку время логического вывода будет линейно зависеть от числа правил продукций, непосредственно задействованных в обработке. Отметим, что наполнения базы знаний правилами продукций может производиться не только экспертами, но и в автоматическом режиме с использованием самообучающихся интеллектуальных систем извлечения знаний из текста, написанных в работах [3, 4]. При этом обеспечивается возможность введения избыточности в процедуры логического вывода, связанные с проведением лингвистического анализа. Этот метод был частично опробован в описанном выше автоматическом макете распознавания речи на базе семантико-параметрического метода [21].

       В соответствии с этим методом аналитические функции  реализовывались с использованием нескольких независимых траекторий логического вывода.

       Для реализации указанной возможности эффективного выполнения функций анализа текстов каждое правило продукций подвергается 

 

 

 

 

 

 

 

 

 

 

ЛИТЕРАТУРА

1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.

2. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.             

3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент  РФ №2273879,  номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.

4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.

5. Современный русский язык: Учеб.дляфилол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. – 928с.

6. Вендина Т.И. Введение в языкознание: Учеб.пособие для педагогических вузов. – М., Высш.шк., 2001. – 2008 с.

7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.

8. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.

9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент  РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.

10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. – М.: Прометей, 2007. – 27с.

11. Насыпный В.В. Распознавание и понимание смысла речи в шумах на основе стохастики. -  М.: МПГУ, Прометей, 2012. – 129 с.

12. Насыпный В.В. Стохастика как основа для перехода к большим данным, индустрии знаний и нанотехнологии. – М.: МПГУ, 2011. – 24 с.

 

 

 

 

   
stochastica-intell.ru Адрес: Москва
Тел.: +7 (985) 905 09 22
E-mail:
создание сайтов
IT-ГРУППА “Цитрон”