+7 (985) 905 09 22
veselovskiy1@gmail.com

Интеллект
 
От больших данных к индустрии знаний


     В настоящее время происходит переход от широко распространенных информационных систем, включая Интернет, к интеллектуальным системам, основанным на знаниях. Как известно, в отличие от данных знания характеризуются определенным комплексом свойств и прежде всего активностью, новизной, эффективностью. Активность связана с возможностью автоматической генерации при актуализации знаний определенных информационных и аналитических процессов, направленных на обработку данных. Новизна характеризует содержание в знаниях новых сведений, не известных ранее конкретным пользователям системы в некоторой проблемной области. Эффективность знаний определяется возможностью реализации интеллектуальных процессов, позволяющих достичь конкретной цели или связанных с порождением новых знаний.
     Основу интеллектуальных систем составляют базы знаний, в которых используется аппарат искусственного интеллекта, включающий семантические сети, фреймы, правила продукций, предикаты первого порядка и другие формализмы. Важнейшими элементами указанных систем являются также подсистемы логического вывода, интерпретации знаний, ввода-вывода полученных результатов. Системы, основанные на знаниях, широко используются для аналитической обработки информации, в интеллектуальных поисковых системах, для распознавания и понимания смысла сенсорной информации.
     На основе указанных систем строятся интеллектуальные сети, обеспечивающие эффективную обработку данных и знаний в интересах решения конкретных, достаточно сложных научно-технических и других задач, которые невозможно решить в рамках чисто информационных технологий.
     В работах [4-6] предложены способы извлечения знаний из произвольной текстовой информации для реализации аналитических функций индукции, дедукции, сравнения, обобщения, аналогии, определения и других.
     На основе указанных систем строятся базовые элементы интеллектуальной сети. Эта сеть составляет основу индустрии знаний, которая позволяет поднять на качественно новый уровень процессы управления обществом и производственной сферой, а также внести существенный вклад в ускоренное развитие науки и новых технологий.
     Важнейшей проблемой развития индустрии знаний является их автоматическое приобретение путем обработки текстовой и сенсорной информации, в которой прежде всего выделяют естественную речь и видеоинформацию. Основой для решения этих задач является создание самообучающихся систем извлечения знаний из текстов, а также систем распознавания и понимания смысла речи и видеоинформации [3 - 6].
     Решение отмеченных задач особенно актуально на современном этапе создания индустрии знаний, поскольку эти задачи напрямую связаны с реализацией в компьютерах функции понимания смысла.



Проблема понимания смысла при создании индустрии знаний


     Важнейшей нерешенной проблемой Big Data при создании автоматических (способных функционировать без участия человека) систем ввода и обработки текстовой и сенсорной информации  является понимание смысла.
     В современных системах обработки изображений создатели ограничиваются символьным представлением (описанием) отдельных элементов изображения, не затрагивая семантический (смысловой) уровень. При этом в создаваемых речевых технологиях проблема понимания смысла рассматривается как далекая перспектива, а вопрос о понимании смысла другой сенсорной информации (тактильной, связанной с обонянием, осязанием и др.) в настоящее время вообще не ставится разработчиками автоматизированных систем.
     Вместе с тем, совершенно очевидно, что без решения проблемы понимания смысла дальнейшее развитие систем обработки текстовой и сенсорной информации не имеет прикладной перспективы.
     Таким образом, для перехода от Big Data к индустрии знаний необходимо решение проблемы понимания смысла текстовой и сенсорной информации.
     Отметим, что под пониманием смысла поступающих знаний и сенсорной информации подразумевается способность их интерпретации (представления) с использованием  иных терминов той же самой знаковой системы или какой-либо  другой (прежде всего языковой).
     Так, например, понимание смысла некоторого высказывания эквивалентно его переформулировке с использованием других терминов (иных слов) с полным сохранением смысла.
     Создание полноценных систем понимания смысла текстов,  речи и изображений невозможно без реализации функции автоматического самообучения при извлечении знаний из информационных сообщений и требует обеспечения возможности формирования нового знания и органичного (автоматического) дополнения этим знанием соответствующей опорной базы [2 - 6].
     Результатом пополнения базы знаний системы является формирование концептуального описания проблемной среды («картины мира»), включающей объекты, субъекты, их классификацию, свойства, связи, соотношения,  взаимодействия и др. На основе этой информации в интеллектуальной поисковой системе [5] обеспечивается автоматическое формирование смысла поступающих текстовых сообщений. Например, сообщение «футболист бежит по полю» автоматически переводится в сообщение «человек перемещается на местности». Для этого используется система классификации и «картина мира». На языке полученных классов объектов и отношений между ними система понимает смысл действий футболиста из первого сообщения и может его представить в виде второго сообщения на языке классов объектов и отношений между ними.
     При этом реализация функции автоматического непрерывного формирования «картины мира» сопряжена с обязательным выполнением индуктивного логического вывода на больших пространствах знаний и данных. Именно логический вывод позволяет реализовать функции интеллектуальных систем, связанные с их самообучением путем формирования новых знаний на основе смыслового содержания поступающей информации.
     Отметим, что существующие информационные технологии не позволяют реализовать смысловую обработку ни текстов, ни изображений, ни речевых сообщений в силу не способности решить задачу индуктивного логического вывода на больших пространствах знаний и данных.
     Однако до настоящего времени все попытки разработчиков интеллектуальных систем добиться осуществления индуктивной обработки информации наталкивались на проблему «комбинаторного взрыва», автоматически возникающую при попытках обработать в реальном времени соответствующие объемы информации методами перебора.  Это не позволяет создать аппарат смысловой обработки текстовой, аудио- и видеоинформации.



Литература


1.Черняк Л. Большие Данные — новая теория и практика // Открытые системы №10, 2011.
2. Насыпный В.В. Защищенные стохастические системы // Открытые системы №3, 2004.
3. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. – 139 с.
4. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.
5. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент  РФ №2273879,  номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.
6. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.
7. Насыпный В.В. Система с абсолютной стойкостью // Открытые системы №9, 2005.
8. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. – 76 с.
9. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.
10. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.
11. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент  РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.
12. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. – М.: Прометей, 2007. – 27с.

   
stochastica-intell.ru Адрес: Москва
Тел.: +7 (985) 905 09 22
E-mail:
создание сайтов
IT-ГРУППА “Цитрон”