8 (495) 231 65 24
vnasypnyj@yandex.ru


Распознавание речи



В настоящее время активно проводятся исследования по созданию системы и технологий распознавания речи, которые могли бы эффективно преобразовывать вводимую в компьютер  слитную речь от неизвестного диктора в корректное текстовое сообщение с гарантированным уровнем достоверности в реальном масштабе времени. При этом важнейшим требованием является реализация этих процессов в условиях шумового воздействия на канал связи, естественной вариативности темпа и громкости речи, а также амплитудно-частотных искажений в канале ее приема-передачи и т.п. Необходимо также обеспечить достоверность распознавания речи при наличии у неизвестного диктора иностранного акцента, местного диалекта, индивидуальных особенностей речеобразования.
Выполненный анализ существующих систем и технологий обоснованно показывает невозможность использования для достоверного распознавания речи современных статистических методов и прежде всего скрытых марковских моделей в условиях нормализации сигнала и реализации функций помехозащищенности.
Особенно важной является разработка систем, предназначенных для выделения в потоке слитной речи определенного состава слов и словосочетаний по заданной тематике в условиях шума. Этот состав ключевых слов может являться перечнем команд административного или производственного управления. После перевода в текстовое сообщение ключевые элементы обрабатываются в компьютерах в автоматическом или автоматизированном режиме. Очевидно, что к таким системам предъявляются высокие требования по достоверности распознавания речи в шумах.
Однако применяемые в существующих системах методологии и технологии  распознавания речи не дают ощутимых результатов, достаточных для создания систем государственного назначения или коммерческого применения.
Поэтому, на наш взгляд, для решения этой сложнейшей научно-технической проблемы нужны принципиально новые подходы и технологии. Они должны быть направлены прежде всего на моделирование тех процессов, которые осуществляет человек при речевом общении в условиях шумовых воздействий.
Основным выводом из анализа современного состояния рассматриваемой проблемы, на наш взгляд, является то, что ее невозможно решить автономно и без выполнения функций нормализации сигнала. Эта проблема может быть успешно решена только в едином комплексе распознавания, нормализации, понимания смысла и синтеза речи с использованием нового поколения самообучающихся интеллектуальных систем извлечения знаний из текстовой информации и речевых образов. Отметим, что создание эффективных интеллектуальных систем с применением традиционной информационной технологии является в настоящее время практически неразрешимой задачей из-за «комбинаторного взрыва», который возникает вследствие переборного механизма логического вывода [1].
В основу эффективных интеллектуальных систем, отвечающих необходимым требованиям, могут быть положены способы и технологии, описанные в работах [2, 3, 4, 6, 9]. В этих работах показано, что создание отмеченных интеллектуальных систем, обеспечивающих возможность логической обработки больших объемов знаний текста и речевых образов в реальном времени и их нормализация, возможны на базе применения отечественной стохастической информационной технологии. Использование [2] данной технологии позволяет исключить «комбинаторный взрыв» при реализации индуктивного логического вывода на значительных пространствах символьной информации и обеспечить линейную зависимость времени логической обработки от числа элементов знаний, задействованных в логическом выводе. Это свойство в сочетании с механизмами самообучения позволяет автоматически создавать и эффективно использовать в процессе распознавания речи, понимания ее смысла и синтеза речевых сообщений большие базы знаний, которые на новом качественном уровне решают указанные сложнейшие проблемы.
Кроме этого, как показано в работах [2, 9], стохастическая информационная технология в силу своих свойств обеспечивает высокую эффективность распознавания речи в шумах и при вредоносном информационном воздействии на систему (атаки хакеров, компьютерные вирусы и закладки). Это позволяет создавать принципиально новые помехоустойчивые интеллектуальные системы распознавания речи.
Во главу угла при создании методов распознавания речи положено использование многоуровневых интеллектуальных систем. Они обеспечивают эффективную акустическую и артикуляционную классификацию вводимой речевой информации, выделение в ней различных типов звуков и слогов, определение границ слов, а также вычленение предложений из непрерывной речевой информации при шумовом воздействии.

Отметим, что в процессе распознавания речи создается система опорных и классификационных семантических кодов, которые взаимооднозначно определяют звуковые образы независимо от диктора. Эти коды синтезируются также и для ключевых слов, что позволяет выделять их в потоке слитной речи с заданной достоверностью.
Многоуровневые интеллектуальные системы обработки информации (снизу вверх) с аппаратом логического вывода на основе баз знаний позволяют описывать и извлекать соответствующие фонетические и текстовые структуры из речевых сигналов, используя при этом фонетический, лексический, морфологический, синтаксический, семантический и прагматический виды анализа.
Одновременно с этим (сверху вниз) проводится синтез звуковых сигналов и речевых сообщений, которые непосредственно связаны с текстовыми вариантами распознавания акустического сигнала. Для этого производится генерация речевых образов, базирующихся на текстовых сообщениях, которые близки по смыслу полученным вариантам текстовых структур при анализе речи снизу вверх.
Далее осуществляется коррекция синтезированных речевых сигналов для их максимального совпадения с полученным входным речевым сообщением. Здесь применяется программно-визуальная анимационная модель речевого тракта, которая обладает способностью адаптироваться к анатомическим особенностям органов речеобразования любого из дикторов.
Данная модель является одним из основных элементов системы синтеза речи.  Она базируется на разработанном в [10] методе семантической связи текста с трехмерной графикой. Указанная модель, также используя соответствующие базы знаний и логический вывод, визуализирует артикуляционный процесс в тракте речеобразования с синхронной генерацией необходимого звукового образа. При этом реализуется основная функция коррекции трехмерного изображения типового речевого тракта с целью его адаптации под особенности речевых органов и артикуляционных параметров каждого конкретного диктора.
Здесь получило воплощение одно из важных положений науки о распознавании речи – теория внутренней модели, которая объединяет процессы речеобразования и восприятия речи. Внутренняя модель, формируемая в сознании человека, может использоваться при распознавании речи других людей, дополняя пространство акустических признаков пространством артикуляторных параметров [11, 12].
Для выполнения встречного процесса анализа с использованием сближающихся по смыслу текстов и выделенных параметров речевых сигналов,  которые получены при анализе и синтезе речи, самообучающаяся интеллектуальная система осуществляет глубокий семантический анализ результата обработки и синтеза речевых сообщений. С этой целью автоматически формируется и применяется  «картина мира», содержащая словосочетания и предикаты по различным предметным областям с указанием их семантических классов. В результате удается резко повысить эффективность встречного, основанного на анализе и синтезе, процесса распознавания и понимания речи и обеспечить высокую достоверность распознавания текстов, соответствующих непрерывному речевому сигналу [14].
Подчеркнем, что при этом существенную роль играют стохастические коды, корректирующие ошибки [2], которые используются также для обработки речевых сигналов путем дополнительной адаптации синтезируемого сигнала под звуковые образы речевой информации, поступающей от данного диктора.
Таким образом, основой указанной концепции создания единого контура распознавания, нормализации, понимания смысла и синтеза речевых сообщений является стохастическая информационная технология. Именно за счет этой новой отечественной технологии достигается принципиально новая возможность интеллектуальной обработки речевых образов, их эффективное распознавание и коррекция с использованием встречного процесса акустического анализа и синтеза речи на основе непрерывно формируемого и уточняемого смыслового содержания поступающих в систему речевых сообщений и выделения ключевых элементов по заданной тематике.


 

 

 

КОМПЛЕКСНОЕ РАСПОЗНАВАНИЕ РЕЧИ И ВИДЕОИНФОРМАЦИИ

 

  

 

     Как показано в работе [14], применение разработанных методов и технологий образно-семантической и семантико-параметрической обработки информации позволяет комплексно решать проблему распознавания речи и видеоинформации. При этом, как будет показано ниже, на уровне фонетического анализа речи возможно применение уже существующих систем распознавания образов для реализации некоторых функций распознавания речи. В данном разделе рассмотрена возможность использования нейросети Numenta не только для распознавания образов в соответствии с ее предназначением, но и для реализации некоторых функций распознавания звуковых образов в слитной речи. Для этого была использована схема построения комплекса распознавания речи, представленная на Рис.1. Эта схема позволяет реализовывать два контура распознавания речи на уровне ее фонетического анализа.  Первый контур предназначен для интеллектуального сканирования звуковых образов слитной речи от неизвестного диктора, представленного в виде осциллограммы и спектрограммы сигнала. Интеллектуальное сканирование основано на использовании семантико-параметрического метода распознавания речи и позволяет с помощью баз знаний, содержащих артикуляционное и акустическое описание звуковых образов, а также, используя логический вывод, проводить многоуровневую классификацию звуков, от семантики опорных кодов до распознавания фонем и собственно наименований звуков. С этой целью, как было отмечено в предыдущем разделе сайта, создан специальный классификационный словарь русского языка объемом около миллиона слов.

 

     В результате работы этого контура распознавания речи обеспечивается заданная достоверность выделения наименований звуков, слогов и отдельных слов в потоке слитной речи. С целью повышения достоверности распознавания речи до уровня практически 100% для любого произвольного диктора вводится второй контур, основанный на реализации образно-семантического распознавания речи с использованием системы распознавания образов, в данном случае нейросети Numenta.

 

     На Рис.1 представлена структурная схема, позволяющая реализовать на фонетическом уровне два описанных контура анализа. Она включает несколько систем.

 

     Первая из этих систем, подобная существующей Adobe Audition, предназначена для начальной обработки речевого сигнала в спектральной форме или в виде осциллограммы, в частности, для измерения различных параметров звуковых образов. К ним относятся прежде всего линейные размеры абрисов звуковых сигналов и их последовательностей, частотные и временные характеристики формант звуков, артикуляционных расстояний между звуками, форма огибающей осциллограмм и спектральной составляющей сигнала, взаимное расположение формант (компактное и диффузное) и другие параметры, которые необходимы для логической обработки речевых сигналов. Отметим, что именно в ходе логической обработки формируются первичные семантические образы звуковых сигналов, которые предварительно позволяют определить значение звуков и слов, входящих в слитную речь.



 

Рис. 1. Структура автоматического программного

макета распознавания речи

 

     Вторая система, подобная существующей Paint, предназначена для формирования и обработки рисунков, содержащих абрисы звуковых образов в спектрограмме или осциллограмме, а также их семантически важных фрагментов.

 

     Третья система, используемая в макете, – это система, подобная нейросети Numenta. В данном макете ее механизмы распознавания образов используются для получения семантических кодов звуков при их артикуляционном или акустическом анализе, а также при распознавании отдельных элементов звуков и их классов. Отметим, что нейросеть Numenta построена на основе наиболее перспективной технологии распознавания образов, использующей иерархическую темпоральную память (HTM).

 

     Результаты обработки речевой информации поступают в систему логического вывода. Здесь в автоматическом режиме полученная информация применяется для реализации двух описанных контуров распознавания речи от неизвестного диктора.

 

      Отметим, что лингвистическая и семантическая обработка полученной на данном этапе текстовой информации в ходе распознавания речи будет реализована на втором этапе создания опытного образца распознавания слитной речи от неизвестного диктора [14]. В результате описанного алгоритма обработки на фонетическом уровне, как было указано выше, достигается высокая (около 100%) достоверность распознавания речи. Совместно с этим могут быть эффективно использованы возможности системы Numenta для комплексного распознавания слитной речи от неизвестного диктора одновременно с распознаванием образа говорящего человека. Это продемонстрировано на Рис.2.

 

 

 

 

 

 

 

 

 

 

 

Рис. 2. Распознавание изображений лиц с помощью системы Numenta

 

     

 

     Введенное изображение лица контролируемого пользователя уверенно распознается системой Numenta, о чем свидетельствует присвоение его распознанному образу Category 1 с наивысшим уровнем достоверности.

 

     Далее показано использование системы Numenta для моделирования контроля произносимой речи данным диктором на основе образно-семантического метода. В ходе данного моделирования была подтверждена возможность применения системы Numenta для распознавания речи, включающей всю шкалы семантических кодов. Эти коды представлены в классификационном словаре, который подробно описан в работе [14]. В результате было показано, что система Numenta позволяет уверенно распознавать все восемь уровней кодирования звуков слитной речи, реализуя при этом предложенный в работе [14]  образно-семантический метод. Отметим, что до этого функционировал первый контур распознавания речи, который осуществлял процесс семантико-параметрического распознавания речи на основе интеллектуального сканирования звуковых образов. Поэтому при работе системы Numenta использовалась информация о значении предварительно распознанных кодов и звуков. В этом заключается совместное функционирование двух контуров распознавания речи – семантико-параметрического и образно-семантического.

 

     Ниже представлен пример функционирования системы Numenta на восьмом уровне распознавания речи, а именно, при определении значений отдельных фонем и наименований звуков. С этой целью  выбран класс гласных твердых звуков (А, О, И, У, Э, Ы), каждый из которых приведен в оригинальном физиономическом  представлении, включающем наиболее характерные для данного звука элементы спектрограммы и осциллограммы. В результате формируется устойчивый, уникальный образ каждого звука, независящий от артикуляционных и акустических особенностей произвольного диктора. Это достигается за счет обобщения отдельных элементов, включая артикуляционные особенности произнесения звуков,  в единое, что удачно сочетается с технологией HTM, используемой в Numenta.

 

     Таким образом, показано распознавание гласных звуков от неизвестного диктора (Рис. 3-8) и результаты распознавания их в системе Numenta (Рис. 9-14).

 

     На основании сказанного можно сделать вывод, что система (Рис.1) позволит в ближайшем будущем комплексно решить проблему распознавания слитной речи от неизвестного диктора и изображений этих дикторов в рамках единой системы контроля с помощью веб-камер.

 

    В перспективе, как описано в работе [14], будет обеспечен автоматический контроль с распознаванием видеоинформации, слитной речи от неизвестного диктора с пониманием смысла произносимых фраз и действий контролируемых субъектов и объектов.     

 

 

 

 

Рис. 3. Физиономический образ звука А.

 

 

 

Рис. 4. Физиономический образ звука О.

 

 

 

 

Рис. 5. Физиономический образ звука И.

 

 

 

Рис. 6. Физиономический образ звука У.

 

 

 

 

Рис. 7. Физиономический образ звука Э.

 

 

 

 

 

Рис. 8. Физиономический образ звука Ы.

 

 

 

 

 

 

 

Рис. 9. Распознавание звука А.

 

 

 

 

 

 

 

Рис. 10. Распознавание звука О.

 

 

 

 

 

 

 

Рис. 11. Распознавание звука И.

 

 

 

 

 

 

 

Рис. 12. Распознавание звука У.

 

 

 

 

 

 

 

Рис. 13. Распознавание звука Э.

 

 

 

 

 

 

 

Рис. 14. Распознавание звука Ы.

 

 

 

 





Литература



1. Потапов А.С. Распознавание образов и машинное восприятие. Спб.: Политехника, 2007. - 548с.
2. Насыпный В.В. Развитие теории построения открытых систем на основе информационной технологии искусственного интеллекта. М.: Воениздат, 1994. - 248с.
3. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся системы извлечения знаний из текстовых документов для поисковых систем. Патент  РФ №2273879,  номер международной заявки РСT/RU02/00258, дата подачи 28 мая 2002.
4. Насыпный В.В., Насыпная Г.А. Способ синтеза самообучающейся аналитической вопросно-ответной системы с извлечением знаний из текстов, заявка на патент №2007120344/09 от 06.08.2007. Получено решение на выдачу патента на изобретение от 21.07.2008.
5. Современный русский язык: Учеб. для филол. спец. высших учебных заведений. Под редакцией В.А. Белошапковой. М.: Азбуковник, 1999. – 928с.
6. Насыпный В.В., Насыпная Г.А. Система распознавания, понимания смысла, анимационного моделирования и синтеза речи на основе стохастической информационной технологии. М.: Прометей, 2008. – 76 с.
7. Искусственный интеллект. Справочник. Кн. 2. Модели и методы. Под ред. Поспелова Д.А. М.: Радио и связь, 1990. - 303 с.
8. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.
9. Насыпный В.В. Способ комплексной защиты распределенной обработки информации в компьютерных системах и система для осуществления способа. Патент  РФ №2259639, номер международной заявки РСT/RU /00272, дата подачи 28.10.2003г.
10. Насыпный В.В., Насыпная Г.А. Метод семантической связи текста с трехмерной графикой. – М.: Прометей, 2007. – 27с.
11. Галунов В.И., Чистович Л.А. О связи моторной теории с общей проблемой распознавания речи. Акустический ж., т. 11, с.417-426.
12. Сорокин В.И. Моторная теория восприятия речи и теория внутренней модели // В сб.: Информационные процессы, ИПИ РАН. Том 7. 2007, №1, с.1-12.

13. Halsall F. Data communications computer networks and osi. Addison-wesley publishing company, 1988. - 973 c.
14. Насыпный В.В. Распознавание и понимание смысла речи на основе стохастики в шумах. М.: Прометей, 2010. – 139 с.

   
stochastica-intell.ru Адрес: Москва
Тел.: 8 (495) 231 65 24
E-mail:
создание сайтов
IT-ГРУППА “Передовик точка ру”