EA 023695B1 20160729 Номер и дата охранного документа [PDF] EAPO2016\PDF/023695 Полный текст описания [**] EA201200945 20120716 Регистрационный номер и дата заявки EAB1 Код вида документа [PDF] eab21607 Номер бюллетеня [GIF] EAB1\00000023\695BS000#(1765:1350) Основной чертеж [**] СПОСОБ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ Название документа [8] G10L 17/00, [8] G10L 15/01 Индексы МПК [RU] Хитров Михаил Васильевич, [RU] Левин Кирилл Евгеньевич Сведения об авторах [RU] ООО "ЦЕНТР РЕЧЕВЫХ ТЕХНОЛОГИЙ Сведения о патентообладателях [RU] ООО "ЦЕНТР РЕЧЕВЫХ ТЕХНОЛОГИЙ Сведения о заявителях
 

Патентная документация ЕАПВ

 
Запрос:  ea000023695b*\id

больше ...

Термины запроса в документе

Реферат

[RU]

1. Способ распознавания речевых сообщений, согласно которому принимают звуковой сигнал; осуществляют предварительную обработку принятого звукового сигнала с выделением речевой составляющей этого сигнала; осуществляют первичное декодирование указанной речевой составляющей с использованием данных словаря речевых образцов, отличающийся тем, что на этапе предварительной обработки определяют временные точки смены дикторов и определяют границы синтагм; на этапе первичного декодирования используют данные о границах синтагм; определяют тематику речевой составляющей с использованием классификатора тематик; осуществляют вторичное декодирование указанной речевой составляющей с использованием данных о её тематике и данных словаря речевых образцов с получением последовательности слов в виде текста; осуществляют идентификацию личностей дикторов с использованием данных модели диктора; осуществляют логическую обработку полученной последовательности слов с использованием данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.

2. Способ по п.1, отличающийся тем, что после вторичного декодирования осуществляют грамматическое согласование полученной последовательности слов.

3. Способ по п.2, согласно которому после приема речевого сигнала осуществляют преобразование данных в формат, подходящий для распознавания.

4. Устройство для распознавания речевых сообщений, которое включает модуль приема звукового сигнала; модуль предварительной обработки принятого звукового сигнала, выполненный с возможностью выделения речевой составляющей сигнала; модуль распознавания речи, включающий декодер, который выполнен с возможностью осуществления первичного декодирования речевой составляющей звукового сигнала с использованием данных словаря речевых образцов, отличающееся тем, что оно включает классификатор тематик речевых сообщений, выполненный с возможностью определения тематики речевой составляющей; декодер модуля распознавания речи является двухпроходным и выполнен с возможностью осуществления вторичного декодирования с получением последовательности слов в виде текста, при этом модуль распознавания речи выполнен с возможностью использования данных о тематике указанной речевой составляющей, полученных от классификатора тематик; модуль предварительной обработки принятого звукового сигнала выполнен с возможностью определения временных точек смены дикторов и границ синтагм; модуль распознавания речи выполнен с возможностью осуществления первичного декодирования с использованием данных о границах синтагм, а устройство также включает модуль идентификации личностей дикторов с использованием данных модели диктора и логический модуль, который выполнен с возможностью осуществления логической обработки полученной последовательности слов с учетом данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.

5. Устройство по п.4, отличающееся тем, что модуль предварительной обработки выполнен с возможностью определения типов и уровней помех и искажений звукового сигнала.

6. Устройство по п.4, отличающееся тем, что модуль приема звукового сигнала выполнен с возможностью обмена данными с пользователем и с возможностью управления процессом обработки данных, загрузки речевых данных с различных источников данных, а также вывода информации о результатах работы.

7. Устройство по п.4, отличающееся тем, что оно включает преобразующий модуль, который выполнен с возможностью преобразовывать входные данные, поступающие в различных форматах и сохранённых на различных носителях, в формат, подходящий для распознавания речи.

8. Устройство по п.4, отличающееся тем, что оно включает блок грамматического согласования, выполненный с возможностью грамматического анализа полученных в результате вторичного декодирования последовательностей слов.

9. Устройство по п.4, отличающееся тем, что оно включает средства хранения результатов распознавания речевого сообщения.


Полный текст патента

(57) Реферат / Формула:

1. Способ распознавания речевых сообщений, согласно которому принимают звуковой сигнал; осуществляют предварительную обработку принятого звукового сигнала с выделением речевой составляющей этого сигнала; осуществляют первичное декодирование указанной речевой составляющей с использованием данных словаря речевых образцов, отличающийся тем, что на этапе предварительной обработки определяют временные точки смены дикторов и определяют границы синтагм; на этапе первичного декодирования используют данные о границах синтагм; определяют тематику речевой составляющей с использованием классификатора тематик; осуществляют вторичное декодирование указанной речевой составляющей с использованием данных о её тематике и данных словаря речевых образцов с получением последовательности слов в виде текста; осуществляют идентификацию личностей дикторов с использованием данных модели диктора; осуществляют логическую обработку полученной последовательности слов с использованием данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.

2. Способ по п.1, отличающийся тем, что после вторичного декодирования осуществляют грамматическое согласование полученной последовательности слов.

3. Способ по п.2, согласно которому после приема речевого сигнала осуществляют преобразование данных в формат, подходящий для распознавания.

4. Устройство для распознавания речевых сообщений, которое включает модуль приема звукового сигнала; модуль предварительной обработки принятого звукового сигнала, выполненный с возможностью выделения речевой составляющей сигнала; модуль распознавания речи, включающий декодер, который выполнен с возможностью осуществления первичного декодирования речевой составляющей звукового сигнала с использованием данных словаря речевых образцов, отличающееся тем, что оно включает классификатор тематик речевых сообщений, выполненный с возможностью определения тематики речевой составляющей; декодер модуля распознавания речи является двухпроходным и выполнен с возможностью осуществления вторичного декодирования с получением последовательности слов в виде текста, при этом модуль распознавания речи выполнен с возможностью использования данных о тематике указанной речевой составляющей, полученных от классификатора тематик; модуль предварительной обработки принятого звукового сигнала выполнен с возможностью определения временных точек смены дикторов и границ синтагм; модуль распознавания речи выполнен с возможностью осуществления первичного декодирования с использованием данных о границах синтагм, а устройство также включает модуль идентификации личностей дикторов с использованием данных модели диктора и логический модуль, который выполнен с возможностью осуществления логической обработки полученной последовательности слов с учетом данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.

5. Устройство по п.4, отличающееся тем, что модуль предварительной обработки выполнен с возможностью определения типов и уровней помех и искажений звукового сигнала.

6. Устройство по п.4, отличающееся тем, что модуль приема звукового сигнала выполнен с возможностью обмена данными с пользователем и с возможностью управления процессом обработки данных, загрузки речевых данных с различных источников данных, а также вывода информации о результатах работы.

7. Устройство по п.4, отличающееся тем, что оно включает преобразующий модуль, который выполнен с возможностью преобразовывать входные данные, поступающие в различных форматах и сохранённых на различных носителях, в формат, подходящий для распознавания речи.

8. Устройство по п.4, отличающееся тем, что оно включает блок грамматического согласования, выполненный с возможностью грамматического анализа полученных в результате вторичного декодирования последовательностей слов.

9. Устройство по п.4, отличающееся тем, что оно включает средства хранения результатов распознавания речевого сообщения.


Евразийское 023695 (13) B1
патентное
ведомство
(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ЕВРАЗИЙСКОМУ ПАТЕНТУ
(45) Дата публикации и выдачи патента 2016.07.29
(21) Номер заявки 201200945
(22) Дата подачи заявки
2012.07.16 (51) Int. Cl. G10L 17/00 (2013.01) G10L 15/01 (2013.01)
(54) СПОСОБ РАСПОЗНАВАНИЯ РЕЧЕВЫХ СООБЩЕНИЙ И УСТРОЙСТВО ДЛЯ ЕГО ОСУЩЕСТВЛЕНИЯ
(43) 2014.01.30
(96) 2012000157 (RU) 2012.07.16
(71) (73) Заявитель и патентовладелец:
ООО "ЦЕНТР РЕЧЕВЫХ ТЕХНОЛОГИЙ" (RU)
(72) Изобретатель:
Хитров Михаил Васильевич, Левин Кирилл Евгеньевич (RU)
(74) Представитель:
Нилова М.И. (RU)
(56) RU-U1-61924 RU-U1-85445 WO-A1-1996041334 RU-C2-2383938 US-A1-20040117181 RU-C2-2386178
(57) Предложен способ автоматического распознавания речевых сообщений и устройство для его осуществления. Предлагаемое устройство и способ позволяют преобразовать входной речевой сигнал в текст, подвергая указанный сигнал многофакторной обработке с использованием алгоритмов оценки качества речевого сигнала, алгоритма идентификации диктора, алгоритмов поиска границ синтагм и алгоритмов определения темы речевого сообщения. Устройство включает общий логический модуль, который позволяет объединить разнородные вероятностные оценки результатов обработки речи в единое решение о содержании речевого сообщения. Применение указанного устройства и способа позволяет повысить достоверность распознавания речевых поисковых запросов, записей совещаний или переговоров.
Область техники, к которой относится изобретение
Изобретение относится к области автоматического распознавания речи и, в частности, к способу автоматического распознавания речевых сообщений и устройству для его осуществления. Изобретение может быть использовано при распознавании новостных сообщений, речевых поисковых запросов, а также при обработке записей совещаний и переговоров.
Уровень техники
В настоящее время известны различные устройства и способы для распознавания речевых сообщений и отдельных слов. В основе известных решений лежит принцип сравнения входных речевых сигналов с эталонными сигналами, имеющимися в соответствующих словарях речевых образцов, и анализ вероятностей совпадения таких сравнений.
Из патента ЕР 1069551 известно устройство и способ распознавания слов в потоке слитной речи для получения пользовательских команд. Предлагаемое устройство и способ реализуют алгоритм распознавания речи на основе скрытых марковских моделей. Согласно изобретению предварительно создается словарь эталонных речевых образцов, который включает, например, набор стандартных пользовательских команд. Указанные эталонные образцы используются для сравнения с образцами, получаемыми от пользователя. После приема голосового сообщения с помощью блока оценки вероятностей осуществляют определение вероятности совпадения произнесенной фразы с фразами из словаря речевых образцов. В случае выполнения неравенства Р > Pmax, где Р - значение вероятности при сравнении с конкретной фразой из словаря речевых образцов, а Pmax - максимальное пороговое значение, фразе пользователя присваивают значение указанной конкретной фразы.
Предложенное решение предназначено для распознавания отдельных слов и при использовании для пословного распознавания речи обеспечивает низкую достоверность распознавания вследствие того, что не обеспечивается осуществление многофакторной предварительной обработки голосового сообщения, ограничен список критериев для вычисления вероятностей, ограничен словарь речевых образцов, а также не обеспечена возможность создания словаря дикторов. Таким образом, указанное решение не позволяет распознавать речевые сообщения с высокой степенью достоверности.
Из патента RU 2223554 известно устройство распознавания речи и соответствующий способ, осуществляющие распознавание слов по введенной информации о моделях единичных элементов речи, каждый из которых является более коротким, чем слово. Устройство распознавания речи содержит в себе средство накопления совокупности словарных обозначений, осуществляющее накопление последовательностей обозначений указанных единичных элементов речи для слов общего характера, обычно используемых для распознавания слов по введенной речевой информации произвольных говорящих субъектов. Устройство также включает средство извлечения последовательностей обозначений для зарегистрированных слов, осуществляющее генерацию последовательностей обозначений, которые соответствуют связи указанных единичных элементов речи между собой, посредством использования совокупности, в которой описано указанное условие о связи единичных элементов речи, причем последовательности обозначений указанных единичных элементов речи имеют наибольшую вероятность для зарегистрированных слов из введенной речевой информации конкретного говорящего субъекта. Устройство также включает средство регистрации, осуществляющее запоминание указанных последовательностей обозначений единичных элементов речи для слов общего характера, обычно используемых для выполнения распознавания слов по введенной речевой информации произвольных говорящих субъектов, и созданных последовательностей обозначений для зарегистрированных слов в виде параллельных совокупностей. В устройстве указанные единичные элементы речи представляют собой акустические события, генерация которых выполнена посредством разделения скрытой марковской модели фонемы на отдельные состояния без изменения значений вероятности перехода, результирующей вероятности и количества состояний.
В указанном устройстве обеспечена возможность пословного распознавания слитной речи, на аппаратном уровне реализована возможность формирования пополняемого словаря моделей единичных элементов речи, при этом распознавание слов осуществляется с использованием предварительно заданных моделей произвольных говорящих субъектов. Недостатком известного устройства по патенту RU 2223554 и реализуемого им способа является низкая достоверность распознавания речевого сообщения ввиду ограниченности вероятностной информации, используемой при распознавании.
Наиболее близким аналогом к заявляемому способу и устройству распознавания речевых сообщений является способ и реализующее такой способ устройство распознавания речевых сообщений, описанные в патенте RU 2296376. Согласно указанному способу принимают звуковой сигнал, осуществляют предварительную обработку принятого звукового сигнала путем выделения интервалов, соответствующих выделенным на фоне шума словам, а также путем разбиения на сегменты стандартной длительности, меньшей длительности фонем, после чего осуществляют первичное декодирование указанной речевой составляющей, при котором формируют биспектральные признаки, которые сравниваются с эталонными признаками фонем с целью принятия решения о распознанной фонеме на каждом сегменте слова. При сравнении сформированного набора буквенных кодов фонем распознаваемого слова с наборами буквенных кодов фонем слов словаря с использованием эталонных признаков слов формируется массив
значений показателей распознавания, равных количеству совпадающих буквенных кодов и кодов пауз распознаваемого слова со словами из словаря. Решение о распознанном слове принимается в пользу того слова словаря, при сравнении с которым получен максимальный показатель распознавания. Таким образом, может быть обеспечено пословное распознавание речевых сообщений.
Известный способ и устройство не обеспечивают возможности определения темы речевого сообщения и идентификации личности диктора. Указанные недостатки ограничивают вероятностную информацию, используемую при распознавании, и не позволяют обеспечить высокий уровень достоверности такого распознавания.
Раскрытие изобретения
В настоящем разделе используются следующие термины и определения.
Акустическая модель (AM) - набор статистических параметров отдельных звуков речи, которые позволяют определить наиболее вероятные словные последовательности.
Языковая (лингвистическая) модель (ЯМ) - совокупность возможных последовательностей слов в устной речи.
Синтагма - совокупность нескольких слов, объединенных по принципу семантико-грамматически-фонетической сочетаемости.
Фон слова - единица звукового уровня языка, выделяемая в речевом потоке безотносительно к её фонемной принадлежности (т.е. без отнесения её к той или иной фонеме) или как конкретная реализация фонемы в речи.
Задача настоящего изобретения заключается в создании технического решения, обеспечивающего распознавание речевых сообщений с высокой степенью достоверности и позволяющего получать многоуровневую текстовую разметку с присваиванием отдельных фраз различным дикторам.
Указанная задача решается предлагаемым способом, согласно которому принимают звуковой сигнал, осуществляют предварительную обработку принятого звукового сигнала с выделением речевой составляющей этого сигнала и осуществляют первичное декодирование указанной речевой составляющей с использованием данных словаря речевых образцов. Предлагаемый способ отличается тем, что на этапе предварительной обработки определяют временные точки смены дикторов и определяют границы синтагм, а на этапе первичного декодирования используют данные о границах синтагм, при этом способ также включает этап определения тематики речевой составляющей с использованием классификатора тематик, осуществления вторичного декодирования указанной речевой составляющей с использованием данных о её тематике и данных словаря речевых образцов с получением последовательности слов в виде текста, осуществления идентификации личностей дикторов с использованием данных модели диктора и осуществления логической обработки полученной последовательности слов с использованием данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.
Технический результат, проявляющийся при осуществлении предлагаемого способа, заключается в повышении точности распознавания речевых сообщений. Предлагаемый способ позволяет обрабатывать сложные речевые сообщения, которые могут принадлежать одному или нескольким дикторам и в которых может происходить неоднократная смена тематики и качества записи. Благодаря многофакторной предварительной обработке, использованию классификатора тематик и моделей дикторов обеспечивается вероятностная информация в виде нескольких гипотез о содержании речевого сообщения, достаточная для обеспечения высокого уровня достоверности распознавания.
Согласно еще одному варианту реализации предложенный способ отличается тем, что после вторичного декодирования осуществляют грамматическое согласование полученной последовательности слов.
Согласно еще одному варианту реализации предложенный способ отличается тем, что после приема речевого сигнала осуществляют преобразование данных в формат, подходящий для распознавания.
Задача настоящего изобретения также может быть решена предлагаемым устройством для распознавания речевых сообщений, которое включает модуль приема звукового сигнала, модуль предварительной обработки принятого звукового сигнала, выполненный с возможностью выделения речевой составляющей сигнала, модуль распознавания речи, включающий декодер, который выполнен с возможностью осуществления первичного декодирования речевой составляющей звукового сигнала с использованием данных словаря речевых образцов. Предлагаемое устройство отличается тем, что декодер модуля распознавания речи является двухпроходным и выполнен с возможностью осуществления вторичного декодирования с получением последовательности слов в виде текста, при этом модуль распознавания речи выполнен с возможностью использования данных о тематике указанной речевой составляющей, полученных от классификатора тематик, модуль предварительной обработки принятого звукового сигнала выполнен с возможностью определения временных точек смены дикторов и границ синтагм, модуль распознавания речи выполнен с возможностью осуществления первичного декодирования с использованием данных о границах синтагм, при этом устройство также включает модуль идентификации личностей дикторов с использованием данных модели диктора и логический модуль, который выполнен с возможностью осуществления логической обработки полученной последовательности слов с учетом данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой тексто
вой разметки.
Технический результат, обеспечиваемый устройством, заключается в повышении точности распознавания речевых сообщений. Предлагаемое устройство позволяет обеспечить высокую степень достоверности распознавания речевых сообщений благодаря тому, что в нем реализована возможность осуществления многофакторной предварительной обработки, формирования классификатора тематик и моделей дикторов, благодаря чему обеспечивается вероятностная информация, достаточная для обеспечения высокого уровня достоверности распознавания.
Согласно еще одному варианту реализации предлагаемое устройство отличается тем, что модуль предварительной обработки выполнен с возможностью определения типов и уровней помех и искажений звукового сигнала.
Согласно еще одному варианту реализации предлагаемое устройство отличается тем, что модуль приема звукового сигнала выполнен с возможностью обмена данными с пользователем и с возможностью управления процессом обработки данных, загрузки речевых данных с различных источников данных, а также вывода информации о результатах работы. Таким образом, в частности, обеспечена возможность загрузки пользователем речевого сообщения, подлежащего распознаванию, со съемных носителей.
Согласно еще одному варианту реализации предлагаемое устройство отличается тем, что оно включает преобразующий модуль, который выполнен с возможностью преобразовывать входные данные, поступающие в различных форматах и сохраненных на различных носителях, в формат, подходящий для распознавания речи.
Согласно еще одному варианту реализации предлагаемое устройство отличается тем, что оно включает блок грамматического согласования, выполненный с возможностью грамматического анализа полученных в результате вторичного декодирования последовательностей слов.
Согласно еще одному варианту реализации предлагаемое устройство отличается тем, что оно включает средства хранения результатов распознавания речевого сообщения.
Краткое описание чертежей
Ниже приведено подробное описание реализации изобретения со ссылками на прилагаемые чертежи:
на фиг. 1 приведен предпочтительный вариант реализации устройства для распознавания речевых сообщений согласно настоящему изобретению.
на фиг. 2 проиллюстрирован предпочтительный вариант реализации способа распознавания речевых сообщений согласно настоящему изобретению.
Осуществление изобретения
На фиг. 1 приведен предпочтительный вариант реализации устройства для распознавания речевых сообщений согласно настоящему изобретению.
Предлагаемое устройство в предпочтительном варианте реализации представляет собой программно-аппаратный комплекс, включающий, например, компьютерную систему. Как видно из фиг. 1, предлагаемое устройство включает пользовательский интерфейс 1, модуль 2 формирования задания на распознавание, модуль 3 предобработки, модуль 4 распознавания речи, который включает декодер, классификатор 5 тематик, модуль 6 аннотирования, модуль 7 обучения, модуль 8 лингвистической обработки, модуль 9 сохранения результатов, а также модуль 10 пост-обработки, модуль 11 идентификации дикторов и логический модуль 12, модуль 14 компенсации, детекторы 15 речь/пауза, вычислитель 16 отношения сигнал-шум (С/Ш) и искусственные нейронные сети 17 (показаны на фиг. 2).
Далее приведено описание работы предлагаемого устройства, с пояснением взаимосвязей между его модулями.
Звуковой сигнал поступает на интерфейс 1, который выполнен с возможностью инициации процесса распознавания при поступлении звукового сигнала. Указанный интерфейс может включать клавиатуру и компьютерную мышь, а также средства приема звукового сигнала, средства для обеспечения загрузки речевых данные с различных источников данных, а также выведения информации о результатах работы. Указанный интерфейс 1 предоставляет пользователю возможность управлять процессом обработки данных. Через интерфейс 1 речевые данные попадают в модуль 2.
Модуль 2 является промежуточным между интерфейсом 1 и модулем 3. Модуль 2 преобразовывает входные данные, поступающие в различных форматах и хранящихся на разных носителях, в формат, подходящий для системы распознавания речи. После соответствующей подготовки речевой сигнал из указанного модуля 2 попадает в модуль 3.
Модуль 3 осуществляет преобразование речевого сигнала в набор параметров речи таких как FBANK1, FBANK2 - результаты обработки речевого сообщения с использованием мел-частотных банков фильтров, F0 - значения частоты основного тона речевого сигнала, MFCC - мел-частотные кепстральные коэффициенты. Указанные параметры позволяют выделить информационную составляющую сигнала и сократить междикторскую и межсессионную изменчивость исходного сигнала. Преобразование указанного входного сигнала осуществляется с применением известных алгоритмов, таких как MFCC, FTT, LCRC. Как видно из фиг. 2, основной набор параметров (FBANK1) поступает на вход модуля 14 компенсации, где выполняется первичная настройка на канал передачи речевого сообщения, во время которой детектор 15 и вычислитель 16 определяют качество записи и предоставляют данные для дальнейшего
использования в модуле 4. Кроме того, в процессе первичной настройки на канал передачи речевого сообщения постоянно выполняется компенсация параметров FBANK1, которая позволяет удалить из входного сигнала постоянные искажения, вносимые частотной характеристикой канала передачи. Другие служебные наборы (FBANK2) подаются на вход детекторов 15 речь/пауза, шумов и помех, вычислитель 16 отношения сигнал-шум (С/Ш) и искусственные нейронные сети 17 (ИНН 1, ИНН 2). Нейронные сети вычисляют постериорные вероятности принадлежности входного вектора данных к состояниям фонов. Однако они вычисляют эти вероятности без учета допустимого порядка фонем в речи; этот порядок учитывается в модуле 4 при декодировании. С использованием оставшихся наборов параметров находятся временные точки смены дикторов и определяются возможные границы синтагм. Кроме того, в модуле 3 выделяются участки, содержащие речь, определяются типы и уровни помех и искажений, присутствующих во входном сигнале. Модуль 3 выполнен с возможностью выделения нескольких основных типов искажений, оказывающих наибольшее влияние на достоверность распознавания: нелинейные искажения (перегрузка) и аддитивные помехи канала передачи. Для оценки этих искажений в речевом сигнале определяется отношение сигнал/шум, а также участки с амплитудными изменениями, характерными для искажений перегрузки. Важной функцией модуля 3 является определение информативной части речевого сигнала. Она позволяет сократить время распознавания за счет исключения из процесса распознавания участков пауз. После соответствующей предобработки речевой сигнал из указанного модуля 3 попадает в модуль 4.
Модуль 4 выполнен с возможностью определения наиболее грамматически вероятной гипотезы для неизвестного высказывания, т.е. наиболее вероятного пути по сети распознавания, состоящей из моделей слов (которые, в свою очередь, формируются из моделей отдельных фонов). Правдоподобие гипотезы зависит от двух факторов, а именно от вероятностей последовательности фонов, приписываемых акустической моделью, и вероятностей следования слов друг за другом, определяемых моделью языка. Значение правдоподобия гипотезы определяется путем перемножения последовательности фонов и вероятности следования слов друг за другом, более конкретно, перемножаются вероятности состояний фонов, вероятности перехода между этими состояниями, вероятности следования фонов внутри слова (слово может иметь несколько вариантов произнесения) и вероятности следования слов друг за другом. При этом быстродействие модуля 4 является приемлемым и достигается за счет осуществления поиска с пределом, который предполагает исследование не всех возможных частичных путей в сети распознавания, а только тех, общее правдоподобие для которых больше определенного предела. Кроме того, в каждый момент времени в модели находится наиболее вероятный частичный путь, по правдоподобию которого вычисляется нижняя граница поиска. Все пути со значением правдоподобия ниже данной границы исключаются из дальнейшего рассмотрения.
В предлагаемом устройстве языковая модель строится с использованием модуля 8. Кроме того, быстродействие модуля 4 также может быть увеличено за счет обучения акустических моделей с использованием модуля 7. Указанное обучение предусматривает перестроение акустических моделей с использованием результатов предыдущего распознавания.
Модуль 4 включает двухпроходный декодер, позволяющий постепенно усложнять условия поиска наиболее вероятной последовательности слов. Как видно из фиг. 2, на основании информации о качестве речевого сигнала выполняют точную настройку акустических моделей на условия записи речи на первом проходе декодера, а данные о теме сообщения позволяют выбрать адекватную тематике языковую модель на втором проходе декодера. Следует отметить, что при распознавании для каждого диктора выполняется отдельное преобразование признаков речевого сигнала, приводящее характеристики диктора к некоторому "среднему" диктору. Для точной настройки акустических моделей на условия записи речи в зависимости от уровня помех производится компенсация спектра речевого сигнала. Также, для некоторых неречевых событий (например, треск, гудки, музыка) соответствующая информация подается напрямую в декодер, которые на этих участках использует иной режим декодирования, обеспечивая лишь распространение существующих гипотез, не генерируя новых словных гипотез. Это позволяет избежать заведомо ошибочных слов в результатах распознавания.
Кроме того, для каждой тематики заранее формируется отдельная языковая модель, например языковая модель политических новостей или языковая модель спортивного репортажа. После определения тематики на втором проходе декодер подключает ту языковую модель, которая наиболее точно соответствует теме. Это позволяет точнее распознавать слова и речевые обороты, характерные для каждой темы.
Как видно из фиг. 1, после модуля 4 речевая составляющая попадает в модуль 5, в котором речевой составляющей присваивается тематика, и в модуль 6, где для указанной речевой составляющей может быть составлена аннотация. Аннотация содержит несколько предложений из полного результата распознавания. Выбор этих предложений делается на основе критерия "прироста информации". Для повышения точности распознавания предлагаемое устройство также дополнено модулями 10, 11 и 12. Как видно из фиг. 2, речевая составляющая из модуля 4 может попадать в модуль 10, который анализирует контекст результатов распознавания, и, на основании правил грамматики русского языка, выполняет согласование падежных и родовых окончаний, корректируя возможные ошибки распознавания.
Завершающий этап распознавания осуществляется в логическом модуле 12. При распознавании ре
чевой составляющей в модуле 12 используется вероятностная информация, поступающая в декодер из модуля 11 и модуля 5. Модуль 11 включает модели дикторов, представляющие собой вектор акустических параметров, размерность которого лежит в диапазоне 200-300, и строимые по образцу голоса человека автоматическими методами. Модели дикторов создаются автоматически по образцам записей конкретных людей, речь которых можно встретить в речевом сообщении. Модуль 11 может включать средства хранения информации для хранения моделей дикторов. В модуле 12 выполняется объединение разнородных гипотез, как было описано выше с тем, чтобы выдать наиболее правдоподобную цепочку слов, в которой проставлены границы предложений и указаны участки с различными темами и голосами.
В заключение, результат распознавания попадает в модуль 9, где осуществляется его сохранение.
На фиг. 2 проиллюстрирован предпочтительный вариант реализации способа распознавания речевых сообщений согласно настоящему изобретению. Как видно из фиг. 2, на начальном этапе обработки принятый звуковой сигнал подают на модуль оценки параметров речи, который выполняет предварительную обработку принятого звукового сигнала с получением нескольких различных наборов параметров, используемых последующими модулями обработки, и с выделением речевой составляющей этого сигнала, как подробно описано выше.
На следующем этапе согласно предлагаемому способу осуществляют декодирование речи и идентификацию диктора.
В процессе декодирования используют двухпроходный декодер, позволяющий постепенно усложнять условия поиска наиболее вероятной последовательности слов.
На следующем этапе согласно настоящему способу речевую составляющую подают на модуль пост-обработки, в котором осуществляют анализ контекста результатов распознавания, и, на основании правил грамматики русского языка, выполняют согласование падежных и родовых окончаний, корректируя возможные ошибки распознавания.
На следующем этапе согласно настоящему способу в логическом модуле выполняют объединение разнородных гипотез о теме сообщения, возможной последовательности слов и личности диктора с тем, чтобы выдать наиболее правдоподобную цепочку слов, в которой проставлены границы предложений и указаны участки с различными темами и голосами. Использование единого модуля оценки параметров позволяет существенно снизить вычислительные затраты на этом этапе обработки.
На завершающем этапе осуществляют сохранение результата распознавания.
Предлагаемый способ позволяет преобразовать входной речевой сигнал в текст с высокой достоверностью.
ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ распознавания речевых сообщений, согласно которому
принимают звуковой сигнал;
осуществляют предварительную обработку принятого звукового сигнала с выделением речевой составляющей этого сигнала;
осуществляют первичное декодирование указанной речевой составляющей с использованием данных словаря речевых образцов,
отличающийся тем, что
на этапе предварительной обработки определяют временные точки смены дикторов и определяют границы синтагм;
на этапе первичного декодирования используют данные о границах синтагм;
определяют тематику речевой составляющей с использованием классификатора тематик;
осуществляют вторичное декодирование указанной речевой составляющей с использованием данных о её тематике и данных словаря речевых образцов с получением последовательности слов в виде текста;
осуществляют идентификацию личностей дикторов с использованием данных модели диктора;
осуществляют логическую обработку полученной последовательности слов с использованием данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.
2. Способ по п.1, отличающийся тем, что после вторичного декодирования осуществляют грамматическое согласование полученной последовательности слов.
3. Способ по п.2, согласно которому после приема речевого сигнала осуществляют преобразование данных в формат, подходящий для распознавания.
4. Устройство для распознавания речевых сообщений, которое включает
модуль приема звукового сигнала;
модуль предварительной обработки принятого звукового сигнала, выполненный с возможностью выделения речевой составляющей сигнала;
модуль распознавания речи, включающий декодер, который выполнен с возможностью осуществления первичного декодирования речевой составляющей звукового сигнала с использованием данных
словаря речевых образцов, отличающееся тем, что
оно включает классификатор тематик речевых сообщений, выполненный с возможностью определения тематики речевой составляющей;
декодер модуля распознавания речи является двухпроходным и выполнен с возможностью осуществления вторичного декодирования с получением последовательности слов в виде текста, при этом модуль распознавания речи выполнен с возможностью использования данных о тематике указанной речевой составляющей, полученных от классификатора тематик;
модуль предварительной обработки принятого звукового сигнала выполнен с возможностью определения временных точек смены дикторов и границ синтагм;
модуль распознавания речи выполнен с возможностью осуществления первичного декодирования с использованием данных о границах синтагм, а
устройство также включает
модуль идентификации личностей дикторов с использованием данных модели диктора и логический модуль, который выполнен с возможностью осуществления логической обработки полученной последовательности слов с учетом данных о тематике речевой составляющей и данных о личности дикторов с получением многоуровневой текстовой разметки.
5. Устройство по п.4, отличающееся тем, что модуль предварительной обработки выполнен с возможностью определения типов и уровней помех и искажений звукового сигнала.
6. Устройство по п.4, отличающееся тем, что модуль приема звукового сигнала выполнен с возможностью обмена данными с пользователем и с возможностью управления процессом обработки данных, загрузки речевых данных с различных источников данных, а также вывода информации о результатах работы.
7. Устройство по п.4, отличающееся тем, что оно включает преобразующий модуль, который выполнен с возможностью преобразовывать входные данные, поступающие в различных форматах и сохранённых на различных носителях, в формат, подходящий для распознавания речи.
8. Устройство по п.4, отличающееся тем, что оно включает блок грамматического согласования, выполненный с возможностью грамматического анализа полученных в результате вторичного декодирования последовательностей слов.
9. Устройство по п.4, отличающееся тем, что оно включает средства хранения результатов распознавания речевого сообщения.
5.
Евразийская патентная организация, ЕАПВ Россия, 109012, Москва, Малый Черкасский пер., 2
023695
- 1 -
(19)
023695
- 1 -
(19)
023695
- 1 -
(19)
023695
- 1 -
(19)
023695
- 4 -
(19)
023695
- 7 -