Автор: Пользователь скрыл имя, 14 Марта 2012 в 14:58, лекция
Методы обработки и распознавания изолированных слов в современных автоматизированных системах. Некоторые методы автоматического распознавания слитной речи.
В настоящее время большинство систем распознавания изолированных слов дает более чем 95%-ную точность распознавания. Однако эта цифра обусловлена такими факторами, как объем и характер словаря, надежность параметров, шумовой фон и т.д. Для исследования ухудшения эффективности, связанной с зашумлением речи на входе системы, выбрана стандартная система распознавания изолированных слов, в которой другие расчетные параметры являются константными во всех экспериментах.
При создании устройства, адаптирующегося к ухудшению качества речи на входе, вводится принцип сличения в зависимости от сигнала. Данный принцип имеет целью более эффективное использование информации, содержащейся в сигнале. С помощью этого метода, прежде всего, достигается возможность разграничения параметров, несущих полезную информацию, и менее важных параметров. Различным параметрам в дальнейшем придается соответствующая весовая функция.
При использовании метода сличения в устройстве распознавания нужно, прежде всего, иметь представление о том, каким образом ухудшение речи влияет на речевой спектр. С этой целью весовая функция применяется для выделения наименее искаженных областей.
В некоторых системах при обработке речевого сигнала предлагаются три метода определения весовой функции на базе спектральных параметров контрольного сегмента: отрицательная производная фазового спектра; нормированный средний спектр; обнаружение пиков.
Недостаток метода отрицательной производной фазового спектра состоит в неадекватном использовании информации о частотной структуре речи. В обычном речевом спектре области низких частот отличаются значительно большей энергетической насыщенностью. В рамках метода это свойство используется следующим образом: спектр нормируется путем вычисления отклонения каждого спектрального значения от среднего значения на выборке в 16 спектральных значений сегмента.
Этот метод не позволяет в достаточной мере контролировать роль параметров в различных частотных областях. Главной целью применения весовой функции является разграничение пиков и равных участков спектра: именно поэтому используется прямой способ обнаружения и взвешивания пиковых значений. Пики спектра менее подвержены искажению и поэтому более информативны при вычислении расстояния между сегментами посредством весовой функции.
Некоторые методы автоматического распознавания слитной речи
Трудности акустико-фонетической сегментации слитной речи
Исследования по автоматическому распознаванию речи и управлению роботом с голоса, главной целью которых является развитие методов и систем для ввода речи в ЭВМ, проводятся многими специалистами, начиная с 1950 г. Основным объектом распознавания речи являются изолированные слова. В настоящее время существует целый ряд методов по автоматическому их распознаванию. Однако здесь есть сложности. Например, диктору трудно произносить каждое слово отдельно. Кроме того, в результате пословной подачи материала скорость общения между человеком и машиной становится меньше. По вышеуказанным причинам целесообразнее распознавание слитно произнесенных слов, т.е. слитной речи. При этом возникают свои трудности, ибо распознавание слитной речи намного сложнее распознавания отдельно произнесенных слов, прежде всего, вследствие неявных границ между словами. В результате трудно определить начало и конец соответствия между фонемной цепочкой слова из словаря и распознаваемой фонемной цепочкой.
При разработке проблемы автоматического распознавания слитной речи наметился ряд методик, учитывающих просодический контур вводимых в устройство сообщений, информацию о слоговых и словесных границах, синтаксическую информацию и т.д.
Одним из способов распознавания слитно произнесенных слов является следующий. Во входном речевом сигнале распознается первое слово. Затем речь на входе сегментируется в конечной точке распознанного слова, и, считая эту точку началом следующего слова, распознается следующая последовательность фонем в рамках слова. Таким образом, процесс распознавания осуществляется путем попеременного распознавания и сегментации. Этот последовательный метод имеет недостаток, заключающийся в том, что в процессе распознавания накапливаются ошибки, и точность распознавания слов постепенно уменьшается. Преодолеть данный недостаток можно так: создать все возможные последовательности слов, сравнить речь на входе с каждой из этих последовательностей и выбрать последовательность, наиболее близкую к эталону. Данный метод требует большого массива вычислительных операций, зато слитная речь распознается с низкой степенью ошибки.
При распознавании слитной речи существуют и другие подходы. Например, сегментация на синтагмы и слова достигается с помощью набора акустических параметров, таких как энергия сигнала, частота основного тона, длительность, паузы. В настоящее время в программе фонетического анализа для установления локализации конца слов используются лишь два последних параметра.
Система акустико-фонетического анализа слитной речи обычно рассматривается как часть общей системы по автоматическому ее распознаванию. На вход системы подается звуковое колебание, на выходе получается последовательность фонемоподобных единиц, обозначаемых как фонетические элементы. Начальная фаза акустического анализа заключается в обработке входного сигнала и определении параметров. На этом этапе проводится спектральный анализ и используется, как правило, линейное предсказание. На следующем этапе осуществляются более детальная сегментация и классификация, необходимая для последующего анализа.
Предварительная сегментация и классификация звуковых элементов включают определение гласноподобных звуков, фрикативноподобных звуков, взрывных согласных, пауз. Эти категории определяются с помощью дерева решений, основывающихся на измерениях энергии в выбранных частотных полосах. Алгоритм более детальной обработки включает:
При создании систем автоматического распознавания звучащей речи огромное значение приобретают эксперименты в области восприятия речи. Результаты таких экспериментов часто лежат в основе функционирования той или иной системы. Электронно-вычислительные машины, распознающие речь, зачастую копируют некоторые не только анализирующие функции человеческого уха, но и запоминающие и логические функции человеческого мозга. Возникает вопрос: каким образом выбрать наилучшие сочетания этих функций? Область распознавания слитной речи до сих пор напоминает лабиринт со многими входами без удовлетворительного выхода: процент ошибок при вводе информации с голоса все еще недопустимо высок.
Процесс автоматической сегментации неразрывно связан с маркировкой звуковой последовательности.
Маркировка речевого сигнала с помощью фонетической транскрипции общеизвестна. Классически она осуществляется ручной сегментацией и маркировкой спектрограмм или других графических представлений, а также акустических параметров.
Известно, что ручная маркировка имеет два основных недостатка:
Разработка автоматической сегментации и маркировки вызвана необходимостью привлечения большой акустико-фонетической базы данных и стремлением к объективизации речевого анализа.
Некоторые алгоритмы сегментации строятся с ориентацией на частоту основного тона. Сегментация осуществляется сопоставлением эталонов, соответствующих началу каждого периода частоты основного тона, следующим образом: используются параметры переходов через нуль и изменения энергии, содержащие указание на возможные границы периодов. Число сегментов сокращается при дальнейшей слоговой сегментации и грубой оценке частоты основного тона. Возможные границы периодов корректируются, и тем самым компенсируются ошибки, которые могут возникнуть при компрессии данных.
В современных системах используется дополнительный эффективный критерий с соответствующими избыточностями, необходимый для лингвистических компонентов (лексического, синтаксического). Увеличение объема словаря ведет к возрастанию избыточности при естественной речи и к уменьшению ее – при кодированной; к экспонентному увеличению ошибок при естественной речи и к линейному – при кодированной. Анализ избыточности знаковых систем помогает оптимизировать распознавание речи, устанавливает лучшее распределение в процессе копирования функций уха и мозга.
Огромное значение для распознавания речи, как показали многочисленные эксперименты, имеет информация фонотактического плана, т. е. информация о правилах фонемной комбинаторики. В ряде систем она не учитывалась, и тем самым существенно снижался процент правильно распознанных слов в слитной речи. Результаты исследований в области фонотактики показали, что не характерные для родного языка испытуемых звукосочетания воспринимаются намного хуже, чем характерные. Знание закономерностей в области сочетаемости фонем в речевой цепи образует своего рода языковой фильтр, который при восприятии речи пропускает существующие и не пропускает недопустимые в фонотактике того или иного языка сочетания фонем.
Естественно предположить, что фонемные последовательности, характерные для фонологической системы языка, могут быть полезны в процессе пословной сегментации речевого потока. Знание сочетаемости фонем на стыках слов играет также не последнюю роль при восприятии речи.
Разграничительные средства звучащей речи представляют собой сложное явление, состоящее из самых различных компонентов, связанных с фонотактическими особенностями, синтактикосемантическими факторами, ритмикой формирования речевого высказывания, физиологическими, психологическими, индивидуальными особенностями производства звучащей речи. Анализ результатов с помощью автоматической сегментации и классификации пятью различными распознающими системами речи показал, что во всех случаях гласные и шумные согласные звуки достоверней и лучше всего классифицируются в ударных слогах. Ударный слог является своего рода "островком надежности" при получении правильной фонетической информации, хотя некоторые звуковые категории могут быть распознаны с достаточно высокой степенью точности независимо от того, где они встречаются в высказывании.
Следует остановиться на некоторых проблемах сегментации, связанных со спецификой фонетического уровня. К числу трудностей может быть отнесено автоматическое распознавание назальных и плавных фонем в слитной речи. Неопределенности, возникающие из-за ограничений любой системы обработки речи и часто из-за плохого произношения, рассматриваются как источник информации для стохастической грамматики или грамматики неопределенного множества.
Непосредственный интерес в этой связи представляет выявление независимых от контекста характеристик, в том числе, проблема идентификации гласных в слитной речи для системы распознавания, не содержащей предварительных данных о дикторах. Нормирование параметров для устранения различий между индивидуальными дикторскими реализациями является важной проблемой при создании системы, работающей без ориентации на определенного диктора. Некоторые обнадеживающие данные, представляющие собой универсальную шкалу формантных частот, достаточно эффективны для стационарных гласных. Задача усложняется при эффектах коартикуляции.
Многие исследователи предлагают решение вышеуказанной задачи с опорой на формантные частоты и функцию площади сечения речевого тракта. Исследование формантных распределений дало возможность предположить, что для лучшей идентификации гласных при условии проведения нормировки могут служить такие параметры, как длительность гласного, контекстно обусловленные временные характеристики, качественные характеристики звукового окружения и т. д. Однако пока еще не создана независимая от диктора общая модель для оценки динамики параметров в любом звуковом окружении. Что же касается критерия обнаружения стационарных участков гласных, то установлено, что стационарные участки имеют тенденцию локализоваться в первой половине произносимого гласного.
Имеющиеся в настоящее время способы микросегментации речи (сегментации на звуки, слоги) можно классифицировать следующим образом:
Различают контекстно-зависимые и контекстно-независимые методы сегментации. Известно, что акустическая реализация фонетических сегментов в большой степени зависит от контекста. При контекстно-независимых методах сегментации границы звуков, слогов устанавливаются, если изменения в значениях параметра превышают определенные пороги. В подобном случае обычно используются энергетические и спектральные параметры. Основным преимуществом контекстно-независимых методов является то, что они могут быть определены и автоматизированы сравнительно просто.
Самым простым методом контекстно-независимой маркировки является сопоставление эталонов. Для этого необходимо, чтобы для каждой возможной словарной единицы в запоминающем устройстве (ЗУ) хранилась модель. Единичная фонема может быть представлена как последовательность необходимых сегментов-эталонов. Данные эталоны могут выделяться из одного произнесения одного диктора или представлять усредненное значение нескольких произнесений одного или многих дикторов. Они могут быть также автоматически синтезированы с помощью множества правил. Для неизвестного сегмента речи выделяется параметрическая модель и сравнивается с каждым из хранящихся эталонов. Выбор метрики, используемой для сравнения неизвестного образца с эталонами, является критическим и зависит от определенного параметрического представления.
Информация о работе Обработка речевых данных в прикладном лингвистическом аспекте