Автор: Пользователь скрыл имя, 14 Марта 2012 в 14:58, лекция
Методы обработки и распознавания изолированных слов в современных автоматизированных системах. Некоторые методы автоматического распознавания слитной речи.
Коартикуляция – наложение артикуляции, характерной для последующего звука, на весь предшествующий звук
Важной проблемой в разработке систем понимания речи (СПР) является моделирование источников данных (ИД) на различных ярусах. Представление фонетических и фонологических данных, особенно с учетом эффекта коартикуляции, чрезвычайно трудно и зачастую неясно. Многие авторы отмечают, сколь значительно коартикуляция влияет на спектральную реализацию фонем в разных контекстах. Так, Либерман предложил общую схему для подхода к таким проблемам. Были получены экспериментальные данные для характеристики эффекта коартикуляции; была продемонстрирована необходимость использования модели коартикуляции при распознавании назальных фонем. За последнее время это было подтверждено результатами, полученными в процессе разработки экспериментальных систем понимания речи. В некоторых из этих систем проводится надежная классификация звуков с включением и класса сонантов без дальнейшей их спецификации. В других осуществляется классификация назальных звуков на фонемы (высокий процент ошибки).
Исследователи пытаются улучшить классификацию назальных звуков, используя модель, основанную на правилах, объясняющих коартикуляцию. Гипотетически выведены многие правила преобразования акустических данных в фонетические. Из непрерывной речи выделяются псевдослоговые сегменты (ГСГ) и принимаются за единицы выявления признаков и классификации. Каждый из этих ярусов ассоциируется с источником данных, характеризуемым грамматиками, которые могут рассматриваться как подсистемы глобального представления языка. Исследования акустических моделей в отрезках ГСГ, выделенных из непрерывной речи, могут дать возможность вывести правила для описания различных эффектов коартикуляции, продемонстрированных многими дикторами в различных контекстах.
Для обнаружения и классификации гласных звуков используется ряд параметров. Значения частоты основного тона и уровня интенсивности извлекаются из разбитого на сегменты сигнала и хранятся в памяти в определенном порядке. Затем эти параметры сканируются, с тем чтобы найти начало гласного сегмента. Частота отмечается как начало гласного сегмента, если три из пяти последовательных частот цикла превышают 450 Гц, а их амплитуда выше определенного порогового значения. Переход к другому сегменту совершается, если три или четыре из пяти последовательных частот цикла превышают 2 кГц, остаются ниже 450 Гц или ниже определенного порогового значения. Два гласных сегмента объединяются в один, если их разделяет менее трех циклов. Когда сегментация проведена, гласные сегменты сопоставляются со справочными эталонами для маркировки их той или иной гласной.
Известны исследования, где обсуждается проблема идентификации гласных в связной речи для систем распознавания, в которых не содержится предварительной информации о дикторах. В подобного рода экспериментах гласные в предложениях, произнесенных дикторами (мужчинами и женщинами), вычленялись на основе акустического и слухового анализа. Формантные частоты и функции площади голосового тракта для данных гласных выделялись с помощью коэффициента линейного предсказания.
Нормирование параметров или признаков для устранения различий между дикторами – важная проблема при создании автоматической системы, независимой от диктора. В этом направлении разработана универсальная шкала формантных частот, достаточно эффективная для стационарных гласных.
Для распознавания слов в слитной речи апробированы два различных подхода. В первом случае при так называемом глобальном подходе слово, которое необходимо распознать, сравнивается с каждым словом словаря. При сравнении используется, как правило, спектральное представление каждого слова. Среди различных методов данного типа хорошие результаты дал метод динамического программирования (ДП). Во втором случае при аналитическом подходе каждое слово или группа слов сначала сегментируется на меньшие единицы. Сегментами являются слогоподобные или фонемоподобные единицы. Это позволяет проводить распознавание либо на слоговом, либо на фонемном уровне и одновременно держать в памяти параметры (длительность, энергию и т. д.), относящиеся к просодии и полезные в дальнейшем.
При распознавании слов основной проблемой является лексический поиск, т. е. поиск нужных слов. Апробированы два метода распознавания, основанные исключительно на акустической информации. Первый заключается в том, что словарь просматривается последовательно и для каждого слова вычисляется матрица подобия, т. е. выявляется список первых "кандидатов". Затем используется алгоритм последовательного декодирования. Однако данный метод непрактичен, так как среднее время выполнения задачи равно 18 с для одного слова.
Для уменьшения времени лексического поиска используется второй метод – метод многоярусного подхода с помощью "силуэтов". Словарь представляется на различных ярусах списками "силуэтов". Эти ярусы получаются посредством фонетического кодирования, основанного на увеличивающейся точности. Например, сначала гласные, затем согласные фонемы, далее уточняется: оральная (ротовая) гласная, назальная гласная, согласная, полугласная и т.д. Отбрасывается каждое слово, "силуэты" которого не находятся среди первых "кандидатов". Данная обработка кончается, как только число "кандидатов" станет равно заданному. Затем выполняется более точное распознавание с опорой на фонетическую транскрипцию для каждого слова.
Некоторые усовершенствованные методы автоматического распознавания изолированных слов
В настоящее время для
распознавания изолированных
При речевом кодировании путем ВК каждая кодовая книга составляется на материале обучающей последовательности, которая выбирается для кодирования в системе как наиболее представительная. Кодовая книга размером 2R называется кодовой книгой с уровнем R. При распознавании изолированных слов используется отдельная кодовая книга для каждого слова распознаваемого словаря, составленного из обучающей последовательности, содержащей повторы этого слова. Незнакомое слово классифицируется в соответствии с его положением в кодовой книге, которая дает наименьшую степень искажения.
Для того чтобы увеличить точность и уменьшить сложность вычислений, исследуются пути объединения информации во временной последовательности. При этом слова разделяются на две секции, для которых составляются отдельные кодовые книги. Затем каждое слово словаря представляется многосекционной кодовой книгой – временной зависимой последовательностью секционных кодовых книг. Новые слова также разделяются на секции; эта классификация осуществляется в результате проведения ВК в соответственных секциях кодовых книг и нахождения многосекционной кодовой книги с наименьшим уровнем искажения.
При данном подходе достигается довольно хороший уровень распознавания, зависимый от диктора. Кроме того, метод использования секционных кодовых книг характеризуется тем, что они легко составляются, требуют малого объема памяти и имеют удобный алгоритм вычислений.
Известно, что для достижения распознавания слов независимо от диктора необходимы обучающие данные от большого числа дикторов. Затраты на вычисление, вызванные таким большим числом объектов, обычно сокращаются путем группировки обучающих данных каждого слова. Затем на материале каждой группы получают средний эталон.
Следует привести два аргумента против использования усредненных эталонов и в пользу всех обучающих тестируемых выборок в качестве индивидуальных эталонов. Во-первых, процесс вычисления средней характеристики требует временного выравнивания отрезков двух выборок. Выравнивание проводится автоматически, что может привести к искажению акустической информации вследствие усреднения параметров, соответствующих различным звукам. Это искажение информации, содержащейся в выборках, может привести к понижению качества распознавания. Во-вторых, принятое решение о границах, вычисленных на основе набора усредненных эталонов, может отличаться от того решения, которое рассчитано на основе совокупности тренировочных выборок.
Известно, что в слитной речи фонетическая реализация какого-то конкретного высказывания зависит от нескольких факторов, включая диалект, скорость речепроизводства, манеру произнесения диктора и др. В описываемом устройстве распознавания слитной речи используется множество фонологических правил для описания вариантов, возможных при произнесении каждого высказывания. Многие фонологические правила включают явление стыка, которое, конечно, играет незначительную роль, когда слова разделены паузами. Часто одно и то же фонологическое правило объясняет явление стыка как между словами, так и внутри слова. В связи с этим возникает трудность определения стыка на основе только фонологических правил.
Детальный анализ работ по
распознаванию изолированных
Основные признаки устройства распознавания изолированных слов – иерархическая многоярусная структура и контроль каждого яруса с помощью соответствующих грамматик, чьи символы являются расплывчатыми лингвистическими переменными величинами. Стратегия распознавания зависит от лексической избыточности и основана на группировании единиц речи в широкие фонетические классы, за которым следует классификация в более детальные группы, если остаются еще какие-либо неясности.
Структурная схема устройства подобного типа представлена на слайде. Спектральные образцы, взятые с выхода полосовых фильтров, предварительно обрабатываются для выделения некоторых глобальных признаков, например общей энергии, высокочастотной энергии и отношения низкочастотной энергии к высокочастотной. Лингвистическое описание таких признаков позволяет подразделять входное слово на крупные сегменты, гласный, негласный, пауза и взрывные участки. Полученная цепочка символов затем переводится в множество последовательностей расплывчатых символов, ассоциируемых с широкими классами фонем: гласными, взрывными и фрикативными согласными, сонантами (носовыми и плавными). Синтаксические ограничения на уровне широкого описания позволяют обнаружить 97% сегментов гласных.
Таким образом, при данном подходе учитывается наличие многоярусной структуры, где каждый ярус контролируется с помощью соответствующих грамматик (перечня правил), символы которых являются расплывчатыми лингвистическими переменными величинами. За первоначальной классификацией единиц в широкие фонетические классы следуют классификации в более детальные классы.
Полученные описания входного слова обрабатываются лексическим распознавателем, ограничивающим число возможностей.
На последнем этапе отбор проводится в трех возможных вариантах:
В системах с ориентацией на ярусы входное слово классифицируется как i-я лексическая единица в словаре, если расстояние между фонемным описанием входного слова и словарным, принятое блоком второго яруса и ассоциируемое с i-й лексической единицей, минимальное.
Положительным моментом в эффективности работы системы является большая допустимость искажений, что позволяет порождать ряд гипотез для каждой входной модели. Устройство с низкой степенью допустимости искажений не могло бы породить какой-либо гипотезы о некоторых входных моделях, кроме как "не распознано".
Эффективность распознавания изолированных слов, как известно, сильно снижается с ухудшением качества речи на входе. Известна схема распознавания, которая адаптируется к речи плохого качества. Схема не требует априорной информации относительно природы и силы шума. Предлагается методика, позволяющая разграничить зашумленные и незашумленные параметры с помощью селективной процедуры взвешивания в ходе вычисления конечных расстояний. Используемая схема обеспечивает большую гибкость при обработке поступающей на вход искаженной речи по сравнению с имеющимися схемами распознавания.
В основе действия устройства лежит идентификация в спектре на входе областей соотношения сигнал-помеха. Применяемые на следующих этапах методы основаны на определении весовой функции параметров, полученных на базе входных контрольных данных. В ходе процесса распознавания хранимые эталоны остаются без изменений. С тем, чтобы снизить вычислительную нагрузку и проверить эффективность схем на различных множествах данных, рассматриваются только небольшие словари. Относительная эффективность различных методов оценивается с помощью коэффициента эффективности, основанного на матрице расстояний, который лучше отражает эффективность для небольших множеств данных, чем традиционный статистический коэффициент эффективности в форме процента правильности распознавания.
Информация о работе Обработка речевых данных в прикладном лингвистическом аспекте