Автор: Пользователь скрыл имя, 14 Марта 2012 в 14:58, лекция
Методы обработки и распознавания изолированных слов в современных автоматизированных системах. Некоторые методы автоматического распознавания слитной речи.
ОБРАБОТКА РЕЧЕВЫХ ДАННЫХ В ПРИКЛАДНОМ ЛИНГВИСТИЧЕСКОМ АСПЕКТЕ
Методы обработки и распознавания изолированных слов в современных автоматизированных системах
О двух подходах
к переработке речевой
Все системы, которые должны
перерабатывать звучащую речь, в какой-либо
форме занимаются декодированием информации,
содержащейся в устном высказывании.
При этом предполагается, что акустическому
сигналу соответствуют
Наряду с проблемами нахождения
пригодных методов
Решающее значение имеет способ подачи речи на вход системы: вводятся ли изолированно произнесенные слова или слитная речь. В случае изолированных слов нетрудно установить начало и конец слова. Кроме того, акустические признаки зависят только от одного этого слова. Значительно труднее переработать поток устной речи, где нельзя установить четкие границы слов.
В зависимости от предполагаемого
использования устройства имеют
место самые разнообразные
Задача автоматического распознавания речи состоит в установлении того, что было сказано, и выдаче результата. Очень важно, чтобы использовалась только та информация, которая содержится в акустических признаках речевого сигнала, и не привлекались данные о содержании высказывания. Эта задача трудно разрешима особенно тогда, когда вводится слитная устная речь. В этом случае акустические признаки отдельных звуков речи подвергаются такому сильному влиянию соседних звуков, что точная фонетическая транскрипция становится невозможной. Та же проблема возникает на границах слов.
При переработке потока звучащей
речи большей частью применяются
системы автоматического ее понимания.
В противоположность
Различие между распознаванием
и пониманием можно показать на примере
играющего в шахматы
Основной принцип автоматического распознавания изолированных слов
В настоящее время в практике
применяются различные
Даже при ограничении ввода с голоса отдельных слов следует учитывать множество влияющих на распознавание факторов: число дикторов, объем словаря, качество записи речи, затраты на фазу обучения, допустимый процент ошибок, скорость реакции системы и т.д. Если слова произносятся четко, то с помощью существующих методов можно использовать словарь, содержащий не менее 100 слов. Приспособление к разным дикторам происходит большей частью путем "доучивания" системы. Чтобы при записи избежать шумовых помех, на практике используются шумозащищенные микрофоны. Однако ввод речи по телефонной сети наталкивается на дополнительные трудности из-за помех и различных условий передачи.
При пословном распознавании речевой сигнал (в данном случае – слово) записывается через микрофон и подвергается предварительной обработке. При этом весьма распространена спектральная обработка с помощью ряда полосовых фильтров. Эта процедура может быть проведена в аналоговой форме и в реальном масштабе времени со сравнительно небольшими затратами.
Трудной проблемой является временная нормировка, с помощью которой должны быть выровнены различные скорости речи. Для этого обычно рекомендуется сегментация потока речи на более мелкие отрезки (сегменты). При последующей классификации в ЭВМ сравниваются образцы (прототипы) всех допущенных слов. В заключение выбирается самый похожий образец, который определяется как распознанное слово. При этом в принципе не используются знания законов фонетики или лингвистики, поскольку слово рассматривается как единое целое.
Трудности реализации
акустико-фонетического яруса
Основная трудность как для распознавания, так и для понимания речи заключена в выделении надежных признаков на акустико-фонетическом ярусе. Хотя речь и представляет собой сигнал, изменяющийся во времени, на первом этапе могут изучаться стационарные участки сегментов с целью выделения различительных акустических параметров.
Существует мнение, что для характеристики коротких отрезков речевого спектра следует использовать небольшое число параметров (n=4...7), вычисленных на основе грубого спектрального анализа. Данные параметры позволяют составить правильную классификацию стационарных участков звуков (гласных, а также глухих фрикативных согласных), произнесенных разными дикторами. Эксперименты по распознаванию слов, основанный на этих параметрах, дает довольно хорошие результаты при использовании слов, отличающихся только одной фонемой.
Форманта – термин фонетики, обозначающий акустическую характеристику звуков речи (прежде всего гласных), связанную с уровнем частоты голосового тона и образующую тембр звука.
Тем, кто работает в области речевого анализа, хорошо известно, что поиск формант – нелегкая задача: максимальные точки спектров могут перейти из одной области в другую или смешаться. Совершенно очевидно, что, с одной стороны, в ряде случаев появляется несколько максимальных значений, которые нельзя ассоциировать с формантами, а с другой, – не сохраняются некоторые значительные формы спектра. Другая трудность заключается в определении максимальных точек в рамках формант: возможно ли утверждать, что одна точка соответствует одной форманте, другая – другой, когда неизвестны ни условия записи, ни голос диктора, ни произнесенная фонема. К сожалению, нет. Причины этого следует искать в индивидуальном тембре голоса, степени наличия шума в спектре и т. д. Все эти факторы варьируют с изменением громкости голоса и намерения говорящего. Однако даже если основные форманты найдены, что может быть сделано в том случае, если мы имеем дело с определенным диктором, произносящим определенный звук в лабораторных условиях. Тогда остается проблема определения значений формантных частот для данного гласного у разных дикторов. Наблюдаемый разброс так велик, что почти невозможно различить близкие фонемы только на основании формантных частот.
Исследования, имевшие целью поиски формант и их значений, привело к следующим результатам:
В ходе ряда исследований были разработаны и экспериментально проверены несколько программ по распознаванию отдельных слов, использующих ограниченное число частотных параметров и делающих основной упор на описание временных изменений. Характеристики, полученные в результате различения похожих слов, оказались достаточно показательными в плане подтверждения надежности используемых параметров, хотя это относится главным образом к экспериментам с одним диктором.
Одной из наиболее сложных задач, возникающих при анализе речи, является надежное распознавание пауз, а также глухих и звонких речевых сигналов. Хотя для решения этой задачи и был предложен ряд методов, все они оказались недостаточно удовлетворительными. В основе нового подхода лежит использование спектральных характеристик каждого из трех классов сигналов.
Сложность проблемы надежного распознавания глухих, звонких речевых сигналов и пауз объясняется рядом причин:
Обычно для распознавания этих трех классов сигналов используют: уровневый тест – для паузы и речевых сигналов, логическое решение – для звонких и глухих речевых сигналов, в основе которого лежат значения определенных характеристик сигнала (энергии, числа пересечений через нуль и т.д.). Кроме того, при различении звонких и глухих речевых сигналов часто используют характеристики, полученные с помощью детектора высоты тона. Плюс широкое распространение получил статистический подход к решению проблемы различения паузы, звонких и глухих речевых сигналов. Тем не менее, несмотря на все положительные результаты, процент ошибок при отнесении к одному из трех классов сигналов часто оказывался слишком высоким (для телефонных линий – до 11,7%).
Для получения хорошего распределения пауз при передаче речи важно иметь выборку сигналов. Так, например, для звонких звуков в выборку следует включать классы звонких сигналов, а именно гласные, звонкие фрикативные, носовые и т.д.
Постепенно исследователи выяснили, что ошибки возникают, как правило, на границах классов сигналов. В скором времени оказалось, что, если для вычисления сходства использовать всю информация о сигнале, а не ограниченный набор характеристик, то с помощью нелинейного сглаживания можно исправить ошибки и преобразовать, например, короткий незвонкий интервал между двумя паузами в одну паузу.
Известны различные способы автоматического распознавания взрывных согласных:
Информация о работе Обработка речевых данных в прикладном лингвистическом аспекте