Обработка речевых данных в прикладном лингвистическом аспекте

Автор: Пользователь скрыл имя, 14 Марта 2012 в 14:58, лекция

Описание работы

Методы обработки и распознавания изолированных слов в современных автоматизированных системах. Некоторые методы автоматического распознавания слитной речи.

Работа содержит 1 файл

02.docx

— 115.27 Кб (Скачать)

ОБРАБОТКА РЕЧЕВЫХ ДАННЫХ В ПРИКЛАДНОМ ЛИНГВИСТИЧЕСКОМ АСПЕКТЕ

          1. Методы обработки и распознавания изолированных слов в современных автоматизированных системах
            1. О двух подходах к переработке речевой информации
            2. Основной принцип автоматического распознавания изолированных слов
            3. Трудности реализации акустико-фонетического яруса при поэлементном распознавании речи
            4. Некоторые усовершенствованные методы автоматического распознавания изолированных слов
          2. Некоторые методы автоматического распознавания слитной речи
            1. Трудности акустико-фонетической сегментации слитной речи
            2. Способы оптимизации автоматического распознавания слитной речи с привлечением информации высших лингвистических ярусов

Методы обработки и распознавания изолированных слов в современных автоматизированных системах

О двух подходах к переработке речевой информации

Все системы, которые должны перерабатывать звучащую речь, в какой-либо форме занимаются декодированием информации, содержащейся в устном высказывании. При этом предполагается, что акустическому  сигналу соответствуют дискретные последовательности языковых знаков, которые передают информацию. Последовательность знаков может быть представлена в  фонетической транскрипции или на более  высоком ярусе как последовательность слов. При ограниченном словаре не обязательно распознавать отдельные  звуки. Можно воспринимать слова  как минимальные значимые единицы. Тогда каждое слово представляет собой отдельный языковой знак. При  этом следует определить, какие признаки речевого сигнала должны быть использованы в первую очередь. Удачным отправным пунктом является проведение спектрального анализа, при котором особенно четко выявляются акустические свойства звуков речи. Для такого анализа необходимо, с одной стороны, выявить спектральные свойства речевого сигнала и, с другой, – учесть те временные процессы, которые важны для восприятия речи. Удачное описание всех явлений возможно с помощью так называемого кратковременного спектра, передающего мгновенное спектральное распределение.

Наряду с проблемами нахождения пригодных методов предварительной  переработки речевого сигнала реализация устройства для ввода речи особенно зависит от цели создания системы в целом. Пока еще неясно, можно ли найти способ, обеспечивающий распознавание речи без каких-либо технических и лингвистических ограничений.

Решающее значение имеет  способ подачи речи на вход системы: вводятся ли изолированно произнесенные слова или слитная речь. В случае изолированных слов нетрудно установить начало и конец слова. Кроме того, акустические признаки зависят только от одного этого слова. Значительно труднее переработать поток устной речи, где нельзя установить четкие границы слов.

В зависимости от предполагаемого  использования устройства имеют  место самые разнообразные решения, которые трудно оценивать и сравнивать друг с другом.

Задача автоматического  распознавания речи состоит в  установлении того, что было сказано, и выдаче результата. Очень важно, чтобы использовалась только та информация, которая содержится в акустических признаках речевого сигнала, и не привлекались данные о содержании высказывания. Эта задача трудно разрешима особенно тогда, когда вводится слитная устная речь. В этом случае акустические признаки отдельных звуков речи подвергаются такому сильному влиянию соседних звуков, что точная фонетическая транскрипция становится невозможной. Та же проблема возникает на границах слов.

При переработке потока звучащей речи большей частью применяются  системы автоматического ее понимания. В противоположность распознаванию  речи их задача состоит в установлении того, о чем говорилось, т. е. в  смысловой интерпретации. Подобные системы широко используют дополнительную информацию, чтобы установить грамматическую или даже смысловую правильность высказывания (предложения). В этих системах можно по смыслу целого правильно оценить и даже дополнить плохо распознанные части предложения, поэтому можно сказать, что эти системы в состоянии осмысленно "угадывать".

Различие между распознаванием и пониманием можно показать на примере  играющего в шахматы компьютера, который обслуживается вводом с  голоса. Распознавание произнесенных  указаний должно сделать возможной  последовательность звуковых символов, которые с помощью списка слов можно объединить в осмысленные  слова. Если отдельные звуки или  слова будут неправильно поняты, то рекомендация будет либо выполнена неправильно, либо непонятна и отключена. При этом в предложении нужно различать лишь немногие возможные слова, что значительно упрощает задачу распознавания.

Основной принцип  автоматического распознавания  изолированных слов

В настоящее время в практике применяются различные устройства, основанные на системах распознавания  целых слов. На слайде Вы видите структурную схему типичного устройства распознавания изолированно произнесенных слов.

Даже при ограничении  ввода с голоса отдельных слов следует учитывать множество  влияющих на распознавание факторов: число дикторов, объем словаря, качество записи речи, затраты на фазу обучения, допустимый процент ошибок, скорость реакции системы и т.д. Если слова произносятся четко, то с помощью существующих методов можно использовать словарь, содержащий не менее 100 слов. Приспособление к разным дикторам происходит большей частью путем "доучивания" системы. Чтобы при записи избежать шумовых помех, на практике используются шумозащищенные микрофоны. Однако ввод речи по телефонной сети наталкивается на дополнительные трудности из-за помех и различных условий передачи.

При пословном распознавании  речевой сигнал (в данном случае – слово) записывается через микрофон и подвергается предварительной обработке. При этом весьма распространена спектральная обработка с помощью ряда полосовых фильтров. Эта процедура может быть проведена в аналоговой форме и в реальном масштабе времени со сравнительно небольшими затратами.

Трудной проблемой является временная нормировка, с помощью которой должны быть выровнены различные скорости речи. Для этого обычно рекомендуется сегментация потока речи на более мелкие отрезки (сегменты). При последующей классификации в ЭВМ сравниваются образцы (прототипы) всех допущенных слов. В заключение выбирается самый похожий образец, который определяется как распознанное слово. При этом в принципе не используются знания законов фонетики или лингвистики, поскольку слово рассматривается как единое целое.

Трудности реализации акустико-фонетического яруса при  поэлементном распознавании речи

Основная трудность как для распознавания, так и для понимания речи заключена в выделении надежных признаков на акустико-фонетическом ярусе. Хотя речь и представляет собой сигнал, изменяющийся во времени, на первом этапе могут изучаться стационарные участки сегментов с целью выделения различительных акустических параметров.

Существует мнение, что  для характеристики коротких отрезков речевого спектра следует использовать небольшое число параметров (n=4...7), вычисленных на основе грубого спектрального анализа. Данные параметры позволяют составить правильную классификацию стационарных участков звуков (гласных, а также глухих фрикативных согласных), произнесенных разными дикторами. Эксперименты по распознаванию слов, основанный на этих параметрах, дает довольно хорошие результаты при использовании слов, отличающихся только одной фонемой.

Форманта – термин фонетики, обозначающий акустическую характеристику звуков речи (прежде всего гласных), связанную с уровнем частоты голосового тона и образующую тембр звука.

Тем, кто работает в области речевого анализа, хорошо известно, что поиск формант – нелегкая задача: максимальные точки спектров могут перейти из одной области в другую или смешаться. Совершенно очевидно, что, с одной стороны, в ряде случаев появляется несколько максимальных значений, которые нельзя ассоциировать с формантами, а с другой, – не сохраняются некоторые значительные формы спектра. Другая трудность заключается в определении максимальных точек в рамках формант: возможно ли утверждать, что одна точка соответствует одной форманте, другая – другой, когда неизвестны ни условия записи, ни голос диктора, ни произнесенная фонема. К сожалению, нет. Причины этого следует искать в индивидуальном тембре голоса, степени наличия шума в спектре и т. д. Все эти факторы варьируют с изменением громкости голоса и намерения говорящего. Однако даже если основные форманты найдены, что может быть сделано в том случае, если мы имеем дело с определенным диктором, произносящим определенный звук в лабораторных условиях. Тогда остается проблема определения значений формантных частот для данного гласного у разных дикторов. Наблюдаемый разброс так велик, что почти невозможно различить близкие фонемы только на основании формантных частот.

Исследования, имевшие целью поиски формант и их значений, привело к следующим результатам:

  1. точное выделение формант представляет собой не совсем надежную операцию;
  2. составление фонетически корректной классификации спектров звуков возможно даже с помощью схематического (огрубленного) описания акустических характеристик;
  3. точность спектрального анализа является избыточной.

В ходе ряда исследований были разработаны и экспериментально проверены несколько программ по распознаванию отдельных слов, использующих ограниченное число частотных параметров и делающих основной упор на описание временных изменений. Характеристики, полученные в результате различения похожих слов, оказались достаточно показательными в плане подтверждения надежности используемых параметров, хотя это относится главным образом к экспериментам с одним диктором.

Одной из наиболее сложных  задач, возникающих при анализе  речи, является надежное распознавание  пауз, а также глухих и звонких речевых сигналов. Хотя для решения этой задачи и был предложен ряд методов, все они оказались недостаточно удовлетворительными. В основе нового подхода лежит использование спектральных характеристик каждого из трех классов сигналов.

Сложность проблемы надежного  распознавания глухих, звонких речевых сигналов и пауз объясняется рядом причин:

  1. Наличием большого динамического диапазона самого речевого сигнала. Так, нередко диапазон уровня речевых сигналов одного диктора изменяется от 20 до 40 дБ, не говоря уже о варьировании диапазона для различных дикторов.
  2. Акустическая форма колебаний не дает точную информацию о классификации сигналов, т.е. голосовые связки вибрируют (в случае звонких речевых сигналов), но акустическая форма не указывает на периодичность.

Обычно для распознавания этих трех классов сигналов используют: уровневый тест – для паузы и речевых сигналов, логическое решение – для звонких и глухих речевых сигналов, в основе которого лежат значения определенных характеристик сигнала (энергии, числа пересечений через нуль и т.д.). Кроме того, при различении звонких и глухих речевых сигналов часто используют характеристики, полученные с помощью детектора высоты тона. Плюс широкое распространение получил статистический подход к решению проблемы различения паузы, звонких и глухих речевых сигналов. Тем не менее, несмотря на все положительные результаты, процент ошибок при отнесении к одному из трех классов сигналов часто оказывался слишком высоким (для телефонных линий – до 11,7%).

Для получения хорошего распределения  пауз при передаче речи важно иметь  выборку сигналов. Так, например, для звонких звуков в выборку следует включать классы звонких сигналов, а именно гласные, звонкие фрикативные, носовые и т.д.

Постепенно исследователи  выяснили, что ошибки возникают, как правило, на границах классов сигналов. В скором времени оказалось, что, если для вычисления сходства использовать всю информация о сигнале, а не ограниченный набор характеристик, то с помощью нелинейного сглаживания можно исправить ошибки и преобразовать, например, короткий незвонкий интервал между двумя паузами в одну паузу.

Известны различные способы  автоматического распознавания  взрывных согласных:

  1. Классификация, основанная на переходах различных формант, а также анализе длительности этих переходов.
  2. Система, в которой для получения надежной классификации применяются характеристики взрыва. При классификации звуков по месту артикуляции берутся следующие параметры: длительность взрыва, отношение энергий высоких частот к энергии низких частот, а также измерения изменений энергетической кривой. Классификация п, б и т, д проводится, по существу, с использованием информации об изменении центра тяжести спектра. Для классификации к и г используется также информация о спектре взрыва с дополнительными данными о форманте последующего гласного.
  3. Система для классификации звонких взрывных согласных, в которой при переходе от взрывного согласного к последующему гласному отслеживаются формантные частоты с целью обнаружения правильной траектории каждой из формант.
  4. Наиболее точным является автоматический метод, основанный на использовании информации о переходах формант. Этот метод отличается от всех ранее упомянутых. Фонемы рассматриваются как наборы фонетических признаков. Каждый признак соотносится, в свою очередь, по определенным правилам с набором акустических параметров. Объединение различных акустических параметров и фонетических признаков делает данную систему более емкой, чем это имело место в системах, упомянутых выше.

Информация о работе Обработка речевых данных в прикладном лингвистическом аспекте