Автор: Пользователь скрыл имя, 14 Марта 2012 в 14:58, лекция
Методы обработки и распознавания изолированных слов в современных автоматизированных системах. Некоторые методы автоматического распознавания слитной речи.
Контекстно-зависимая сегментация допускает связь используемого множества признаков и порогов с фонетическим контекстом. Например, если измерения указывают, что определенная временная область состоит из сонорных звуков, границы внутри данной области могут быть обнаружены наилучшим образом с помощью исследования огибающих формантной частоты и нахождения небольших спадов в широкополосной спектральной энергии. Гласные обычно характеризуются значениями трех формант низких частот. Выбор признаков, характеризующих фонемы, может снизить влияние внешних условий записи речи и специфических акустических признаков произнесения дикторов.
Для решения проблемы сегментации звучащей речи большое значение имеет обращение к слогу. При этом в современной лингвистике условно разграничиваются фонетический и фонологический типы слога. Понятие фонологического слога тесно переплетается с исследованием фонотактики того или иного языка. Фонотактический подход к определению границ слога подразумевает понимание слога в качестве единицы, в рамках которой сочетаемость фонем того или иного языка подчиняется определенным правилам и правила фонемной комбинаторики описываются наиболее подходящим образом.
При анализе единицы, в рамках которой слоги подлежат идентификации, принимается во внимание, что слог может быть рассмотрен в качестве фонологически вычленяемой единицы. Из этого следует, что при определении, разграничении и описании слога необходимо использовать фонологические критерии.
При обращении к слоговой структуре в целях решения прикладных задач уместно напомнить, что иерархическая организация единиц, принадлежащих разным языковым ярусам, существенно нарушается в условиях реальной речевой деятельности в процессе как речепроизводства, так и восприятия речи. При распознавании устного текста взаимопроникновение языковых ярусов выступает наиболее отчетливо, в связи с чем возрастает функциональная нагрузка, падающая на слог. Из характеристик слога извлекается информация о различительных признаках фонем, ритмической структуре речевого высказывания, степени ударения и т.д. "Через слог" определяются фонологические особенности фонемной комбинаторики, вероятности появления тех или иных сочетаний.
При разработке систем автоматического распознавания речи все большее распространение получает метод использования слоговой информации. В настоящее время наиболее широко известны три подхода к автоматическому распознаванию речи с опорой на слог:
В первом случае при сегментации
возникает много ошибок, во втором
и третьем увеличивается
Метод использования слоговых эталонов является удачным компромиссным решением, предусматривающим учет большей части коартикуляторных моделей фонем при незначительном увеличении объема памяти и скорости обработки, однако он ограничен прежде всего способом представления вводимого материала (изолированно произнесенными словами) и ориентацией на одного диктора.
Недостатками существующих методов слоговой сегментации являются:
Способы оптимизации автоматического распознавания слитной речи с привлечением информации высших лингвистических ярусов
Использование синтаксиса и семантики в процессе распознавания слитной звучащей речи находится на начальной стадии. Известно, что применение данных областей знаний в распознающих системах позволяет, с одной стороны, осуществить передачу произнесенных фраз, а с другой, – сориентировать распознавание на информацию, полезную для понимания. Действие синтаксического анализатора, приспособленного для систем распознавания речи, реализуется с учетом двух моментов: 1) необходимость придать смысл сказанному заставляет использовать модель естественных языков и 2) неуверенность в результатах, полученных с помощью идентификации фонем или слов, ведет к применению новых алгоритмов. Ввод в ЭВМ синтаксиса и семантики, бесспорно, содействует повышению эффекта машинного распознавания слитной речи. Хотя синтаксис – не панацея, позволяющая устранить все трудности акустического распознавания, тем не менее, включение синтаксиса и семантики в системы, понимающие речь, оправдано логикой. Ведь человек не строит процесс понимания на идентификации звуков, а использует все возможности общения.
В настоящее время созданы системы, способные обеспечивать семантическую связь в процессе распознавания. Система устанавливает, что предложения, которые она "слышит", – многозначные и правдоподобные. Далее такая система прогнозирует, что в определенных речевых контекстах могут возникать определенные коммуникативные типы общения, и поэтому она интерпретирует распознаваемые предложения соответствующим образом. Целью семантических и прагматических операций является превращение знаний о значениях, намерениях и коммуникативных условиях в эффективное действие. Наиболее эффективным действием является действие, способствующее процессу распознавания, поиску правдоподобной грамматической структуры речевого высказывания. Кроме того, важными действиями являются построение гипотезы о намерении и интерпретация грамматически построенного высказывания. Таким образом, синтаксическая и семантическая информация используется в системах для выполнения следующих трех действий: смещения распознавания в сторону ожидаемых форм; интерпретации семантически достоверных последовательностей; правильной интерпретации намерения диктора после того, как предложение полностью распознано.
Результаты многочисленных опытов показали, что смысловая интерпретация речевого высказывания – это активный процесс, следствие сложной поведенческой деятельности человека. На понимание сообщения оказывает воздействие совокупность факторов высшего порядка: знание априорного характера, опыт, учет ситуации общения, социальный ценз и др. Дополнительно к входному акустическому сигналу слушающий в процессе восприятия и интерпретации сообщения использует различные источники информации: ситуацию, контекст, неязыковые ориентиры, структуру языкового высказывания (лексическую, синтаксическую, фонетико-фонологическую), прошлый опыт в данной области и т.д. Одним из современных направлений информатики является создание машин, выполняющих задачи, обычно требующие приложения человеческого разума. Естественно, что создание систем подобного рода немыслимо без использования знаний о закономерностях протекания акта языкового общения. Создание искусственного интеллекта развивается с учетом теоретического подхода и технической оснащенности. Теоретический подход обеспечивает понимание интеллекта во всей широте его проявления и включает решение таких задач, как специфика работы мозга, познавательные стороны деятельности человека, специфика лингвистического кода и т.д. Прогресс в развитии искусственного интеллекта определяется тем, в какой степени будут решены вышеуказанные задачи и насколько успешно ассимилируются полученные результаты. Все это свидетельствует о той огромной важности, которую приобретает решение задачи постижения "тайн" речевого общения в целом.
Традиционная модель распознавания речи предполагает, что путем отслеживания акустических параметров и применения одного из средств поиска по набору эталонов фонематических сегментов можно установить фонематические ряды, предполагаемые говорящим. Затем эти-ряды могут быть применены для проведения лингвистического анализа на более высоком ярусе выделения слов, фраз и смысла высказываний. Успешное понимание произнесенных предложений (фраз) включает употребление той или иной лингвистической структуры в сочетании с наиболее достоверной звуковой информацией. Вследствие избыточности структуры, возникающей из-за наличия лингвистических знаний слушающего, говорящему не обязательно кодировать все свойства, характеризующие высказывание в его звуковой форме. Те свойства, которые он выбирает для кодирования, могут отличаться при нескольких повторах даже одного и того же предложения (фразы). В некоторых высказываниях при произношении могут выпадать фонемы и даже целые слоги, поэтому система распознавания речи, основанная на фонетическом обнаружении фонем и их различительных признаков, часто не оправдывает себя. К этому несовершенству и изменчивости добавляется сложность кодирования фонематической информации, включающей частично совпадающие звуковые признаки и зависимость от окружения. Фонологические и акустико-фонетические правила должны включаться в систему для того, чтобы можно было описать сложный процесс перекодирования акустической информации в звуковые и далее фонемные признаки.
Понимание речи (человеком или машиной) включает использование определенных вероятностей полученных сигналов для определения синтаксической структуры и семантического содержания высказывания. Опираясь на информацию о поверхностной синтаксической структуре, воспринимающий использует фонологические принципы при установлении фонетической формы.
Для выдвижения предварительных синтаксических гипотез, требующихся на самых первых шагах работы распознающей системы независимо от полного сегментного (фонематического) анализа, предлагается использовать просодические признаки для сегментации непрерывного потока речи на предложения и словосочетания, а также определения ударных слогов в этих сочетаниях.
Просодия – учение об ударении, тоне, интонации, то есть о супрасегментных единицах звучания.
Данный подход может быть определен как система анализа через синтез или как схема предварительного анализа, состоящая из следующих компонентов:
Следуя предварительному анализу, лексический блок "предлагает" возможные лексические варианты для ввода в структуру различительными признаками представления сигнала на входе и лексическими единицами словаря. Контекстуальная связанность, а именно связанность лексических категорий, встречающаяся в определенном положении в структуре предложения, и возможных слов в определенных семантических и заданных контекстах, используется для управления процессом лексического прогнозирования. Подходящие структуры, предписанные грамматикой, и ограничения, о которых можно сказать, что они основаны на семантических областях знания, сверяются с лексическими и синтаксическими гипотезами, возникшими после предварительного анализа вводимой речи. Гипотезатор предложений контролирует помощью фонологических правил порядок, при котором порождаются акустико-фонетические формы. Сравнение вводимых и внутренних моделей проводится на базе фонемных различительных признаков, а также просодических показателей границ фраз, синтагм, ударных сегментов (слогов, гласных). Основными компонентами при данном подходе являются грамматика, словарь, семантическая модель, которые образуют основные блоки гипотезатора предложений, фонологических правил и коммутатора.
Задача алгоритма с синтаксической ориентацией заключается в обеспечении наилучшей временной сегментации, а также в проведении оптимального грамматического анализа. С помощью; алгоритма определяется та последовательность справочных моделей, каждая из которых представляет собой отдельное слово, произнесенное изолированно. Эта последовательность должна быть оформлена грамматически и лучше всего соответствовать тестовому; высказыванию. Синтаксически ориентированная многоярусная; процедура является полезным методом распознавания произнесенных слитно слов при решении задач средней трудности.
Применение синтаксиса и семантики, бесспорно, содействует повышению эффекта машинного распознавания звучащей слитной речи. Можно надеяться на возможность в недалеком будущем свободно вести диалог с машиной, как бы ни была она "туга на ухо". Конечно, синтаксис – не единственный источник, который позволит устранить трудности акустического распознавания. Представляется логичным включить все лингвистические элементы, необходимые для понимания сообщения. Так, на синтаксическом ярусе предполагается проводить уточнение неоднозначно опознанного на акустическом уровне речевого сигнала в соответствии с синтаксическими нормами распознаваемого языка с учетом норм согласования слов, особенностей их грамматического оформления, сочетаемости с предлогами, участия в различных синтаксических конструкциях. Этот ярус лингвистической информации особенно важен три распознавании языков, имеющих большое разнообразие грамматических форм, в частности, русского. Синтаксический анализатор рассматривается как предсказующее устройство, работающее в терминах зависимостей. Дерево синтаксического разбора строится с помощью набора синтаксических правил, которые должны храниться в лингвистической базе.
Информация о работе Обработка речевых данных в прикладном лингвистическом аспекте