Автор: Пользователь скрыл имя, 08 Января 2012 в 12:00, контрольная работа
Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой - активное развитие и применение этой технологии только начинается
Речевые технологии - технология ХХI в. благодаря которой появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне.
Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру.
Введение 3
Перспективы речевого интерфейса 4
Базовая технология 7
Что такое распознавание речи? 8
Главные трудности фонемного подхода 9
Речевой вывод 10
Методы синтеза речи 11
Формирование просодических характеристик 11
Заключение 13
Список использованной литературы 14
Речевой вывод информации из компьютера - проблема не менее важная, чем речевой ввод. Это вторая часть речевого интерфейса, без которой разговор с компьютером не может состояться. Имеется в виду прочтение вслух текстовой информации, а не проигрывание заранее записанных звуковых файлов. То есть выдачу в речевой форме заранее не известной информации.
Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, аналогичный тому, какой мы имеем благодаря монитору. Конечно, трудновато было бы передать рисунок голосом. Но вот услышать электронную почту или результат поиска в базе данных в ряде случаев было бы довольно удобно, особенно если в это время взгляд занят чем-либо другим
С точки зрения пользователя, наиболее разумное решение проблемы синтеза речи - это включение речевых функций (в перспективе - многоязычных, с возможностями перевода) в состав операционной системы. Компьютеры будут озвучивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т.д. Важное, замечанием пользователь должен иметь достаточные возможности по настройке голоса компьютера, в частности, при желании, суметь выключить голос совсем.
Вышеупомянутые
функции и сейчас были бы не лишними
для лиц, имеющих проблемы со зрением.
Для всех остальных они создадут новое
измерение удобства пользования компьютером
и значительно снизят нагрузку на нервную
систему и на зрение.
Стоит
вспомнить и о самой технологии
синтеза речи. При рассмотрении какой-либо
текста или статьи, то можно увидеть, что
он состоит из слов, разделенных пробелами
и знаками препинания. Произнесение слов
зависит от их расположения в предложении,
а интонация фразы - от знаков препинания.
Более того, довольно часто и от типа применяемой
грамматической конструкции: в ряде случаев
при произнесении текста слышится явная
пауза, хотя какие-либо знаки препинания
отсутствуют. Наконец, произнесение зависит
и от смысла слова! Сравните, например,
выбор одного из вариантов за'мок» или
«замо'к» для одного и того же слова «замок».
К
просодическим характеристикам высказывания
относятся его тональные, акцентные и
ритмические характеристики. Их физическими
аналогами являются частота основного
тона, энергия и длительность. Таким образом,
от системы синтеза следует ожидать примерно
того же, то есть, что она сможет понимать
имеющийся у нее на входе текст, используя
методы искусственного интеллекта. Однако
этот уровень развития компьютерной технологии,
еще не достигнут, и большинство современных
систем автоматического синтеза стараются
корректно синтезировать речь с эмоционально
нейтральной интонацией. Между тем, даже
эта задача на сегодняшний день представляется
очень сложной.
Заключение
Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.
Препятствием для окончательного решения данной задачи служит то, что никто до сих пор толком не знает, каким образом можно расчленить речь, чтобы извлечь из нее те составляющие, в которых содержится смысл. В том звуковом потоке, который выдается при разговоре, где нельзя различить ни отдельных букв, ни слогов.
При создании речевых технологий выявилось ряд проблем, которые нужно решить, прежде чем приступать к работе.
Как известно, темп речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально.
Также в идеале компьютер должен четко «осмысливать» естественную речь человека, а также ее понимать, что создает немало проблем, для решения которых, по мнению большинства специалистов, не может быть выполнена без помощи систем искусственного интеллекта.
Таким
образом, как бы то ни было, продолжаются
поиски такого интерфейса, который устроил
бы всех. Собственно говоря, это как раз
то, к чему человечество всегда стремилось
в общении с компьютером.
Список
использованной литературы