Речевые технологии и системы перевода

Автор: Пользователь скрыл имя, 08 Января 2012 в 12:00, контрольная работа

Описание работы

Писать о речевом интерфейсе сложно. С одной стороны, тема абсолютно не нова, с другой - активное развитие и применение этой технологии только начинается

Речевые технологии - технология ХХI в. благодаря которой появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне.

Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру.

Содержание

Введение 3
Перспективы речевого интерфейса 4
Базовая технология 7
Что такое распознавание речи? 8
Главные трудности фонемного подхода 9
Речевой вывод 10
Методы синтеза речи 11
Формирование просодических характеристик 11

Заключение 13

Список использованной литературы 14

Работа содержит 1 файл

электронный офис.doc

— 75.50 Кб (Скачать)

    Содержание 
 

Введение 3

  1. Перспективы речевого интерфейса 4
  2. Базовая технология 7
  3. Что такое распознавание речи? 8
  4. Главные трудности фонемного подхода 9
  5. Речевой вывод 10
  6. Методы синтеза речи 11
  7. Формирование просодических характеристик 11

Заключение 13

Список  использованной литературы 14 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Введение 
 

    Писать  о речевом интерфейсе сложно. С  одной стороны, тема абсолютно не нова, с другой - активное развитие и применение этой технологии только начинается

    Речевые технологии - технология ХХI в. благодаря которой появилась возможность управлять компьютером с помощью голоса, диктовать текст, слушать, а не читать книги, а в перспективе общаться с компьютером на интеллектуальном уровне.

    Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру.

    Темп  речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либо имеют нечеткие границы. Выше изложенные аргументы подтверждают актуальность выбранной темы.

    Целью написания контрольной  работы является изучение проблем обнаруженных при создании речевых технологий.

      В соответствии с целью контрольной работы особое внимание было уделено трудностям при создании речевых технологий. 
 
 
 
 
 

  1. Перспективы речевого интерфейса
 

    Писать  о речевом интерфейсе сложно. С  одной стороны, тема абсолютно не нова, с другой - активное развитие и применение этой технологии только начинается (в который раз). С одной стороны, успели сформироваться устойчивые стереотипы и предубеждения, с другой - несмотря на почти  полвека настойчивых усилий не нашли разрешения вопросы, стоявшие еще перед родоначальниками речевого ввода. Как бы то ни было, продолжаются поиски такого интерфейса, который устроил бы всех. Собственно говоря, это как раз то, к чему человечество всегда стремилось в общении с компьютером.

    Исследователи недалеко продвинулись за прошедшие десятки лет, что заставляет некоторых специалистов крайне скептически относиться к самой возможности реализации речевого интерфейса в ближайшем будущем. Другие считают, что задача уже практически решена. Впрочем, все зависит от того, что следует считать решением этой задачи.

    Построение  речевого интерфейса распадается на три составляющие:

    I. Первая задача состоит в том,  чтобы компьютер мог «понять» то, что ему говорит человек, то есть он доложен уметь извлекать из речи человека полезную информацию. Пока что, на нынешнем этапе, эта задача сводится к тому, чтобы извлечь из речи смысловую ее часть, текст (понимание таких составляющих, как скажем, интонация, пока вообще не рассматривается). То есть эта задача сводится к замене клавиатуры микрофоном.

    Препятствием  для окончательного решения данной задачи служит то, что никто до сих  пор толком не знает, каким образом  можно расчленить речь, чтобы извлечь из нее те составляющие, в  которых содержится смысл. В том звуковом потоке, который выдается при разговоре, где нельзя различить ни отдельных букв, ни слогов.

    II. Вторая задача состоит в том, чтобы компьютер воспринял смысл сказанного. Пока речевое сообщение состоит из некоего стандартного набора понятных компьютеру. Однако вряд ли такой подход будет удобнее, чем ввод этих же команд с клавиатуры или при помощи мыши. Пожалуй, даже удобнее просто щелкнуть мышкой по иконке приложения, чем четко выговаривать. В идеале компьютер должен четко «осмысливать» естественную речь человека, а также ее понимать.

    По  мнению большинства специалистов, данная задача не может быть решена без помощи  систем искусственного интеллекта.

    III. Третья задача состоит в том,  чтобы компьютер мог преобразовать информацию, с которой он оперирует, в речевое сообщение, понятное человеку.

    По  сути, синтез речи - это чисто математическая задача, которая в настоящее время решена на довольно высоком уровне. И в ближайшее время, скорее всего, будет совершенствоваться только ее техническая реализация.

    Таким образом, удел речевого интерфейса - всего лишь дублирование голосом команд, которые могут быть введены с клавиатуры или при помощи мыши. А здесь его преимущества весьма сомнительны. Впрочем, есть одна область, которая для многих может оказаться очень привлекательной. Это речевой ввод текстов в компьютер. Действительно, чем стучать по клавиатуре, гораздо удобнее продиктовать все компьютеру, чтобы он записал услышанное в текстовый файл. Здесь вовсе не требуется, чтобы компьютер «осмысливал» услышанное, а задача перевода речи в текст более или менее решена. Недаром большинство выпускаемых ныне программ «речевого интерфейса» ориентированы именно на ввод речи.

    Первый - и, пожалуй, основной - вопрос касается области применения. Поиск приложений, где распознавание речи могло бы продемонстрировать все свои достоинства, вопреки устоявшемуся мнению, является задачей далеко не тривиальной. Сложившаяся практика применения компьютеров вовсе не способствует широкому внедрению речевого интерфейса.

    Для подачи команд, связанных с позиционированием  в пространстве, человек всегда пользовался и будет пользоваться жестами, то есть системой «руки - глаза». На этом принципе построен современный графический интерфейс. Перспектива замены клавиатуры и мыши блоком распознавания речи абсолютно отпадает. При этом выигрыш от возложения на него части функций управления настолько мал, что не смог предоставить достаточных оснований даже для пробного внедрения в массовых компьютерах на протяжении уже более тридцати лет. Именно таким сроком оценивается существование коммерчески применимых систем распознавания речи.

    Для иллюстрации аргументов возможно, несколько  спорных утверждений рассмотрению перспектив и основных проблем применения систем речевого ввода текстов, особенно активно продвигаемых в последнее время.

    Речевой интерфейс естественен для человека и обеспечивает дополнительное удобство при наборе текстов. Однако даже профессионального диктора может не обрадовать перспектива в течение нескольких часов диктовать малопонятливому и немому компьютеру. Кроме того, имеющийся опыт эксплуатации подобных систем свидетельствует о высокой вероятности заболевания голосовых связок операторов, что связано с неизбежной при диктовке компьютеру монотонностью речи.

    Часто к достоинствам речевого ввода текста относят отсутствие необходимости в предварительном обучении. Однако одно из самых слабых мест современных систем распознавания речи - чувствительность к четкости  произношения - приводит к потере этого, казалось бы, очевидного преимущества. Печатать на клавиатуре оператор учится в среднем 1-2 месяца. Постановка правильного произношения может занять несколько лет.

    Существует  и еще одно неприятное ограничение  применимости, сознательно не упоминаемое создателями систем речевого ввода. Оператор, взаимодействующий с компьютером через речевой интерфейс, вынужден работать в звуковом изолированном отдельном помещении либо пользоваться звукоизолирующим  шлемом. Иначе он будет мешать работе своих соседей по офису, которые, в свою очередь, создавая дополнительный шумовой фон, будут значительно затруднять работу речевого распознавателя. Таким образом, речевой интерфейс вступает в явное противоречие с современной организационной структурой предприятий, ориентированных на коллективный труд. Ситуация несколько смягчается с развитием удаленных форм трудовой деятельности, однако еще достаточно долго самая естественная для человека производительная и потенциально массовая форма пользовательского интерфейса обречена на узкий круг применения.

    Ограничения применимости систем распознавания  речи в рамках наиболее популярных традиционных приложений заставляют сделать вывод о необходимости поиска потенциально перспективных для внедрения речевого интерфейса приложений за пределами традиционной офисной сферы, что подтверждается коммерческими успехами узкоспециализированных речевых систем.

    Будущее речевого интерфейса в не меньшей  степени зависит  от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия «человек-компьютер». Основная работа еще впереди. 
 

  1. Базовая технология
 

    Не  следует путать термины «понимание»  и распознавание» речи. В то время как второй непосредственно относится к  технологии преобразования акустических речевых сигналов в последовательность символов машинной кодировки, например ASCII. первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представления о смысловом содержании высказывания. Дальнейшее разграничения заданы, укрепилось благодаря коммерческому успеху  узкоспециализированных  систем, ни в малейшей степени не нуждающихся, например, в модуле анализа контекста высказывания.

    Традиционно  процесс  распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала, преобразованного в электрическую форму.    
 

  1. Что такое распознавание  речи?
 

    На  первый взгляд, все очень просто: вы произносите фразу, на которую техническая система реагирует адекватно. На самом деле за столь простой идеей кроются огромные сложности.

    Почему  же между постановкой задачи и ее решением лежит дистанция огромного размера? Распознавание речи - молодая, развивающаяся технология. Ее очертания пока зыбки и изменчивы. Поэтому в данный момент пока больше вопросов, чем ответов.

    Говоря  о речи, мы должны различать такие  понятия, как «речь», «звуковая речь», «звуковой сигнал», «сообщение», «текст».

      В нашем случае, в приложении  к задаче распознавания такие понятия, как «речь» и «звуковая речь» означают одно и то же – некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при помощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может использоваться для обратного воспроизведения  речи.

    То  есть можно поставить знак эквивалентности  между звуковой речью и ее представлением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая полезная для получателя информация, а не только текст. Например, если интересоваться не словами, а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

    Но  здесь мы сталкиваемся с одним  противоречием. Текст, как известно, состоит из букв, слов, предложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск компьютера звучание каждой отдельной буквы, а потом попробуем скомпоновать  из этих звуков речь, у нас ничего не получится.

    Люди  уже довольно давно догадались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем существует. Есть даже такой раздел лингвистики - фонетика. Большинство авторов даже для одного и того же языкового диалекта приводят разное количество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сигнал состоит непосредственно из кусочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

    Поначалу  ученые рассматривали речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фонемы. Однако дальнейшие исследования речевых сигналов никаких фонем не обнаружили. 
 

  1. Главные трудности фонемного  подхода
 

    Темп  речи варьируется в широких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимаются не пропорционально. Например, гласные изменяются значительно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых звуков есть свои закономерности. (Полугласные - это звуки при генерации, которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в обиходе считаются согласными.). Из непрерывного речевого потока довольно непросто выделить какие-либо речевые единицы. Многие звуки «слипаются» либо имеют нечеткие границы. 
 

Информация о работе Речевые технологии и системы перевода