Устройство ввода речевой информации на английском языке

Автор: Дмитрий Хритов, 06 Ноября 2010 в 16:04, творческая работа

Описание работы

Не так давно появились средства речевого ввода, которые позволяют пользователю вместо клавиатуры, мыши и других устройств использовать речевые команды (или проговаривать текст, который должен быть занесен в память в виде текстового файла). Возможности таких устройств достаточно ограничены, хотя они постоянно совершенствуются. Проблема не в том, чтобы записать речь, подвергнуть ее дискретизации и ввести коды в компьютер (при современном уровне техники это несложно), а чтобы распознать смысл речи и представить ее, например, в текстовой форме, допускающей последующую компьютерную обработку. Например, программа “Kurzweil Voice 1.0 for Windows” обеспечивает распознавание (на английском языке) всех речевых команд для навигации в среде “Windows”, а в режиме диктовки текста способна распознать до 40 тысяч слов, произносимых в среднем для человека темпе речи (требуя, однако, не менее 16 Мбайт ОЗУ и не менее 50 Мбайт на винчестере лишь для самой себя). Многие специалисты связывают с прогрессом устройств речевого ввода будущее компьютерной техники, считая такие устройства ведущими элементами ее интеллектуализации.
Цель данной курсовой работы: анализ и назначение особенностей устройства ввода речевой информации.
В данной работе будет рассмотрена структура устройства и будет дано его описание.
Задачи курсовой работы:
- ознакомиться с теоретическими основами;
- рассмотреть принципы работы устройства

Работа содержит 1 файл

(Хритов) Устройство ввода речевой информации на английском языке.doc

— 1.22 Мб (Скачать)

     Входной сигнал с микрофона MIC поступает на усилитель-фильтр, где он усиливается до размаха в несколько вольт и ограничивается верхней частотой до 4 кГц. С выхода усилителя-фильтра сигнал поступает на вход встроенного АЦП. Обработанный сигнал программно записывается в RAM по линиям, предусмотренным протоколом SPI (рисунок 6).

Рисунок 6. Запись в память

       После окончания  записи сигнал может быть прочитан из памяти микроконтроллером (рисунок 7).

      Рисунок 7. Чтение из памяти

       Микропроцессор MСU выдает через встроенный ЦАП сигналы  на усилитель-фильтр U2, где они усиливаются и ограничиваются по верхней частоте до 4 кГц. В качестве ЦАП в микроконтроллере работает встроенный широтно-импульсный модулятор, который с помощью дифферинцирующих сигналов и интегрирующей цепи может восстановить форму исходного сигнала (рисунок 8).

      Рисунок 8. Восстановление сигнала при помощи широтно-импульсной модуляции

Отображение режимов  работы устройства производят светоизлучающие диоды LED красного цвета свечения при высоком уровне сигнала на соответствующем выходе микроконтроллера. Не следует путать термины "понимание" и "распознавание" речи. В то время как второй непосредственно относится к технологии преобразования акустических речевых сигналов в последовательность символов машинной кодировки, первый подразумевает анализ более высоких уровней (прагматический, семантический и т. д.) и формирование на его основе представления о смысловом содержании высказывания. Объединение этих двух понятий, имевшее место вплоть до последнего времени и призванное способствовать построению интеллектуальных систем автоматического понимания речи на основе анализа человеческой модели распознавания, не принесло значительного выигрыша в связи с проблемами, общими для всего набора технологий искусственного интеллекта. Дальнейшее разграничение задач укрепилось благодаря коммерческому успеху узко специализированных систем, ни в малейшей степени не нуждающихся, например, в модуле анализа контекста высказывания.

      Традиционно процесс распознавания речи подразделяется на несколько этапов. На первом - производится дискретизация непрерывного речевого сигнала, преобразованного в электрическую  форму. Обычно частота дискретизации составляет 10-11 кГц, разрядность - 8 бит, что считается оптимальным для работы со словарями небольшого объема (10-1000 слов) и соответствует качеству передачи речи телефонного канала (3 Гц - 3,4 кГц). Понятно, что увеличение объема активного словаря должно сопровождаться повышением частоты оцифровки и в некоторых случаях поднятием разрядности. На втором этапе дискретный речевой сигнал подвергается очистке от шумов и преобразуется в более компактную форму. Сжатие производится посредством вычисления через каждые 10 мс некоторого набора числовых параметров (обычно не более 16), с минимальными потерями информации, описывающей данный речевой сигнал. Состав набора зависит от особенностей реализации системы. Начиная с 70-х годов наиболее популярным методом (практически стандартом) построения сжатого параметрического описания стало линейно-предиктивное кодирование (ЛПК), в основе которого лежит достаточно совершенная линейная модель голосового тракта. На втором месте по популярности находится, вероятно, спектральное описание, полученное с помощью дискретного преобразования Фурье. Очень хорошие результаты, однако, могут быть достигнуты и при использовании других методов, часто менее требовательных к вычислительным ресурсам, например, клипирования. В этом случае регистрируется количество изменений знака амплитуды речевого сигнала и временные интервалы между ними. Получаемая в результате последовательность значений, представляющих собой оценку длительностей периодов сохранения знака амплитудой, несмотря на кажущуюся примитивность метода, достаточно полно представляет различия между произносимыми звуками. На таком методе предобработки основана, в частности, система распознавания речи, разработанная в конце 80-х в НИИ счетного машиностроения (Москва).

      Временной (10 мс) интервал вычисления был определен  и обоснован экспериментально еще  на заре развития технологии автоматического  распознавания речи. На этом интервале дискретный случайный процесс, представляющий оцифрованный речевой сигнал, считается стационарным, то есть, на таком временном интервале параметры голосового тракта значительно не изменяются. Следующий этап - распознавание. Хранимые в памяти компьютера эталоны произношения по очереди сравниваются с текущим участком последовательности, описывающих входной речевой сигнал. В зависимости от степени совпадения выбирается лучший вариант и формируется гипотеза о содержании высказывания. Здесь мы сталкиваемся с очень существенной проблемой - необходимостью нормализации сигнала по времени. Темп речи, длительность произношения отдельных слов и звуков даже для одного диктора варьируется в очень широких пределах. Таким образом, возможны значительные расхождения между отдельными участками хранимого эталона и теоретически совпадающим с ним входным сигналом за счет их временного рассогласования. Достаточно эффективно решать данную проблему позволяет разработанный в 70-х алгоритм динамического программирования и его разновидности (алгоритм Витерби). Особенностью таких алгоритмов является возможность динамического сжатия и растяжения сигнала по временной оси непосредственно в процессе сравнения с эталоном. С начала 80-х все более широкое применение находят модели, позволяющие на основе многоуровневого вероятностного подхода к описанию сигнала производить временную нормализацию и прогнозирование наиболее вероятных продолжений высказывания, что значительно ускоряет процесс перебора эталонов и повышает надежность распознавания. Несмотря на то, что одним из наиболее перспективных направлений для внедрения систем распознавания речи может стать сфера компьютерных игр, узкоспециализированных реабилитационных программ для инвалидов, телефонных и информационных систем, ведущие разработчики речевого распознавания наращивают усилия по достижению универсализации и увеличения объемов словаря даже в ущерб сокращению процедуры предварительной настройки на диктора. А между тем именно эти приложения предъявляют очень низкие требования к объему распознаваемого словаря наряду с жесткими ограничениями, налагаемыми на предварительную настройку. Более того, в то время как распознавание спонтанной слитной речи практически топчется на месте с 70-х годов в силу неспособности компьютера эффективно анализировать неакустические характеристики речи, претендующие на роль бога творцы от программирования в погоне за ушедшей молодостью информатики изобретают велосипед при рождении каждого нового поколения процессоров и рапортуют о достижении каких-то чудесных показателей безошибочности и скорости обработки речевого сигнала, естественным образом прирастающих в линейной зависимости от увеличения производительности массовых процессоров. Даже Билл Гейтс, являющий собой в некотором смысле идеал прагматизма, оказался не свободен от исторически сложившихся стереотипов. Начав в 95-96 году с разработки собственной универсальной системы распознавания речи и окрылившись первыми и, пожалуй, сомнительными успехами, в 97-м он провозгласил очередную эру повсеместного внедрения речевого интерфейса. Средства речевого ввода планируется включить в стандартную поставку новой версии Windows NT - чисто офисной операционной системы. При этом руководитель Microsoft упорно повторяет фразу о том, что скоро можно будет забыть о клавиатуре и мыши. Вероятно, он планирует продавать вместе с коробкой Windows NT акустические шлемы вроде тех, которые используют военные летчики и пилоты "Формулы 1". Кроме того, неужели Microsoft в ближайшем будущем прекратит выпуск Word, Exel и т. д.? Управлять графическими объектами экрана голосом, не имея возможности помочь руками, более чем затруднительно. Говоря о речевом интерфейсе, часто делают упор на распознавание речи, забывая о другой его стороне - речевом синтезе. Заглавную роль в этом перекосе сыграло бурное развитие в последнее время систем, ориентированных на события (event-driven), в значительной степени подавляющих отношение к компьютеру как активной стороне диалога. Еще относительно недавно (лет тридцать назад) подсистемы распознавания и синтеза речи рассматривались как части единого комплекса речевого интерфейса. Однако интерес к синтезу пропал достаточно быстро. Во-первых, разработчики не встретили даже десятой доли сложностей, с которыми они столкнулись при создании систем распознавания. Во-вторых, в отличие от распознавания синтез речи не демонстрирует значительных преимуществ перед другими средствами вывода информации из компьютера. Практически вся его ценность заключается в дополнении речевого ввода. Для человека естественным и привычным является именно диалог, а не монолог. Как следствие недооценки необходимости речевого ответа появляется повышенная утомляемость операторов, монотонность речи и ограниченность применимости речевого интерфейса. Широко известен факт непроизвольной подстройки голоса под голос собеседника. Почему не использовать эту способность человека для увеличения безошибочности распознавания речи компьютером за счет корректировки произношения оператора с помощью двустороннего диалога? Кроме того, вполне возможно, что правильно организованный и модулированный синтез может в значительной степени снизить риск появления у оператора заболеваний, связанных с монотонностью речи и дополнительным напряжением. Повсеместное проникновение графического пользовательского интерфейса было обеспечено за счет совместного применения графического монитора, средства вывода графической информации, и мыши - для ее ввода, а также, не в последнюю очередь, благодаря гениальным концептуальным находкам в области оконного интерфейса фирмы Xerox. Будущее речевого интерфейса в не меньшей степени зависит от умения современных исследователей и разработчиков не только создать технологическую основу речевого ввода, но и гармонично слить технологические находки в единую логически завершенную систему взаимодействия человек - компьютер. Основная работа еще впереди. 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

      2 ПРОЕКТИРОВАНИЕ УСТРОЙСТВА  

     При проектировании устройства, учитывая анализ входных данных и требования к выполнению работы, я рассмотрел несколько условий при которых это устройство работает нормально:

     1. Размер печатной платы устройства  должен быть сопоставим с размером  самого устройства и располагаться  внутри корпуса недалеко от  микрофона;

     2. Высота элементов на плате по возможности должна быть не более 
10 мм. После монтажа радиоэлементов и пайки для повышения надёжности печатной платы, на основание платы наносится защитное покрытие. Основная цель покрытия - предотвратить возникновение на плате 
продуктов коррозии, способных проводить ток. В качестве материала 
для защиты покрытия используют электроизоляционные лаки;

     3. ПП должна быть прямоугольной формы с соотношением сторон не более чем 1:2. Это необходимо для обеспечения достаточной надежности. ПП при воздействии на нее механических усилий со стороны автоматической укладочной головки;

      4. Устройство должно иметь зоны свободные от элементов для фиксации их в направляющих координатного стола сборочного автомата;

     5. Программа, при работе устройства должна распознавать те слова, которые внесены в ее словарь (в данном случае должен применяться словарь английского языка);

     6. Опорное напряжение для АЦП должно браться напрямую с шины питания;

     7. К выходу широтно-импульсного модулятора должна быть подключена интегрирующая цепь;

     8. Сигнал от микрофона должен усиливаться микросхемой и подаваться на вход АЦП;

     9. Для обеспечения работы процессора  на частоте 8 МГц должны быть  применены элементы - кварцевый резонатор  и конденсаторы;

     10. К порту микроконтроллера должны подключаться кнопки управления и светодиоды для индикации режимов работы устройства.

      2.1 ТЕХНИЧЕСКОЕ ЗАДАНИЕ

Общие сведения

- Полное наименование системы: “Учет микросхем”

- Заказчик: ООО “Microsystem”

- Исполнитель:  НТП “System PRO”

- Начало  работ: 15.05.2010

- Окончание работ: 25.06.2010

- Финансирование работ: Форма расчета - перевод денежных средств на счет №2015165052; стоимость заказа 15 тысяч рублей; порядок расчета – первая часть средств перечисляется на счет 10.05.2010 в размере 45%, вторая – по окончании работ и сдаче заказчику проекта.

- Предъявление заказчику результатов работ осуществляется в срок окончания работ. Предварительное ознакомление с ходом выполнения работ осуществляется в ходе разработки ПО.

Назначение  и цели создания системы

      Назначение  системы  - учет устройств на складе.

      Цели  создания системы – автоматизация производственной деятельности по учету устройств на складе.

Характеристика  объектов автоматизации

      На  складе установлен ПК со следующими параметрами: Pentium IV, 512Mb RAM, 40G HDD, Windows 98/NT/2000/XP, подключение к ГВС отсутствует.

Требования  к системе

1. Данные об устройствах должны храниться в текстовых файлах.

2. ПО должно учитывать следующие параметры устройств:

- Название (маркировка)

- Разрядность

- Мощность

- Время переработки

- Интерфейс

- Напряжение

3. ПО  должно выполнять следующие типы  запросов:

    - Выводить общее количество устройств

    -Производить поиск по названию (вывод всех технических характеристик)

Порядок контроля и приемки системы

      Тестирование  ПО осуществляется разработчиком в соответствии с ТЗ.  Приемка ПО осуществляется представителем стороны заказчика в срок. Последующее тестирование ПО заказчиком осуществляется в течение 30 дней со дня приемки. Все выявленные в ходе тестирования отклонения устраняются исполнителем.

Технические требования к программе

      Для работы программы требуется следующая минимальная конфигурация аппаратных и программных средств:

    1. Процессор – PentiumIV
    2. Объем ОЗУ – 512 Мб
    3. Свободное пространство на диске – 50 Мб
    4. Монитор с разрешением не менее 800x600, TrueColor
    5. Клавиатура – Windows-совместимая
    6. Манипулятор типа “мышь”
    7. Операционная система – Windows 98/NT/2000/XP

Требования  к документированию

     Сопроводительная  документация на ПО отвечает ГОСТ 34.201-89 и требованиям заказчика. 

     2.2 ОПИСАНИЕ

      Данная  программа  сортирует и выводит на экран информацию о состоянии товара на предприятии и ведёт учёт товара на складе. Например:

    - Выводит общее количество устройств

    -Производит поиск по названию (вывод всех технических характеристик)

      Также она обеспечивает все удобства и учитывает все параметры устройств. Данные об устройствах хранятся в текстовых файлах.

ПО учитывает следующие параметры устройств:

- Название (маркировка)

- Разрядность

- Мощность

- Время переработки

- Интерфейс

- Напряжение

Программа имеет  следующие технические характеристики:

    1. Процессор – PentiumIV
    2. Объем ОЗУ – 512 Мб
    3. Свободное пространство на диске – 50 Мб
    4. Монитор с разрешением не менее 800x600, TrueColor
    5. Клавиатура – Windows-совместимая
    6. Манипулятор типа “мышь”
    7. Операционная система – Windows 98/NT/2000/XP
 
 
 
 
 
 
 
 

                                                       
 
 
 
 

                                                                                                  ДА 
 
 

Информация о работе Устройство ввода речевой информации на английском языке