Автор: Пользователь скрыл имя, 31 Марта 2011 в 02:31, лабораторная работа
Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод становится наиболее часто используемым при оценке основных параметров речевого сигнала, например, период основного тона, спектр, функция площади речевого тракта, а также при сокращенном представлении речи с целью ее низкоскоростной передачи и экономного хранения. Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов.
Лабораторная
работа №4
Введение.
Линейное
предсказание является одним из наиболее
эффективных методов анализа
речевого сигнала. Этот метод становится
наиболее часто используемым при
оценке основных параметров речевого
сигнала, например, период основного
тона, спектр, функция площади речевого
тракта, а также при сокращенном представлении
речи с целью ее низкоскоростной передачи
и экономного хранения. Основной принцип
метода линейного предсказания состоит
в том, что текущий отсчет речевого сигнала
можно аппроксимировать линейной комбинацией
предшествующих отсчетов. Коэффициенты
предсказания при этом определяются однозначно
минимизацией среднего квадрата разности
между отсчетами речевого сигнала и их
предсказанными значениями (на конечном
интервале). Коэффициенты предсказания
– это весовые коэффициенты, используемые
в линейной комбинации.
Модель, наиболее удобная для решения задач линейного предсказания представлена на рис.1. В этом случае общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией:
(1)
Эта система
возбуждается импульсной последовательностью
для вокализованных звуков речи и
шумом для невокализованных. Таким
образом, модель имеет следующие параметры:
классификатор локализованных и нелокализованных
звуков, период основного тона для вокализованных
сегментов, коэффициент усиления G и коэффициенты
цифрового фильтра. Все эти параметры
во времени изменяются медленно.
Рис.1.
Структурная схема упрощенной модели
речеобразования
Для системы рис.1 отсчет речевого сигнала s(n) связан с сигналом возбуждения u(n) простым разностным уравнением:
(2)
Линейный предсказатель с коэффициентами определяется как система, на выходе которой имеем:
(3)
Такие
системы использовались для уменьшения
дисперсии погрешности
(4)
Погрешность предсказания определяется как:
(5)
Из (5) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией:
(6)
Сравнение (2) и (5) показывает, что если сигнал точно удовлетворяет модели (2) и , то e(n)=Gu(n). Таким образом, фильтр погрешности предсказания A(z) является обратным фильтром для системы H(z), соответствующей уравнению (1), т.е.
(7)
Основная задача анализа на основе линейного предсказания заключается в непосредственном определении параметров оп речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования уравнения (7). Основным подходом является определение параметров предсказания таким образом, чтобы минимизировать дисперсию погрешности на коротком сегменте сигнала. При этом предполагается, что полученные параметры являются параметрами системной функции H(z) в модели речеобразования.
Кратковременная
энергия погрешности
(8)
(9)
, (10)
где - сегмент речевого сигнала, выбранный в окрестности отсчета n, т.е.
. (11)
Параметры можно получить, минимизируя в (10) путем вычисления , i=1,2,..,p, что приводит к системе уравнений:
,
, (12)
где - значение , минимизирующее .
Если ввести определение:
, (13)
тогда (12) можно записать в более компактном виде:
, (14)
Эта система из p уравнений с p неизвестными может быть решена достаточно эффективным способом для получения неизвестных коэффициентов предсказания, минимизирующих средний квадрат погрешности предсказания на сегменте . Используя (10) и (12), покажем, что средняя квадратическая погрешность предсказания имеет вид:
(15)
и, используя (14), можно выразить в виде:
, (16)
Таким образом, общая погрешность предсказания состоит из двух слагаемых, одно из которых является постоянным, а другое – зависит от коэффициентов предсказания.
Для
решения системы уравнений
Один из способов определения пределов в (8)-(10) и (12) основан на предположении, что сигнал равен нулю вне интервала . Это удобно записать в виде:
, (17)
где ω(m) – окно конечной длительности, равною нулю вне интервала.
Значение этого предположения при решении вопроса о пределах суммирования в выражении для можно рассматривать на примере соотношения (5). Очевидно, что если отличен от нуля только на интервале , то соответствующая погрешность предсказания для предсказания порядка p будет отлична от нуля на интервале . В этом случае имеет вид:
. (18)
Пределы при вычислении в (13) совпадают с пределами (18). Но, поскольку равно нулю вне интервала , легко показать, что:
, , (19а)
Можно выразить в виде:
, , (19а)
Легко видеть, что в данном случае совпадает с кратковременной автокорреляционной функцией сигнала, вычисленной для (i-k). Это означает, что:
, (20)
где
. (21)
Поскольку - четная функция, то:
. (22)
Таким образом, (14) можно представить в виде:
(23)
Аналогично минимальный средний квадрат погрешности предсказания:
(24)
Систему уравнений (23) можно записать в матричной форме:
(25)
Матрица
размером
является симметричной и такой, что
элементы на любой диагонали равны между
собой.
Другой основной подход к определению сегмента речевого сигнала и пределов суммирования заключается в том, что фиксируется интервал, на котором вычисляется средний квадрат погрешности, и рассматривается влияние этого обстоятельства на вычисление , другими словами, если определить:
(26)
то выражается формулой:
, (27)
Изменив индексы суммирования, (27) можно выпазить в идее:
, (28а)
или
,
(28б)
В (28) используется значение сигнала вне интервала . Действительно, для вычисления для всех требуемых значений i и k необходимо использовать значение на интервале . Для того, чтобы это не противоречило пределам суммирования в (26), в данном случае используются необходимые значения сигнала без ограничения последовательности отсчетов окном конечной длительности, уменьшающимся к концам интервала, как это имело место в автокорреляционном методе. Таким образом, здесь используются отсчеты и вне интервала . Данный метод похож на вычисление модифицированной автокорреляционной функции, это приводит не к автокорреляционной, а к взаимнокорреляционной функции между двумя очень сходными, но не одинаковыми сегментами речевого сигнала конечной длительности. Хотя различие между (28) и (19) сводится к небольшим вычислительным подробностям, система уравнений:
, (29а)
Обладает свойствами, которые значительно влияют на метод решения и свойства получаемого оптимального предсказателя. В матричной форме система уравнений имеет вид:
(29б)
В этом случае, поскольку , матрица размером является квазикорреляционной симметричной. Действительно, можно сказать, что диагональные элементы связаны соотношением:
(30)
Метод
анализа, основанный на вычислении
, называется ковариационным
методом, поскольку матрица обладает
свойствами ковариационной матрицы.
Коэффициент усиления G можно определить путем согласования энергии сигнала и линейно-предсказанных отсчетов. Постоянную G можно включить в сигнал возбуждения и ошибку предсказания (2) и (3). Сигнал возбуждения можно представить в виде:
(31а)
при этом погрешность предсказания будет представлена в виде:
(31б)
В случае, когда т.е. коэффициенты предсказания совпадают с коэффициентами модели,
(32)
т.е. входной
сигнал модели пропорционален погрешности
предсказания с коэффициентом
Поскольку (32) является приближенным (т.е. справедливо лишь при равенстве параметров модели и предсказателя), в общем случае определить G непосредственно по погрешности предсказания невозможно. Целесообразно допустить, что энергия погрешности предсказания равна энергии сигнала возбуждения, т.е.
(33)
В этом случае для определения G по каким-либо параметрам, например по и коэффициентам корреляции, необходимы некоторые предположения относительно u(n). Для вокализованной речи естественно предположить, что , т.е. возбуждение представляет единичный отсчет в нулевой момент времени. Для этого необходимо, чтобы порядок предсказателя был достаточным для описания как передаточной функции речевого тракта, так и эффекта возбуждения. Для невокализованных сегментов целесообразно предположить, что u(n) представляет собой белый шум с нулевым средним и единичной дисперсией.
Информация о работе Оповещение абонентов с использованием GSM