ФОНЕМНАЯ СЕГМЕНТАЦИЯ РЕЧЕВОГО СИГНАЛА С ИСПОЛЬЗОВАНИЕМ ВЕЙВЛЕТ-ПРЕОБРАЗОВАНИЯ

1. Введение

В системах автоматического распознавания речи важной задачей является сегментация речи в соответствии с фонетической транскрипцией языка. В процессе распознавания необходимо сначала сегментировать речевой сигнал на характерные элементы, определить тип сегмента, а затем проводить сравнение по различным признакам.

В исследовательских системах и на этапе предварительной разработки возможно использование ручной сегментации. Однако, она требует значительных затрат сил и времени. Кроме того, практически невозможно точно воспроизвести результаты ручной сегментации вследствие субъективности человеческого слухового и зрительного восприятия. Подобных проблем не возникает при автоматической сегментации, которая все же не безошибочна, но дает воспроизводимые результаты. Идеальным случаем было бы создание алгоритма сегментации, работающего с любыми языками и дикторами.

Существует два основных типа алгоритмов сегментации речи. К первому типу относятся алгоритмы, которые производят сегментацию речи при условии, что известна последовательность фонем данной фразы. Другой тип алгоритмов не использует априорной информации о фразе, и при этом границы сегментов определяются по степени изменения акустических характеристик сигнала. Существует и иной тип алгоритмов, которые принимают решение, как на основе априорной информации, так и на основе изменения акустических характеристик [1].

При автоматической сегментации желательно использовать только общие характеристики речевого сигнала, поскольку обычно на этом этапе нет конкретной информации о содержании речевого высказывания.

2. Теоретические подходы к сегментации

Как известно, речевой сигнал состоит из квазистационарных участков, соответствующих голосовым и шипящим фонемам, перемежаемых участками со сравнительно быстрыми изменениями спектральных характеристик сигнала (межфонемные переходы, взрывные и смычные фонемы, внутрисловные переходы речь-пауза). В пределах стационарных участков значительную роль для анализа речи играют спектральные особенности сигнала, определяемые передаточной характеристикой речевого тракта, изменяющейся в процессе артикуляции. Можно сказать, что речевой сигнал характеризуется нелинейными флуктуациями различных масштабов. Поэтому весьма эффективным для анализа речевого сигнала представляется кратномасштабный анализ и вейвлет – преобразование.

Вейвлеты обладают существенными преимуществами по сравнению с преобразованием Фурье, потому что вейвлет-перобразование позволяет судить не только о частотном спектре сигнала, но также о том, в какой момент времени появилась та или иная гармоника. С их помощью можно легко анализировать прерывистые сигналы, либо сигналы с острыми всплесками. Кроме того, вейвлеты позволяют анализировать данные согласно масштабу, на одном из заданных уровней (мелком или крупном). Основная область применения вейвлетных преобразований – анализ и обработка сигналов и функций, нестационарных во времени или неоднородных в пространстве, когда результаты анализа должны содержать не только общую частотную характеристику сигнала но и сведения об определенных локальных координатах, на которых себя проявляют те или иные группы частотных составляющих или на которых происходят быстрые изменения частотных составляющих сигнала.

Если в качестве структурных единиц речи рассматривать фонемы, то задача сегментации сводится к обнаружению межфонемных переходов. В рамках традиционных подходов решение этой задачи весьма проблематично. Однако вейвлет преобразование позволяет решить эту проблему по крайней мере для фонем, соответствующих сравнительно протяженным квазистационарным участкам речевого сигнала. Дело в том, что на межфонемных переходах сигнал претерпевает значительные изменения сразу на многих масштабах исследования, и, соответственно, характеризуется возрастанием вейвлет - коэффициентов для многих уровней детализации, в то время как на стационарных участках фонем вейвлет-коэффициенты оказываются сгруппированными вблизи определенных масштабов. Таким образом, поиск межфонемных границ может быть сведен к отысканию моментов увеличения вейвлет-коэффициентов на значительном количестве уровней масштабирования. При этом существенным является выбор вейвлетного базиса, который должен позволять описывать стационарный речевой сигнал со сравнительно малым числом ненулевых коэффициентов. Возможно использование нескольких вейвлетных базисов для поиска межфонемных переходов в каждом из них с последующим объединением результатов.

3. Сегментация с использованием кратномасштабного анализа

Разложение по вейвлетам речевого сигнала длиной N отсчетов представляет собой сумму [2]:

(3.1)


Здесь:
- коэффициенты апроксимации;
- детализирующие коэффициенты;
и - масштабированные и смещенные версии скейлинг-функции (масштабной функции) и «материнского вейвлета» ;
при этом n является уровнем детализации.
Масштабирование и смещение функций и находится следующим образом:

 (3.2)
(3.3)

4.Описание алгоритма

Был исследован алгоритм сегментации, основанный на кратномасштабном анализе сигнала [3].

1. Речевой сигнал, оцифрованный с частотой дискретизации 22 050 Гц, разбивается на перекрывающиеся окна размером 512 отсчетов с половинным перекрыванием окна.

2. Сигнал раскладывается по U уровням (U=6, использовалось кратномасштабное вейвлет-преобразование в базисе Добеши 8).

3. Для каждого j-го уровня строится числовая последовательность :

, (4.1)

где i – номер скользящего окна, - размер скользящего окна на j-ом уровне, n - размер окна в исходном сигнале (в нашем случае n=512).

4. Используя соотношение (4.2) определяются предполагаемые границы между окнами с номерами i и i+1:

,(4.2)

где =3,5 (определялось экспериментально)

5. Находится общее количество предполагаемых границ для всех уровней sum(ti), i=

6. Выбирая пороговый коэффициент gпор изменяющийся в пределах (0;1), получаем неравенство для поиска межфонемного перехода:

, i=(4.3)

                                     
7. Вычисляем координату границы межфонемного перехода, усредняя сформированный по формуле (4.3) массив найденных границ.

Результат работы алгоритма сегментации приведен на рис. 1.

Рис. 1. Сегментация речевого сигнала

5. Определение оптимального порогового коэффициента

Проведем исследования результатов работы описанного алгоритма при разном gпор для определения его оптимального значения. Параметры записи речевого сигнала: 22050Гц, 16 бит.

Результаты эксперимента приведены в таблице 1.

Таблица 1. результаты фонемной сегментации в зависимости от значения порогового коэффициента

Из результатов эксперимента видно, что с увеличением порогового коэффициента уменьшается чувствительность алгоритма к изменениям речевого сигнала. Так, при значениях 0.2-0.4 заметно выделение лишних сегментов для глассных. При этом хорошо разделяются голосовые звуки, стоящие рядом -оа-, -ия- , разделяется сочетание -кс-. При больших значениях gпор количество лишних сегментов мало, но перестают разделяться голосовые звуки и сочетание “к” с шипящим.

К тому же качество сегментации очень сильно зависит от фонемного состава речевого сигнала. Например для слова “факс” наилучший результата достигается при значении порогового коэффициента gпор= 0.4, для слова “акация” - 0.8. Таким образом для оптимальной работы представленного алгоритма необходимо изменять gпор, т.е. сделать его адаптивным.

Литература

1. Сорокин В.Н., Цыплихин А.И. Сегментация и распознавание гласных. // Информационные процессы, т. 4 , № 2, с. 202-220, 2004 г.
2. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук, т. 171, №5 с. 465-500, 2001 г.
3. Ермоленко Т., Шевчук В. Алгоритмы сегментации с применением быстрого вейвлет-преобразования. //Статьи, принятые к публикации на сайте международной конференции Диалог’2003. www.dialog-21.ru