Конференции ИВТ СО РАН

V Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям с участием иностранных ученых

1-3 ноября, г. Новосибирск, Россия

Тезисы докладов

Задачи поддержки принятия решений

Фонемная сегментация речевого сигнала с использованием вейвлет-преобразования

Медведев М.С.

Красноярский Государственный Технический Университет (Красноярск)

В системах автоматического распознавания речи важной задачей является сегментация речи в соответствии с фонетической транскрипцией языка. Как известно, речевой сигнал состоит из квазистационарных участков, соответствующих голосовым и шипящим фонемам, перемежаемых участками со сравнительно быстрыми изменениями спектральных характеристик сигнала. Можно сказать, что речевой сигнал характеризуется нелинейными флуктуациями различных масштабов. Поэтому весьма эффективным для анализа речевого сигнала представляется кратномасштабный анализ и вейвлет – преобразование. Вейвлеты обладают существенными преимуществами по сравнению с преобразованием Фурье, потому что вейвлет-перобразование позволяет судить не только о частотном спектре сигнала, но также о том, в какой момент времени появилась та или иная гармоника.

Если в качестве структурных единиц речи рассматривать фонемы, то задача сегментации сводится к обнаружению межфонемных переходов. На них сигнал претерпевает значительные изменения сразу на многих масштабах исследования, и, соответственно, характеризуется возрастанием вейвлет - коэффициентов для многих уровней детализации, в то время как на стационарных участках фонем вейвлет-коэффициенты оказываются сгруппированными вблизи определенных масштабов. Таким образом, поиск межфонемных границ может быть сведен к отысканию моментов увеличения вейвлет-коэффициентов на значительном количестве уровней масштабирования.

Был подробно рассмотрен алгоритм фонемной сегментации, основанный на кратномасштабном анализе сигнала. Одним из важных параметров, от которого зависит результат сегментации, является пороговый коэффициент gпор, определяющий чувствительность алгоритма к межфонемным переходам. Для определения оптимального значения данного параметра проводился эксперимент, в котором оценивалось качество сегментации в зависимости от величины коэффициента.

Из результатов эксперимента видно, что при малых значениях порога заметно выделение лишних сегментов для гласных, но при этом хорошо разделяются голосовые звуки, стоящие рядом. При больших значениях количество лишних сегментов мало, но перестают разделяться голосовые звуки и сочетание “к” с шипящим. К тому же качество сегментации очень сильно зависит от фонемного состава речевого сигнала. Таким образом для оптимальной работы представленного алгоритма необходимо изменять gпор, т.е. сделать его адаптивным.

Дополнительные материалы: Полный текст доклада
Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]