Задачи поддержки принятия решений
Разработка методов автоматического распознавания речи с использованием математической обработки речевых сигналов в настоящее время осуществляется посредством анализа амплитудно - временного представления звуковых волн, являющихся носителем речевой информации [1]. Используемое до настоящего времени для этих целей преобразование Фурье является недостаточно эффективным, т.к. предоставляет информацию только о частотных характеристиках сигнала, теряя при этом его временные характеристики.
Речевой сигнал является примером нестационарного процесса, в котором информативным является сам факт изменения его частотно-временных характеристик. Для анализа таких процессов лучше использовать базисные функции, обладающие свойствами частотно-временной локализации. Этим требованиям отвечает вейвлет-преобразование, которое является обобщением спектрального анализа. Применяемые для этой цели базисы, называемые вейвлетами, являются функциями двух аргументов – масштаба и сдвига. В отличие от традиционного преобразования Фурье, вейвлет-преобразование обеспечивает двумерное представление исследуемого сигнала в частотной области в плоскости частота-положение. Аналогом частоты при этом является масштаб аргумента базисной функции (чаще всего – времени), а положение характеризуется ее сдвигом. Это позволяет разделять крупные и мелкие особенности сигналов, одновременно локализуя их на временной шкале. Таким образом, вейвлет-анализ можно охарактеризовать как спектральный анализ локальных возмущений [2].
На практике используется непрерывный и дискретный вейвлет-анализ. Нет однозначного мнения, какое из этих направлений наиболее предпочтительно при обработке речевых сигналов. Непрерывные вейвлеты допускают более наглядное и зрелищное представление результатов анализа сигнала в виде локальных максимумов и скелетонных графиков вейвлет-коэффициентов при непрерывных переменных. Но в то же время такое преобразование требует больших вычислительных затрат. С дискретными вейвлетами такой проблемы не возникает. В силу этого дискретные вейвлеты приводят обычно к более точному преобразованию сигнала [3].
Для выбора наилучшего метода вейвлет-анализа были построены две системы распознавания изолированных слов, где сигнал обрабатывался с помощью непрерывного или дискретного вейвлет-преобразований. В обеих системах применялась фонемная сегментация слов.
В качестве информативных признаков, описывающих речевой сигнал, в первой системе выбрано расположение точек максимумов в вейвлет - преобразовании исходного сигнала - так называемый скелет максимумов. Экспериментальные исследования выполнялись с использованием вейвлета Морле. Была создана БД эталонов, содержащая на начальном этапе 5 фонем: А, О, У, К, Р; проведено тестирование работы системы. Средний коэффициент распознавания составил 63%.
При использовании дискретного, а именно ортогонального вейвлет-анализа, в качестве признаков выбраны коэффициенты детализации ортогонального вейвлет - преобразования. Аналогично, была сформирована БД эталонов этих же фонем А, О, У, К, Р. Средний коэффициент распознавания в этом случае – 82%.
Полученные результаты дают основание полагать, что ортогональный вейвлет-анализ наиболее предпочтителен для обработки речевых сигналов, однако, в данном случае эксперименты носили предварительный характер. В частности, не проводилась работа по оптимизации признаков, полученных на основе вейвлетов. В настоящий момент в этих направлениях проводятся исследования.
Литература
1. Методы автоматического распознавания речи: В 2-х книгах. Пер. с англ./Под ред. У. Ли. – М.: Мир, 1983. – Кн. 1. 328 с., ил.
2. Новиков Л.В. Основы вейвлет-анализа сигналов. Учебное пособие. 1999. 152 с.: ил.
3. Дремин И.М., Иванов О.В., Нечитайло В.А. Вейвлеты и их использование. //Успехи физических наук, т. 171, №5 с. 465-500, 2001 г.
Дополнительные материалы: | Полный текст доклада |
Ваши комментарии Обратная связь |
[Головная страница] [Конференции] |
© 1996-2000, Институт вычислительных технологий СО РАН, Новосибирск
© 1996-2000, Сибирское отделение Российской академии наук, Новосибирск