Информационная система "Конференции"

VI Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (с участием иностранных ученых)

29-31 октября 2005 года, г. Кемерово, Россия

Тезисы докладов

информационные технологии

Система распознавания речевых команд

Корицкий Д.В.

Сибирский Государственный аэрокосмический университет им. академика М. Ф. Решетнева (Красноярск)

В данной работе описывается разработанная система распознавания речевых команд. Для улучшения качества распознавания используется взвешивающий низкочастотный фильтр, для выделения речевого сигнала выбраны такие параметры, как уровень мгновенной энергии и число нулей интенсивности, а в качестве характеристических признаков применяются кепстральные коэффициенты, дельта и дельта-дельта параметры и мгновенная энергия сигнала. Для распознавания вычисляется коэффициент корреляции с эталонами. Средний процент распознавания 97,5%.

В разработанной системе распознавания речевых команд процесс распознавания речевого сигнала состоит из следующих этапов:

1) Ввод речевого сигнала – осуществлялся с микрофона с частотой дискретизации 8 кГц, разрядность 16 бит.

2) Для спектрального выравнивания речевого сигнала его следует пропустить через взвешивающий низкочастотный фильтр s'(n)=s(n)-a*s(n-1), где s - исходный сигнал, s’- отфильтрованный сигнал, a=0,95 – параметр фильтрации. Взвешивающий фильтр повышает спектр сигнала приблизительно на 20 dB и усиливает область спектра выше 1 кГц, выделяя наиболее важные аспекты речевого спектра.

3) Для выделения речевого сигнала используется уровень энергии и число нулей интенсивности. По первым 10 мс вычисляются среднее значение и дисперсия энергии Et и числа нулей интенсивности Zt и пороги Te = max(Et)/25, Tz = max(Zt)/5. Участки сигнала в которых Et >Te и Zt < Tz являются речью.

4) Далее речевой сигнал делится на M равных частей, перекрывающихся на 2/3 (для предотвращения потери информации на границе сигнала), а затем выполняются преобразования внутри каждого сегмента. Для снижения граничных эффектов, возникающих в результате сегментации, каждый сегмент умножается на оконную функцию Хэмминга.

5) В качестве характеристических признаков, описывающих речь, использовались кепстральные коэффициенты, кратковременная энергия сигнала, дельта параметры и дельта-дельта параметры. Кепстральные коэффициенты C = Ф'(log|Ф(X)|) , где - прямое преобразование Фурье, - Ф' - обратное, X – сигнал.

6) Таким образом для каждого речевого сигнала вычисляется вектор признаков w = (c1, ..., cn, dc1, ..., dcn, E1, ..., En). В качестве меры близости двух векторов был использован коэффициент корреляции.

7) Для распознавания была надиктована база из 250 слов (числа от “0” до “10”) с различными вариациями произношения. База случайным образом разделялась на две равные части – обучающую и тестирующую выборки. Из обучающей выборки формировался банк эталонов слов.

Для слова из тестовой выборки вычислялся коэффициент корреляции со всеми эталонами, на основании которого выбирался ближайший эталон. Слово, которому он соответствовал, и являлось результатом распознавания.

8) Для различных обучающих и тестирующих выборок из надиктованной базы процент распознавания составил от 94% до 100% в среднем процент распознавания составил 97,5%.

Литература:

1. Анализ и синтез речи. Сборник научных трудов. Под редакцией Б.М.Лобанов. Минск: АН БССР Институт технической кибернетики, 1991г.

2. Цифровая обработка речевых сигналов Л. Р. Рабинер, Р. В. Шафер. М: “Радио и связь”, 1981 г.

3. Методы автоматического распознавания речи. Под редакцией У.Ли. М.: МИР, 1983г.

4. Р.К.Потапова Речевое управление роботом. М.: Радио и связь 1989г.

5. В.Я.Чучупал Исследование алгоритмов фонетического анализа на основе нейронных сетей. М.: ВЦ АН СССР, 1989г.

6. Modular Neural Networks for Speech Recognition . / Jurgen Fritsch. - School of Computer Science Carnegie Mellon University, Pittsburgh PA, 1996.

Примечание. Тезисы докладов публикуются в авторской редакции

Ваши комментарии
Обратная связь

[Головная страница]
[Конференции]