Xl Туполевские чтения : всероссийская (с международным участием) молодежная научная конференция. Казань, 8-10 октября 2003 г., тезисы докладов. Т. 3

Система распознавания речевых команд для управления операционной системой MS Windows Н.Д. Торгашин Научный руководитель: М.Н. Фаворская, к.т.н., доцент Сибирский государственный аэрокосмический университет им. М.Ф. Решетнёва Рассматриваемая система распознавания отдельно произносимых ре­ чевых команд из конечного словаря функционирует на основе стандартно­ го корреляционного детектора. В основу системы положены следующие принципы: оцифровка аналогового звукового сигнала; выделение речевых команд из непрерывного потока звуковых данных; получение спектраль­ ных характеристик звукового сигнала посредствам дискретного преобра­ зования Фурье; линейная временная нормализация анализируемых рече­ вых команд; нахождение в конечном словаре речевой команды совпадаю­ щей с анализируемой; применение метода многокритериальной оптимиза­ ции для определения временных границ произнесённой речевой команды с целью повышения точности распознавания. Программа после запуска остаётся в памяти компьютера и в реаль­ ном времени осуществляет сканирование потока звуковых данных, посту­ пающих от микрофона через звуковую карту. Запись звука осуществляется непрерывно в циклический буфер. Произнесённые команды анализируют­ ся путём сравнения с образцами команд данного пользователем (если та­ ковые имеются, что не является обязательным) и с образцами команд дру­ гих пользователей. После этого осуществляется действие, указанное в па­ раметрах распознанной речевой команды. Программа предоставляет неко­ торый набор стандартных действий по управлению ОС MS Windows и по­ зволяет пользователю создавать свои собственные. Тестирование профаммы показало достаточно высокую производи­ тельность, позволяющую работать со словарем, содержащим несколько тысяч слов, при времени анализа каждой произнесенной фразы - несколь­ ко секунд. При этом анализ и распознавание полученной фразы могут осуществляться параллельно с записью с микрофона следующей фразы. В перспективе такая задача может возникнуть при распознавании произ­ вольного текста, произносимого пользователем. Все компоненты системы реализованы в виде отдельных про­ граммных модулей языка Си-н-. Это даёт возможность применения данных компонентов в виде библиотеки при разработке программ, поддерживаю­ щих командный речевой интерфейс с пользователем или применяющих в процессе своего функционирования технологии распознавания речевых команд. 30

RkJQdWJsaXNoZXIy MTY0OTYy