Xl Туполевские чтения : всероссийская (с международным участием) молодежная научная конференция. Казань, 8-10 октября 2003 г., тезисы докладов. Т. 3
Система распознавания речевых команд для управления операционной системой MS Windows Н.Д. Торгашин Научный руководитель: М.Н. Фаворская, к.т.н., доцент Сибирский государственный аэрокосмический университет им. М.Ф. Решетнёва Рассматриваемая система распознавания отдельно произносимых ре чевых команд из конечного словаря функционирует на основе стандартно го корреляционного детектора. В основу системы положены следующие принципы: оцифровка аналогового звукового сигнала; выделение речевых команд из непрерывного потока звуковых данных; получение спектраль ных характеристик звукового сигнала посредствам дискретного преобра зования Фурье; линейная временная нормализация анализируемых рече вых команд; нахождение в конечном словаре речевой команды совпадаю щей с анализируемой; применение метода многокритериальной оптимиза ции для определения временных границ произнесённой речевой команды с целью повышения точности распознавания. Программа после запуска остаётся в памяти компьютера и в реаль ном времени осуществляет сканирование потока звуковых данных, посту пающих от микрофона через звуковую карту. Запись звука осуществляется непрерывно в циклический буфер. Произнесённые команды анализируют ся путём сравнения с образцами команд данного пользователем (если та ковые имеются, что не является обязательным) и с образцами команд дру гих пользователей. После этого осуществляется действие, указанное в па раметрах распознанной речевой команды. Программа предоставляет неко торый набор стандартных действий по управлению ОС MS Windows и по зволяет пользователю создавать свои собственные. Тестирование профаммы показало достаточно высокую производи тельность, позволяющую работать со словарем, содержащим несколько тысяч слов, при времени анализа каждой произнесенной фразы - несколь ко секунд. При этом анализ и распознавание полученной фразы могут осуществляться параллельно с записью с микрофона следующей фразы. В перспективе такая задача может возникнуть при распознавании произ вольного текста, произносимого пользователем. Все компоненты системы реализованы в виде отдельных про граммных модулей языка Си-н-. Это даёт возможность применения данных компонентов в виде библиотеки при разработке программ, поддерживаю щих командный речевой интерфейс с пользователем или применяющих в процессе своего функционирования технологии распознавания речевых команд. 30
Made with FlippingBook
RkJQdWJsaXNoZXIy MTY0OTYy