Xl Туполевские чтения : всероссийская (с международным участием) молодежная научная конференция. Казань, 8-10 октября 2003 г., тезисы докладов. Т. 3

СЕКЦИЯ 19 ПРИКЛАДНАЯ МАТЕМАТИКА И ИНФОРМАТИКА Об алгоритме сегментации знаковых цепей и исследовании возможностей его версий К.Е. Борисов Научный руководитель: А.С. Гуменюк, к.т.н., доцент Омский государственный технический университет Автором была построена программная реализация алгоритма струк­ турирования знаковой последовательности, в двух его модификациях, ис­ пользующих статистические характеристики и интервальную информа­ цию. С использованием этой программы были проведены исследования текстовых последовательностей на естественном языке. В основе реализованного алгоритма лежит закон Мандельброта, оп­ ределяющий частотное распределение слов в тексте через частоту самого частого слова и длину текста. В качестве оценки правильности разбиения текста на структурные единицы был выбран частичный критерий Орлова, по которому требуется совпадение размеров теоретического и фактическо­ го алфавита. Решение о необходимости выделения конкретного псевдослова в словарь псевдослов проводится с помощью оценки, значение которой мо­ жет быть подсчитано на основе частотных или интервальных характери­ стик, последние из которых учитывают геометрические параметры текста, то есть взаимное расположение его частей. В качестве интервальной ха­ рактеристики используется величина Д,, где W - последова­ тельность символов, Aj - расстояние между началами двух соседних вхож­ дений последовательности W. Две вышеописанные оценки дают две раз­ личные версии алгоритма. Реализованная программа осушествляет сегмен­ тацию с использованием любой из версий алгоритма. Построенная программа применялась для сегментации стихотворных произведений классической русской литературы, записанных с использо­ ванием фонем русского языка. Выполненная работа показала работоспо­ собность использованного алгоритма в обеих его версиях, так как для аб­ солютного большинства исследованных текстов (около 95%) программа произвела правильное (по критерию Орлова) разбиение. Было проведено сравнительное исследование версий алгоритма. Мощность словаря, полу­ ченного с разбиением с помощью интервальной оценки, превышала раз­ мер словаря, полученного с помощью частотной оценки на 2%-10%, а сег­ ментация текста совпадала на 75%-79%. 3

RkJQdWJsaXNoZXIy MTY0OTYy