Xl Туполевские чтения : всероссийская (с международным участием) молодежная научная конференция. Казань, 8-10 октября 2003 г., тезисы докладов. Т. 3

СЕКЦИЯ 19 ПРИКЛАДНАЯ МАТЕМАТИКА И ИНФОРМАТИКА Об алгоритме сегментации знаковых цепей и исследовании возможностей его версий К.Е. Борисов Научный руководитель: А.С. Гуменюк, к.т.н., доцент Омский государственный технический университет Автором была построена программная реализация алгоритма струк турирования знаковой последовательности, в двух его модификациях, ис пользующих статистические характеристики и интервальную информа цию. С использованием этой программы были проведены исследования текстовых последовательностей на естественном языке. В основе реализованного алгоритма лежит закон Мандельброта, оп ределяющий частотное распределение слов в тексте через частоту самого частого слова и длину текста. В качестве оценки правильности разбиения текста на структурные единицы был выбран частичный критерий Орлова, по которому требуется совпадение размеров теоретического и фактическо го алфавита. Решение о необходимости выделения конкретного псевдослова в словарь псевдослов проводится с помощью оценки, значение которой мо жет быть подсчитано на основе частотных или интервальных характери стик, последние из которых учитывают геометрические параметры текста, то есть взаимное расположение его частей. В качестве интервальной ха рактеристики используется величина Д,, где W - последова тельность символов, Aj - расстояние между началами двух соседних вхож дений последовательности W. Две вышеописанные оценки дают две раз личные версии алгоритма. Реализованная программа осушествляет сегмен тацию с использованием любой из версий алгоритма. Построенная программа применялась для сегментации стихотворных произведений классической русской литературы, записанных с использо ванием фонем русского языка. Выполненная работа показала работоспо собность использованного алгоритма в обеих его версиях, так как для аб солютного большинства исследованных текстов (около 95%) программа произвела правильное (по критерию Орлова) разбиение. Было проведено сравнительное исследование версий алгоритма. Мощность словаря, полу ченного с разбиением с помощью интервальной оценки, превышала раз мер словаря, полученного с помощью частотной оценки на 2%-10%, а сег ментация текста совпадала на 75%-79%. 3