Технологии интеллектуального анализа данных : учебное пособие

225 В этом случае, любое нормированное значение признака норм [0..1] i x  . Нулевому значению соответствует ситуация, когда x i = x min , а единичному значению, когда x i = x max . После данной процедуры можно приступить к расчету зави- симости признаков различной природы, используя, например, непараметрический метод анализа Спирмена. Выбор данного мето- да обусловлен его устойчивостью и получению адекватных и объ- ясняемых результатов на данных различного типа. При использовании любого из описанных методов корреля- ционного анализа вычисляется коэффициент корреляции r , показы- вающий, в какой степени изменение значения одного признака со- провождается изменением другого признака в выборке данных. Значение коэффициента корреляции r изменяется в диапазоне от -1 до 1. Условно принята следующая классификация силы корреляци- онной зависимости [7]: | r | ≤ 0,25 – слабая; 0,25 < | r | < 0,75 – умеренная; | r | ≥ 0,75 – сильная. Выявление корреляции двух признаков еще не означает при- сутствия причинно-следственной связи между ними. Корреляцион- ный анализ устанавливает лишь наличие и силу статистической связи и не говорит об ее направлении. Однако уже само наличие связи дает основание использовать более совершенные методы по- иска закономерностей в изучаемых данных. После выбора описывающих (доминантных) параметров изу- чаемые данные могут быть представлены в виде прямоугольной таблицы, где каждая строка представляет собой отдельный случай, объект или состояние изучаемого объекта, а каждый столбец – па- раметры, свойства или признаки всех исследуемых объектов. Большинство методов Data Mining работают только с подобными прямоугольными таблицами [1].