Глава 1     Глава 2     Глава 3   

CRISP-DM методология


Мы рассмотрели процесс Data Mining с двух сторон: как последовательность этапов и как последовательность работ, выполняемых исполнителями ролей Data Mining.

Существует еще одна сторона - это стандарты, описывающие методологию Data Mining. Последние рассматривают организацию процесса Data Mining и разработку Data Mining-систем.

CRISP-DM [100] (The Cross Industrie Standard Process for Data Mining - Стандартный межотраслевой процесс Data Mining) является наиболее популярной и распространенной методологией. Членами консорциума CRISP-DM являются NCR, SPSS и DаimlerChrysler.

В соответствии со стандартом CRISP, Data Mining является непрерывным процессом со многими циклами и обратными связями.

Data Mining по стандарту CRISP-DM включает следующие фазы:

1. Осмысление бизнеса (Business understanding).

2. Осмысление данных (Data understanding).

3. Подготовка данных (Data preparation).

4. Моделирование (Modeling).

5. Оценка результатов (Evaluation).

6. Внедрение (Deployment).

К этому набору фаз иногда добавляют седьмой шаг - Контроль, он заканчивает круг. Фазы Data Mining по стандарту CRISP-DM изображены на рис. 21.2.

CRISP-DM методология