Глава 1     Глава 2     Глава 3   

CRISP-DM методология 3


Подход SEMMA подразумевает, что все процессы выполняются в рамках гибкой оболочки, поддерживающей выполнение всех необходимых работ по обработке и анализу данных. Подход SEMMA сочетает структурированность процесса и логическую организацию инструментальных средств, поддерживающих выполнение каждого из шагов. Благодаря диаграммам процессов обработки данных, подход SEMMA упрощает применение методов статистического исследования и визуализации, позволяет выбирать и преобразовывать наиболее значимые переменные, создавать модели с этими переменными, чтобы предсказать результаты, подтвердить точность модели и подготовить модель к развертыванию.

Эта методология не навязывает каких-либо жестких правил. В результате использования методологии SEMMA разработчик может располагать научными методами построения концепции проекта, его реализации, а также оценки результатов проектирования.

По результатам последних опросов KDnuggets (2004 г.), 42% опрошенных лиц использует методологию CRISP-DM, 10% - методологию SEMMA, 6% - собственную методологию организации, 28% - свою собственную методологию, другими методологиями пользуется 6% опрошенных. Не пользуются никакой методологией 7% опрошенных.

Как уже отмечалось, описанные стандарты являются методологиями Data Mining, т.е. рассматривают организацию процесса и разработку систем Data Mining. Помимо этой группы, в последние годы появился ряд стандартов, цель которых - согласовать достижения в Data Mining, упростить управление моделированием процессов и дальнейшее использование созданных моделей.

Эти стандарты условно можно поделить на две категории:

1.            Стандарты, относящиеся к выработке единого соглашения по хранению и передаче моделей Data Mining.
2.            Стандарты, относящиеся к унификации интерфейсов.