Глава 1     Глава 2     Глава 3   

Выводы по подготовке данных


В этой лекции мы закончили изучение этапа подготовки данных. Рассмотрели две классификации инструментов очистки и редактирования данных, изучили советы по выбору программного обеспечения, основные функции инструментов очистки данных, классификацию ошибок в данных, которые возникают в результате использования средств очистки данных.

Эти знания являются необходимой составляющей знаний, обеспечивающих возможность проведения процесса Data Mining на данных высокого качества.

Инструменты очистки данных не избавляют пользователя от работы, пользователю достаточно сложно их освоить. Некоторые грязные данные вообще не поддаются автоматической очистке. Перед тем как принимать решение об очистке данных, необходимо рассчитать ее стоимость, т.е. определить, оправдан ли будет этот процесс. Если принято решение, что очистка данных необходима, аналитик получает гарантию того, что процесс Data Mining будет проведен на основе достоверных и качественных данных.

В предыдущих двух лекциях мы рассмотрели такие этапы процесса Data Mining как анализ предметной области, постановка задачи и подготовка данных. В этой лекции мы уделим внимание оставшимся этапам процесса

Data Mining, а именно:

• построению модели;

• проверке и оценке моделей;

• выбору модели;

• применению модели;

• коррекцию и обновлению модели.

Ключевым словом в названии всех этих этапов является понятие "модель". В связи с этим необходимо уделить некоторое время определениям понятий "модель" и "моделирование".