Глава 1     Глава 2     Глава 3   

Классификация инструментов Data Mining


Рынок инструментов Data Mining определяется широтой этой технологии и вследствие этого - огромным многообразием программного обеспечения. Приведем классификацию инструментов Data Mining согласно KDnuggets: инструменты общего и специфического назначения; бесплатные и коммерческие инструменты.

Наиболее популярная группа инструментов содержит следующие категории:

•              наборы инструментов;

•              классификация данных;

•              кластеризация и сегментация;

•              инструменты статистического анализа;

•              анализ текстов (Text Mining), извлечение отклонений (Information Retrieval (IR));

•              инструменты визуализации.

Наборы инструментов. К этой категории относятся универсальные инструменты, которые включают методы классификации, кластеризации и предварительной подготовки данных.

Примером российской разработки инструментального набора, кроме Polyanalyst, является пакет Deductor, при помощи которого в предыдущих лекциях были решены некоторые задачи. Deductor будет подробно рассмотрен в одной из последующих лекций.

Наиболее известный представитель свободно распространяемого набора инструментов -пакет Weka набор алгоритмов машинного обучения для решения реальных Data Mining-проблем. Weka написана на Java и запускается практически со всех платформ.

Вторая группа задач представлена инструментами, реализующими следующие решения:

•              инструментарий для поиска ассоциативных правил;

•              агенты;

•              оценивание, регрессии и прогнозирование;

•              анализ связей;

•              последовательные шаблоны и временные ряды;

•              инструменты BI (Business Intelligence), Database and OLAP software;

•              инструменты преобразования и очистки данных;

•              библиотеки, компоненты и инструментальные наборы для разработчиков создания встроенных приложений Data Mining;

•              Web Mining: анализ поведения сайтов, XML mining;

•              поиск на Web;

•              Audio and Video Mining.

Некоторые из этих групп инструментов будут более детально рассмотрены далее.

Среди поставщиков Data Mining можно выделить ряд компаний, основная цель которых -консультирование по применению Data Mining. Одна из наиболее известных среди них -компания Two Crows.