Глава 1     Глава 2     Глава 3   

Поставщики Data Mining 3


При работе с инструментом Data Mining-пользователь часто применяет разнообразные наборы данных, работает с различными источниками данных. Это могут быть текстовые файлы, файлы электронных таблиц, файлы баз данных. Инструмент Data Mining должен иметь удобный способ загрузки (импорта) данных. По окончании работы пользователь также должен иметь удобный способ выгрузки (экспорта) данных в удобную для него среду. Программа должна поддерживать наиболее распространенные форматы данных: txt, dbf, xls, csv и другие.

Дополнительное удобство для пользователя создается при возможности загрузки и выгрузки определенной части (по выбору пользователя) импортируемых или экспортируемых полей.

Характеристика № 3. Наглядность и разнообразие получаемой отчетности

Эта характеристика подразумевает получение отчетности в терминах предметной области, а также в качественно спроектированных выходных формах в том количестве, которое может предоставить пользователю всю необходимую результативную информацию.

Характеристика № 4. Легкость обучения работы с инструментарием

Характеристика № 5. Прозрачные и понятные шаги Data Mining-процесса

Характеристика № 6. Руководство пользователя.Существенно упрощает работу пользователя наличие руководства пользователя, с пошаговым описанием шагов генерации моделей Data Mining.

Характеристика № 7. Удобство и простота использования. Существенно облегчает работу начинающего пользователя возможность использовать Мастер или Визард (Wizard).

Характеристика № 8. Для пользователей, не владеющих английским языком, важной характеристикой является наличие русифицированной версии инструмента, а также документации на русском языке.

Характеристика № 9. Наличие демонстрационной версии с решением конкретного примера.

Характеристика № 10. Возможности визуализации. Наличие графического представления информации существенно облегчает интерпретируемость полученных результатов.

Характеристика № 11. Наличие значений параметров, заданных по умолчанию. Для начинающих пользователей - это достаточно существенная характеристика, так как при выполнении многих алгоритмов от пользователя требуется задание или выбор большого числа параметров. Особенно много их в инструментах, реализующих метод нейронных сетей. В нейросимуляторах чаще всего заранее заданы значения основных параметров, иной раз неопытным пользователям даже не рекомендуется изменять эти значения. Если же такие значения отсутствуют, пользователю приходится перепробовать множество вариантов, прежде чем получить приемлемый результат.

Характеристика № 12. Количество реализуемых методов и алгоритмов. Во многих инструментах Data Mining реализовано сразу несколько методов, позволяющих решать одну или несколько задач. Если для решения одной задачи (классификации) предусмотрена возможность использования нескольких методов (деревьев решений и нейронных сетей), пользователь получает возможность сравнивать характеристики моделей, построенных при помощи этих методов.

Характеристика № 13. Скорость вычислений и скорость представления результатов.

Характеристика № 14. Наличие квалифицированного ассистента (консультации по выбору методов и алгоритмов), консультационная поддержка.

Характеристика № 15. Возможности поиска, сортировки, фильтрации.

Такая возможность полезна как для входных данных, так и для выходной информации. Применяется сортировка по различным критериям (полям), с возможностью накладывания условий.

При условии фильтрации входных данных появляется возможность построения модели Data Mining на одной из выборок набора данных. Необходимость и польза от проведения такого анализа была описана в одной из лекций, посвященных процессу Data Mining. Фильтрация выходной информации полезна с точки зрения интерпретации результатов. Так, например, иногда при построении деревьев решений результаты получаются слишком громоздкими, и здесь могут оказаться полезными функция как фильтрации, так и поиска и сортировки. Дополнительное удобство для пользователя - цветовая подсветка некоторых категорий записей.

Характеристика № 16. Защита, пароль. Очень часто при помощи Data Mining анализируется конфиденциальная информация, поэтому наличие пароля доступа в систему является желательной характеристикой для инструмента.

Описанные характеристики являются критериями функциональности, удобства, безопасности инструмента Data Mining. При выборе инструмента следует руководствоваться потребностями, а также задачами, которые необходимо решить.

Так, например, если точно известно, что фирме необходимо решать исключительно задачи классификации, то возможность решения инструментом других задач совсем не является критичной. Однако, следует учитывать, что внедрение Data Mining при серьезном подходе требует серьезных финансовых вложений, поэтому необходимо учитывать все возможные задачи, которые могут возникнуть в перспективе.