Глава 1     Глава 2     Глава 3   

Основные характеристики пакета SAS Enterprise Miner 5.1 2


Выборки

•              Простая случайная.

•              Стратифицированная.

•              Взвешенная.

•              Кластерная.

•              Систематическая.

•              Первые N наблюдений.

•              Выборка редких событий.

Разбивка данных

•              Создание обучающих, проверочных и тестовых наборов данных.

•              Обеспечение качественного обобщения моделей на основании контрольных данных.

•              Стандартная стратификация по целевому классу.

•              Сбалансированная разбивка по любой классовой переменной.

Преобразования

•              Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
•              Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.

•              Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.

Фильтрация недостоверных данных

•              Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.

•              Объединение классовых значений, встречающихся менее n раз.

Замена данных

•              С использованием мер центрированности.

•              На основе распределения.

•              Заполнение дерева суррогатными значениями.

•              Методом усреднения расстояний.

•              С использованием устойчивых M-оценок.

•              С использованием стандартных констант.