Глава 1     Глава 2     Глава 3   

Инструменты очистки данных 2


2. Специальные средства очистки

Специальные средства очистки обычно имеют дело с конкретными областями - в основном это имена и адреса - или же с исключением дубликатов. Преобразования либо обеспечиваются заранее, в форме библиотеки правил, либо в интерактивном режиме, пользователем. Преобразования данных могут быть автоматически получены и с помощью средств согласования схемы.

Ряд средств ориентирован на специфическую область - например, на очистку данных по именам и адресам или на специфические фазы очистки - например, анализ данных или исключение дубликатов. Благодаря своей ограниченной области применения, специализированные средства обычно очень эффективны, однако для работы с широким спектром проблем преобразования и очистки они нуждаются в дополнении другими инструментами.

2.1. Очистка специфической области

Имена и адреса записаны в различных источниках и обычно имеют множество элементов, поэтому поиск соответствий их конкретному потребителю имеет большое значение для управления отношениями с клиентами. Ряд коммерческих инструментов, например IDCENTRIC (First Logic), PUREINTEGRATE (Oracle), QUICKADDRESS (QAS Systems), REUNION (Pitney Bowes) и TRILLIUM (Trillium Software), предназначены для очистки именно таких данных. Они содержат соответствующие методы: например извлечения и преобразования имен и адресов в отдельные стандартные элементы, проверку допустимости названий улиц, городов и индексов, вместе с возможностями сопоставления на основе очищенных данных. Они включают огромную библиотеку предопределенных правил относительно проблем, часто встречающихся в данных такого рода. К примеру, модуль извлечение TRILLIUM (парсер) и модуль сопоставления содержат свыше 200000 бизнес-правил. Эти инструменты обеспечивают и возможности настройки или расширения библиотеки правил за счет правил, определенных пользователем для собственных специфических случаев.

2.2. Исключение дубликатов

Примерами средств для выявления и удаления дубликатов являются DATACLEANSER (EDD), MERGE/PURGELIBRARY (Sagent/QMSoftware), MATCHIT (HelpITSystems) и MASTERMERGE (Pitney Bowes). Обычно они требуют, чтобы источник данных уже был очищен и подготовлен для согласования. Ими поддерживается несколько подходов к согласованию значений атрибутов; а такие средства как DATACLEANSER и MERGE/PURGE LIBRARY позволяют также интегрировать правила согласования, определенные пользователем.