PolyAnalyst: "глубокое бурение" в данных

Денис Викторов

В июле этого года российская компания Megaputer Intelligence объявила о выпуске новой, полностью 32-битной версии своего основного продукта - PolyAnalyst, представляющего собой систему интеллектуального анализа данных (data mining). Теперь PolyAnalyst работает в среде Microsoft Windows NT как в локальном, так и в клиент-серверном исполнении.

PolyAnalyst - инструмент для автоматического извлечения из так называемых *сырых данных* разного рода правил, зависимостей и других ценных знаний, на основе которых могут приниматься решения, например, по управлению портфелем ценных бумаг, построению стратегии направленной рекламы, оптимальной организации снабжения и т.д. Вообще говоря, такие системы символизируют переход от *накопления* и *оперативного использования* данных (OLTP - Online Transaction Processing) к их переработке (*выработке*), анализу зависимостей и закономерностей, скрывающихся в долгое время пополняемых длительное время хранилищах. В принципе PolyAnalyst следует всем канонам data mining -система способна автоматически работать с данными, представлять найденные знания в привычной для аналитика форме, она содержит широкий набор инструментов и методов для визуализации и оценки обнаруженных зависимостей.

Однако в основе PolyAnalyst лежит внушительный набор методик и алгоритмов анализа данных - как традиционных (например, множественная линейная регрессия с автоматическим выбором независимых переменных), так и разработанных недавно. Среди последних - метод автоматического обнаружения размытых нелинейных зависимостей ARNAVAC, а также инструментарий построения произвольных нелинейных регрессионных моделей средствами эволюционного программирования.

Все механизмы PolyAnalyst *спрятаны* глубоко внутри системы и невидимы для пользователя, который взаимодействует преимущестенно со специальным модулем трансляции и представления полученных результатов.

Систем класса data mining, OLAP (online analytical processing) немало. Зачем нужен PolyAnalyst? Необходимо сказать, что его аналоги в России практически отсутствуют. К тому же зарубежные системы очень дороги. С другой стороны системы выработки данных должны выявлять не просто *обнаруживаемые зависимости*, а - желательно - отражать объективные изменения в моделируемой среде. Авторы PolyAnalist уверены в достоинствах программы и утверждают, что с помощью уникальных математических модулей она способна отделить зерна ценных объективных знаний от плевел случайных совпадений и статистических флуктуаций. Правила и знания формализуются в виде программ на внутреннем языке программирования системы, порождаемых специальным синтезирующим модулем. При этом авторы проекта утверждают, что на реальных данных могут всретиться такие закономерности, которые не поддаются формализации на достаточно узких описательных языках, используемых другими современными системами data mining.

Наконец, важными чертами новой версии программы являются ее способность интеграции с хранилищами данных (Data Warehouse) и возможности получать данные непосредственно из SQL-СУБД класса Oracle, DB/2, Informix

Очевидно, опробовать новый продукт в редакции не представляется возможным просто потому, что мы не накопили (да и не могли) соответствующих объемов фактографических данных. Так что по договоренности с компанией Megaputer Intelligence мы предлагаем заинтересованным организациям совместный эксперимент: вы предоставляете свои данные, Megaputer Intelligence напускает на них свой продукт, а мы смотрим, оцениваем и сообщаем читателям о результатах.