Фирма ТОРА-Центр
Новости
Конференция
Каталог программ
Литература
Прайс-лист
Демоверсии программ
Семинары и учебные курсы
Статьи и материалы
Ссылки на FOREX-страницы
Партнеры



Марксистская, 20
Тел:517-33-83
        726-67-78
E-mail:
am@inforus.biz
Пн - Пт, 9:30 - 18:00

Rambler's Top100



   Ñòàòüè ýêñïåðòîâ è ñîòðóäíèêîâ ôèðìû ÒÎÐÀ-Öåíòð   

How database marketing could marry

data mining?

Sergei M. Ananyan

Indiana University, Bloomington, IN, USA &

Megaputer Intelligence Inc., USA

Эта статья адресована двум категориям работников: менеджерам по маркетингу, стремящимся понять, исследуя накопленные базы данных, какую пользу может привнести в их деятельность data mining, и разработчикам систем data mining , изучающим области применения методов анализа, которые они разрабатывают. Здесь описывается, как data mining и database marketing могут взаимовыгодно сотрудничать и почему соединение двух этих концепций так удачно для торгового бизнеса.

Выделим основные вопросы для обсуждения:

  1. Каковы преимущества соединения data mining and database marketing?
  2. Насколько точно data mining входит в циклы database marketing?
  3. Каковы основные шаги в решении примерной задачи маркетинга (иллюстрирован на примере применения Polyanalyst - одной из наиболее прогрессивных data mining систем)

Database marketing

Database marketing часто определяют как технологию, обрабатывающую существующие базы данных или файлы с информацией о заказчиках компании или ее перспективных клиентах и использующую эту информацию в торговой стратегии в индивидуальном порядке.

Эта технология, возможно, самое важное достижение в области маркетинга с момента изобретения телевидения в 50 г.г. Чем же можно подтвердить эффективность применения Database marketing? Обычно для этого используют следующие показатели:

1. Эффективность затрат Деньги, отпущенные вами на рекламные цели, тратятся только на ваших лучших клиентов и потенциальных заказчиков.

  1. Рыночная сегментация Группировка клиентов со сходными потребностями.
  2. Персонификация Торговое предложение не может быть универсальным и рассчитанным на среднестатистические потребности. Он должно быть персонифицировано для нужд каждого индивидуального клиента.
  3. Рост внимания к заказчику Клиенты, с которыми уже налажены деловые контакты, не менее важны, чем перспективные покупатели. Поэтому очень важно своевременно информировать их о новых предложениях и удовлетворять их потребности.

Данная концепция была предложена в 80 г.г., и с тех пор уже приносит доход своим последователям. Число компаний, использующих Database marketing,, стремительно возрастает. Согласно Джиму Витону, сегодня более чем 90% американский корпораций применяют методы Database marketing. Однако подлинные выгоды от применения Database marketing открываются широкой публике только теперь, с началом перехода от простого накопления данных к их серьезному анализу. Получаемые результаты производят просто ошеломляющее впечатление.

Технология, продвигающая вперед этот процесс, называется data mining. Она-то и будет в центре внимания данной статьи. Но до ее детального обсуждения мы должны четко определить, где конкретно эта технология вступает в Database marketing-исследование.

Основные этапы Database marketing-исследования

Database marketing может быть рассмотрен как последовательность шагов, которые охватывают цельный технологический цикл. Если какие-либо связи в этой последовательности опускаются -весь процесс разрушается. Вот основные этапы этого процесса:

  1. Идентификация вашего клиента
  2. Решение, какая информация о ваших клиентах необходима и доступна к получению.
  3. Поиск доступных источников такой информации (вы можете подобрать ее сами)
  4. Сохранение имен клиентов и всей необходимой информации в виде файла или базы данных
  5. Формулировка вопроса, на который вы хотели бы ответить
  6. Анализ сохраненных данных: построение модели
  7. Развитие стратегии маркетинга, которая основана на этой модели и достижение вашей цели
  8. Непосредственное общение с отобранными клиентами
  9. Анализ результатов.
  10. Повторение шагов 1-9.
  11. Попытка пройти тем же путем с вашими потенциальными клиентами.

Предположим, что вы уже имели некоторый опыт работы с data base marketing и хорошо владеете техникой, требующейся для преодоления первых трех этапов. Итак, вы идентифицировали своего клиента, решили, какую информацию о нем вы хотели бы сохранить, и нашли источник этой информации. Вопрос сохранения данных на четвертом этапе будет подробно рассмотрен чуть дальше, а сейчас позвольте нам допустить, что мы уже имеем сохраненные и готовые к анализу данные.

Этапы 5-7 и 9, которые непосредственно участвуют в анализе данных, обычно наиболее сложны, или, по крайней мере, представляются таковыми. Очень часто именно они и становятся камнем преткновения для целого процесса. В то же время с точки зрения получения значимых результатов эти шаги чрезвычайно важны, так как зачастую даже простейший анализ данных может значительно усовершенствовать вашу торговую стратегию. Например, разбивая ваших клиентов по возрастным категориям и рассылая каждой из них различные рекламные проспекты, вы уже делаете шаг к повышению эффективности продаж.

Однако реальные плоды от применения database marketing вы начнете пожинать только когда станете способны отвечать на более каверзные вопросы:

Как связана покупательская способность клиента с теми его характеристиками, которые нам доступны?

Кто из клиентов нуждается в дополнительном получении рекламных проспектов по почте?

Кто из ваших потенциальных клиентов станет настоящим?

На какие характеристики вашего клиента не стоит обращать внимания в будущем?

Каков будет уровень продаж в следующем месяце?

Знание правильных ответов на эти и многие другие вопросы оборачиваются огромной экономией денег и возможностью получения дополнительной прибыли. Однако, для ответа на эти вопросы требуется куда более сложный анализ данных , чем обычно, и состоящий из построения некоторого количества гипотез о связях в данных, тестирования их на реальных данных и сохранения всех отобранных гипотез? пока не обнаружится одна, наиболее полно объясняющая данные. Такой анализ требует опробирования множества способов “копания” и отсеивания данных. Вот почему модель построения процесса называется data mining.

Экскурс в историю

Одно из лучших определений data mining принадлежит Г.Пятетскому-Шапиро - одному из главных авторитетов в этой области: “Data mining - это процесс обнаружения нового, обоснованного, потенциально полезного и предельно понятного знания о базах данных, которое используется для принятия решений в бизнесе”

В былые времена аналитики должны были подбирать модели, объясняющие закономерности в данных, и в ручную выполнять статистическое тестирование таких моделей. Они знали статистические методы как свои пять пальцев и могли выполнять тысячи математических операций в минуту в течение восьми часов в день. Это была тяжелая и в некотором роде не очень интеллектуальная задача, но аналитики являлись упорными работниками. Если созданная модель не работала - они снова начинали поиски.

Задача значительно упростилась, когда статистические методы, используемые для тестирования гипотез, были компьютеризированы. Статпакеты, такие как широко известный SPSS, сохранили множество клеток человеческого мозга. Однако проблема автоматического построения самой модели для тестирования решена не была. Машины предоставили решать ее человеку самостоятельно, и довольно долго эта задача осталась камнем преткновения в процессе, который вел от данных к успешным бизнес-решениям.

Положение изменилось с появлением machine learning and knowledge discovery technologies нейронные сети, деревья решений, генетические алгоритмы и хранилища данных мыслящие? Компьютерные системы, основанные на этих алгоритмах, могут изучать модели, анализируя исторические данные, и точно предсказывать будущие ситуации. Они развивают гипотезы о скрытых взаимосвязях в данных и доводят до конца их статистическое тестирование. Такая автоматизация целого data mining процесса - главное достижение. Компьютеры стали такими быстрыми, точными и неутомимыми, что технологии data mining, поддерживаемые методами машинного обучения, быстро продвинулись от академических кругов до мирового делового сообщества.

Мы вступаем в эпоху бизнес-решений, основанных на знаниях. Сегодня многие согласятся с Эриком Brethenoux of Garther Group , что data mining необходим для выживания. Наиболее совершенные data mining системы могут контролироваться пользователями, не являющимися статистиками. От таких пользователей требуется только одно - понимание области применения. Внедрение data mining технологий повышает роль data marketing цикла, упрощая и автоматизируя его. Устраняется множество рутинной ручной работы, экономятся тысячи человеко/часов. Но истинные выгоды куда более впечатляющи.

В следующем разделе мы подробно рассмотрим, как на вопросы, встречающиеся в бизнесе, можно ответить при помощи data mining системы РolyАnalyst компании Megaputer Intelligence и каким особенностям следует уделять внимание при выборе data mining систем. Позднее я вернусь к объяснению, почему именно РolyАnalyst был выбран мною для иллюстрации соединения технологий data mining и database marketing.

Решение примерной задачи database marketing

Менеджер database marketing использует data mining на следующих этапах:

  1. Формулирование вопроса, на который вы хотели иметь ответ
  2. Построение модели, которая определяет, как от независимых переменных зависит выбранная целевая переменная
  3. Статистическое тестирование этой модели на известных исторических данных
  4. Повторение предыдущих двух шагов пока не достигается желаемая точность предсказания
  5. Построение торговой стратегии, основанной на полученной модели, повышение доходности вашей рыночной деятельности

Предположим, что мы выбрали следующие характеристики клиента для нашей базы данных:

номер телефона
ZIP код
возраст
пол
дата знакомства
общий объем покупок
объем покупок за последний год
дата первой покупки
дата последней покупки
стоимость последней покупки
число пересланных по почте рекламных проспектов клиенту за последний год
ежегодный заработок
арендатор или владелец офиса

Процесс начинается с формулировки интересующего вопроса. Например, нас может интересовать, каковы характерные особенности клиента, совершившего максимальное количество покупок за последний год, и наоборот. Нам необходимо изучить записи о клиентах, контакты с которыми продолжаются более года и которые получили по почте за последний год одно и то же количество наших рекламных проспектов. Сможем ли мы обнаружить явную зависимость между независимыми переменными и целевой переменной с желаемой точностью? Если такая модель найдена - мы можем использовать ее для определения, кому из клиентов имеет смысл продолжать рассылать рекламу, а кому - нет, и проводить следующую рекламную компанию, опираясь , в первую очередь, именно на них. Это позволит нам сэкономить большое количество денег без ущерба для уровня продаж.

Затем мы можем определить эффективность нашей рекламной компании. Например, попробуем узнать, какой отклик находит наша рекламная стратегия у клиентов. Для этого мы, как обычно, выберем только тех клиентов, контакты с которыми поддерживаются более года. Однако теперь мы изучим тех клиентов, которые попадают в одну и ту же группу по объему покупок согласно предыдущей модели, но получили различное количество почтовой рекламы за последний год, и постараемся построить модель зависимости уровня продаж от количества рассылок за последний год. Если уровень откликов возрастает с числом посланных клиенту рекламных проспектов - все прекрасно. Однако если количество рекламных проспектов не входит в формулу, предсказывающую объем продаж, или, что еще хуже, снижает их уровень - тогда что-то не в порядке с нашей почтовой рекламой. Нам необходимы срочные меры по изменению рекламной стратегии.

Теперь позвольте вплотную подойти к этапам, отвечающих за подготовку данных к анализу. Попутно мы подчеркнем те особенности data mining системы, которые чрезвычайно важны для успешного выполнения этой задачи.

  • Начнем, взяв в качестве примера базу данных, содержащую записи о клиентах, значения целевой переменной для которых - “объем продаж за последний год” - известны. К тому же сначала мы рассмотрим записи только о тех о клиентах, контакт с которыми поддерживается уже более года и которые получили две наши почтовые рекламы за последний год. Для того, чтобы легко получить интересующую нас информацию, мы должны использовать data mining систему, способную поддерживать ODBC стандарт для коммуникации с базами данных.
  • Обычно для работы достаточно взять только часть данных - от 2-3 до 50 тысяч записей. Этого вполне достаточно для построения значимой модели. Поэтому data mining система, которую вы используете, должна быть способна обработать это число записей. Помимо этого она должна обладать механизмами свободного манипулирования данными, поскольку вам может понадобиться разбить данные на некоторые подгруппы и оставить часть данных для тестирования, объединить данные или привести их во взаимодействие. Например, полагая, что клиенты различных возрастных категорий будут обладать различными покупательскими особенностями, вам может понадобиться разделить их на группы и изучать каждую из них отдельно.
  • Заметим, что практически всегда вы нуждаетесь еще и в процессе сочетания атрибутов числовых, логических и категориальных типов. Например в ваших данных “пол” и “арендатор/владелец” - логические переменные, тогда как “ZIP код” - категориальный тип. Поэтому убедитесь, что data mining система, с которой вы работаете, поддерживает все типы атрибутов. К тому же большинство задач по database markering содержат даты, и поэтому временной формат должен также ею поддерживаться
  • Пусть нам необходимо подсчитать количество дней, прошедшее с некоторого события. Например, вместо даты первого контакта, рассмотрим, сколько времени прошло с тех пор. Для этого мы должны вычислить новую переменную, вычитая соответствующую дату из сегодняшней. Если вы работаете с PolyAnalyst, то решение такой задачи потребует лишь печати соответствующей формулы и щелчка “мышью” для применения этой формулы к вашим данным.
  • Затем вы создаете новую базу данных, содержащую только те переменные, которые вы собираетесь включить в исследование. Например, переменные “дата” вы заменяете на переменные, указывающие временной промежуток между некоторыми событиями. Вы исключаете переменные, описывающие недавние торговые сделки, поскольку они не могут влиять на общий объем продаж за предыдущий год, и изменяете тип переменной “ZIP код” с числового на категориальный. Для осуществления данных операций РolyAnalyst предлагает функцию “Создать новый Dataset”.
  • Вы можете иметь свою точку зрения по вопросам маркетинга и хотели бы приложить ее к процессу исследования data mining. При работе с PolyAnalyst это чрезвычайно легко - просто напечатайте свое правило, используя стандартные математические символы. Например, вы считаете, что 10% ваших клиентов составляют одиноки мужчины в возрасте 30-35 лет с годовым доходом более 40000$. Напечатайте ваше правило и примените его к исследуемому датасету в качестве новой переменной, описывающей ваши предположения. Включите эту новую независимую переменную при запуске одного из методов исследования РolyAnalyst. Таким образом вы посоветуете системе, какое правило применить первым. Если ваше предположение верно - соответствующая переменная будет строго включена в конечную формулу. Если же система не включит созданную переменную в конечный результат - вам лучше пересмотреть свою точку зрения.
  • Следуюший ваш шаг - “подчистка” данных. Мир несовершенен, и неизбежно некоторая часть ваших данных содержит ошибки. Между тем работа самообучающихся систем часто очень сильно зависит от наличия немногочисленных, но сильно отстающих точек. Поэтому даже те записи, которые не содержат ошибок, но сообщаются с ошибочными, лучше удалить из главного датасета и изучить отдельно. Инструментарий data mining обладает способностью обнаружить и выделить их. РolyАnalyst , например, при анализе данных методом “Find Dependencies” и свободном алгоритме выбора отделяет выпадающие записи автоматически.
  • Хорошие результаты можно также получить, включив в базу данных всю доступную информацию о клиентах и позволив data mining системе самостоятельно решить, какие переменные на самом деле влияют на поведение клиента, а какие нет. Однако это сильно увеличивает время работы системы, поскольку время исследования большинства data mining систем критическим образом зависит от числа рассматриваемых независимых переменных. Следовательно, при предпроцессинге данных очень важным будет определение независимых переменных, максимально влияющих на целевую. В PolyAnalyst эта задача выполняется методом исследования “Найти зависимости” со строгим алгоритмом выбора.
  • Следующий наиболее значимый элемент data mining - это автоматическое построение эмпирической модели, которая описывает зависимость целевой переменной от независимых. И если эта модель не удовлетворяет точности, надежности и легкости понимания полученных зависимостей, которые предсказывают будущее значение целевой переменной, то data mining система, как бы хороша она ни была на первый взгляд, фактически бесполезна. Вам нужна “рабочая лошадка” с прочным механизмом для тщательного анализа данных. Модель, строящаяся модулями РА, включает 6 различных методов исследования :

Find Laws
Find Dependencies
Classify
Disciminate
Cluster
Multiparametric Linear Regression

При выборе data mining системы следует уделить внимание следующим моментам:

  1. Data mining система должна предсказывать значения целевой переменной и решать классификационные задачи

2. Система должна автоматически выполнять тесты, определяющие статистическую значимость развиваемой модели. Произвольный комплекс даже случайно генерирующий данные может быть объяснен, если включает достаточно большое число свободных параметров в модели.? Однако такая модель не имеет какой бы то ни было предсказательной силы. Эта проблема называется “подгонкой” и часто является недостатком систем, основанных на нейронных сетях.

  1. Полученная модель должна быть легко интерпретируема. Если вы не можете понять, какие знания модель содержит, как точно целевая переменная зависит от независимых переменных, вы практически не способны контролировать результаты. Вы не сможете, опираясь на личный опыт, увидеть в найденной модели возможные противоречия. Нейросети особенно опасны в этом смысле, так как построенная модель представляет собой “черный ящик”. Деревья решений, напротив, представляют полученные правила довольно ясно в виде дерева с классификационным вопросом в каждом узле. Однако часто полученные для реальных задач деревья так “развесисты”, что становится очень трудно охватить смысл правила. Куда более привлекательное представление знаний обеспечивает Symbolic Knowledge Acquisition and Evolutionary Programming technology, к которой принадлежит РolyАnalyst. В данном случае обнаруженные зависимости представляются в виде формулы, связывающей целевую и независимые переменные. Такая формула может содержать как математические зависимости, так и логические конструкции.
  1. Система должна находить правила разнообразного вида. Перед началом исследования вы не можете сказать точно, какой именно тип отношений между переменными скрыт в ваших данных. Поэтому нужно быть готовым к переборке разнообразных видов зависимостей, чтобы не пропустить оптимальный вариант. Как же можно убедиться в том, что выбранная вами data mining система ведет поиск в пространстве зависимостей, достаточном для описания закономерностей в ваших данных? Это трудный вопрос. В Polyanalyst это гарантировано использованием универсального внутреннего языка программирования, на котором можно выразить произвольный тип алгоритма.

5. Ваш контроль за процессом обработки данных усилится, если вы воспользуетесь мультистратегической data mining системой. Такая система обладает целым набором взаимодополняемых инструментов, которые позволяют пользователю анализировать данные, исходя из различных условий. Использование сочетания методов data mining, например, в PolyAnalyst, позволяет значительно повысить значимость получаемых результатов и общие характеристики системы.

6. Важное значение имеет также время обработки данных. Однако этот параметр очень сложно определить точно, поскольку он сильно зависит от характеристик исследуемых данных. PolyAnalyst обладает механизмом Generalizing Transformation, который позволяет системе почти напрямую продвигаться к конечному результату. Избегая экспоненциального роста числа выдвигаемых гипотез, требующих проверки, мы существенным образом уменьшаем время процессинга.

  • Теперь запускаем метод исследования “Найти закон” выбрав в качестве целевой переменной общий объем продаж за последний год и установив желаемую ошибку -10%. При этом PolyAnalyst определяет ясный вид отношения, связывающего целевую переменную c независимыми параметрами, характеризующими клиента.
  • В качестве конечного продукта PolyAnalyst генерирует отчет, который содержит одно текстовое и два графических окна. В текстовом окне в ясном виде показывается лучшая из найденных моделей, которая объясняет данные наиболее надежно, точно и значимо. Точность характеризуется стандартной ошибкой, с которой построенная модель будет предсказывать значения целевой переменной. Значимость определяет тот факт, что модель объясняет данные неслучайно. Два графических окна помогают вам визуально оценить предсказательную силу модели, понять смысл разнообразных терминов, входящих в отношение, найденное PolyAnalyst. Этого довольно легко достичь, поскольку модель представлена вам в форме ясного математического отношения, которое включает алгебраические и логические конструкции.
  • Data mining система, выбранная вами, должна легко применять найденную модель к новой порции данных. Если эта операция требует дополнительной работы, то такая система уже имеет недостаток. РolyAnalyst, например, для применения полученной модели для предсказания значения целевой переменной нужен только щелчок “мышью”.
  • Далее вам необходима визуализация результатов вашего исследования. Это наиболее быстрый и понятный путь в оценке точности и надежности обнаруженных отношений. Здесь РolyАnalyst предлагает разнообразные инструменты: гистограммы, двухмерные и псевдотрехмерные графики с третьим измерением, представленным цветными точками. Вы можете проанализировать полученные результаты, вычислив и нанеся на график значения целевой переменной, предсказанные data mining системой , и ее действительные значения, содержащиеся в части базы данных, которая не использовалась системой при поиске закономерностей.
  • Некоторые системы обеспечивают вам дополнительные средства для визуализации результатов исследований. Например, уникальная возможность схематичного отображения правил обеспечена для клиентов в РolyАnalyst. Поскольку эта система представляет обнаруженные отношения в ясной форме, она может начертить зависимость предсказываемого значения целевой переменной от каких-либо независимых. Однако большинство правил, встречающихся реально, многопараметрические. Дополнительные переменные представляются на графике правила “ползунками”, которые можно двигать в границах значений соответствующей переменной. Такое изменение значений независимых переменных позволяет пользователю “прочувствовать” и контролировать обнаруженное правило , что позволяет лучше понять модель.
  • При выборе data mining системы также важен вид конечных отчетов и возможность их печати. Вам может понадобиться представить результаты исследований коллегам, либо вы просто захотите иметь графики и выводы “на руках” для удобства. В этом случае система должна обладать дополнительными механизмами для вывода на печать, упорядочения и форматирования отчетов и поясняющих текстов. Такие особенности печати обеспечиваются в РolyAnalyst при помощи Print Form механизма
  • Последний шаг в data mining цикле - это развитие торговой стратегии, основанной на полученной модели. Он не относится к data mining непосредственно. Вы сформулировали вопрос, и построенная модель позволяет вам ответить на него. Теперь вам необходимо использовать полученные знания для принятия решения о вашем поведении в будущем, о том, какие дополнительные и доступные методы нужно задействовать. А ваши знания о клиентах теперь являются ключевым моментом в торговой стратегии. Вот почему такая схема называется знанием, ведущим к принятию решений.

Теперь подсчитаем, что именно дает нам исследование данных? Основное приобретение - это получаемая нами возможность принимать разумно обоснованные торговые решения, основанные на модели, автоматически выведенной PolyAnalyst на основании существующих данных о клиентах. До процесса data mining исследования эти знания были надежно укрыты за бесчисленным количеством “сырых”, необработанных данных. Однако теперь вы знаете, каковы характерные особенности ваших клиентов и как вы можете регулировать его покупательские способности. Вы можете увеличить число откликов на вашу почтовую рекламу, поскольку теперь имеете модель, которая может предсказать уровень продаж. Либо, наоборот, сохраните деньги, уменьшив количество почтовых рассылок, не дающих результата. Тем или иным путем ваши доходы растут. И это только первый шаг. Например, ?

Сохранение данных: flat file versus database

Сохранение и исправление данных -это последняя тема для обсуждения, после которой я непосредственно перейду к мотивации того, почему именно PolyAnalyst был выбран для иллюстрации этапов, включаемых в маркетинговые исследования при помощи методов data mining.

Database marketing представляет собой изменяющийся, самокорректирующийся процесс, требующий к тому же большого искусства.? Вам может потребоваться обновить данные, добавить новые переменные, выбрать примеры, упорядочить данные по различным критериям . Эти действия должны быть выполнимы с плоскими файлами, где данные хранятся в формате CSV, или некоторых других форматах, таких как EXEL. Однако при значительном количестве данных это может обернуться серьезной головной болью.

Сохранение ваших данных в виде базы потребует довольно значительных первоначальных затрат, но сэкономит много времени при работе с данными. Вдобавок, этот вид хранения данных облегчает их анализ, что обеспечит вам гарантированно быстрый возврат ваших инвестиций в будущем. Если же вы нуждаетесь в сохранении и манипулировании с очень большим числом данных, то возможно вам понадобятся data warehouses или datamarts, такой как Visual Warehouse Solution от IBM.

В тоже время большинство систем анализа данных могут обрабатывать только плоские файлы. Не приведет ли это к концу технологии? Вовсе нет. Во-первых, некоторые специализированные базы данных имеют опцию экспорта в плоский файл. Во-вторых, вы можете быть более придирчивы при выборе инструмента data mining и выбирать те из них, которые поддерживают стандарты для прямой коммуникации с базами данных ODBC. Этой возможностью обладают системы PolyAnalyst компании “Мегапьютер Интеллидженс” или SAS Datamining Tool от SAS Institute. Вдобавок, некоторые системы способны поддерживать окружение специфических баз данных или data wharehouse. Например, специальная версия РА может “выуживать” данные и сохранять результаты их анализа непосредственно в окружении IBM Visual Warehouse. Такая архитектура обеспечивает автоматическое применение полученных моделей к новым данным , что экипирует пользователя полным решением поддержки системы.

Почему PolyAnalyst

Эта статья слишком коротка, чтобы попытаться сравнить PolyAnalyst с другими системами , которые существуют в мире. Я полагаю, что читатели, которые заинтересуются основами различных видов машинного обучения, заглянут на страницу “Мегапьютер Интеллидженс”. Там же можно найти и их основные сравнительные характеристики.

Подход, используемый в PolyAnalyst, интересен тем, что эта система основана на новой технологии машинного обучения, свободной от множества серьезных проблем, уменьшающих производительность ее предшественников. Сегодня многие разработчики data mining систем знают о недостатках существующих методов и ищут новые пути развития машинного обучения, преодолевающие эти ограничения. Одно из будущих поколений технологий data mining - это Symbolic Knowledge Acquisition and Evolutionary Programming.

PolyAnalyst

Использует эту новую многообещающую технологию. Она основана на универсальном языке программирования, в терминах которого PolyAnalyst ищет отношения и алгоритмы, связывающие разнообразные переменные. На этом языке может быть описан любой, даже посредственный, алгоритм, скрытый в данных. Это важный шаг вперед. Например, деревья решений обладают куда более бедной выразительной способностью. В терминах же нейросетей эта проблема и вовсе не может быть сформулирована.

Представляет обнаруженные отношения в понятном символьном виде. Вы можете без труда использовать полученное отношение, оценивать и контролировать оправданность включения в отношение тех или иных переменных. Если вы хоть раз пытались понять результаты, содержащиеся в натренированной нейросети, то вы получите подлинное удовольствие от обладания моделью в понятной форме.

Мультистратегическая система. Сбалансированное сочетание гипотетических моделей со статистическими методами предпроцессинга данных и строгой оценкой значимости получаемых результатов позволяют PolyAnalyst быстро найти правильное решение.

Инструменты, обеспечивающие решение:

задачи нахождения математической формулы, предсказывающей значения ? переменных;

определение набора переменных, влияние которых на целевую переменную наиболее значимо;

задачи классификации.

1. Может работать с числовыми, интегральными, логическими и категориальными переменными

2. Избегает “подгонки результатов”, поскольку обладает механизмом строгого статистического тестирования значимости получаемых результатов.

3. Легок в использовании. Пользователь может не быть профессиональным статистиком: сложный механизм генерирования гипотез и оценки методов глубоко спрятан внутри системы, а объектно-ориентированный графический пользовательский интерфейс не содержит в себе необходимости программирования. Для работы требуется только выбрать нужный пункт меню и нажать на кнопку “мыши”.

4. Доступен в оценочной версии. Вы можете получить систему по почте, попробовать применить к своим данным и самостоятельно решить вопрос о том, стоит ли ее приобрести. Это значительно надежнее, чем покупать data mining систему, полагаясь на чье-либо мнение. Ведь ваш советчик может быть пристрастен или не иметь достаточного представления о вашем бизнесе.

5. Наконец, эта система позволила мне провести несколько успешных data mining проектов для клиентов различных сфер деятельности.

Выше окно в мир знаний

Я рассказал о том, какие глубокие взаимосвязи существуют между data mining и database marketing. Вы увидели, какие этапы data mining участвуют в решении примерной задачи маркетинга. Возможно, это помогло понять вам как общую концепцию исследования, так и применяемую технологию. Следующим вашим шагом будет оценка существующих инструментов data mining, приобретение прогрессивного легкого в использовании software, успешно применяемого в вашей конкретной сфере бизнеса, и, наконец, работа с данными.

   Перейти на главную страницу   

Copyright © 1993-2006 ТОРА-Центр. Тел: 517-33-83, 726-67-78 Марксистская ул., д.20