Фирма ТОРА-Центр
Новости
Конференция
Каталог программ
Литература
Прайс-лист
Демоверсии программ
Семинары и учебные курсы
Статьи и материалы
Ссылки на FOREX-страницы
Партнеры



Марксистская, 20
Тел:517-33-83
        726-67-78
E-mail:
am@inforus.biz
Пн - Пт, 9:30 - 18:00

Rambler's Top100



   Ñòàòüè ýêñïåðòîâ è ñîòðóäíèêîâ ôèðìû ÒÎÐÀ-Öåíòð   
Применение Супер-ЭВМ для автоматизации обработки информационных потоков и баз текстовых данных большого объема
В.М.Александров, А.И.Масалович

С развитием глобальных информационных сетей и ростом объемов информации, хранящихся в корпоративных и разделяемых базах данных, все большую актуальность приобретают средства автоматизации аналитической обработки больших массивов данных. При решении этой задачи на первый план выступают, с одной стороны, новые аналитические методы - нечеткая логика, нейронные сети и др., с другой - супер-ЭВМ, позволяющие во много раз повысить скорость обработки информации.

Проблема автоматизации аналитической обработки больших объемов данных содержит ряд актуальных задач :

Задача 1. Выделение наиболее информативных сообщений по заданной тематике в общем потоке текстовой информации. Например : составить сводку о сегодняшней ситуации в Намибии по сообщениям информационных агентств.

Задача 2. Выделение знаний из реляционных баз данных. Например : составить обобщенные "портреты" социальных групп, поддерживающих различные политические течения, на основе данных социологических опросов.

Задача 3. Мониторинг сравнительной информативности различных источников. Например : выделить минимальный набор информационных изданий, позволяющий с заданной степенью достоверности оценивать экономическую ситуацию в регионах.

Задача 4. Оценка важности отдельного документа в контексте оперативной информационной обстановки.

Для решения первой из указанных задач применяется т.н. гипертекстовая технология в сочетании с построением уточняющих словарей и нечеткой логики.

Вторая задача базируется на применении нейронных сетей для кластеризации данных и методов "data mining" для выделения корреляционных зависимостей.

Третья и четвертая задачи требует использования нечеткой логики, позволяющей оперировать неточно заданными величинами. Кроме того, при решении каждой задачи целессобразно использовать генетические алгоритмы оптимизации для повышения качества результатов.

Все эти методы нашли свое воплощение в аналитических программных системах нового поколения. Так, пакет IDIS позволяет выполнять "извлечение знаний" из больших БД, а также выполнять обработку исключений и визуализацию результатов. Пакет Ward, один из наиболее мощных нейросетевых пакетов, включает комплекс методов распознавания, прогнозирования и ситуационного моделирования. Пакет ISYS нацелен на поиск информативных сообщений в потоках текстовых данных. Пакет CubiCalc совместно с классификатором RuleMaker представляет собой экспертную систему на основе нечетких правил. Совместное использование перечисленных пакетов (в сочетании с некоторыми дополнительными интерфейсными программами) позволило построить аналитический комплекс, пригодный для решения задач 1-4.

Однако использование перечисленных программных средств потребовало вычислительных ресурсов, во много раз превышающих возможности персональных компьютеров и серверов. Возникла необходимость в параллельном выполнении ряда поисковых и аналитических операций, а также в ускорении трудоемких алгоритмов обучения нейронных сетей. В то же время применяемые для таких задач на Западе многопроцессорные рабочие станции типа Silicon Graphics Challenger и специализированные минисуперкомпьютеры типа HNC MarksMan недоступны в силу высокой стоимости.

Для решения поставленной задачи было предложено использовать многопроцессорную систему МВС-100, разработанную в НИИ "Квант". Суперкомпьютер МВС-100 архитектурно представляет собой MIMD-компьютер с топологией межсоединений в виде "квази-матрицы" (модификация двумерной решетки). Вычислительный модуль системы состоит из коммуникационного процессора (обычно - транспьютера Т805), векторно-конвейерного процессора i860 и поля разделяемой памяти объемом до 64 Мбайт.

Архитектура МВС-100 оказалась легко адаптируемой к задачам обработки больших объемов данных. Во-первых, в силу специфики задач 1-4, они поддаются эффективному распараллеливанию на MIMD-компьютерах.

Во-вторых, масштабируемость архитектуры МВС-100 позволяет пользовательской задаче захватывать вычислительный ресурс требуемого объема.

В-третьих, архитектура процессора i860 хорошо приспособлена к быстрому выполнению основных операций теории нейронных сетей и нечеткой логики (в первую очередь, вычислению пороговых функций и скалярных произведений).

В совокупности характеристики МВС-100 позволили взять ее за основу при построении многоцелевого комплекса аналитических программ.

Еще одним ресурсом существенного повышения быстродействия аналитической системы явилось использование специализированной нейроплаты CNAPS PC/128. Построенная на основе нейро-БИС плата CNAPS фактически представляет собой 128-процессорный акселератор для выполнения задач обучения нейронных сетей на больших объемах зашумленных, неполных и противоречивых данных. Реализованная в нейро-БИС пороговая логика позволила добиться ускорения настройки нейросетей в несколько сотен раз по сравнению с ПК Pentium-100. Совместимость по программному обеспечению позволяет использовать нейроплату как независимо, так и совместно с многопроцессорной системой МВС-100.

Рассмотренные выше принципы организации аналитических систем были использованы при решении ряда реальных задач. Так, для еженедельника PC Week была проведена классификационная обработка базы данных о подписчиках и рекламодателях на территории СНГ. Также были обработаны база данных о BBS-серверах Internet, проведено маркетинговое исследование по поставкам компьютерных программ и ряд других аналитических работ. Использование рассмотренных выше методов позволило резко увеличить эффективность обработки больших массивов данных.


   Перейти на главную страницу   

Copyright © 1993-2006 ТОРА-Центр. Тел: 517-33-83, 726-67-78 Марксистская ул., д.20