"Банковские Технологии", декабрь 1996

Data Mining в управлении портфелем ГКО/ОФЗ

Михаил Киселев - директор отдела разработки и исследований компании Megaputer Intelligence

Уже в течение многих лет для опробования новейших технологий искусственного интеллекта используются разнообразные задачи из области анализа финансовых рынков. Горячий интерес к подобным приложениям искусственного интеллекта проявляют и создатели систем искусственного интеллекта, и их потенциальные пользователи - финансовые организации и частные лица, занимающиеся операциями на этих рынках. Происходит это потому, что, с одной стороны, прогноз динамики рынка - системы, корректирующей свое поведение в зависимости от собственной истории, - является едва ли не одной из самых сложных существующих задач и потому воспринимается как вызов всемогуществу математики, статистики и современной компьютерной техники, а с другой - результаты даже небольшого увеличения эффективности управления портфелем по сравненнию со среднерыночными значениями немедленнj могут оказаться весьма существенными.

Сегодня во всем мире используются сотни, если не тысячи, разнообразных интеллектуальных систем поддержки принятия решений по управлению портфелем ценных бумаг - portfolio management decision support systems (PMDSS). Их работа основана на комбинации изощренных статистических методов с правилами, заданными на основании информации, полученной от опытных трейдеров, и в ряде других подходов.Множество систем базируется на нейронных сетях - моделях мозга, которые предскахывают будущее развитие событий, формируя определенные связи между своими узлами - нейронами - на основе анализа фрагментов предыдущей истории рынка, зафиксированных в ценах, объемах сделок и других показателях.

Почему все это плохо работает у нас ?

Несмотря на разнообразие подходов, большинство PMDSS основываются в своей работе на анализе истории рынка. Однако очевидно, чтобы построенная на основании прошлого опыта модель работала в будущем, необходимо, чтобы рынок в течение достаточно длительного времени не претерпевал кардинальных изменений, чтобы происходящие на нем события имели приблизительные аналоги в прошлом. Например, многие нейронно-сетевые системы требуют для своего обучения данные по истории рынка не менее, чем за 3-5 лет. То есть предполагается, что в течение какого-то времени внутренние законы динамики рынка не будут существенно отличаться от тех, которые действовали последние 3-5 лет. Совершенно очевидно, что для российских финансовых рынков и рынка ГКО, в частности, эти условия не выполняются: многие из них существуют всего 2-3 года, а рынок ГКО не является стационарным - общий объем обращающихся на нем ценных бумаг постоянно и довольно значительно растет, правила работы на этом рынке постоянно меняются, на него, как, впрочем, и на другие рынки, сильно влияет нестабильность политической ситуации. Кроме того, нейронные сети обладают тем недостатком, что очень трудно понять, а, значит, и проконтролировать, почему они принимают те или иные решения, а это уменьшает надежность управления в кризисных ситуациях, когда сильно влияние внешних факторов, не учитываемых системой.

Еще одной российской особенностью является отсутствие развитой системы индексов, характеризующих отдельные финансовые инструменты, рынки и экономику в целом, которые используются системами PMDSS для оценки ситуации. Поэтому представляется, что эти и некоторые другие причины делают применение в России традиционных систем PMDSS малоэффективным.

"Добыча" знаний из данных.

Итак, если задача построения оптимальной стратегии управления портфелем очень сложна вообще, то для российских финансовых рынков эта сложность возрастает вдвойне. Где же выход? Он носит название Data Mining and Knowledge Discovery - *добыча* данных (DM) и обнаружение знаний. Этим термином обозначается набор методов из области искусственного интеллекта, начавшей активно развиваться совсем недавно. Эти методы позволяют извлекать из *сырых* данных (в нашем случае - описания истории рынка) ранее неизвестные знания о зависимостях и закономерностях поведения описываемого объекта.

При этом для нас важны три особенности этих методов:

Индекс привлекательности ценной бумаги

Как же можно использовать DM-технологию для работы на рынке ценных бумаг? Рассмотрим следующую упрощенную модель. Допустим, что мы обладаем даром ясновидения и знаем точно, курс какой из ценных бумаг сильнее всего вырастет на следующих торгах по сравнению с текущими. Зная это, мы каждый раз оперируем именно с этой бумагой и получаем за любой период времени максимально возможную прибыль.Так вот, если DM-система на основании прошлого опыта научится угадывать эту *самую лучшую бумагу*, точнее, отыскивать такую функцию параметров отдельных бумаг (цены, количества дней до погашения, величины купона и т.д.) и рынка в целом (средневзвешенная доходность, ее производная и множество других параметром), которая в виде некоторого индекса отображала бы привлекательность данной ценной бумаги для инвестора в настоящий момент (чем выше этот индекс, тем более сильный рост цены прогнозируется системой), то она станет ценнейшим инструментом в его руках.

Задача эта гораздо сложнее, чем кажется на первый взгляд: неизвестен не только набор параметров, от которых может зависеть индекс привлекательности, поскольку возможных влияющих параметров очень много, но даже приблизительный вид такой зависимости. Этим методы, используемые в технологии DM, отличаются от методов математической статистики: применяя к любой задаче даже самые мощные статистические пакеты, такие как, например, SAS или Statgraphics, пользователь уже должен наполовину знать окончательный ответ, примером чего является подбор регрессионных коэффициентов в уже известной зависимости или статистическая проверка уже имеющейся гипотезы.

Постановка задачи

Использование DM-технологий позволяет необычно по сравнению с традиционными подходами поставить задачу предсказания поведения на фондовом рынке. Суть в том, чтобы использовать историю рынка для получения функции изменения индекса привлекательности ценных бумаг. Каждой такой функции соответствует некоторая торговая стратегия (в нашей упрощенной модели она сводится к тому, чтобы в любой момент иметь в портфеле ценную бумагу с максимальным значением индекса), Если *проиграть* эту стратегию на имеющемся отрезке истории рынка, можно вычислить обеспечиваемую ей за этот временной отрезок прибыль. Таким образом, каждой функции индекса привлекательности для данного фрагмента истории рынка соответствует некоторая прибыль. Наша задача - найти такую функцию, для которой эта прибыль была бы максимальной, т.е. в отличие от традиционных методов, решающих подобную задачу в два шага, когда сначала строится та или иная модель динамики рынка, а потом на ее основе создается оптимальная стратегия, DM-технология позволяет решить задачу за один шаг: по исходным данным (истории рынка) сразу построить торговую стратегию (выражаемую индексом привлекательности). Поскольку рынок - область с очень размытыми и неточно выполняющимися законами, потеря точности на каждом шаге является существенной, а значит, использование DM-технологий обеспечивает выигрыш по сравнению с традиционными технологиями.

Как мы работаем

Для управления портфелем ГКО-ОФЗ мы использовали ориентированную на анализ рынка ГКО модификацию DM-системы Polyanalyst, созданной нашей компанией, а работа на торгах ведется с помощью системы SmartBroker. В нее импортируется модель, рассчитанная системой PolyAnalyst, выполняющей периодический пересчет формул и индексов привлекательности различных бумаг. Система SmartBroker получает текущую информацию по заявкам и сделкам с ГКО по одному из существующих интерфейсов (например, она способна получать данные от известной системы *ГКО-Инвест*) и на основе перенесенных в нее алгоритмов вычисления индексов привлекательности выдает рекомендации по покупке и продаже тех или иных ценных бумаг.

Довольно важным является вопрос о том, когда используемая модель становится малоэффективной и должна быть пересчитана. Наш опыт показывает, что даже при отсутствии резких изменений ситуации на рынке эффективность модели держится на хорошем уровне на протяжении не более 2-3 месяцев, и, следовательно, периодичность пересчета должна составлять примерно два месяца

Кроме того, возникают ситуации, когда текущая модель резко перестает соответствовать изменившимся законам рынка, как это,например, случилось в апреле текущего года в период начала проявления предвыборных страхов. Очевидно, что непременным требованием к любой используемой технологии является гарантированное раннее распознавание подобных ситуаций и временный переход к какой-то осторожной стратегии

. Для решения этой проблемы в нашей технологии предусмотрен следующий механизм защиты. При построении новой модели вырабатывается набор условий, определяющих ее применимость. Эти условия выбираются так, чтобы они были максимально жесткими, но в то же время выполнялись для любого момента времени истории рынка, которая была использована создания новой модели. В качестве простейшего примера можно привести условие *средневзвешенная доходность не превышает 95% годовых* или *разница в доходности *длинных* и *коротких* бумаг не превышает 60% годовых* и т.п. Если во время использования текущей модели связанные с ней условия перестают выполняться, это рассматривается как признак существенного изменения рыночной ситуации: модель перестает применяться, и осуществляется переход к более осторожной стратегии (портфель реструктурируется в пользу ценных бумаг с более коротким сроком обращения).

Эффективность

Чтобы оценить, насколько хороша описанная технология, мы используем показатель, вычисляемый следующим образом. Выберем некоторый период времени. Купив в начале этого периода ГКО выпуска, гасящегося в его конце, и не произведя больше никаких операций, можно было бы получить некоторую прибыль, называемую нами гарантированной. После окончания этого периода времени можно определить максимально возможную прибыль, которую мы могли бы получить за это время, если бы все операции проводились по средним за торги ценам. Где-то в интервале между этими двумя величинами лежит реально полученная нами с помощью нашей стратегии прибыль. Долю этого интервала, выраженную в процентах и лежащую между реальной и гарантированной прибылью, мы и называем показателем эффективности.
Обычно этот показатель находится на уровне около 30%, хотя иногда может превышать 60%. Когда было накоплено достаточно данных о новом состоянии рынка, модель была пересчитана и ее использование возобновлено. В результате этого пересчета новая модель может применяться и в тяжелых кризисных условиях - теперь она "знает", как это бывает и что она должна делать.