Casual
РЦБ.RU

Методологические аспекты информационного анализа инвестиционных сред и фондовых активов

Июль 2008


    В соответствии с концепцией информационного анализа переход к интерпретации данных, полученных в процессе мониторинга инвестиционной ситуации, требует предварительного анализа ее качества, т. е. оценки степени ее достоверности и полноты. Формирование такого анализа, в свою очередь, требует разработки соответствующего математического и программного инструментария, позволяющего экономисту-аналитику оценить динамические и статистические характеристики соответствующих информационных потоков.

    При этом современное состояние систем анализа рядов наблюдений за состоянием инвестиционной ситуации характеризуется сложившимися противоречиями между:

  • огромным объемом массивов данных, формируемых в процессе мониторинга состояния инвестиционной ситуации, и возможностями человеческого мозга, не всегда достаточными для их восприятия и аналоговой (качественной) переработки в интересах формирования управляющих решений (по данным компании IDC, проводившей исследования, совокупный объем цифровой информации в 2006 г. составил 161 млн Гбайт (161 экзабайт), IDC также прогнозирует, что с 2006 по 2010 г. объем информации увеличится в 6 раз);
  • возможностями современной прикладной (компьютерной) математики и крайне низким уровнем ее применения в интересах количественного анализа инвестиционной ситуации с целью совершенствования технологических управлений.
    Эти противоречия приводят к необходимости актуализации проблемы создания математического и программного инструментария. Решение проблемы привело к возникновению аналитических информационных технологий, важнейшим элементом которых являются системы компьютерной математики, объединенные общей идеологией интеллектуального анализа данных - Data Mining [10, 13, 15, 16]. Чтобы добиться эффективного применения формализованных методов прогнозирования и принятия решений, этим методам должен предшествовать комплексный анализ структуры и свойств информационных потоков, отображающих изменения состояния инвестиционной ситуации. Отсюда непосредственно вытекает задача разработки программно-алгоритмических средств, обеспечивающих проведение указанного автоматизированного анализа информационных потоков. С точки зрения информационного анализа речь идет о выявлении структуры данных, позволяющей обнаруживать искажения информационных потоков и устранять (или снижать) влияние этих деформаций на формирование математических моделей, лежащих в основе алгоритмов прогнозирования и формирования инвестиционных решений.
    Базовый вариант построения системы анализа свойств информационных потоков включает в себя решение следующих задач:
    1) дескриптивный статистический анализ наблюдаемого параметра;
    2) анализ динамических характеристик наблюдаемого параметра;
    3) выявление значимых взаимосвязей для наблюдаемого параметра;
    4) идентификацию формы (характера) взаимосвязей между любыми парами наблюдаемых параметров;
    5) выявление аномальных наблюдений;
    6) визуализацию отклонений текущих значений групп наблюдаемых параметров от соответствующих значений на предыдущем шаге или от усредненных значений на N предшествующих шагах;
    7) корреляционный анализ групп наблюдаемых параметров;
    8) обобщенное (агрегированное) представление групп наблюдений и их визуализацию;
    9) выявление и анализ несоответствий в группах наблюдаемых параметров.
    Перечисленные задачи образуют базовые функциональности анализатора, функциональная структура которого приведена на рис. 1.
    Дескриптивный статистический анализ рассматривает выборку наблюдений случайной величины с некоторым распределением. В качестве выборочных характеристик этого распределения в процессе дескриптивного анализа обычно используют: выборочное среднее, выборочную дисперсию, среднеквадратическое отклонение, коэффициенты вариации, асимметрии и эксцесса. Все характеристики, такие как медиана выборочного ряда, максимальный и минимальный элементы, размах выборки, частота, частость, относятся к параметрам распределения, которые описывают вероятностную структуру исходных данных. При этом понятие функции распределения предполагает наличие стационарных участков динамики состояния инвестиционной ситуации. В случае если динамика не стационарна, понятие распределения данных теряет определенность. В связи с этим в процессе дескриптивного анализа данных возникает необходимость в контроле таких свойств информационных потоков, образованных в результате мониторинга инвестиционной ситуации, как стационарность и нормальность. С этой целью обычно используется общая теория проверки статистических гипотез. Если гипотезы о стационарности и нормальности подтверждаются, возникает проблема статистической устойчивости формируемых решений. Некоторые варианты ее решения основаны на различных версиях адаптации и робастификации алгоритмов обработки данных.

АНАЛИЗ ДИНАМИЧЕСКИХ ХАРАКТЕРИСТИК

    Для анализа динамических характеристик инвестиционных процессов, относящихся к классу открытых нестационарных систем с нелинейной динамикой эволюции состояния, нестационарных и содержащих нелинейные тренды, целесообразно использовать традиционную полиномиальную аппроксимацию с методом наименьших квадратов.
    Очевидно, что с ростом порядка аппроксимации ее точность будет возрастать. Однако до бесконечности порядок модели увеличивать нельзя; начиная с некоторого его значения система нормальных уравнений, используемая при реализации МНК, становится слабо обусловленной.
    Следует заметить, что важнейшим объектом анализа динамики котировок является первая конечная разность исследуемого процесса, определяющая знак изменения котировок. На достаточно больших участках наблюдения методами проверки статистических гипотез подтверждается гипотеза о независимости первых разностей, что существенно усложняет возможность краткосрочного прогноза изменения знака котировок.
    Однако и прогноз котировок также связан с наличием серьезных проблем. Как правило, большинство объектов инвестиционного анализа относятся к классу открытых нестационарных систем с нелинейной динамикой эволюции состояния. В то же время основные методы статистической обработки данных, лежащие в основе анализа, прогнозирования и управления инвестиционным процессом, ориентированы на стационарные процессы. Для разрешения данного противоречия используется технология скользящего окна наблюдения, ограничивающая размер обучающей выборки векторных наблюдений. Оптимальный размер окна наблюдения при этом будет зависеть от текущей динамики контролируемого процесса. Наиболее адекватное решение дают адаптивные методы, устанавливающие размер используемой ретроспективной памяти L в зависимости от величины полного квадрата ошибки прогнозирования на окне наблюдения.
    Наличие скользящего окна наблюдения позволяет оперативно перестраивать модель как в части ее структуры, так и с точки зрения ее параметрической идентификации. Данный подход предоставляет возможность последовательно отслеживать динамику процесса, причем оставшиеся невязки аппроксимации образуют процесс, весьма близкий к стационарному гауссовскому шуму.

ОСОБЕННОСТИ ИНВЕСТИЦИОННОГО АНАЛИЗА ФИНАНСОВЫХ СИТУАЦИЙ

    Свои особенности имеет инвестиционный анализ финансовых ситуаций в системах с многосвязными параметрами состояния. Взаимозависимости позволяют рассматривать параметры инвестиционной среды как факторы влияния, учет которых дает ключ к пониманию процессов изменения состояния объекта инвестиционного анализа, прогнозировать эти изменения и на основе вероятностных прогностических сценариев формировать планирование инвестиционной деятельности.
    Выявление и анализы факторов влияния так или иначе связаны с формированием и анализом корреляционных связей между этими факторами и объектом инвестиционного анализа, а также между самими факторами влияния. При этом в процессе указанного анализа необходимо выяснить как степень корреляционных связей, так и форму зависимости параметров объекта инвестиционного анализа от этих факторов. В качестве базового математического инструмента для решения данных задач обычно используются методы многомерного статистического анализа. В частности, для исследования степени взаимосвязи используется корреляционный анализ.
    Как уже отмечалось, наряду со степенью корреляционной взаимосвязи для анализа инвестиционной ситуации крайне важно понимать структуру, или форму зависимости между отдельными парами описывающих ее параметров. В частности, значительный интерес представляют парные зависимости между объектом инвестиционного анализа и параметрами инвестиционной среды.
    Для определения формы зависимости характеристического параметра объекта инвестиционного анализа от значений групп факторов влияния обычно используют методологию многомерного регрессионного анализа.
    Проблема многомерности исходных данных, описывающих инвестиционную ситуацию, также достаточно очевидна, - вычислительная проблема большой размерности по-прежнему сохраняется, но не является единственной. (Если область определения задается 6 параметрами, то при поиске оптимального значения функции от этих параметров путем полного перебора при условии, что интервал возможных изменений каждого из этих параметров разбит на 100 шагов, экстремальное значение искомой функции следует находить путем вычисления и сравнения 1006 расчетных значений этой функции, при этом каждое вычисление искомой функции требует от нескольких сотен до тысяч элементарных операций, таких как сдвиг, сложение и т. п.) Не менее острой остается проблема интерпретации многомерных процессов. Мозг человека способен воспринимать только визуализируемые процессы, т. е. имеющие размерность не более 3. Традиционный выход из создавшейся ситуации связан с переходом в пространство обобщенных признаков (обобщенных факторов) путем селекции и агрегирования массивов исходных данных и результатов их обработки. Наиболее эффективным подходом к решению задачи агрегирования данных является использование линейных форм вида:


    где размерность r не больше 3 (т. е. допускает визуализацию данных с максимальным сохранением информации, содержащейся в массиве наблюдений X), при этом совокупность

    образует искомое пространство обобщенных признаков.

    В случае когда исходные параметры инвестиционной среды оказываются взаимосвязанными, наилучшее решение обеспечивается методом главных компонент [2, 9, 19, 20]. Применение первых r главных компонент в качестве обобщенных показателей инвестиционной среды позволяет решить проблему редуцирования размерности исходной задачи. При этом ограничение длины ряда обобщенных показателей величиной r " 4 дает возможность осуществить визуализацию результатов анализа. Однако сокращение числа главных компонент неизбежно связано с потерей части информации, содержащейся в исходных данных. В связи с этим возникает задача оценки информационных свойств обобщенных факторов влияния. Как правило, параметры инвестиционной среды являются существенно взаимозависимыми, что позволяет сжать их до 2 обобщенных показателей с потерей информации около 20% или до 3 обобщенных показателей с потерей информации примерно 10-15%.
    Дальнейший рост информативности обобщенных показателей инвестиционной среды при числе r " 3 происходит достаточно медленно. Так, для достижения уровня потерь около 1% необходимо, как правило, не менее 8-10 обобщенных показателей. При этом необходимость в таком уровне потерь практически отсутствует, поскольку соответствующий уровень достоверности результатов мониторинга среды взаимодействия (или экспертного оценивания) обычно оказывается значительно более низким.
    В свою очередь, применение компонентного анализа обычно связано с проблемой интерпретации полученных результатов. В некоторых случаях удается придать главным компонентам вполне определенный экономический смысл. Однако в большинстве практических ситуаций линейная комбинация частных показателей инвестиционной среды приводит к абстрактным величинам, обладающим высоким уровнем информативности, но не имеющим конкретных аналогий во множестве традиционных экономических понятий и категорий. Особенно остро данная проблема проявляется при формировании обобщенных показателей на основе совокупности разнородных исходных характеристик инвестиционной ситуации.
    Важно отметить, что вычислительная схема метода главных компонент обладает целым рядом оптимальных свойств в классе линейных отображений.
    Практическое применение метода главных компонент связано с использованием ограниченной выборки наблюдений из генеральной совокупности исходных данных. В связи с этим возникает вопрос относительно конечновыборочных свойств формируемых результатов (данная задача достаточно подробно изучалась в [3, 5, 14]).
    Следующей проблемой современного инвестиционного анализа является оценивание степени достоверности экономической или иной информации, получаемой в процессе мониторинга инвестиционной ситуации. В связи с этим технологии информационного анализа предполагают тщательный априорный анализ качества информационного поля, в том числе на наличие противоречий в исходных данных, указывающих на их сомнительную достоверность.
    В качестве основы для выявления подобных дефектов информационного поля используется оригинальная технология определения корреляционных несоответствий, основанная на сочетании описанного в предыдущем подразделе компонентного анализа и методов проверки статистических гипотез. Многомерный массив наблюдений инвестиционной ситуации в соответствии с методологией компонентного анализа, преобразуется в 2-3-мерный массив обобщенных показателей, который визуализируется на графике. Каждому отсчету состояний инвестиционной среды будет соответствовать точка на графике. Для стационарных режимов точки группируются в один или несколько кластеров. Среднее значение кластера будет соответствовать некоторому ожидаемому состоянию инвестиционной ситуации, а разброс точек относительно этого среднего (центра кластера) - степени ее вариабельности. При этом каждая точка графика, отвечающая текущим отсчетам в пространстве обобщенных показателей, формируется не только с учетом его собственных значений, но и с учетом ее корреляционных связей с другими параметрами инвестиционной среды. Это значит, что появляется возможность идентифицировать такие скрытые отклонения в инвестиционной ситуации, которые могут явно не проявляться на временных графиках, но окажутся достаточно заметными в пространстве главных компонент (обобщенных показателей).
    Важно отметить, что возникновение "аномальностей" векторного наблюдения может быть обусловлено как аномальными значениями составляющих его компонент (в данном случае - биржевых индексов), так и аномалиями в корреляционных связях между наблюдаемыми параметрами.
    Следующей проблемой является мультиколлинеарность исходных данных. То есть одна из переменных не несет в себе какой-либо новой информации и может быть отброшена без снижения качества формируемых оценок состояния объекта инвестиционного анализа. Наличие мультиколлинеарности не позволяет непосредственно использовать традиционные вычислительные схемы МНК и метода максимального правдоподобия, снижает вычислительную устойчивость алгоритмов оценивания параметров модели. Меры мультиколлинеарности приведены в табл. 1.
    Автоматизированный анализ ретроспективных данных позволяет на основе указанных мер обнаруживать строгую и реальную мультиколлинеарность и в случае ее нахождения определить пары предикторов, приводящих к данному эффекту. При этом указываются парные связи, обладающие корреляционными характеристиками выше некоторого априори заданного порога.
    Таким образом, в соответствии с концепцией информационного анализа формируется соответствующий программно-математический инструментарий, представленный в табл. 2, который включает необходимые модификации для решения проблем качества информационных потоков.
    Следовательно, парадигма информационного анализа требует предварительного комплексного анализа информационных потоков, который обеспечивает качественную оценку инвестиционной ситуации, выявляет обозначенные выше проблемы, связанные со статистическими и динамическими свойствами исходных данных и их достоверностью, позволяет устранить большую часть недостатков, которые могут привести к ложным выводам. При этом для проведения такого анализа необходима разработка программно-алгоритмических средств, обеспечивающих проведение указанного автоматизированного анализа информационных потоков. Результаты анализа должны обеспечить возможность содержательной интерпретации состояния инвестиционного климата, а также графическую и текстовую визуализацию их свойств, как это было продемонстрировано на рассмотренных примерах.

    Список литературы
    1. Автоматизированное рабочее место для статистической обработки данных / В. В. Шураков, Д. М. Дайитбеков, С. В. Мизрохин, С. В. Ясеновский. М.: Финансы и статистика, 1990.
    2. Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрии: Учебник для вузов. М.: ЮНИТИ, 1998.
    3. Андерсон Т. Введение в многомерный статистический анализ / Пер. с англ. М.: Физматгиз, 1963.
    4. Болшев Л. Н., Смирнов Н. В. Таблицы математической статистики. М.: Наука, 1965.
    5. Болч Б., Хуань К. Дж. Многомерные статистические методы для экономики / Пер. с англ. под. ред. С. А. Айвазяна. М.: Статистика, 1979.
    6. Введение в теорию порядковых статистик / Под ред. А. Е. Сархана и Б. Г. Гринберга; пер. с англ. под ред. А. Я. Боярского. М.: Статистика, 1970.
    7. Вентцель Е. С. Теория вероятностей. М.: Наука, 1969.
    8. Демиденко Е. З. Линейная и нелинейная регрессии. М.: Финансы и статистика, 1981.
    9. Дубров А. М. Компонентный анализ и эффективность в экономике. М.: Финансы и статистика, 2002.
    10. Дюк В., Самойленко А. Data Mining: Учебный курс. СПб.: Питер, 2001.
    11. Линник Ю. В. Методы наименьших квадратов и основы теории обработки наблюдений. М.: Физматгиз, 1958.
    12. Кендалл М., Стьюарт А. Статистические выводы и связи // Пер. с англ. под ред. А. Н. Колмогорова. М.: Наука, 1973.
    13. Киселев М., Соломатин Е. Средства добычи знаний в бизнесе и финансах // Открытые системы, 1997, № 4. С. 41-44.
    14. Классификация и кластер / Под ред. Дж. Райзина. Пер. с англ. М.: Мир, 1980.
    15. Кречетов Н., Иванов П. Продукты для интеллектуального анализа данных // Computer Week, 1997. № 14-15. C. 32-39.
    16. Кривда Ш. Раскопки сокрытых знаний // ЛАН, 1996. № 4. С. 17-23.
    17. Айвазян С. А. , Енюков И. С., Мешалкин Л. Д. Прикладная статистика: Основы моделирования и первичная обработка данных. М.: Финансы и статистика, 1983.
    18. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Исследование зависимостей / Под ред. С. А. Айвазяна. М.: Финансы и статистика, 1985.
    19. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности / Под ред. С. А. Айвазяна. М.: Финансы и статистика, 1989.
    20. Рао С. Р. Линейные статистические методы и их применение / Пер. с англ. М.: Наука, 1968.
    21. Тихомиров Н. П., Дорохина Е. Ю. Эконометрика. М.: Экзамен, 2003.
    22. Тихонов А. Н., Арсенин В. Я. Методы решения некорректных задач. М.: Наука, 1979.
    23. Grubbs F. Sample criteria for testing outlying observations. Ann. Math. Statistics, 1950. V. 21. Р. 27-58.
    24. Thompson W. R. On a criterion for the rejection of observations and the distribution of the ratio of deviation to sample standard deviation. Ann. Math. Statistics, 1935. V. 6. P. 214-219.





Содержание (развернуть содержание)
Факты и комментарии
Новый курс правительства
Квалифицированный инвестор: быть или не быть
Стратегия и вектор движения фондового рынка в России
Взаимодействие государственных и саморегулируемых органов в сфере контроля и надзора на рынке ценных бумаг: вопросы теории и практики
Из истории рынка ценных бумаг России
Дебют "ЮниТайл" на рынке капитала
Проще многостороннего
Прогнозирование развития фондового рынка Украины
Смена отраслевых приоритетов на фондовом рынке
Совершенствование критериев оценки концессионных проектов при строительстве платных дорог
Признание профессионалов
Методологические аспекты информационного анализа инвестиционных сред и фондовых активов
Индекс скорости - новый взгляд на динамику фондового рынка
Управление долгом региона. Теория и опыт лучшей практики
Подходы к определению оптимальной срочности долга региона
Муниципальные облигации Новосибирска
Новые тенденции в бюджетной сфере и кредитоспособность российских регионов

  • Статьи в открытом доступе
  • Статьи доступны на платной основе
Актуальные темы    
 Сергей Хестанов
Девальвация — горькое лекарство
Оптимальный курс национальной валюты четко связан со структурой экономики и приоритетами денежно-кредитной политики. Для нынешней российской экономики наиболее логичным (и реалистичным) решением бюджетных проблем является девальвация рубля.
Александр Баранов
Управление рисками НПФов с учетом новых требований Банка России
В III кв. 2016 г. вступили в силу новые требования Банка России по организации системы управления рисками негосударственных пенсионных фондов.
Варвара Артюшенко
Вместе мы — сила
Закон синергии гласит: «Целое больше, нежели сумма отдельных частей».
Сергей Майоров
Применение blockchain для развития биржевых технологий и сервисов
Распространение технологий blockchain и распределенного реестра за первоначальные пределы рынка криптовалют — одна из наиболее дискутируемых тем в современной финансовой индустрии.
Все публикации →
  • Rambler's Top100