Линейное сжатие информации - метод главных компонент

Более общий подход - использовать не две отдельные компоненты, а две линейные комбинации всех 30 исходных параметров, наилучшим образом представляющие имеющиеся данные (см. Error! Reference source not found.).

Рис. 10.3. Линейная аппроксимация многомерных (здесь - трехмерных) данных

Каждый банк представлен точкой в 30-мерном пространстве и задача состоит в проведении двумерной плоскости в этом пространстве, обеспечивающей минимальное среднеквадратичное отклонение имеющихся точек от этой плоскости:

Как мы знаем подобное линейное приближение дается методом главных компонент. Если действительное расположение точек не сильно отклоняется от плоскости, этот метод может дать неплохое начальное приближение. Однако, оказывается, что в даном случае это не так. Среднеквадратичное отклонение для случая двух главных компонент оказалось равным почти половине от общей дисперсии: .

Таким образом, даже оптимальный вариант линейного сжатия не дает возможности визуализировать финансовое положение банков. Оно может, тем не менее, оказаться полезным, в частности, для анализа значимости балансовых статей. Так, увеличение числа главных компонент постепенно дает все лучшее и лучшее приближение имеющегося массива данных (см. Error! Reference source not found.).

Рис. 10.4. Точность воспроизве-дения данных как функция числа главных компонент

Например, 10 главных компонент обеспечивают вполне приемлемую общую точность 94% (т.е. ). При общем числе входов равном 30, это означает 3-кратное сжатие информации. Такое сжатие оказывается возможным из-за существенных корреляций между отдельными статьями в балансовой отчетности. При этом те статьи, которые дают наибольший вклад в главные компоненты, восстанавливаются по ним с наибольшей точностью.

Степень восстановления исходных данных по ограниченному числу главных компонент свидетельствует о том, насколько согласованны данные в этих статьях между собой во всем массиве имеющейся информации, т.е. насколько содержащаяся в них информация значима для выявления индивидуальных отличий. Error! Reference source not found. показывает, что около 20 статей восстанавливаются по 10 главным компонентам с относительно высокой точностью. Это как раз те статьи, кторые дают основной вклад в главные компоненты. Остальные статьи гораздо менее значимы для сравнительного финансового анализа, в частности, в силу незначительности совокупной доли активов в этих статьях балансов.

Рис. 10.5. Значимость статей балансов и отчетов о прибылях/убытках, определенная по степени их восстановления по 10 главных компонентам


8497377494997550.html
8497405683967859.html

8497377494997550.html
8497405683967859.html
    PR.RU™