Подлазов А.В.

Обработка в ранговом представлении данных о катастрофических событиях на примере статистики компьютерных вирусов

Статистическим выражением катастрофичности являются степенные законы распределения с плотностью вероятности вида

.                                                                                                            (1)

Столь медленное спадание функции u(x) приводит к тому, что крупные события происходят недостаточно редко, чтобы их вероятностью можно было пренебречь. Именно такие события и воспринимаются нами как катастрофические. [1,2]

В соответствии с формулой (1) распределены стихийные бедствия и техногенные катастрофы различного вида по числу пострадавших (погибших, раненных, лишившихся крова) в их результате, причиненному ими ущербу, а также по их физическим характеристикам (энергии, площади и т.п.). [1,2,3,4]

Разумеется, степенной закон (1) действует лишь в области промежуточной асимптотики (составляющей, порой, многие порядки величины). Размеры систем, где происходят катастрофические события, равно как и размеры, составляющих их элементов конечны. И поэтому плотность вероятности отклоняется от степенного вида (1) как при очень малых, так и при очень больших значениях x.

Поскольку мелкие события несущественны с точки зрения анализа катастрофического поведения, те из них, которые попадают в область, не описываемую степенной зависимостью, на практике просто отбрасываются. Однако с крупными значениями так, очевидно, поступать нельзя.

Учесть отклонение статистики от степенного вида в области больших x проще всего путем анализа выборок в ранговом представлении. Рангом значения называется его номер r в списке, упорядоченном по убыванию величины x. Поскольку нумерация выполняется с точностью до произвольной аддитивной константы, то ранжировка характеризуется величиной рангового искажения r0, равной рангу крупнейшего значения. Если плотность имеет вид (1), то при надлежащем выборе величины r0 зависимость ранг–размер также имеет степенной вид

,                                                                                                                 (2)

Рис. 1. Зависимость ранг–размер для наиболее распространенных компьютерных вирусов по проценту пораженных компьютеров

Слева – усреднение по позициям в рейтингах Лаборатории Касперского [8] за 13 месяцев. Параметры степенных зависимостей: a = 0,60 при r0 = 0,35 для среднего арифметического и при r0 = 0,26 для среднего геометрического.

Справа – усреднение по позициям в рейтингах фирмы Sophos Anti-Virus [9] за 57 месяцев. Параметры степенных зависимостей: a = 0,75 при r0 = 1,42 для среднего арифметического и при r0 = 1,44 для среднего геометрического.

причем g = 1/a. [7,5,6]

Однако формула (2) имеет более широкую применимость. В частности, она остается справедливой и для усеченного распределения вида

.

Формулу (2) можно использовать как приближение и при менее быстром нарушении закона (1), что позволяет находить показатель распределения a, несмотря на отсутствие информации о том, как именно происходит отклонении функции u(x) от степенного вида при больших значениях аргумента. Вся эта неактуальная информация аккумулируется в величине рангового искажения.

Продемонстрируем описанный аппарат в действии на материале статистики распространенности компьютерных вирусов. Их эпидемии отличаются от "обычных" катастрофических событий тем, что даже крупнейшие из числа последних затрагивают линь ничтожную часть систем, в которых происходят. Вирусы же могут поражать значительную часть всего информационного пространства, которое для них является единым целым. Поэтому встает вопрос о том, остаются ли для компьютерных вирусов в силе те статистические закономерности, которые имеют место для обычных катастроф.

Данные фирм – производителей антивирусного программного обеспечения [8,9], публикующих ежемесячные рейтинги распространенности компьютерных вирусов, позволяют проанализировать их распределение по долям пораженных компьютеров (использовались данные по сентябрь 2002 г. включительно).

Рис. 2. Зависимости ранг–размер для активности различных компьютерных вирусов

Слева – распределение вирусов по числу попаданий в десятку наиболее распространенных. Параметры степенной зависимости: r0 = 41,9 и a = 0,42; описывается вся выборка (137 точек).

Справа – распределение вирусов по интегральному проценту пораженных компьютеров за все время наблюдения. Параметры степенной зависимости: r0 = 28,5 и a = 0,35; описывается 92% объема выборки (126 точек).

По данным Sophos Anti-Virus [9].

Как правило, каждый отдельный вирус активно живет лишь до появления соответствующего обновления антивирусных программ, поэтому интерес в первую очередь представляет не судьба отдельных вирусов, а общее положение дел на данном фронте. Его отражением может служить распределение вирусов по местам в рейтингах распространенности. Однако по отдельным месяцам имеет место весьма большой разброс данных, т.е. они сильно зашумлены. Шумы устранялись путем обезличенного (без учета того, какой это вирус) усреднения данных по времени. Иными словами, в качестве значений по каждой позиции рейтинга принималась средняя доля компьютеров пораженных вирусами, занимавших эту позицию по всем месяцам наблюдения.

Из-за отсутствия каких бы то ни было теоретических соображений, как надо усреднять, рассматривалось как среднее арифметическое, так и среднее геометрическое (см. рис. 1). Для данных каждой из фирм в обоих случаях получились одинаковые показатели, что свидетельствует в пользу избранного подхода. Различие в величине показателей между фирмами, публикующими рейтинги, видимо, обусловлено различными секторами рынка, на которые они ориентированы. В отличие от Sophos Anti-Virus, Лаборатория Касперского работает преимущественно на корпоративном рынке, где риски хуже диверсифицированы. Это делает наблюдаемую ситуацию более катастрофичной, следствием чего служит меньшее значение a [7].

Рис. 2 позволяет взглянуть на вирусную активность с точки зрения судьбы индивидуальных вирусов. Легко видеть, что распределения вирусов и по количеству попаданий в список наиболее распространенных, и по интегральной (т.е. просуммированной по всему времени наблюдения) доле пораженных компьютеров имеют степенной вид.

Отметим, что показатели распределения интегральной активности отдельных вирусов (0,42 и 0,35) значительно ниже показателя распределения обезличенных вирусов по долям пораженных ими компьютеров (0,75), полученного на основе тех же данных. Это позволяет сделать вывод о том, что индивидуальные вирусы являются "более катастрофичными", нежели вирусная активность вообще.

Работа выполнена при поддержке РФФИ (проект №01‑01‑00628 и проект МАС №02‑01‑06324 в его рамках).

Литература:

1.  Владимиров В.А., Воробьев Ю.Л. и др. Управление риском. Риск, устойчивое развитие, синергетика. – М.: Наука, 2000. – 432 с.

2.  Подлазов А.В. Самоорганизованная критичность и анализ риска// Известия вузов. Прикладная нелинейная динамика. 2001. Т.9, №1, с.49‑88.

3.  Reduction and predictability of natural disaster. Eds. J.B. Rundle, D.L. Turcotte, W. Klein. Proceedings of the Workshop "Reduction and predictability of natural disasters" held January 5‑9, 1994 in Santa Fe, New Mexico. 1995.

4.  Bak P. How nature works: the science of self-organized criticality. – Springer-Verlag New York, Inc. 1996.

5.  Хайтун С.Д. Наукометрия. Состояние и перспективы. – М.: Наука, 1983. – 279 с.

6.  Хайтун С.Д. Проблемы количественного анализа науки. – М.: Наука, 1989. – 280 с.

7.  Подлазов А.В. Распределение конкурентов, масштабная инвариантность состояния и модели линейного роста// Известия вузов. Прикладная нелинейная динамика. 2002. Т.10, №1‑2, с.20‑43.

8.  Kaspersky Labs. http://www.avp.ru

9.  Top ten viruses reported to Sophos. http://www.sophos.com/virusinfo/topten/