Графики временных рядов. Цели, этапы и методы анализа временных рядов. Числовые характеристики случайной составляющей

Цель анализа временных рядов обычно заключается в построении математической модели ряда, с помощью которой можно объяснить его поведение и осуществить прогноз на определенный период времени. Анализ временных рядов включает следующие основные этапы.

Анализ временного ряда обычно начинается с построения и изучения его графика.

Если нестационарность временного ряда очевидна, то первым делом надо выделить и удалить нестационарную составляющую ряда. Процесс удаления тренда и других компонент ряда, приводящих к нарушению стационарности, может проходить в несколько этапов. На каждом из них рассматривается ряд остатков, полученный в результате вычитания из исходного ряда подобранной модели тренда, или результат разностных и других преобразований ряда. Кроме графиков, признаками нестационарности временного ряда могут служить не стремящаяся к нулю автокорреляционная функция (за исключением очень больших значений лагов).

Подбор модели для временного ряда. После того, как исходный процесс максимально приближен к стационарному, можно приступить к подбору различных моделей полученного процесса. Цель этого этапа – описание и учет в дальнейшем анализе корреляционной структуры рассматриваемого процесса. При этом на практике чаще всего используются параметрические модели авторегрессии-скользящего среднего (ARIMA-модели)

Модель может считаться подобранной, если остаточная компонента ряда является процессом типа «белого шума», когда остатки распределены по нормальному закону с выборочным средним равным 0. После подбора модели обычно выполняются:

    оценка дисперсии остатков, которая в дальнейшем может быть использована для построения доверительных интервалов прогноза;

    анализ остатков с целью проверки адекватности модели.

Прогнозирование и интерполяция . Последним этапом анализа временного ряда может быть прогнозирование его будущих (экстраполяция) или восстановление пропущенных (интерполяция) значений и указания точности этого прогноза на базе подобранной модели. Не всегда удается хорошо подобрать математическую модель для временного ряда. Неоднозначность подбора модели может наблюдаться как на этапе выделения детерминированной компоненты ряда, так и при выборе структуры ряда остатков. Поэтому исследователи довольно часто прибегают к методу нескольких прогнозов, сделанных с помощью разных моделей.

Методы анализа. При анализе временных рядов обычно используются следующие методы:

    графические методы представления временных рядов и их сопутствующих числовых характеристик;

    методы сведения к стационарным процессам: удаление тренда, модели скользящего среднего и авторегрессии;

    методы исследования внутренних связей между элементами временных рядов.

3.5. Графические методы анализа временных рядов

Зачем нужны графические методы. В выборочных исследованиях простейшие числовые характеристики описательной статистики (среднее, медиана, дисперсия, стандартное отклонение) обычно дают достаточно информативное представление о выборке. Графические методы представления и анализа выборок при этом играют лишь вспомогательную роль, позволяя лучше понять локализацию и концентрацию данных, их закон распределения.

Роль графических методов при анализе временных рядов совершенно иная. Дело в том, что табличное представление временного ряда и описательные статистики чаще всего не позволяют понять характер процесса, в то время как по графику временного ряда можно сделать довольно много выводов. В дальнейшем они могут быть проверены и уточнены с помощью расчетов.

При анализе графиков можно достаточно уверенно определить:

    наличие тренда и его характер;

    наличие сезонных и циклических компонент;

    степень плавности или прерывистости изменений последовательных значений ряда после устранения тренда. По этому показателю можно судить о характере и величине корреляции между соседними элементами ряда.

Построение и изучение графика. Построение графика временного ряда – совсем не такая простая задача, как это кажется на первый взгляд. Современный уровень анализа временных рядов предполагает использование той или иной компьютерной программы для построения их графиков и всего последующего анализа. Большинство статистических пакетов и электронных таблиц снабжено теми или иными методами настройки на оптимальное представление временного ряда, но даже при их использовании могут возникать различные проблемы, например:

    из-за ограниченности разрешающей способности экранов компьютеров размеры выводимых графиков могут быть также ограничены;

    при больших объемах анализируемых рядов точки на экране, изображающие наблюдения временного ряда, могут превратиться в сплошную черную полосу.

Для борьбы с этими затруднениями используются различные способы. Наличие в графической процедуре режима «лупы» или «увеличения» позволяет изобразить более крупно выбранную часть ряда, однако при этом становится трудно судить о характере поведения ряда на всем анализируемом интервале. Приходится распечатывать графики для отдельных частей ряда и состыковыватьих вместе, чтобы увидеть картину поведения ряда в целом. Иногда для улучшения воспроизведения длинных рядов используетсяпрореживание, то есть выбор и отображение на графике каждой второй, пятой, десятой и т.д. точки временного ряда. Эта процедура позволяет сохранить целостное представление ряда и полезна для обнаружения трендов. На практике полезно сочетание обеих процедур: разбиения ряда на части и прореживания, так как они позволяют определить особенности поведения временного ряда.

Еще одну проблему при воспроизведении графиков создают выбросы – наблюдения, в несколько раз превышающие по величине большинство остальных значений ряда. Их присутствие тоже приводит к неразличимости колебаний временного ряда, так как масштаб изображения программа автоматически подбирает так, чтобы все наблюдения поместились на экране. Выбор другого масштаба на оси ординат устраняет эту проблему, но резко отличающиеся наблюдения при этом остаются за границами экрана.

Вспомогательные графики. При анализе временных рядов часто используются вспомогательные графики для числовых характеристик ряда:

    график выборочной автокорреляционной функции (коррелограммы) с доверительной зоной (трубкой) для нулевой автокорреляционной функции;

    график выборочной частной автокорреляционной функции с доверительной зоной для нулевой частной автокорреляционной функции;

    график периодограммы.

Первые дваиз этих графиков позволяют судить о связи (зависимости) соседних значений временного рада, они используются при подборе параметрических моделей авторегрессии и скользящего среднего. График периодограммы позволяет судить о наличии гармонических составляющих во временном ряде.

Введение

В данной главе рассматриваются задачи описания упорядоченных данных, полученных последовательно (во времени). Вообще говоря, упорядоченность может иметь место не только во времени, но и в пространстве, например, диаметр нити как функция её длины (одномерный случай), значение температуры воздуха как функция пространственных координат (трёхмерный случай).

В отличие от регрессионного анализа, где порядок строк в матрице наблюдений может быть произвольным, во временных рядах важна упорядоченность, а следовательно, интерес представляет взаимосвязь значений, относящихся к разным моментам времени.

Если значения ряда известны в отдельные моменты времени, то такой ряд называют дискретным , в отличие от непрерывного , значения которого известны в любой момент времени. Интервал между двумя последовательными моментами времени назовём тактом (шагом) . Здесь будут рассматриваться в основном дискретные временные ряды с фиксированной протяжённостью такта, принимаемой за единицу счёта. Заметим, что временные ряды экономических показателей, как правило, дискретны.

Значения ряда могут быть измеряемыми непосредственно (цена, доходность, температура), либо агрегированными (кумулятивными) , например, объём выпуска; расстояние, пройдённое грузоперевозчиками за временной такт.

Если значения ряда определяются детерминированной математической функцией, то ряд называют детерминированным . Если эти значения могут быть описаны лишь с привлечением вероятностных моделей, то временной ряд называют случайным .

Явление, протекающее во времени, называют процессом , поэтому можно говорить о детерминированном или случайном процессах. В последнем случае используют часто термин “стохастический процесс” . Анализируемый отрезок временного ряда может рассматриваться как частная реализация (выборка) изучаемого стохастического процесса, генерируемого скрытым вероятностным механизмом.

Временные ряды возникают во многих предметных областях и имеют различную природу. Для их изучения предложены различные методы, что делает теорию временных рядов весьма разветвленной дисциплиной. Так, в зависимости от вида временных рядов можно выделить такие разделы теории анализа временных рядов:

– стационарные случайные процессы, описывающие последовательности случайных величин, вероятностные свойства которых не изменяются во времени. Подобные процессы широко распространены в радиотехнике, метереологии, сейсмологии и т. д.

– диффузионные процессы, имеющие место при взаимопроникновении жидкостей и газов.

– точечные процессы, описывающие последовательности событий, таких как поступление заявок на обслуживание, стихийных и техногенных катастроф. Подобные процессы изучаются в теории массового обслуживания.

Мы ограничимся рассмотрением прикладных аспектов анализа временных рядов, которые полезны при решении практических задач в экономике, финансах. Основной упор будет сделан на методы подбора математической модели для описания временного ряда и прогнозирования его поведения.

1.Цели, методы и этапы анализа временных рядов

Практическое изучение временного ряда предполагает выявление свойств ряда и получение выводов о вероятностном механизме, порождающем этот ряд. Основные цели при изучении временного ряда следующие:

– описание характерных особенностей ряда в сжатой форме;

– построение модели временного ряда;

– предсказание будущих значений на основе прошлых наблюдений;

– управление процессом, порождающим временной ряд, путем выборки сигналов, предупреждающих о грядущих неблагоприятных событиях.

Достижение поставленных целей возможно далеко не всегда как из-за недостатка исходных данных (недостаточная длительность наблюдения), так из-за изменчивости со временем статистической структуры ряда.

Перечисленные цели диктуют в значительной мере, последовательность этапов анализа временных рядов:

1) графическое представление и описание поведения ряда;

2) выделение и исключение закономерных, неслучайных составляющих ряда, зависящих от времени;

3) исследование случайной составляющей временного ряда, оставшейся после удаления закономерной составляющей;

4) построение (подбор) математической модели для описания случайной составляющей и проверка ее адекватности;

5) прогнозирование будущих значений ряда.

При анализе временных рядов используются различные методы, наиболее распространенными из которых являются:

1) корреляционный анализ, используемый для выявления характерных особенностей ряда (периодичностей, тенденций и т. д.);

2) спектральный анализ, позволяющий находить периодические составляющие временного ряда;

3) методы сглаживания и фильтрации, предназначенные для преобразования временных рядов с целью удаления высокочастотных и сезонных колебаний;

5) методы прогнозирования.

2.Структурные компоненты временного ряда

Как уже отмечалось, в модели временного ряда принято выделять две основные составляющие: детерминированную и случайную (рис.). Под детерминированной составляющей временного ряда понимают числовую последовательность , элементы которой вычисляются по определенному правилу как функция времени t . Исключив детерминированную составляющую из данных, мы получим колеблющийся вокруг нуля ряд, который может в одном предельном случае представлять чисто случайные скачки, а в другом – плавное колебательное движение. В большинстве случаев будет нечто среднее: некоторая иррегулярность и определенный систематический эффект, обусловленный зависимостью последовательных членов ряда.

В свою очередь, детерминированная составляющая может содержать следующие структурные компоненты:

1) тренд g, представляющий собой плавное изменение процесса во времени и обусловленный действием долговременных факторов. В качестве примера таких факторов в экономике можно назвать: а) изменение демографических характеристик популяции (численности, возрастной структуры); б) технологическое и экономическое развитие; в) рост потребления.

2) сезонный эффект s , связанный с наличием факторов, действующих циклически с заранее известной периодичностью. Ряд в этом случае имеет иерархическую шкалу времени (например, внутри года есть сезоны, связанные с временами года, кварталы, месяцы) и в одноименных точках ряда имеют место сходные эффекты.


Рис. Структурные компоненты временного ряда.

Типичные примеры сезонного эффекта: изменение загруженности автотрассы в течение суток, по дням недели, временам года, пик продаж товаров для школьников в конце августа - начале сентября. Сезонная компонента со временем может меняться, либо носить плавающий характер. Так на графике объема перевозок авиалайнерами (см рис.) видно, что локальные пики, приходящиеся на праздник Пасхи «плавают» из-за изменчивости ее сроков.

Циклическая компонента c , описывающая длительные периоды относительного подъема и спада и состоящая из циклов переменной длительности и амплитуды. Подобная компонента весьма характерна для рядов макроэкономических показателей. Циклические изменения обусловлены здесь взаимодействием спроса и предложения, а также наложением таких факторов, как истощение ресурсов, погодные условия, изменения в налоговой политике и т. п. Отметим, что циклическую компоненту крайне трудно идентифицировать формальными методами, исходя только из данных изучаемого ряда.

«Взрывная» компонента i , иначе интервенция, под которой понимают существенное кратковременное воздействие на временной ряд. Примером интервенции могут служить события «черного вторника» 1994г., когда курс доллара за день вырос на несколько десятков процентов.

Случайная составляющая ряда отражает воздействие многочисленных факторов случайного характера и может иметь разнообразную структуру, начиная от простейшей в виде «белого шума» до весьма сложных, описываемых моделями авторегрессии-скользящего среднего (подробнее дальше).

После выделения структурных компонент необходимо специфицировать форму их вхождения во временной ряд. На верхнем уровне представления с выделением лишь детерминированной и случайной составляющих обычно используют аддитивную либо мультипликативную модели.

Аддитивная модель имеет вид

мультипликативная –

где - значение ряда в момент t ;

Значение детерминированной составляющей;

Значение случайной составляющей.

В свою очередь, детерминированная составляющая может быть представлена как аддитивная комбинация детерминированных компонент:

как мультипликативная комбинация:


,

либо как смешанная комбинация, например,

3.Модели компонентов детерминированной составляющей временного ряда

3.1.Модели тренда

Тренд отражает действие постоянных долговременных факторов и носит плавный характер, так что для описания тренда широко используют полиномиальные модели, линейные по параметрам

где значения степени k полинома редко превышает 5.

Наряду с полиномиальными моделями экономические данные, описывающие процессы роста, часто аппроксимируются следующими моделями:

– экспоненциальной

Эта модель описывает процесс с постоянным темпом прироста, то есть

– логистической

У процесса, описываемого логистической кривой, темп прироста изучаемой характеристики линейно падает с увеличением y , то есть

– Гомперца

.

Эта модель описывает процесс, в котором темп прироста исследуемой характеристики пропорционален ее логарифму

.

Две последние модели задают кривые тренда S -образной формы, представляя процессы с нарастающим темпом роста в начальной стадии с постепенным замедлением в конце.

При подборе подходящей функциональной зависимости, иначе спецификации тренда, весьма полезным является графическое представление временного ряда.

Отметим также, что тренд, отражая действие долговременных факторов, является определяющим при построении долговременных прогнозов.

3.2 Модели сезонной компоненты

Сезонный эффект во временном ряде проявляется на «фоне» тренда и его выделение оказывается возможным после предварительной оценки тренда. (Здесь не рассматриваются методы спектрального анализа, позволяющего выделить вклад сезонной компоненты в спектр без вычисления других компонент ряда). Действительно, линейно растущий ряд помесячных данных будет иметь схожие эффекты в одноименных точках – наименьшее значение в январе и наибольшее в декабре; однако вряд ли здесь уместно говорить о сезонном эффекте: исключив линейный тренд, мы получим ряд, в котором сезонность полностью отсутствует. В то же время ряд, описывающий помесячные объемы продаж новогодних открыток, хотя и будет иметь такую же особенность (минимум продаж в январе и максимум в декабре) будет носить скорее всего колебательный характер относительно тренда, что позволяет специфицировать эти колебания как сезонный эффект.

В простейшем случае сезонный эффект может проявляться в виде строго периодической зависимости.

Для любого t , где t - период сезонности.

В общем случае значения, отстоящие на t могут быть связаны функциональной зависимостью, то есть

К примеру, сезонный эффект сам может содержать трендовую составляющую, отражающую изменение амплитуды колебаний.

Если сезонный эффект входит в ряд аддитивно, то модель сезонного эффекта можно записать как


где - булевы, иначе индикаторные, переменные, по одной на каждый такт внутри периода t сезонности. Так, для ряда месячных данных =0 для всех t , кроме января каждого года, для которого =1 и так далее. Коэффициент при показывает отклонение январских значений от тренда, - отклонение февральских значений и так далее до . Чтобы снять неоднозначность в значениях коэффициентов сезонности , вводят дополнительное ограничение, так называемое условие репараметризации, обычно

В том случае, когда сезонный эффект носит мультипликативный характер, то есть

модель ряда с использованием индикаторных переменных можно записать в виде

Коэффициенты , в этой модели принято называть сезонными индексами.

Для полностью мультипликативного ряда


обычно проводят процедуру линеаризации операцией логарифмирования

Условимся называть представленные модели сезонного эффекта «индикаторными». Если сезонный эффект достаточно «гладкий» – близок к гармонике, используют «гармоническое» представление

,

где d - амплитуда, w - условия частоты (в радианах в единицу времени), a - фаза волны. Поскольку фаза обычно заранее неизвестна. Последнее выражение записывают как

Параметры А и В можно оценить с помощью обычно регрессии. Угловая частота w считается известной. Если качество подгонки окажется неудовлетворительным, наряду с гармоникой w основной волны в модель включают дополнительно первую гармонику (с удвоенной основной частотой 2w ), при необходимости и вторую и так далее гармоники. В принципе, из двух представлений: индикаторного и гармоничного – следует выбирать то, которое потребует меньшего числа параметров.

3.3 Модель интервенции

Интервенция, представляющая собой воздействие, существенно превышающее флуктуации ряда, может носить характер «импульса» или «ступеньки».

Импульсное воздействие кратковременно: начавшись, оно почти тут же заканчивается. Ступенчатое воздействие длительно, носит устойчивый характер. Обобщенная модель интервенции имеет вид

где - значение детерминированной компоненты ряда, описываемой как интервенция;

Коэффициенты типа скользящего среднего;

Экзогенная переменная одного из двух типов;

(«ступень»), или («импульс»)

где -- фиксированный момент времени, называемый моментом интервенции.

4.Методы выделения тренда

Приведенные в п.3.1 спецификации ряда являются параметрическими функциями времени. Оценивание параметров может быть проведено по методу наименьших квадратов так же, как в регрессионном анализе. Хотя статистические предпосылки регрессионного анализа (см п.) во временных рядах часто не выполняются (особенно п.5 – некоррелированность возмущений), тем не менее оценки тренда оказываются приемлемыми, если модель специфицирована правильно и среди наблюдений нет больших выбросов. Нарушение предпосылок регрессионного анализа сказывается не столько на оценках коэффициентов, сколько на их статистических свойствах, в частности, искажаются оценки дисперсии случайной составляющей и доверительные интервалы для коэффициентов модели.

В литературе описываются методы оценивания в условиях коррелированности возмущений, однако их применение требует дополнительной информации о корреляции наблюдений.

Главная проблема при выделении тренда состоит в том, что подобрать единую спецификацию для всего временного часто невозможно, поскольку меняются условия протекания процесса. Учет этой изменчивости особенно важен, если тренд вычисляется для целей прогнозирования. Здесь сказывается особенность именно временных рядов: данные относящиеся к «далекому прошлому» будут неактуальными, бесполезными или даже «вредными» для оценивания параметров модели текущего периода. Вот почему при анализе временных рядов широко используются процедуры взвешивания данных.

Для учета изменчивости условий модель ряда часто наделяют свойством адаптивности, по крайней мере, на уровне оценок параметров. Адаптивность понимается в том смысле, что оценки параметров легко пересчитываются по мере поступления новых наблюдений. Конечно, и обычному методу наименьших квадратов можно придать черты адаптивности, пересчитывая оценки каждый раз, вовлекая в процесс вычислений старые данные плюс свежие наблюдения. Однако при этом каждый новый пересчет ведет к изменению прошлых оценок, тогда как адаптивные алгоритмы свободны от этого недостатка.

4.1 Скользящие средние

Метод скользящих средних – один из самых старых и широко известных способов выделения детерминированной составляющей временного ряда. Суть метода состоит в усреднении исходного ряда на интервале времени, длина которого выбрана заранее. При этом сам выбранный интервал скользит вдоль ряда, сдвигаясь каждый раз на один такт вправо (отсюда название метода). За счет усреднения удается существенно уменьшить дисперсию случайной составляющей.

Ряд новых значений становится более гладким, вот почему подобную процедуру называют сглаживанием временного ряда.

Процедуру сглаживания рассмотрим вначале для ряда, содержащего лишь трендовую составляющую, на которую аддитивно наложен случайных компонент.

Как известно, гладкая функция может быть локально представлена в виде полинома с довольно высокой степенью точности. Отложим от начала временного ряда интервал времени длиной (2m +1) точек и построим полином степени m для отобранных значений и используем этот полином для определения значения тренда в (m +1 )-й, средней, точке группы.

Построим для определенности полином 3-го порядка для интервала из семи наблюдений. Для удобства дальнейших преобразований занумеруем моменты времени внутри выбранного интервала так, чтобы его середина имела нулевое значение, т.е. t = -3, -2, -1, 0, 1, 2, 3. Запишем искомый полином:


Константы находим методом наименьших квадратов:

Дифференцируем по коэффициентам :

;

Суммы нечетных порядков t от -3 до +3 равны 0, и уравнения сводятся к виду:


Используя первое и третье из уравнений, получаем при t=0:

Следовательно, значение тренда в точке t = 0 равно средневзвешенному значению семи точек с данной точкой в качестве центральной и весами

, которые в силу симметрии можно записать короче:

.

Для того чтобы вычислить значение тренда в следующей, (m+2)-й точке исходного ряда (в нашем случае пятой), следует воспользоваться формулой (1), где значения наблюдений берутся из интервала, сдвинутого на такт вправо, и т.д. до точки N - m .

количество точек формула

9 .

Свойства скользящих средних:

1) сумма весов равна единице (т.к. сглаживание ряда, все члены которого равны одной и той же константе, должно приводить к той же константе);

2) веса симметричны относительно серединного значения;

3) формулы не позволяют вычислить значения тренда для первых и последних m значений ряда;

4) можно вывести формулы для построения трендов на четном числе точек, однако при этом были бы получены значения трендов в серединах временных тактов. Значение тренда в точках наблюдений можно определить в этом случая как полусумма двух соседних значений тренда.

Следует отметить, что при четном числе 2m тактовв интервале усреднения (двадцать четыре часа в сутки, четыре недели в месяце, двенадцать месяцев в году), широко практикуется простое усреднение с весами . Пусть имеются, например, наблюдения на последний день каждого месяца с января по декабрь. Простое усреднение 12 точек с весами дает значение тренда в середине июля. Чтобы получить значение тренда на конец июля надо взять среднее значение тренда в середине июля и середине августа. Оказывается, это эквивалентно усреднению 13-месячных данных, но значения на краях интервала берут с весами . Итак, если интервал сглаживания содержит четное число 2m точек, в усреднении задействуют не 2m , а 2m +1 значений ряда:

Скользящие средние, сглаживая исходный ряд, оставляют в нем трендовую и циклическую составляющие. Выбор величины интервала сглаживания должен делаться из содержательных соображений. Если ряд содержит сезонный компонент, то величина интервала сглаживания выбирается равной или кратной периоду сезонности. В отсутствии сезонности интервал сглаживания берется обычно в диапазоне три-семь

Эффект Слуцкого-Юла

Рассмотрим, как влияет процесс сглаживания на случайную составляющую ряда, относительно которой будем полагать, что она центрирована и соседние члены ряда некоррелированы.

Скользящее среднее случайного ряда x есть:

.

В силу центрированности x и отсутствия корреляций между членами исходного ряда имеем:

И .

Из полученных соотношений видно, что усреднение приводит к уменьшению дисперсии колебаний. Кроме того члены ряда, полученные в результате усреднения, не являются теперь независимыми. Производный, сглаженный, ряд имеет ненулевые автокорреляции (корреляции между членами ряда, разделенных k-1 наблюдениями) вплоть до порядка 2m. Таким образом производный ряд будет более гладким, чем исходный случайный ряд, и в нем могут проявляться систематические колебания. Этот эффект называется эффектом Слуцкого-Юла.

4.2 Определение порядка полинома методом последовательных разностей

Если имеется ряд, содержащий полином (или локально представляемый полиномом) с наложенным на него случайным элементом, то было бы естественно исследовать, нельзя ли исключить полиномиальную часть вычислением последовательных разностей ряда. Действительно, разности полинома порядка k представляют собой полином порядка k-1. Далее, если ряд содержит полином порядка p , то переход к разностям, повторенный (p+1) раз, исключает его и оставляет элементы, связанные со случайной компонентой исходного ряда.

Рассмотрим, к примеру, переход к разностям в ряде, содержащим полином третьего порядка.

0 1 8 27 64 125

6 12 18 24

6 6 6

0 0

Взятие разностей преобразует случайную составляющую ряда.

В общем случае получаем:

;

.

Из последнего соотношения получаем

Следовательно, метод последовательных разностей переменной состоит в вычислении первых, вторых, третьих и т.д. разностей, определении сумм квадратов, делении на и т.д. и обнаружения момента, когда это отношение становится постоянным. Таким образом мы получаем оценки порядка полинома, содержащегося в исходном ряде, и дисперсии случайного компонента.

4.3.Методы экспоненциального сглаживания

Методы построения функций для описания наблюдений до сих пор основывался на критерии наименьших квадратов, в соответствии с которым все наблюдения имеют равный вес. Однако, можно предположить, что недавним точкам следует придавать в некотором смысле больший вес, а наблюдения, относящиеся к далекому прошлому, должны иметь по сравнению с ними меньшую ценность. До некоторой степени мы учитывали это в скользящих средних с конечной длиной отрезка усреднения, где значения весов, приписываемых группе из 2m+1 значений, не зависят от предшествующих значений. Теперь обратимся к другому методу выделения более «свежих» наблюдений.

Рассмотрим ряд весов, пропорциональных множителю b, а именно и т.д. Так как сумма весов должна равняться единице, т.е. , весами фактически будут и т.д. (предполагается, что 0

4.3.1 Простое экспоненциальное сглаживание

Рассмотрим простейший ряд , равный сумме постоянной (уровень) и случайной компоненты :

.

В приведенном выражении расхождения между наблюденными значениями ряда и оценкой уровня берутся с экспоненциально убывающими весами в зависимости от возраста данных.

; ; .

Полученную оценку на момент t обозначим (t ). Сглаженное значение в момент t можно выразить через сглаженное значение в прошлый момент t -1 и новое наблюдение :

Полученное соотношение

Перепишем несколько иначе, введя так называемую постоянную сглаживания (0 £a £1).

Из полученного соотношения видно, что новое сглаженное значение получается из предыдущего коррекцией последнего на долю ошибки, рассогласования, между новым и прогнозным значениями ряда. Происходит своего рода адаптация уровня ряда к новым данным.

4.3.2 Экспоненциальное сглаживание высоких порядков

Обобщим метод экспоненциального сглаживания на случай, когда модель процесса определяется линейной функцией . Как и прежде, при заданном b минимизируем:

.

(Здесь для удобства представления знаки ~ и Ù опущены).

,

С учетом того что

, ,

получаем

Запишем: .

Эту операцию можно рассматривать как сглаживание 1-го порядка. По аналогии построим сглаживание 2-го порядка:

; .

Рассмотренную выше процедуру можно обобщить на случай полиномиальных трендов более высокого порядка n , при этом алгебраические выражения будут сложнее. Например, если модель описывается параболой, то используется метод тройного экспоненциального сглаживания.

5. Оценивание и исключение сезонной компоненты

Сезонные компоненты могут представлять самостоятельный интерес либо выступать в роли мешающего фактора. В первом случае необходимо уметь выделять их из ряда и оценивать параметры соответствующей модели. Что же касается удаления сезонной компоненты из ряда, то здесь возможны несколько способов.

Рассмотрим сначала процедуру оценивания сезонных эффектов. Пусть исходный ряд является полностью аддитивным, то есть

.

Необходимо оценить по наблюденным . Иными словами, необходимо получить оценки коэффициентов индикаторной модели.

Как уже отмечалось, сезонный эффект проявляется на фоне тренда, поэтому вначале необходимо оценить трендовую составляющую одним из рассмотренных методов. Затем для каждого сезона вычисляют все относящиеся к нему разности

где, как обычно, - наблюденное значение ряда, - оцененное значение тренда.

Каждая из этих разностей дает совместную оценку сезонного эффекта и случайного компонента, отличного, правда, от исходного в силу взятия разностей.

Производя усреднение полученных разностей, получают оценки эффектов. Полагая, что исходный ряд содержит целое число k периодов сезонности и ограничиваясь простым средним, имеем

С учетом условия репараметризации, требующим, чтобы сумма сезонных эффектов равнялась нулю, получаем скорректированные оценки

.

В случае мультипликативного сезонного эффекта, когда модель ряда имеет вид

,

вычисляют уже не разности, а отношения

.

В качестве оценки сезонного индекса выступает среднее

.

На практике считается, что для оценки сезонных эффектов временной ряд должен содержать не менее пяти-шести периодов сезонности.

Перейдем теперь к способам удаления сезонного эффекта из ряда. Таких способов два. Первый из них назовем «послетрендовый». Он является логическим следствием рассмотренной выше процедуры оценивания. Для аддитивной модели удаление сезонной компоненты сводится к вычитанию оцененной сезонной компоненты из исходного ряда. Для мультипликативной модели значения ряда делят на соответствующие сезонные индексы.

Второй способ не требует предварительной оценки ни трендовой, ни сезонной компонент, а основывается на использовании разностных операторов.

Разностные операторы.

При исследовании временных рядов часто имеется возможность представить детерминированные функции времени простыми рекуррентными уравнениями. К примеру, линейный тренд

можно записать как

Последнее соотношение получается из (1) сравнением двух значений ряда для соседних моментов t -1 и t . Учитывая, что соотношение (2) справедливо и для моментов t -2 и t - 1, так что , модель (1) можно записать и в виде


Модель (3) не содержит явно параметров, описывающих тренд. Более компактно описанные преобразования можно описать, используя операторы взятия разности назад

Модели (2) и (3) можно записать как

Выходит, разность второго порядка полностью исключает из исходного ряда линейный тренд. Легко видеть, что разность порядка d исключает из ряда полиномиальный тренд порядка d -1. Пусть теперь ряд содержит сезонный эффект с периодом t , так что

Процедура перехода от ряда (t = 1,2,...,T ) к ряду называется взятием первой сезонной разности, а оператор сезонным разностным оператором с периодом t . Из (4) следует, что

Выходит, взятие сезонной разности исключает из временного ряда любую детерминированную сезонную компоненту.

Иногда оказываются полезными сезонные операторы более высоких порядков. Так, сезонный оператор второго порядка с периодом t есть

Если ряд содержит и тренд, и сезонную составляющую, их можно исключить, последовательно применяя операторы и .

Легко показать, что порядок применения этих операторов не существенен:

Отметим также, что детерминированный тренд, состоящий из тренда и сезонной компоненты, после применения операторов и полностью вырождается, то есть . Однако записав последнее уравнение в рекуррентной форме, получаем

Из последнее соотношения видно, каким образом ряд можно неограниченно продолжать, имея вначале по крайней мере t +1 последовательных значения.

6. Модели случайной составляющей временного ряда

линейный ряд временной система

Для удобства изложения условимся обозначать здесь случайные величины так, как это принято в математической статистике – строчными буквами.

Случайным процессом X ( t ) на множестве Т называют функцию, значения которой случайны при каждом t ÎT. Если элементы Т счетные (дискретное время), то случайный процесс часто называют случайной последовательностью.

Полное математическое описание случайного процесса предполагает задание системы функций распределения:

– для каждого t ÎT, (1)

– для каждой пары элементов

и вообще для любого конечного числа элементов

Функции (1),(2),(3) называют конечномерными распределениями случайного процесса.

Построить такую систему функции для произвольного случайного процесса практически невозможно. Обычно случайные процессы задают с помощью априорных предположений о его свойствах, таких как независимость приращений, марковский характер траекторий и т. п.

Процесс, у которого все конечномерные распределения нормальны, называется нормальным (гауссовским). Оказывается, что для полного описания такого процесса достаточно знания одно- и двумерного распределений (1), (2), что важно с практической точки зрения, поскольку позволяет ограничиться исследованием математического ожидания и корреляционной функцией процесса.

В теории временных рядов используются ряд моделей случайной составляющей, начиная от простейшей – «белого шума», до весьма сложных типа авторегрессии – скользящего среднего и других, которые строятся на базе белого шума.

Прежде чем определять процесс белого шума рассмотрим последовательность независимых случайных величин, для которой функция распределения есть

Из последнего соотношения следует, что все конечномерные распределения последовательности определяются с помощью одномерных распределений.

Если к тому же в такой последовательности составляющие ее случайные величины X (t ) имеют нулевое математическое ожидание и распределены одинаково при всех t ÎT, то это – «белый шум». В случая нормальности распределения X (t ) говорят о гауссовском белом шуме. Итак, гауссовский белый шум – последовательность независимых нормально распределенных случайных величин с нулевым математическим ожиданием и одинаковой (общей) дисперсией.

Более сложными моделями, широко используемыми в теории и практике анализа временных рядов, являются линейные модели: процессы скользящего среднего, авторегрессии и смешанные.

Процесс скользящего среднего порядка q представляет собой взвешенную сумму случайных возмущений:

где – независимые одинаково распределенные случайные величины (белый шум);

– числовые коэффициенты.

Легко видеть из определения, что у процесса скользящего среднего порядка q (сокращенно CC(q )) статистически зависимыми являются (q +1) подряд идущих величин X (t ), X (t -1),..., X (t - q ). Члены ряда, отстоящие друг от друга больше чем на (q +1) такт, статистически независимы, поскольку в их формировании участвуют разные слагаемые .

где – случайное возмущение, действующее в текущий момент t ;

– числовые коэффициенты.

Выражая последовательно в соответствии с соотношением (5) X (t-1) через X (t-2), . . . , X (t-p-1), затем X (t-2) через X (t-3), . . . , X (t-p-2) и т.д. получим, что X (t) есть бесконечная сумма прошлых возмущений Из этого следует, члены процесса авторегрессии X(t) и X (t-k) статистически зависимы при любомk .

Процесс АР(1) часто называют процессом Маркова, АР(2) – процессом Юла. В общем случае марковским называют такой процесс, будущее которого определяется только его состоянием в настоящем и воздействиями на процесс, которые будут оказываться в будущем, тогда как его состояние до настоящего момента при этом несущественно. Процесс АР(1)

является марковским, поскольку его состояние в любой момент определяется через значения процесса , если известна величина в момент . Формально процесс авторегресси произвольного порядка также можно считать марковским, если его состоянием в момент t считать набор

(X (t),X (t-1), . . . , X (t-p-1)) .

Более полно модели СС, АР, а также их композиция: модели авторегрессии – скользящего среднего рассматриваются далее (п.10.1.5). Заметим только, что все они представляются частными случаями общей линейной модели

где – весовые коэффициенты, число которых, вообще-то говоря, бесконечно.

Среди моделей случайной составляющей выделим важный класс – стационарные процессы, такие, свойства которых не меняются во времени. Случайный процесс Y(t) называется стационарным, если для любых n , распределения случайных величин и одинаковы. Иными словами, функции конечномерных распределений не меняются при сдвиге времени:


Образующие стационарную последовательность случайные величины распределены одинаково, так что определенный выше процесс белого шума является стационарным.

7.Числовые характеристики случайной составляющей

При анализе временных рядов используются числовые характеристики, аналогичные характеристикам случайных величин:

– математическое ожидание (среднее значение процесса)

;

– автоковариационная функция

– дисперсия

– стандартное отклонение

– автокорреляционная функция

– частная автокорреляционная функция

Заметим, что в операторе функции усреднение происходит при неизменном t , то есть имеется математическое ожидание по множеству реализаций (вообще-то говоря, потенциальных поскольку «в реку времени нельзя войти дважды»).

Рассмотрим введенные числовые характеристики для стационарных процессов. Из определения стационарности следует, что для любых s , t и

положив = - t , получаем

(1)

Выходит, у стационарного процесса математическое ожидание и дисперсия одинаковы при любом t , а автоковариационная и автокорреляционная функции зависят не от момента времени s илиt , а лишь от их разности (лага).

Отметим, что выполнение свойств (1) еще не влечет стационарности в смысле определения из п.6. Тем не менее постоянство первых двух моментов, а также зависимость автокорреляционной функции только от лага определенно отражает некоторую неизменность процесса во времени. Если выполнены условия (1), то говорят о стационарности процесса в широком смысле, тогда как выполнение условий () означает стационарность в узком (строгом) смысле.

Данное выше определение белого шума надо трактовать в узком смысле. На практике часто ограничиваются белым шумом в широком смысле, под которым понимают временной ряд (случайный процесс), у которого =0 и

Отметим, что гаусовский процесс, стационарный в узком смысле, стационарен и в широком смысле.

О стационарности в широком смысле судить гораздо проще. Для этого используют различные статистические критерии, базирующиеся на одной реализации случайного процесса.

8.Оценивание числовых характеристик временного ряда

Оценивание числовых характеристик случайного временного ряда в каждый момент времени требует набора реализаций (траекторий) соответствующего случайного процесса. Хотя время и не воспроизводимо, однако условия протекания процесса иногда можно считать повторяющимися. Особенно это характерно для технических приложений, например, колебания напряжения в электрической сети в течении суток. Временные ряды, наблюдаемые в разные сутки, можно считать независимыми реализациями одного случайного процесса.

Иная ситуация при исследовании процессов социально-экономической природы. Как правило, здесь доступна единственная реализация процесса, повторить которую не представляется возможным. Следовательно, получить оценки среднего, дисперсии, ковариации нельзя. Однако для стационарных процессов подобные оценки все-таки возможны. Пусть наблюденные значения временного ряда в моменты соответственно. Традиционная оценка среднего может служить оценкой математического ожидания стационарного (в широком смысле) случайного процесса.

Ясно, что такая оценка для стационарного ряда будет несмещенной. Состоятельность этой оценки устанавливается теоремой Слуцкого, которая в качестве необходимого и достаточного условия требует чтобы

,

где – автокорреляционная функция процесса.

Точность оценивания среднего зависит от длины N ряда. Считается, что длина N всегда должна быть не меньше так называемого времени корреляции, под которым понимают величину

Величина Т дает представление о порядке величины промежутка времени , на котором сохраняется заметная корреляция между двумя значениями ряда.

Рассмотрим теперь получение оценок значений автокорреляционной функции. Как и прежде, – наблюденные значения временного ряда. Образуем (N -1) пар . Эти пары можно рассматривать как выборку двух случайных величин, для которых можно определить оценку стандартного коэффициента корреляции . Затем составим (N -2) пар и определим оценку и т.д. Поскольку при подсчете очередного объем выборки меняется, меняется значение среднего и стандартного отклонения для соответствующего набора значений. Для упрощения принято измерять все переменные относительно среднего значения всего ряда и заменять дисперсионные члены в знаменателе на дисперсию ряда в целом, то есть

,

где - среднее, равное .

При больших N расхождение в оценках незначительные. На практике k берут не выше N /4.

Если ряд рассматривается как генеральная совокупность бесконечной длины, то говорят об автокорреляциях (теоретических) и обозначают их . Массив коэффициентов или соответствующих им выборочных коэффициентов содержат весьма ценную информацию о внутренней структуре ряда. Совокупность коэффициентов корреляции, нанесенная на график с координатами k (лаг) по оси абсцисс и либо по оси ординат, называют коррелограммой (теоретической или выборочной соответственно).

Точностные характеристики оценки получены для гауссовских процессов. В частности, для гаусовского белого шума, у которого все корреляции равны нулю, . Математическое ожидание для гауссовского белого шума оказывается не равным нулю, а именно, , то есть оценка оказывается смещенной. Величина смещения убывает с ростом объема выборки и не столь существенна в прикладном анализе.

Оценка асимптотически нормальна при , что дает основание для построения приблизительного доверительного интервала. Широко применяемый 95%-интервал есть .

Границы доверительного интервала, нанесенные на график, называют доверительной трубкой. Если коррелограмма некоторого случайного процесса не выходит за пределы доверительной трубки, то этот процесс близок к белому шуму. Правда, это условие можно считать лишь достаточным. Нередко выборочная коррелограмма гауссовского белого шума содержит один, а то и два выброса среди первых 20 оценок , что естественно затрудняет интерпретацию подобной коррелограммы.

Наряду с автокорреляционной функцией при анализе структуры случайного временного ряда используется частная автокорреляционная функция, значения которой суть частные коэффициенты корреляции.

9. Свободные от закона распределения критерии проверки ряда на случайность

Простейшей гипотезой, которую можно выдвинуть относительно колеблющегося ряда, не имеющего явно выраженного тренда, является предположение, что колебания случайны. В случайных рядах, согласно гипотезе, наблюдения независимы и могут следовать в любом порядке. Для проверки на случайность желательно использовать критерий, не требующий каких-либо ограничений на вид распределения совокупности, из которой, по предположению, извлекаются наблюдаемые значения.

1. Критерий поворотных точек состоит в подсчёте пиков (величин, которые больше двух соседних) и впадин (величин, которые меньше двух соседних). Рассмотрим ряд y 1 ,...,y N .

пик впадина

y t-1 < y t > y t+1 y t-1 > y t < y t+1


y t-1 y t y t+1 y t-1 y t y t+1

Рис. Поворотные точки.

Для определения поворотной точки требуются три последовательных значения. Начальное и конечное значения не могут быть поворотными точками, т. к. неизвестно y 0 и y N+1 . Если ряд случаен, то эти три значения могут следовать в любом из шести возможных порядков с равной вероятностью. Только в четырёх из них будет поворотная точка, а именно, когда наибольшее или наименьшее из трёх значений находится в середине. Следовательно, вероятность обнаружения поворотной точки в любой группе из трёх значений равна 2/3.


Рис. Варианты взаимного расположения трёх точек.

Для группы из N величин определим счётную переменную Х.

ì 1, если y t-1 < y t > y t+1 или y t-1 > y t < y t+1

î 0, в противном случае.

Тогда число поворотных точек р в ряде есть просто , а их математическое ожидание есть М[p]=2/3(N-2). Дисперсия числа поворотных точек вычисляется по формуле D[p]=(16N-29)/90, а само распределение близко к нормальному.

2. Критерий, основанный на определении длины фазы

Интервал между двумя поворотными точками называется фазой. Для того, чтобы установить наличие фазы длины d (например, восходящей) , нужно обнаружить d+3 членов, содержащих падение от первого члена ко второму,затем последовательный подъем до (d+2)-го члена и падение к (d+3)-ему члену.


1 2 3 4 d+1 d+2 d+3 N

рис. 3. Фаза длины d.

Рассмотрим группу из d+3 чисел, расположенных в порядке возрастания. Если, не трогая двух крайних членов, извлечь пару чисел из оставшихся d+1 и одно из них поставить в начало, а другое в конец, получим фазу длины d. Существует способов такого выбора пары чисел и каждый член пары может быть поставлен в любой конец, следовательно число восходящих фаз равно d(d+1).

Кроме того, поворотные точки будут иметь место, если первый член последовательности поставить в конец, а любой из оставшихся, за исключением второго, поместить в начало. Число таких последовательностей составит ( d +1) . Еще столько же последовательностей получиться если последний член в исходной, возрастающей, последовательности поставить в начало, а любой другой, кроме последнего, в конец. Во избежании двойного счета следует исключить случай, когда первый член ставится на последнее место, а последний на первое. Таким образом, в последовательности из ( d +3) чисел с фазой длиной d число случаев роста составит

d (d +1)+2(d +1)-1 =+3d +1 .

Число возможных последовательностей из ( d +3) чисел равняется числу перестановок ( d +3) !, так что вероятность либо восходящей, либо нисходящей фазы равна

В ряде длины N последовательно можно выделить N-2-d групп по d+3 членов. Т.о. математическое ожидание числа фаз длины d

.

Можно показать, что математическое ожидание общего числа фаз длины от 1 до N-3

.

3 .Критерий, основанный на знаках разностей

Данный критерий состоит в подсчете числа положительных разностей первого порядка в ряде, иначе говоря, числа точек возрастания ряда. Для ряда из N членов получаем N-1 разностей. Определим счетную переменную как

Если теперь обозначить через с число точек возрастания случайного ряда, то

.

Распределение довольно быстро стремится к нормальному с дисперсией

.

В основном данный критерий рекомендуется для проверки наличия линейного тренда. С другой стороны, критерий, основанный на поворотных точках, плохо подходит для обнаружения тренда, т.к. наложение заметных случайных колебаний на умеренный тренд приводит примерно к тому же множеству поворотных точек, что и при отсутствии тренда. .Более совершенным, но более сложным критерием для обнаружения линейного тренда являются регрессия y на t и проверка значимости регрессионного коэффициента.

4.Критерий, основанный на ранговых сравнениях

Идею сравнения соседних значений ряда можно развить до сравнения всех значений. Для данного ряда подсчитаем число случаев, когда очередной член ряда превышает все последующие. Всего для сравнения имеется N(N-1) пар. Пусть n общее число случаев превышения. Подсчитывают ранговый коэффициент корреляции Кендэла

.

Если этот коэффициент значим и положителен, то ряд возрастающий, если отрицателен, то - убывающий.

10.Теоретический анализ стационарной случайной составляющей линейного вида

Рассматривается общая линейная модель стохастического процесса

где – белый шум

– весовые коэффициенты.

Напомним, что=0, ,

Введем оператор сдвига на один шаг назад В :

Многократное (для определенности j -кратное) применения оператора В , обозначаем как , дает С учетом введенных обозначений общую линейную модель можно записать как

где – линейный оператор.

Найдем математическое ожидание, дисперсию и автоковариационную функцию для процесса (1):

;

Для того чтобы модель имела смысл, дисперсия должна быть конечной, то есть предполагается, что ряд сходится.

Кроме этого предполагают, что имеет место так называемое условие обратимости:

,

где вместо В фигурируют комплексные числа. Из этого условия вытекает существование обратного оператора

где , то есть такого, что

Раскрывая произведение в последнем выражении, группируя однородные по члены и приравнивая их к нулю, получают выражения для определения коэффициентов . Так, и так далее.

Умножая () на слева, получим, что обратимый процесс может быть записан в виде

Запись (2) соответствует авторегрессионой схеме бесконечного порядка. Это же соотношение можно трактовать как линейный предиктор для по всем прошлым значениям временного ряда, а слагаемое – как случайную ошибку этого предиктора. Если известны все прошлые значения ряда, то по форме (2) можно спрогнозировать будущее значение ряда.

10.1\. Модели авторегрессии

Рассмотрим более подробно модели случайной составляющей, являющиеся частными случаями общей линейной модели, а именно модели авторегрессии, скользящего среднего и смешанные, широко применяемые на практике.

Модель АР(1) имеет вид

В модель примет вид

Рассматривая как сумму бесконечно убывающей геометрической прогрессии со знаменателем а В получаем, что

Таким образом, марковский процесс есть частный случай общей линейной модели, коэффициенты которой меняются по закону геометрической прогрессии, то есть .

Выражение (2) можно получить и из (1) непосредственно, выражая через , через и т.д.

Дисперсия в соответствие с () есть

Выходит, белый шум с дисперсией порождает в схеме Маркова случайный процесс с возросшей дисперсией, равной .

Для нахождения автоковариационной функции Марковского процесса можно воспользоваться общим выражением (). Однако более нагляден следующий путь. Домножим уравнение (1) марковского процесса на и возьмем математическое ожидание

Поскольку второе слагаемое в правой части равно нулю в силу некоррелированности возмущения в текущий момент с прошлыми значениями ряда , получаем

( в силу стационарности )

Из последнего соотношения имеем

,

то есть а совпадает с коэффициентом автокорреляции средних членов ряда. Умножим теперь (1) на и возьмем математическое ожидание:

Заменяя а на и деля на , получаем

Придавая k значения 2,3,… получим

Итак, в марковском процессе все автокорреляции можно выразить через первую автокорреляцию. Поскольку , автокорреляционная функция марковского процесса экспоненциально убывает при росте k .

Рассмотрим теперь частную автокорреляционную функцию марковского процесса. Мы получили, что корреляция между двумя членами ряда, отстоящими на два такта, то есть между и выражается величиной . Но зависит от , а от . Возникает вопрос, сохранится ли зависимость между и , если зависимость от срединного члена устранена. Соответствующий частный коэффициент корреляции есть

.

Поскольку , числитель равен нулю. Аналогично можно показать, что частные коэффициенты корреляции для членов ряда, отстоящих на 3,4 и так далее тактов, также равны нулю. Таким образом, автокорреляция существует только благодаря корреляции соседних членов, что впрочем следует из математической модели марковского процесса.

Завершая рассмотрение модели АР(1), отметим, что она весьма часто используется в экономико-математических исследованиях для описания остатков линейной регрессии, связывающей экономические показатели.

С использованием оператора сдвига В модель запишется как

,

Свойства модели зависят от корней и полинома

который можно записать также в виде

(1-В )(1-В )=0.

Для стационарности процесса (1) необходимо, чтобы корни и лежали внутри единичной окружности (случай комплексных корней), либо были меньше единицы (случай действительных корней), что обеспечивается при .

Пусть и действительны и различны. Разложим на простые дроби

, (3)

где .

Рассматривая отдельные слагаемые в (3) как суммы бесконечных геометрических прогрессий, получим


Выходит АР(2) есть частный случай общей линейной модели () с коэффициентами

Рассмотрим теперь автокорреляционную функцию процесса Юла. Умножим (1) по очереди на и , возьмем математические ожидания и разделим на . В итоге получим

Этих уравнений достаточно для определения через первые две автокорреляции и, наоборот, по известным можно найти .

Умножая теперь (1) на получим рекуррентное уравнение

из которого можно найти автокорреляции высоких порядков через первые автокорреляции. Тем самым, полностью определяется коррелограмма процесса Юла.

Исследуем вид коррелограммы процесса АР(2).

Выражение (4) можно рассматривать как разностное уравнение второго порядка относительно r с постоянными коэффициентами.

Общее решение такого уравнения имеет вид

,

где – корни характеристического уравнения

(5)

Легко видеть, что уравнения (2) и (5) эквивалентны с точностью до замены В на z и деления обоих частей на , так что корни этих уравнений совпадают, то есть

Общее решение разностного уравнения (4) есть

(6)

где коэффициенты А и В находят из граничных условий при j =0 и j =1.

Таким образом, в случае действительных корней коррелограмма АР(2) представляет собой, как видно из (6), смесь двух затухающих экспонент.

В случае комплектности корней и коррелограмма процесса АР(2) оказывается затухающей гармоникой.

Рассмотрим теперь как ведет себя частная автокорреляционная функция процесса Юла. Отличным от нуля оказывается лишь коэффициент , равный . Частные корреляции более высоких порядков равны нулю (подробнее этот процесс рассматривается дальше). Таким образом, частная коррелограмма процесса отрывается сразу после лага, равного единице.

В заключении отметим, что модели АР(2) оказались приемлемыми при описании поведения циклической природы, прообразом которого служит маятник, на который воздействуют малые случайные импульсы. Амплитуда и фаза такого колебательного процесса будут все время меняться.

Решение разностного относительно y выражения (1) или () состоит из двух частей: общего решения, содержащего р произвольных констант, и частного решения. Общее решение есть

где – есть постоянные коэффициенты,

(j =1,2,...,р ) – корни характеристического уравнения.

Стационарность ряда (2) имеет место, если корни уравнения (3) имеют модуль меньше единицы. Другими словами, корни должны лежать внутри единичного круга. Считая, что ряд имеет достаточно длинную предысторию, общим решением (2) можно пренебречь вследствие затухания.

Частое решение, как видно из (), есть

Последнее соотношение есть форма представления авторегрессионного процесса в виде общей линейной модели.

Последовательно умножим уравнение (1) на , возьмем математическое ожидание и разделим на . Получим систему уравнений относительно коэффициентов корреляции:

, k =1, 2, ..., p (4)

Учитывая, что , и вводя матричные обозначения

,

запишем (4) в виде

Pa = r (5)

Систему уравнений (5) называют системой Юла-Уокера. Из нее находим, что

a = r (6)

Таким образом, зная первые р автокорреляций временного ряда, можно найти по (3) автокорреляции более высокого порядка, то есть полностью восстановить автокорреляционную функцию (что уже отмечалось при анализе процессов АР(1) и АР(2)).

Поведение автокорреляционной функции зависит от корней характеристического полинома. Обычно коррелограмма процесса АР(р ) состоит из совокупности затухающих синусоид.

Если у процесса АР(2) частная автокорреляция членов ряда, разделенных 2-мя или большим числом членов, равна нулю, то у процесса АР(р ) нулю равны автокорреляции порядка р и выше. Выходит, частная коррелограмма процесса АР(р ) должна равняться нулю, начиная с некоторого момента. Правда, надо заметить, что этот факт имеет место для бесконечного ряда. Для конечных реализаций указать место обрыва коррелограммы часто затруднительно.

Итак, для процесса АР(р ) частная автокорреляционная функция обрывается на лаге р , тогда как автокорреляционная функция плавно спадает.

10.1.4 Процессы скользящего среднего

Обобщенная линейная модель для процессов скользящего среднего содержит лишь конечное число членов, то есть в (): =0 k > q .

Модель приобретает вид

(1)

(В (1) коэффициенты переобозначены через.)

Соотношение (1) определяет процесс скользящего среднего порядка q , или сокращенно СС(q ). Условие обратимости () для процесса СС(q ) выполняется, если корни многочлена b (В ) лежат вне единичного круга.

Найдем дисперсию процесса СС(q ):

Все смешанные произведения вида равны нулю в силу некоррелированности возмущений в разные моменты времени. Для нахождения автокорреляционной функции процесса СС(q ) последовательно умножим (1) на и возьмем математическое ожидание

В правой части выражения (2) останутся только те члены, которые отвечают одинаковым временным тактам (см. рис)


Следовательно, выражение (2) есть

(3)

поделив (3) на , получим

(4)


Тот факт, что автокорреляционная функция процесса СС(q) имеет конечную протяженность (q тактов) – характерная особенность такого процесса. Если известны, то (4) можно в принципе разрешить относительно параметров . Уравнения (4) нелинейные и в общем случае имеют несколько решений, однако условие обратимости всегда выделяет единственное решение.

Как уже отмечалось, обратимые процессы СС можно рассматривать как бесконечные АР- процессы -АР(¥). Следовательно, частная автокорреляцонная функция процесса СС(р ) имеет бесконечную протяженность. Итак, у процесса СС(q ) автокорреляционная функция обрывается на лаге q , тогда как частная автокорреляционная функция плавно спадает.

Хотя модели АР(р ) и СС(q ) позволяют описывать многие реальные процессы, число оцениваемых параметров может оказываться значительным. Для достижения большей гибкости и экономичности описания при подборе моделей к наблюдаемым временным рядам весьма полезными оказались смешанные модели, содержащие в себе и авторегрессию и скользящее среднее. Эти модели были предложены Боксом и Дженкинсом и получили название модели авторегрессии - скользящего среднего (сокращенно АРСС(р, q )):

С использованием оператора сдвига В модель (1) может быть представлена более компактно:


, ()

b (В )-оператор скользящего среднего порядка q .

Модель () может быть записаны и так:

Рассмотрим простейший смешанный процесс АРСС(1,1)

Согласно

(2)

Из соотношения (2) видно, что модель АРСС(1,1) является частным случаем общей линейной модели () с коэффициентами (j >0)

Из (2) легко получить выражение для дисперсии :

Для получения корреляционной функции воспользуемся тем же приемом, что и при анализе моделей авторегрессии. Умножим обе части модельного представления процесса АРСС(1,1)

на и возьмем математическое ожидание:

или (с учетом того, что второе слагаемое в правой части равенства равно нулю)

Поделив ковариации на дисперсию получаем выражения для автокорреляции

полученные соотношения показывают, что экспоненциально убывает от начального значения , зависящего от и при этом, если > , то затухание монотонное; при < – затухание колебательное.

Аналогично может быть построена автокорреляционная функция для общей модели АРСС(р, q ).

Умножим все члены (1) на . Возьмем математическое ожидание и в результате получим следующее разностное уравнение.

Где - взаимная ковариационная функция между y и . Поскольку возмущения в момент t и значения ряда в прошлые моменты (см(2)) не коррелируют, 0 при k>0.

Отсюда следует, что для значений q +1 автоковариации и автокорреляции удовлетворяют тем же соотношениям, что и в модели АР(р ):

В итоге оказывается, что при q вся автокорреляционная функция будет выражаться совокупностью затухающих экспонент и / или затухающих синусоидальных волн, а при q > p будет q - p значений , выпадающих из данной схемы.

Модель АРСС допускает обобщение на случай, когда случайный процесс является нестационарным. Ярким примером такого процесса являются «случайные блуждания»:

С использованием оператора сдвига модель (1) принимает вид

(2)

Из (2) видно, что процесс (1) расходящийся, поскольку. Характеристическое уравнение этого процесса имеет корень, равный единице, то есть имеет место пограничный случай, когда корень характеристического уравнения оказался на границе единичной окружности. В то же время, если перейти к первым разностям , то процесс окажется стационарным.

В общем случае полагается, что нестационарный авторегрессионный оператор в модели АРСС имеет один или несколько корней, равных единице. Иными словами, является нестационарным оператором авторегрессии порядка p + d ; d корней уравнения =0 равны единице, а остальные р корней лежат вне единичного круга. Тогда можно записать, что

,

где a (B ) – стационарный оператор авторегрессии порядка р (с корнями вне единичного круга).

Введем оператор разности , такой что =(1-B ) , тогда нестационарный процесс АРСС запишется как

, (3)

где b (B ) – обратимый оператор скользящего среднего (вне его корни лежат вне единичного круга).

Для разности порядка d , то есть модель

описывает уже стационарный обратимый процесс АРСС(р, q ).

Для того чтобы от ряда разностей вернуться к исходному ряду требуется оператор s , обратный :

Этот оператор называют оператором суммирования, поскольку

Если же исходной является разность порядка d , то для восстановления исходного ряда понадобится d - кратная итерация оператора s , иначе d - кратное суммирование (интегрирование). Поэтому процесс (3) принято называть процессом АРИСС, добавляя к АРСС термин интегрированный. Кратко модель (3) записывают как АРИСС(р, d , q ), где р – порядок авторегрессии, d – порядок разности, q – порядок скользящего среднего. Ясно, что при d =0 модель АРИСС переходит в модель АРСС.

На практике d обычно не превышает двух, то есть d .

Модель АРИСС допускает представление, аналогичное общей линейной модели, а так же в виде «чистого » процесса авторегрессии (бесконечного порядка). Рассмотрим, к примеру, процесс АРИСС (1, 1, 1):

Из (4) следует, что

В выражении (5) коэффициенты, начиная с третьего, вычисляются по формуле .

Представление (5) интересно тем, что веса, начиная с третьего, убывают по экспоненциальному закону. Поэтому, хотя формально зависит от всех прошлых значений, однако реальный вклад в текущее значение внесут несколько «недавних» значений ряда. Поэтому уравнение (5) более всего подходит для прогнозирования.

11.Прогнозирование по модели АРИСС

Как уже отмечалось, процессы АРИСС допускают представление в виде обобщенной линейной модели, то есть

Естественно искать будущее (прогнозное) значение ряда в момент в виде

Ожидаемое значение , которое мы будем обозначать как

=

Первая сумма в правой части последнего соотношения содержат лишь будущие возмущения (прогноз делается в момент t , когда известны прошлые значения и ряда и возмущений) и для них математическое ожидание равно 0 по определению. Что же касается второго слагаемого, то возмущения здесь уже состоялись, так что

Таким образом

Ошибка прогноза, представляющая расхождение между прогнозным значением и его ожиданием есть

=

Дисперсия ошибки отсюда есть

Прогнозирование по соотношению (1) в принципе возможно, однако затруднительно поскольку требует знания всех прошлых возмущений. К тому же для стационарных рядов скорость затухания часто оказывается недостаточной, не говоря уже о нестационарных процессах, для которых ряды расходятся.

Поскольку модель АРИСС допускает и другие представления, рассмотрим возможности их использования для прогнозирования. Пусть модель задана непосредственно разностным уравнением

По известным значениям ряда (результатам наблюдений) и оцененным значениям возмущений , опираясь на рекуррентную формулу (3) можно оценить ожидаемое значение ряда в момент t +1:


При прогнозировании на два такта следует вновь воспользоваться рекуррентным соотношением (3), где в качестве наблюденного значения ряда в момент t +1 следует взять предсказанную по (4) величину , то есть и так далее.

Наконец, возможно прогнозирование опираясь на представление процесса АРИСС в виде авторегрессии (). Как уже отмечалось, несмотря на то что порядок авторегрессии бесконечен, весовые коэффициенты в представлении ряда убывают довольно быстро, поэтому для вычисления прогноза достаточно умеренное число прошлых значений ряда.

Дисперсия ошибки прогноза на шагов вперед есть

и согласно выражению (2) дается выражением

В предположении, что случайные возмущения являются гаусовским белым шумом, то есть можно рассматривать доверительный интервал для прогнозного значения ряда стандартным образом.

12.Технология построения моделей АРИСС

Описанные выше теоретические схемы строились в предположении, что временной ряд имеет бесконечную предысторию, тогда как реально исследователю доступен ограниченный объем наблюдений. Модель приходится подбирать экспериментально, подгоняя ее к имеющимся в распоряжении данным. Поэтому с позиций теоретического применения теории анализа временных рядов определяющее значение имеют вопросы корректной спецификации модели АРИСС(p , d , q ) (ее идентификации) и последующего оценивания ее параметров.

На этапе идентификации наблюденные данные используются для определения подходящего класса моделей и делаются предварительные оценки ее параметров, то есть строится пробная модель. Затем пробная модель подгоняется к данным более тщательно; при этом первичные оценки, полученные на этапе идентификации выступают в качестве начальных значений в итеративных алгоритмах оценивания параметров. И наконец, на третьем этапе полученная модель подвергается диагностической проверке для выявления возможной неадекватности модели и выработки подходящих изменений в ней.Рассмотрим перечисленные этапы подробнее.

Идентификация модели

Цель идентификации – получить некоторое представление о величинах p , d , q и о параметрах модели. Идентификация модели распадается на две стадии

1. Определение порядка разности d исходного ряда .

2. Идентификация модели АРСС для ряда разностей .

Основной инструмент, используемый на обеих стадиях – автокорреляционная и частная автокорреляционная функции.

В теоретической части мы видели, что у стационарных моделей автокоррелящии спадают с ростом k весьма быстро (по корреляционному закону). Если же автокорреляционная функция затухает медленно и почти линейно, то это свидетельствует о нестационарности процесса, однако, возможно, его первая разность стационарно.

Построив коррелограмму для ряда разностей, вновь повторяют анализ и так далее. Считается, что порядок разности d , обеспечивающий стационарность, достигнут тогда, когда автокорреляционная функция процесса падает довольно быстро. На практике и достаточно просмотреть порядка 15-20 первых значений автокорреляции исходного ряда, его первые и вторые разности.

После того как будет получен стационарный ряд разностей, порядка d, изучают общий вид автокорреляционной и частной автокорреляционной функций этих разностей. Опираясь на теоретические свойства этих функций можно выбрать значения p и q для АР и СС операторов. Далее при выбранных p и q строятся начальные оценки параметров авторегрессии и скользящего среднего b =(). Для авторегрессионных процессов используются уравнения Юла-Уокера, где теоретические автокорреляции заменены на их выборочные оценки. Для процессов скользящего среднего порядка q только первые q автокорреляций отличны от нуля и могут быть выражены через параметры (см.). Заменяя их выборочными оценками и решая получающиеся уравнения относительно , получим оценку . Эти предварительные оценки можно использовать как начальные значения для получения на следующих шагах более эффективных оценок.

Для смешанных процессов АРСС процедура оценивания усложняется. Так для рассмотренного в п. процесса АРСС(1,1) параметры и , точнее их оценки, получаются из () с заменой и их выборочными оценками.

В общем случае вычисление начальных оценок процесса АРСС(p , q ) представляет многостадийную процедуру и здесь не рассматривается. Отметим только, что для практики особый интерес имеют АР и СС процессы 1-го и 2-го порядков и простейший смешанный процесс АРСС(1,1).

В заключение заметим, что оценки автокорреляций, на основе которых строятся процедуры идентификации могут иметь большие дисперсии (особенно в условиях недостаточного объема выборки – несколько десятков наблюдений) и быть сильно коррелированны. Поэтому говорить о строгом соответствии теоретической и эмпирической автокорреляционных функций не приходится. Это приводит к затруднениям при выборе p , d , q , поэтому для дальнейшего исследования могут быть выбраны несколько моделей.

линейный ряд система временной ряд

Размещено на http://www.

В трех предыдущих заметках описаны регрессионные модели, позволяющие прогнозировать отклик по значениям объясняющих переменных. В настоящей заметке мы покажем, как с помощью этих моделей и других статистических методов анализировать данные, собранные на протяжении последовательных временных интервалов. В соответствии с особенностями каждой компании, упомянутой в сценарии, мы рассмотрим три альтернативных подхода к анализу временных рядов.

Материал будет проиллюстрирован сквозным примером: прогнозирование доходов трех компаний . Представьте себе, что вы работаете аналитиком в крупной финансовой компании. Чтобы оценить инвестиционные перспективы своих клиентов, вам необходимо предсказать доходы трех компаний. Для этого вы собрали данные о трех интересующих вас компаниях - Eastman Kodak, Cabot Corporation и Wal-Mart. Поскольку компании различаются по виду деловой активности, каждый временной ряд обладает своими уникальными особенностями. Следовательно, для прогнозирования необходимо применять разные модели. Как выбрать наилучшую модель прогнозирования для каждой компании? Как оценить инвестиционные перспективы на основе результатов прогнозирования?

Обсуждение начинается с анализа ежегодных данных. Демонстрируются два метода сглаживания таких данных: скользящее среднее и экспоненциальное сглаживание. Затем демонстрируется процедура вычисления тренда с помощью метода наименьших квадратов и более сложные методы прогнозирования. В заключение, эти модели распространяются на временные ряды, построенные на основе ежемесячных или ежеквартальных данных.

Скачать заметку в формате или , примеры в формате

Прогнозирование в бизнесе

Поскольку экономические условия с течением времени изменяются, менеджеры должны прогнозировать влияние, которое эти изменения окажут на их компанию. Одним из методов, позволяющих обеспечить точное планирование, является прогнозирование. Несмотря на большое количество разработанных методов, все они преследуют одну и ту же цель - предсказать события, которые произойдут в будущем, чтобы учесть их при разработке планов и стратегии развития компании.

Современное общество постоянно испытывает необходимость в прогнозировании. Например, чтобы выработать правильную политику, члены правительства должны прогнозировать уровни безработицы, инфляции, промышленного производства, подоходного налога отдельных лиц и корпораций. Чтобы определить потребности в оборудовании и персонале, директора авиакомпаний должны правильно предсказать объем авиаперевозок. Для того чтобы создать достаточное количество мест в общежитии, администраторы колледжей или университетов хотят знать, сколько студентов поступят в их учебное заведение в следующем году.

Существуют два общепринятых подхода к прогнозированию: качественный и количественный. Методы качественного прогнозирования особенно важны, если исследователю недоступны количественные данные. Как правило, эти методы носят весьма субъективный характер. Если статистику доступны данные об истории объекта исследования, следует применять методы количественного прогнозирования. Эти методы позволяют предсказать состояние объекта в будущем на основе данных о его прошлом. Методы количественного прогнозирования разделяются на две категории: анализ временных рядов и методы анализа причинно-следственных зависимостей.

Временной ряд - это набор числовых данных, полученных в течение последовательных периодов времени. Метод анализа временных рядов позволяет предсказать значение числовой переменной на основе ее прошлых и настоящих значений. Например, ежедневные котировки акций на Нью-Йоркской фондовой бирже образуют временной ряд. Другим примером временного ряда являются ежемесячные значения индекса потребительских цен, ежеквартальные величины валового внутреннего продукта и ежегодные доходы от продаж какой-нибудь компании.

Методы анализа причинно-следственных зависимостей позволяют определить, какие факторы влияют на значения прогнозируемой переменной. К ним относятся методы множественного регрессионного анализа с запаздывающими переменными, эконометрическое моделирование, анализ лидирующих индикаторов, методы анализа диффузионных индексов и других экономических показателей. Мы расскажем лишь о методах прогнозирования на основе анализа временны х рядов.

Компоненты классической мультипликативной модели временны х рядов

Основное предположение, лежащее в основе анализа временных рядов, состоит в следующем: факторы, влияющие на исследуемый объект в настоящем и прошлом, будут влиять на него и в будущем. Таким образом, основные цели анализа временных рядов заключаются в идентификации и выделении факторов, имеющих значение для прогнозирования. Чтобы достичь этой цели, были разработаны многие математические модели, предназначенные для исследования колебаний компонентов, входящих в модель временного ряда. Вероятно, наиболее распространенной является классическая мультипликативная модель для ежегодных, ежеквартальных и ежемесячных данных. Для демонстрации классической мультипликативной модели временных рядов рассмотрим данные о фактических доходах компании Wm.Wrigley Jr. Company за период с 1982 по 2001 годы (рис. 1).

Рис. 1. График фактического валового дохода компании Wm.Wrigley Jr. Company (млн. долл. в текущих ценах) за период с 1982 по 2001 годы

Как видим, на протяжении 20 лет фактический валовой доход компании имел возрастающую тенденцию. Эта долговременная тенденция называется трендом. Тренд - не единственный компонент временного ряда. Кроме него, данные имеют циклический и нерегулярный компоненты. Циклический компонент описывает колебание данных вверх и вниз, часто коррелируя с циклами деловой активности. Его длина изменяется в интервале от 2 до 10 лет. Интенсивность, или амплитуда, циклического компонента также не постоянна. В некоторые годы данные могут быть выше значения, предсказанного трендом (т.е. находиться в окрестности пика цикла), а в другие годы - ниже (т.е. быть на дне цикла). Любые наблюдаемые данные, не лежащие на кривой тренда и не подчиняющиеся циклической зависимости, называются иррегулярными или случайными компонентами . Если данные записываются ежедневно или ежеквартально, возникает дополнительный компонент, называемый сезонным . Все компоненты временных рядов, характерных для экономических приложений, приведены на рис. 2.

Рис. 2. Факторы, влияющие на временные ряды

Классическая мультипликативная модель временного ряда утверждает, что любое наблюдаемое значение является произведением перечисленных компонентов. Если данные являются ежегодными, наблюдение Y i , соответствующее i -му году, выражается уравнением:

(1) Y i = T i * C i * I i

где T i - значение тренда, C i i -ом году, I i i -ом году.

Если данные измеряются ежемесячно или ежеквартально, наблюдение Y i , соответствующее i-му периоду, выражается уравнением:

(2) Y i = T i *S i *C i *I i

где T i - значение тренда, S i - значение сезонного компонента в i -ом периоде, C i - значение циклического компонента в i -ом периоде, I i - значение случайного компонента в i -ом периоде.

На первом этапе анализа временных рядов строится график данных и выявляется их зависимость от времени. Сначала необходимо выяснить, существует ли долговременное возрастание или убывание данных (т.е. тренд), или временной ряд колеблется вокруг горизонтальной линии. Если тренд отсутствует, то для сглаживания данных можно применить метод скользящих средних или экспоненциального сглаживания.

Сглаживание годовых временных рядов

В сценарии мы упомянули о компании Cabot Corporation. Имея штаб-квартиру в Бостоне, штат Массачусеттс, она специализируется на производстве и продаже химикатов, строительных материалов, продуктов тонкой химии, полупроводников и сжиженного природного газа. Компания имеет 39 заводов в 23 странах. Рыночная стоимость компании составляет около 1,87 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой СВТ. Доходы компании за указанный период приведены на рис. 3.

Рис. 3. Доходы компании Cabot Corporation в 1982–2001 годах (млрд. долл.)

Как видим, долговременная тенденция повышения доходов затемнена большим количеством колебаний. Таким образом, визуальный анализ графика не позволяет утверждать, что данные имеют тренд. В таких ситуациях можно применить методы скользящего среднего или экспоненциального сглаживания.

Скользящие средние. Метод скользящих средних весьма субъективен и зависит от длины периода L , выбранного для вычисления средних значений. Для того чтобы исключить циклические колебания, длина периода должна быть целым числом, кратным средней длине цикла. Скользящие средние для выбранного периода, имеющего длину L , образуют последовательность средних значений, вычисленных для последовательностей длины L . Скользящие средние обозначаются символами MA(L) .

Предположим, что мы хотим вычислить пятилетние скользящие средние значения по данным, измеренным в течение n = 11 лет. Поскольку L = 5, пятилетние скользящие средние образуют последовательность средних значений, вычисленных по пяти последовательным значениям временного ряда. Первое из пятилетних скользящих средних значений вычисляется путем суммирования данных о первых пяти годах с последующим делением на пять:

Второе пятилетнее скользящее среднее вычисляется путем суммирования данных о годах со 2-го по 6-й с последующим делением на пять:

Этот процесс продолжается, пока не будет вычислено скользящее среднее для последних пяти лет. Работая с годовыми данными, следует полагать число L (длину периода, выбранного для вычисления скользящих средних) нечетным. В этом случае невозможно вычислить скользящие средние для первых (L – 1)/2 и последних (L – 1)/2 лет. Следовательно, при работе с пятилетними скользящими средними невозможно выполнить вычисления для первых двух и последних двух лет. Год, для которого вычисляется скользящее среднее, должен находиться в середине периода, имеющего длину L . Если n = 11, a L = 5, первое скользящее среднее должно соответствовать третьему году, второе - четвертому, а последнее - девятому. На рис. 4 показаны графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation за период с 1982 по 2001 годы.

Рис. 4. Графики 3- и 7-летних скользящих средних, вычисленные для доходов компании Cabot Corporation

Обратите внимание на то, что при вычислении трехлетних скользящих средних проигнорированы наблюдаемые значения, соответствующие первому и последнему годам. Аналогично при вычислении семилетних скользящих средних нет результатов для первых и последних трех лет. Кроме того, семилетние скользящие средние намного больше сглаживают временной ряд, чем трехлетние. Это происходит потому, что семилетним скользящим средним соответствует более долгий период. К сожалению, чем больше длина периода, тем меньшее количество скользящих средних можно вычислить и представить на графике. Следовательно, больше семи лет для вычисления скользящих средних выбирать нежелательно, поскольку из начала и конца графика выпадет слишком много точек, что исказит форму временного ряда.

Экспоненциальное сглаживание. Для выявления долговременных тенденций, характеризующих изменения данных, кроме скользящих средних, применяется метод экспоненциального сглаживания. Этот метод позволяет также делать краткосрочные прогнозы (в рамках одного периода), когда наличие долговременных тенденций остается под вопросом. Благодаря этому метод экспоненциального сглаживания обладает значительным преимуществом над методом скользящих средних.

Метод экспоненциального сглаживания получил свое название от последовательности экспоненциально взвешенных скользящих средних. Каждое значение в этой последовательности зависит от всех предыдущих наблюдаемых значений. Еще одно преимущество метода экспоненциального сглаживания над методом скользящего среднего заключается в том, что при использовании последнего некоторые значения отбрасываются. При экспоненциальном сглаживании веса, присвоенные наблюдаемым значениям, убывают со временем, поэтому после выполнения вычислений наиболее часто встречающиеся значения получат наибольший вес, а редкие величины - наименьший. Несмотря на громадное количество вычислений, Excel позволяет реализовать метод экспоненциального сглаживания.

Уравнение, позволяющее сгладить временной ряд в пределах произвольного периода времени i , содержит три члена: текущее наблюдаемое значение Y i , принадлежащее временному ряду, предыдущее экспоненциально сглаженное значение E i –1 и присвоенный вес W .

(3) E 1 = Y 1 E i = WY i + (1 – W)E i–1 , i = 2, 3, 4, …

где E i – значение экспоненциально сглаженного ряда, вычисленное для i -го периода, E i –1 – значение экспоненциально сглаженного ряда, вычисленное для (i – 1)-гo периода, Y i – наблюдаемое значение временного ряда в i -ом периоде, W – субъективный вес, или сглаживающий коэффициент (0 < W < 1).

Выбор сглаживающего коэффициента, или веса, присвоенного членам ряда, является принципиально важным, поскольку он непосредственно влияет на результат. К сожалению, этот выбор до некоторой степени субъективен. Если исследователь хочет просто исключить из временного ряда нежелательные циклические или случайные колебания, следует выбирать небольшие величины W (близкие к нулю). С другой стороны, если временной ряд используется для прогнозирования, необходимо выбрать большой вес W (близкий к единице). В первом случае четко проявляются долговременные тенденции временного ряда. Во втором случае повышается точность краткосрочного прогнозирования (рис. 5).

Рис. 5 Графики экспоненциально сглаженного временного ряда (W=0,50 и W=0,25) для данных о доходах компании Cabot Corporation за период с 1982 по 2001 годы; формулы расчета см. в файле Excel

Экспоненциально сглаженное значение, полученное для i -го временного интервала, можно использовать в качестве оценки предсказанного значения в (i +1)-м интервале:

Для предсказания доходов компании Cabot Corporation в 2002 году на основе экспоненциально сглаженного временного ряда, соответствующего весу W = 0,25, можно использовать сглаженное значение, вычисленное для 2001 года. Из рис. 5 видно, что эта величина равна 1651,0 млн. долл. Когда станут доступными данные о доходах компании в 2002 году, можно применить уравнение (3) и предсказать уровень доходов в 2003 году, используя сглаженное значение доходов в 2002 году:

Пакет анализа Excel способен построить график экспоненциального сглаживания в один клик. Пройдите по меню Данные Анализ данных и выберите опцию Экспоненциальное сглаживание (рис. 6). В открывшемся окне Экспоненциальное сглаживание задайте параметры. К сожалению, процедура позволяет построить только один сглаженный ряд, поэтому, если вы хотите «поиграть» с параметром W , повторите процедуру.

Рис. 6. Построение графика экспоненциального сглаживания с помощью Пакета анализа

Вычисление трендов с помощью метода наименьших квадратов и прогнозирование

Среди компонентов временного ряда чаще других исследуется тренд. Именно тренд позволяет делать краткосрочные и долгосрочные прогнозы. Для выявления долговременной тенденции изменения временного ряда обычно строят график, на котором наблюдаемые данные (значения зависимой переменной) откладываются на вертикальной оси, а временные интервалы (значения независимой переменной) - на горизонтальной. В этом разделе мы опишем процедуру выявления линейного, квадратичного и экспоненциального тренда с помощью метода наименьших квадратов.

Модель линейного тренда является простейшей моделью, применяемой для прогнозирования: Y i = β 0 + β 1 X i + ε i . Уравнение линейного тренда:

При заданном уровне значимости α нулевая гипотеза отклоняется, если тестовая t -статистика больше верхнего или меньше нижнего критического уровня t -распределения. Иначе говоря, решающее правило формулируется следующим образом: если t > t U или t < t L , нулевая гипотеза Н 0 отклоняется, в противном случае нулевая гипотеза не отклоняется (рис. 14).

Рис. 14. Области отклонения гипотезы для двустороннего критерия значимости параметра авторегрессии А р , имеющего наивысший порядок

Если нулевая гипотеза (А р = 0) не отклоняется, значит, выбранная модель содержит слишком много параметров. Критерий позволяет отбросить старший член модели и оценить авторегрессионную модель порядка р–1 . Эту процедуру следует продолжать до тех пор, пока нулевая гипотеза Н 0 не будет отклонена.

  1. Выберите порядок р оцениваемой авторегрессионной модели с учетом того, что t -критерий значимости имеет n –2р–1 степеней свободы.
  2. Сформируйте последовательность переменных р «с запаздыванием» так, чтобы первая переменная запаздывала на один временной интервал, вторая - на два и так далее. Последнее значение должно запаздывать на р временных интервалов (см. рис. 15).
  3. Примените Пакет анализа Excel для вычисления регрессионной модели, содержащей все р значений временного ряда с запаздыванием.
  4. Оцените значимость параметра А Р , имеющего наивысший порядок: а) если нулевая гипотеза отклоняется, в авторегрессионную модель можно включать все р параметров; б) если нулевая гипотеза не отклоняется, отбросьте р -ю переменную и повторите п.3 и 4 для новой модели, включающей р–1 параметр. Проверка значимости новой модели основана на t -критерии, количество степеней свободы определяется новым количеством параметров.
  5. Повторяйте п.3 и 4, пока старший член авторегрессионной модели не станет статистически значимым.

Чтобы продемонстрировать авторегрессионное моделирование, вернемся к анализу временного ряда реальных доходов компании Wm. Wrigley Jr. На рис. 15 показаны данные, необходимые для построения авторегрессионных моделей первого, второго и третьего порядка. Для построения модели третьего порядка необходимы все столбцы этой таблицы. При построении авторегрессионной модели второго порядка последний столбец игнорируется. При построении авторегрессионной модели первого порядка игнорируются два последних столбца. Таким образом, при построении авторегрессионных моделей первого, второго и третьего порядка из 20 переменных исключаются одна, две и три соответственно.

Выбор наиболее точной авторегрессионной модели начинается с модели третьего порядка. Для корректной работы Пакета анализа следует в качестве входного интервала Y указать диапазон В5:В21, а входного интервала для Х – С5:Е21. Данные анализа приведены на рис. 16.

Проверим значимость параметра А 3 , имеющего наивысший порядок. Его оценка а 3 равна –0,006 (ячейка С20 на рис. 16), а стандартная ошибка равна 0,326 (ячейка D20). Для проверки гипотез Н 0: А 3 = 0 и Н 1: А 3 ≠ 0 вычислим t -статистику:

t -критерия с n–2p–1 = 20–2*3–1 = 13 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;13) = ­–2,160; t U =СТЬЮДЕНТ.ОБР(0,975;13) = +2,160. Поскольку –2,160 < t = –0,019 < +2,160 и р = 0,985 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр третьего порядка не имеет статистической значимости в авторегрессионной модели и должен быть удален.

Повторим анализ для авторегрессионной модели второго порядка (рис. 17). Оценка параметра, имеющего наивысший порядок, а 2 = –0,205, а ее стандартная ошибка равна 0,276. Для проверки гипотез Н 0: А 2 = 0 и Н 1: А 2 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*2–1 = 15 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;15) = ­–2,131; t U =СТЬЮДЕНТ.ОБР(0,975;15) = +2,131. Поскольку –2,131 < t = –0,744 < –2,131 и р = 0,469 > α = 0,05, нулевую гипотезу Н 0 отклонять нельзя. Таким образом, параметр второго порядка не является статистически значимым, и его следует удалить из модели.

Повторим анализ для авторегрессионной модели первого порядка (рис. 18). Оценка параметра, имеющего наивысший порядок, а 1 = 1,024, а ее стандартная ошибка равна 0,039. Для проверки гипотез Н 0: А 1 = 0 и Н 1: А 1 ≠ 0 вычислим t -статистику:

При уровне значимости α = 0,05, критические величины двухстороннего t -критерия с n–2p–1 = 20–2*1–1 = 17 степенями свободы равны: t L =СТЬЮДЕНТ.ОБР(0,025;17) = ­–2,110; t U =СТЬЮДЕНТ.ОБР(0,975;17) = +2,110. Поскольку –2,110 < t = 26,393 < –2,110 и р = 0,000 < α = 0,05, нулевую гипотезу Н 0 следует отклонить. Таким образом, параметр первого порядка является статистически значимым, и его нельзя удалять из модели. Итак, модель авторегрессии первого порядка лучше других аппроксимирует исходные данные. Используя оценки а 0 = 18,261, а 1 = 1,024 и значение временного ряда за последний год - Y 20 = 1 371,88, можно предсказать величину реальных доходов компании Wm. Wrigley Jr. Company в 2002 г.:

Выбор адекватной модели прогнозирования

Выше были описаны шесть методов прогнозирования значений временного ряда: модели линейного, квадратичного и экспоненциального трендов и авторегрессионные модели первого, второго и третьего порядков. Существует ли оптимальная модель? Какую из шести описанных моделей следует применять для прогнозирования значения временного ряда? Ниже перечислены четыре принципа, которыми необходимо руководствоваться при выборе адекватной модели прогнозирования. Эти принципы основаны на оценках точности моделей. При этом предполагается, что значения временного ряда можно предсказать, изучая его предыдущие значения.

Принципы выбора моделей для прогнозирования:

  • Выполните анализ остатков.
  • Оцените величину остаточной ошибки с помощью квадратов разностей.
  • Оцените величину остаточной ошибки с помощью абсолютных разностей.
  • Руководствуйтесь принципом экономии.

Анализ остатков. Напомним, что остатком называется разность между предсказанным и наблюдаемым значением. Построив модель для временного ряда, следует вычислить остатки для каждого из n интервалов. Как показано на рис. 19, панель А, если модель является адекватной, остатки представляют собой случайный компонент временного ряда и, следовательно, распределены нерегулярно. С другой стороны, как показано на остальных панелях, если модель не адекватна, остатки могут иметь систематическую зависимость, не учитывающую либо тренд (панель Б), либо циклический (панель В), либо сезонный компонент (панель Г).

Рис. 19. Анализ остатков

Измерение абсолютной и среднеквадратичной остаточных погрешностей. Если анализ остатков не позволяет определить единственную адекватную модель, можно воспользоваться другими методами, основанными на оценке величины остаточной погрешности. К сожалению, статистики не пришли к консенсусу относительно наилучшей оценки остаточных погрешностей моделей, применяемых для прогнозирования. Исходя из принципа наименьших квадратов, можно сначала провести регрессионный анализ и вычислить стандартную ошибку оценки S XY . При анализе конкретной модели эта величина представляет собой сумму квадратов разностей между фактическим и предсказанным значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки равна нулю. С другой стороны, если модель плохо аппроксимирует значения временного ряда в предыдущие моменты времени, стандартная ошибка оценки велика. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальную стандартную ошибку оценки S XY .

Основным недостатком такого подхода является преувеличение ошибок при прогнозировании отдельных значений. Иначе говоря, любая большая разность между величинами Y i и Ŷ i при вычислении суммы квадратов ошибок SSE возводится в квадрат, т.е. увеличивается. По этой причине многие статистики предпочитают применять для оценки адекватности модели прогнозирования среднее абсолютное отклонение (mean absolute deviation - MAD):

При анализе конкретных моделей величина MAD представляет собой среднее значение модулей разностей между фактическим и предсказанными значениями временного ряда. Если модель идеально аппроксимирует значения временного ряда в предыдущие моменты времени, среднее абсолютное отклонение равно нулю. С другой стороны, если модель плохо аппроксимирует такие значения временного ряда, среднее абсолютное отклонение велико. Таким образом, анализируя адекватность нескольких моделей, можно выбрать модель, имеющую минимальное среднее абсолютное отклонение.

Принцип экономии. Если анализ стандартных ошибок оценок и средних абсолютных отклонений не позволяет определить оптимальную модель, можно воспользоваться четвертым методом, основанным на принципе экономии. Этот принцип утверждает, что из нескольких равноправных моделей следует выбирать простейшую.

Среди шести рассмотренных в главе моделей прогнозирования наиболее простыми являются линейная и квадратичная регрессионные модели, а также авторегрессионная модель первого порядка. Остальные модели намного сложнее.

Сравнение четырех методов прогнозирования. Для иллюстрации процесса выбора оптимальной модели вернемся к временному ряду, состоящему из величин реального дохода компании Wm. Wrigley Jr. Company. Сравним четыре модели: линейную, квадратичную, экспоненциальную и авторегрессионную модель первого порядка. (Авторегрессионные модели второго и третьего порядка лишь незначительно улучшают точность прогнозирования значений данного временного ряда, поэтому их можно не рассматривать.) На рис. 20 показаны графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel. Делая выводы на основе этих графиков, следует быть осторожным, поскольку временной ряд содержит только 20 точек. Методы построения см. соответствующий лист Excel-файла.

Рис. 20. Графики остатков, построенные при анализе четырех методов прогнозирования с помощью Пакета анализа Excel

Ни одна модель, кроме авторегрессионой модели первого порядка, не учитывает циклический компонент. Именно эта модель лучше других аппроксимирует наблюдения и характеризуется наименее систематической структурой. Итак, анализ остатков всех четырех методов показал, что наилучшей является авторегрессионная модель первого порядка, а линейная, квадратичная и экспоненциальная модели имеют меньшую точность. Чтобы убедиться в этом, сравним величины остаточных погрешностей этих методов (рис. 21). С методикой расчетов можно ознакомиться, открыв Excel-файл. На рис. 21 указаны фактические значения Y i (колонка Реальный доход ), предсказанные значения Ŷ i , а также остатки е i для каждой из четырех моделей. Кроме того, показаны значения S YX и MAD . Для всех четырех моделей величинs S YX и MAD примерно одинаковые. Экспоненциальная модель является относительно худшей, а линейная и квадратичная модели превосходят ее по точности. Как и ожидалось, наименьшие величины S YX и MAD имеет авторегрессионная модель первого порядка.

Рис. 21. Сравнение четырех методов прогнозирования с помощью показателей S YX и MAD

Выбрав конкретную модель прогнозирования, необходимо внимательно следить за дальнейшими изменениями временного ряда. Помимо всего прочего, такая модель создается, чтобы правильно предсказывать значения временного ряда в будущем. К сожалению, такие модели прогнозирования плохо учитывают изменения в структуре временного ряда. Совершенно необходимо сравнивать не только остаточную погрешность, но и точность прогнозирования будущих значений временного ряда, полученную с помощью других моделей. Измерив новую величину Y i в наблюдаемом интервале времени, ее необходимо тотчас же сравнить с предсказанным значением. Если разница слишком велика, модель прогнозирования следует пересмотреть.

Прогнозирование временны х рядов на основе сезонных данных

До сих пор мы изучали временные ряды, состоящие из годовых данных. Однако многие временные ряды состоят из величин, измеряемых ежеквартально, ежемесячно, еженедельно, ежедневно и даже ежечасно. Как показано на рис. 2, если данные измеряются ежемесячно или ежеквартально, следует учитывать сезонный компонент. В этом разделе мы рассмотрим методы, позволяющие прогнозировать значения таких временных рядов.

В сценарии, описанном в начале главы, упоминалась компания Wal-Mart Stores, Inc. Рыночная капитализация компании 229 млрд. долл. Ее акции котируются на Нью-Йоркской фондовой бирже под аббревиатурой WMT. Финансовый год компании заканчивается 31 января, поэтому в четвертый квартал 2002 года включаются ноябрь и декабрь 2001 года, а также январь 2002 года. Временной ряд квартальных доходов компании приведен на рис. 22.

Рис. 22. Квартальные доходы компании Wal-Mart Stores, Inc. (млн. долл.)

Для таких квартальных рядов, как этот, классическая мультипликативная модель, кроме тренда, циклического и случайного компонента, содержит сезонный компонент: Y i = T i * S i * C i * I i

Прогнозирование месячных и временны х рядов с помощью метода наименьших квадратов. Регрессионная модель, включающая сезонный компонент, основана на комбинированном подходе. Для вычисления тренда применяется метод наименьших квадратов, описанный ранее, а для учета сезонного компонента - категорийная переменная (подробнее см. раздел Регрессионные модели с фиктивной переменной и эффекты взаимодействия ). Для аппроксимации временных рядов с учетом сезонных компонентов используется экспоненциальная модель. В модели, аппроксимирующей квартальный временной ряд, для учета четырех кварталов нам понадобились три фиктивные переменные Q 1 , Q 2 и Q 3 , а в модели для месячного временного ряда 12 месяцев представляются с помощью 11 фиктивных переменных. Поскольку в этих моделях в качестве отклика используется переменная logY i , а не Y i , для вычисления настоящих регрессионных коэффициентов необходимо выполнить обратное преобразование.

Чтобы проиллюстрировать процесс построения модели, аппроксимирующей квартальный временной ряд, вернемся к доходам компании Wal-Mart. Параметры экспоненциальной модели, полученные с помощью Пакета анализа Excel, показаны на рис. 23.

Рис. 23. Регрессионный анализ квартальных доходов компании Wal-Mart Stores, Inc.

Видно, что экспоненциальная модель довольно хорошо аппроксимирует исходные данные. Коэффициент смешанной корреляции r 2 равен 99,4% (ячейки J5), скорректированный коэффициент смешанной корреляции - 99,3% (ячейки J6), тестовая F -статистика - 1 333,51 (ячейки M12), а р -значение равно 0,0000. При уровне значимости α = 0,05, каждый регрессионный коэффициент в классической мультипликативной модели временного ряда является статистически значимым. Применяя к ним операцию потенцирования, получаем следующие параметры:

Коэффициенты интерпретируются следующим образом.

Используя регрессионные коэффициенты b i , можно предсказать доход, полученный компанией в конкретном квартале. Например, предскажем доход компании для четвертого квартала 2002 года (X i = 35):

log = b 0 + b 1 Х i = 4,265 + 0,016*35 = 4,825

= 10 4,825 = 66 834

Таким образом, согласно прогнозу в четвертом квартале 2002 года компания должна была получить доход, равный 67 млрд. долл. (вряд ли следует делать прогноз с точностью до миллиона). Для того чтобы распространить прогноз на период времени, находящийся за пределами временного ряда, например, на первый квартал 2003 года (X i = 36, Q 1 = 1), необходимо выполнить следующие вычисления:

logŶ i = b 0 + b 1 Х i + b 2 Q 1 = 4,265 + 0,016*36 – 0,093*1 = 4,748

10 4,748 = 55 976

Индексы

Индексы используются в качестве индикаторов, реагирующих на изменения экономической ситуации или деловой активности. Существуют многочисленные разновидности индексов, в частности, индексы цен, количественные индексы, ценностные индексы и социологические индексы. В данном разделе мы рассмотрим лишь индекс цен. Индекс - величина некоторого экономического показателя (или группы показателей) в конкретный момент времени, выраженный в процентах от его значения в базовый момент времени.

Индекс цен. Простой индекс цен отражает процентное изменение цены товара (или группы товаров) в течение заданного периода времени по сравнению с ценой этого товара (или группы товаров) в конкретный момент времени в прошлом. При вычислении индекса цен прежде всего следует выбрать базовый промежуток времени - интервал времени в прошлом, с которым будут производиться сравнения. При выборе базового промежутка времени для конкретного индекса периоды экономической стабильности являются более предпочтительными по сравнению с периодами экономического подъема или спада. Кроме того, базовый промежуток не должен быть слишком удаленным во времени, чтобы на результаты сравнения не слишком сильно влияли изменения технологии и привычек потребителей. Индекс цен вычисляется по формуле:

где I i - индекс цен в i -м году, Р i - цена в i -м году, Р баз - цена в базовом году.

Индекс цен - процентное изменение цены товара (или группы товаров) в заданный период времени по отношению к цене товара в базовый момент времени. В качестве примера рассмотрим индекс цен на неэтилированный бензин в США в промежутке времени с 1980 по 2002 г. (рис. 24). Например:

Рис. 24. Цена галлона неэтилированного бензина и простой индекс цен в США с 1980 по 2002 г. (базовые годы - 1980 и 1995)

Итак, в 2002 г. цена неэтилированного бензина в США была на 4,8% больше, чем в 1980 г. Анализ рис. 24 показывает, что индекс цен в 1981 и 1982 гг. был больше индекса цен в 1980 г., а затем вплоть до 2000 года не превышал базового уровня. Поскольку в качестве базового периода выбран 1980 г., вероятно, имеет смысл выбрать более близкий год, например, 1995 г. Формула для пересчета индекса по отношению к новому базовому промежутку времени:

где I новый - новый индекс цен, I старый - старый индекс цен, I новая база – значение индекса цен в новом базовом году при расчете для старого базового года.

Предположим, что в качестве новой базы выбран 1995 год. Используя формулу (10), получаем новый индекс цен для 2002 года:

Итак, в 2002 г. неэтилированный бензин в США стоил на 13,9% больше, чем в 1995 г.

Невзвешенные составные индексы цен. Несмотря на то что индекс цен на любой отдельный товар представляет несомненный интерес, более важным является индекс цен на группу товаров, позволяющий оценить стоимость и уровень жизни большого количества потребителей. Невзвешенный составной индекс цен, определенный формулой (11), приписывает каждому отдельному виду товаров одинаковый вес. Составной индекс цен отражает процентное изменение цены группы товаров (часто называемой потребительской корзиной) в заданный период времени по отношению к цене этой группы товаров в базовый момент времени.

где t i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - сумма цен на каждый из n товаров в период времени t , - сумма цен на каждый из n товаров в нулевой период времени, - величина невзвешенного составного индекса в период времени t .

На рис. 25 представлены средние цены на три вида фруктов за период с 1980 по 1999 гг. Для вычисления невзвешенного составного индекса цен в разные годы применяется формула (11), считая базовым 1980 год.

Итак, в 1999 г. суммарная цена фунта яблок, фунта бананов и фунта апельсинов на 59,4% превышала суммарную цену на эти фрукты в 1980 г.

Рис. 25. Цены (в долл.) на три вида фруктов и невзвешенный составной индекс цен

Невзвешенный составной индекс цен выражает изменения цен на всю группу товаров с течением времени. Несмотря на то что этот индекс легко вычислять, у него есть два явных недостатка. Во-первых, при вычислении этого индекса все виды товаров считаются одинаково важными, поэтому дорогие товары приобретают излишнее влияние на индекс. Во-вторых, не все товары потребляются одинаково интенсивно, поэтому изменения цен на мало потребляемые товары слишком сильно влияют на невзвешенный индекс.

Взвешенные составные индексы цен. Из-за недостатков невзвешенных индексов цен более предпочтительными являются взвешенные индексы цен, учитывающие различия цен и уровней потребления товаров, образующих потребительскую корзину. Существуют два типа взвешенных составных индексов цен. Индекс цен Лапейрэ , определенный формулой (12), использует уровни потребления в базовом году. Взвешенный составной индекс цен позволяет учесть уровни потребления товаров, образующих потребительскую корзину, присваивая каждому товару определенный вес.

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n i в нулевой период времени, - значение индекса Лапейрэ в период времени t .

Вычисления индекса Лапейрэ показаны на рис. 26; в качестве базового используется 1980 год.

Рис. 26. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Лапейрэ

Итак, индекс Лапейрэ в 1999 г. равен 154,2. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 54,2% дороже, чем в 1980 году. Обратите внимание на то, что этот индекс меньше невзвешенного индекса, равного 159,4, поскольку цены на апельсины - фрукты, потребляемые меньше остальных, - выросли больше, чем цена яблок и бананов. Иначе говоря, поскольку цены на фрукты, потребляемые наиболее интенсивно, выросли меньше, чем цены на апельсины, индекс Лапейрэ меньше невзвешенного составного индекса.

Индекс цен Пааше использует уровни потребления товара в текущем, а не базовом периоде времени. Следовательно, индекс Пааше более точно отражает полную стоимость потребления товаров в заданный момент времени. Однако этот индекс имеет два существенных недостатка. Во-первых, как правило, текущие уровни потребления трудно определить. По этой причине многие популярные индексы используют индекс Лапейрэ, а не индекс Пааше. Во-вторых, если цена некоторого конкретного товара, входящего в потребительскую корзину, резко возрастает, покупатели снижают уровень его потребления по необходимости, а не вследствие изменения вкусов. Индекс Пааше вычисляется по формуле:

где t - период времени (0, 1, 2, …), i - номер товара (1, 2, …, n ), n - количество товаров в рассматриваемой группе, - количество единиц товара i в нулевой период времени, - значение индекса Пааше в период времени t .

Вычисления индекса Пааше показаны на рис. 27; в качестве базового используется 1980 год.

Рис. 27. Цены (в долл.), количество (потребление в фунтах на душу населения) трех видов фруктов и индекс Пааше

Итак, индекс Пааше в 1999 г. равен 147,0. Это свидетельствует от том, что в 1999 году эти три вида фруктов были на 47,0% дороже, чем в 1980 году.

Некоторые популярные индексы цен. В бизнесе и экономике используется несколько индексов цен. Наиболее популярным является индекс потребительских цен (Consumer Index Price - CPI). Официально этот индекс называется CPI-U, чтобы подчеркнуть, что он вычисляется для городов (urban), хотя, как правило, его называют просто CPI. Этот индекс ежемесячно публикуется Бюро статистики труда (U. S. Bureau of Labor Statistics) в качестве основного инструмента для измерения стоимости жизни в США. Индекс потребительских цен является составным и взвешенным по методу Лапейрэ. При его вычислении используются цены 400 наиболее широко потребляемых продуктов, видов одежды, транспортных, медицинских и коммунальных услуг. В данный момент при вычислении этого индекса в качестве базового используется период 1982–1984 гг. (рис. 28). Важной функцией индекса CPI является его использование в качестве дефлятора. Индекс CPI используется для пересчета фактических цен в реальные путем умножения каждой цены на коэффициент 100/CPI. Расчеты показывают, что за последние 30 лет среднегодовые темпы инфляции в США составили 2,9%.

Рис. 28. Динамика Consumer Index Price; полные данные см. Excel-файл

Другим важным индексом цен, публикуемым Бюро статистики труда, является индекс цен производителей (Producer Price Index - PPI). Индекс PPI является взвешенным составным индексом, использующим метод Лапейрэ для оценки изменения цен товаров, продаваемых их производителями. Индекс PPI является лидирующим индикатором для индекса CPI. Иначе говоря, увеличение индекса PPI приводит к увеличению индекса CPI, и наоборот, уменьшение индекса PPI приводит к уменьшению индекса CPI. Финансовые индексы, такие как индекс Доу-Джонса для акций промышленных предприятий (Dow Jones Industrial Average - DJIA), S&P 500 и NASDAQ, используются для оценки изменения стоимости акций в США. Многие индексы позволяют оценить прибыльность международных фондовых рынков. К таким индексам относятся индекс Nikkei в Японии, Dax 30 в Германии и SSE Composite в Китае.

Ловушки, связанные с анализом временны х рядов

Значение методологии, использующей информацию о прошлом и настоящем для того, чтобы прогнозировать будущее, более двухсот лет назад красноречиво описал государственный деятель Патрик Генри: «У меня есть лишь одна лампа, освещающая путь, - мой опыт. Только знание прошлого позволяет судить о будущем».

Анализ временных рядов основан на предположении, что факторы, влиявшие на деловую активность в прошлом и влияющие в настоящем, будут действовать и в будущем. Если это правда, анализ временных рядов представляет собой эффективное средство прогнозирования и управления. Однако критики классических методов, основанных на анализе временных рядов, утверждают, что эти методы слишком наивны и примитивны. Иначе говоря, математическая модель, учитывающая факторы, действовавшие в прошлом, не должна механически экстраполировать тренды в будущее без учета экспертных оценок, опыта деловой активности, изменения технологии, а также привычек и потребностей людей. Пытаясь исправить это положение, в последние годы специалисты по эконометрии разрабатывали сложные компьютерные модели экономической активности, учитывающие перечисленные выше факторы.

Тем не менее, методы анализа временных рядов представляют собой превосходный инструмент прогнозирования (как краткосрочного, так и долгосрочного), если они применяются правильно, в сочетании с другими методами прогнозирования, а также с учетом экспертных оценок и опыта.

Резюме. В заметке с помощью анализа временных рядов разработаны модели для прогнозирования доходов трех компаний: Wm. Wrigley Jr. Company, Cabot Corporation и Wal-Mart. Описаны компоненты временного ряда, а также несколько подходов к прогнозированию годовых временных рядов - метод скользящих средних, метод экспоненциального сглаживания, линейная, квадратичная и экспоненциальная модели, а также авторегрессионная модель. Рассмотрена регрессионная модель, содержащая фиктивные переменные, соответствующие сезонному компоненту. Показано применение метода наименьших квадратов для прогнозирования месячных и квартальных временных рядов (рис. 29).

Р степеней свободы утрачиваются при сравнении значений временного ряда.

Зачем нужны графические методы. В выборочных исследованиях простейшие числовые характеристики описательной статистики (среднее, медиана, дисперсия, стандартное отклонение) обычно дают достаточно информативное представление о выборке. Графические методы представления и анализа выборок при этом играют лишь вспомогательную роль, позволяя лучше понять локализацию и концентрацию данных, их закон распределения.

Роль графических методов при анализе временных рядов совершенно иная. Дело в том, что табличное представление временного ряда и описательные статистики чаще всего не позволяют понять характер процесса, в то время как по графику временного ряда можно сделать довольно много выводов. В дальнейшем они могут быть проверены и уточнены с помощью расчетов.

При анализе графиков можно достаточно уверенно определить:

· наличие тренда и его характер;

· наличие сезонных и циклических компонент;

· степень плавности или прерывистости изменений последовательных значений ряда после устранения тренда. По этому показателю можно судить о характере и величине корреляции между соседними элементами ряда.

Построение и изучение графика. Построение графика временного ряда – совсем не такая простая задача, как это кажется на первый взгляд. Современный уровень анализа временных рядов предполагает использование той или иной компьютерной программы для построения их графиков и всего последующего анализа. Большинство статистических пакетов и электронных таблиц снабжено теми или иными методами настройки на оптимальное представление временного ряда, но даже при их использовании могут возникать различные проблемы, например:

· из-за ограниченности разрешающей способности экранов компьютеров размеры выводимых графиков могут быть также ограничены;

· при больших объемах анализируемых рядов точки на экране, изображающие наблюдения временного ряда, могут превратиться в сплошную черную полосу.

Для борьбы с этими затруднениями используются различные способы. Наличие в графической процедуре режима «лупы» или «увеличения» позволяет изобразить более крупно выбранную часть ряда, однако при этом становится трудно судить о характере поведения ряда на всем анализируемом интервале. Приходится распечатывать графики для отдельных частей ряда и состыковыватьих вместе, чтобы увидеть картину поведения ряда в целом. Иногда для улучшения воспроизведения длинных рядов используется прореживание, то есть выбор и отображение на графике каждой второй, пятой, десятой и т.д. точки временного ряда. Эта процедура позволяет сохранить целостное представление ряда и полезна для обнаружения трендов. На практике полезно сочетание обеих процедур: разбиения ряда на части и прореживания, так как они позволяют определить особенности поведения временного ряда.

Еще одну проблему при воспроизведении графиков создают выбросы – наблюдения, в несколько раз превышающие по величине большинство остальных значений ряда. Их присутствие тоже приводит к неразличимости колебаний временного ряда, так как масштаб изображения программа автоматически подбирает так, чтобы все наблюдения поместились на экране. Выбор другого масштаба на оси ординат устраняет эту проблему, но резко отличающиеся наблюдения при этом остаются за границами экрана.

Вспомогательные графики. При анализе временных рядов часто используются вспомогательные графики для числовых характеристик ряда:

· график выборочной автокорреляционной функции (коррелограммы) с доверительной зоной (трубкой) для нулевой автокорреляционной функции;

· график выборочной частной автокорреляционной функции с доверительной зоной для нулевой частной автокорреляционной функции;

· график периодограммы.

Первые дваиз этих графиков позволяют судить о связи (зависимости) соседних значений временного рада, они используются при подборе параметрических моделей авторегрессии и скользящего среднего. График периодограммы позволяет судить о наличии гармонических составляющих во временном ряде.

Пример анализа временных рядов

Покажем последовательность анализа временных рядов на следующем примере. В таблице 8 приведены в относительных единицах данные продаж продовольственных товаров в магазине (Y t ). Разработать модель продаж и провести прогнозирование объема продаж на первые 6 месяцев 1996 года. Выводы обосновать.

Таблица 8

Месяц Y t

Построим график этой функции (рис. 8).

Анализ графика показывает:

· Временной ряд имеет тренд, весьма близкий к линейному.

· Существует определенная цикличность (повторяемость) процессов продаж с периодом цикла 6 месяцев.

· Временный ряд нестационарный, для приведения его к стационарному виду из него необходимо удалить тренд.

После перерисовки графика с периодом 6 месяцев он будет иметь следующий вид (рис.9). Так как колебания объемов продаж достаточно велики (это видно по графику) необходимо провести его сглаживание для более точного определения тренда.

Существует несколько подходов к сглаживанию временного временных рядов:

Ø Простое сглаживание.

Ø Метод взвешенной скользящей средней.

Ø Метод экспоненциального сглаживания Брауна.

Простое сглаживание основано на преобразовании исходного ряда в другой, значения которого являются усредненными по трем рядом стоящим точкам временного ряда:

(3.10)

для 1-го члена ряда

(3.11)

для n -го (последнего) члена ряда

(3.12)

Метод взвешенной скользящей средней отличается от простого сглаживания тем, что включает параметр w t , который позволяет вести сглаживание по 5 или 7 точкам

для полиномов 2-го и 3-го порядков значение параметра w t определяется из следующей таблицы

m = 5 -3 -3
m = 7 -2 -2

Метод экспоненциального сглаживания Брауна использует предшествующие значений ряда, взятые с определенным весом. Причем вес уменьшается по мере удаления его от текущего времени

, (3.14)

где а – параметр сглаживания (1 > a > 0);

(1 - а) – коэф. дисконтирования.

S o обычно выбирается равным Y 1 или среднему из первых трех значений ряда.

Проведем простое сглаживание ряда. Результаты сглаживания ряда приведены в таблице 9. Полученные результаты представлены графически на рис.10. Повторное применение процедуры сглаживания к временному ряду позволяет получить более гладкую кривую. Результаты расчетов повторного сглаживания также представлены в таблице 9. Найдем оценки параметров линейной модели тренда по методике, рассмотренной в предыдущем разделе. Результаты расчетов следующие:

Множественный R 0,933302
R-квадрат 0,871052
`a 0 = 212,9729043 `t = 30,26026442 `a 1 = 5,533978254 `t = 13,50506944 F = 182,3869

Уточненный график с линией тренда и моделью тренда представлен на рис. 12.

Месяц Y t Y 1t Y 2t

Таблица 9


Рис. 12

Следующий этап заключается в удалении тренда из исходного временного ряда.



Для удаления тренда вычтем из каждого элемента первоначального ряда значения, рассчитанные по модели тренда. Полученные значения представим графически на рис.13.

Полученные остатки, как видно из рис. 13, группируются около нуля, а это значит, что ряд близок к стационарному.

Для построения гистограммы распределения остатков рассчитывают интервалы группирования остатков ряда. Количество интервалов определяют из условия среднего попадания в интервал 3-4 наблюдения. Для нашего случая возьмем 8 интервалов. Размах ряда (крайние значения) от –40 до +40. Ширина интервала определяется как 80/8 =10. Границы интервалов рассчитываются от минимального значения размаха полученного ряда

-40 -30 -20 -10

Теперь определим накопленные частоты попадания остатков ряда в каждый интервал и нарисуем гистограмму (рис.14).

Анализ гистограммы показывает, что остатки группируются около 0. Однако в области от 30 до 40 есть некоторый локальный выброс, который свидетельствует о том, что не учтены и не удалены из исходного временного ряда некоторые сезонные или циклически компоненты. Более точно о характере распределения и его принадлежности к нормальному распределению можно сделать выводы после проверки статистической гипотезы о характере распределения остатков. При ручной обработке рядов обычно ограничиваются визуальным анализом полученных рядов. При обработке на ЭВМ существует возможность более полного анализа.

Что же является критерием завершения анализа временного ряда? Обычно исследователи используют два критерия, отличающихся от критериев качества модели при корреляционно-регрессионном анализе.

Первый критерий качества подобранной модели временного ряда основан на анализе остатков ряда после удаления из него тренда и других компонент. Объективные оценки основаны на проверке гипотезы о нормальном распределении остатков и равенстве нулю выборочного среднего. При ручных методах расчета иногда оценивают показатели ассиметрии и эксцесса полученного распределения. Если они близки к нулю, то распределение считается близким к нормальному. Ассиметрия , А рассчитывается как:

В том случае, если A < 0, то эмпирическое распределение несимметрично и сдвинуто вправо. При A > 0 распределение имеет сдвиг влево. При A = 0 распределение симметрично.

Эксцесс , Е. Показатель, характеризующий выпуклость или вогнутость эмпирических распределений

В том случае, если Е больше или равно нулю, то распределение выпукло, в других случаях вогнуто.

Второй критерий основан на анализе коррелограммы преобразованного временного ряда. В том случае, если корреляции между отдельными измерениями отсутствуют или меньше заданного значения (обычно 0.1) считается, что все компоненты ряда учтены и удалены и остатки не коррелированы между собой. В остатках ряда осталась некая случайная компонента, которая называется «белый шум».

Резюме

Применение методов анализа временных рядов в экономике позволяет сделать обоснованный прогноз изменения исследуемых показателей при определенных условиях и свойствах временного ряда. Временной ряд должен быть достаточного объема и содержать не менее 4 циклов повторения исследуемых процессов. Кроме того, случайная компонента ряда не должна быть соизмеримой с другими циклическими и сезонными компонентами ряда. В этом случае получаемые оценки прогноза имеют практический смысл.

Литература

Основная:

1. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика: Начальный курс. Акад. нар. хоз-ва при Правительстве РФ. – М.: Дело, 1997. – 245 с.

2. Доугерти К. Введение в эконометрику. – М.: ИНФРА-М, 1997. – 402 с.

Дополнительная:

1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. – М.: Юнити, 1998. – 1022 с.

2. Многомерный статистический анализ в экономике / Под ред. В.Н. Тамашевича. – М.: Юнити-Дана, 1999. – 598 с.

3. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Основы моделирования и первичная обработка данных. – М.: Финансы и статистика, 1983.

4. Айвазян С.А., Енюков Й.С., Мешалкин Л.Д. Прикладная статистика. Исследование зависимостей. – М.: Финансы и статистика, 1985.

5. Айвазян С.А., Бухштабер В.М., Енюков С.А., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. – М.: Финансы и статистика, 1989.

6. Бард Й. Нелинейное оценивание параметров. – М.: Статистика, 1979.

7. Демиденко Е.З. Линейная и нелинейная регрессия. – М.: Финансы и статистика, 1981.

8. Джонстон Д. Эконометрические методы. – М.: Статистика, 1980.

9. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. В 2-х кн. – М.: Финансы и статистика, 1986.

10. Себер Дж. Линейный регрессионный анализ. – М.: Мир, 1980.

11. Андерсон Т. Cтатистический анализ временных рядов. – М.: Мир, 1976.

12. Бокс Дж., Дженкинс Г. Анализ временных рядов. Прогноз и управление. (Вып. 1, 2). – М.: Мир, 1972.

13. Дженкинс Г., Ваттс Д. Cпектральный анализ и его применения. – М.: Мир, 1971.

14. Гренджер К., Хатанака М. Cпектральный анализ временных рядов в экономике. – М.: Статистика, 1972.

15. Кендэл М. Временные ряды. – М.: Финансы и статистика, 1981.

16. Вапник В.Н. Восстановление зависимостей по эмпирическим данным. – М.: Наука, 1979.

17. Дюран Б., Оделл П. Кластерный анализ. – М.: Статистика, 1977.

18. Ермаков C.М., Жиглявский А.А. Математическая теория оптимального эксперимента. – М.: Наука, 1982.

19. Лоули Д., Максвелл А. Факторный анализ как статистический метод. – М.: Мир, 1967.

20. Розин Б.Б. Теория распознавания образов в экономических исследованиях. – М.: Статистика, 1973.

21. Справочник по прикладной статистике. – М.: Финансы и статистика, 1990.

22. Хьюбер П. Робастность в статистике. – М.: Мир, 1984.

23. Шеффе Г. Дисперсионный анализ. – М.: Наука, 1980.

Обзор литературы по статистическим пакетам:

1. Кузнецов С.Е. Халилеев А.А. Обзор специализированных статистических пакетов по анализу временных рядов. – М.: Статдиалог, 1991.


Анализ временных рядов позволяет изучить показатели во времени. Временной ряд – это числовые значения статистического показателя, расположенные в хронологическом порядке.

Подобные данные распространены в самых разных сферах человеческой деятельности: ежедневные цены акций, курсов валют, ежеквартальные, годовые объемы продаж, производства и т.д. Типичный временной ряд в метеорологии, например, ежемесячный объем осадков.

Временные ряды в Excel

Если фиксировать значения какого-то процесса через определенные промежутки времени, то получатся элементы временного ряда. Их изменчивость пытаются разделить на закономерную и случайную составляющие. Закономерные изменения членов ряда, как правило, предсказуемы.

Сделаем анализ временных рядов в Excel. Пример: торговая сеть анализирует данные о продажах товаров магазинами, находящимися в городах с населением менее 50 000 человек. Период – 2012-2015 гг. Задача – выявить основную тенденцию развития.

Внесем данные о реализации в таблицу Excel:

На вкладке «Данные» нажимаем кнопку «Анализ данных». Если она не видна, заходим в меню. «Параметры Excel» - «Надстройки». Внизу нажимаем «Перейти» к «Надстройкам Excel» и выбираем «Пакет анализа».

Подключение настройки «Анализ данных» детально описано .

Нужная кнопка появится на ленте.

Из предлагаемого списка инструментов для статистического анализа выбираем «Экспоненциальное сглаживание». Этот метод выравнивания подходит для нашего динамического ряда, значения которого сильно колеблются.

Заполняем диалоговое окно. Входной интервал – диапазон со значениями продаж. Фактор затухания – коэффициент экспоненциального сглаживания (по умолчанию – 0,3). Выходной интервал – ссылка на верхнюю левую ячейку выходного диапазона. Сюда программа поместит сглаженные уровни и размер определит самостоятельно. Ставим галочки «Вывод графика», «Стандартные погрешности».

Закрываем диалоговое окно нажатием ОК. Результаты анализа:


Для расчета стандартных погрешностей Excel использует формулу: =КОРЕНЬ(СУММКВРАЗН(‘диапазон фактических значений’; ‘диапазон прогнозных значений’)/ ‘размер окна сглаживания’). Например, =КОРЕНЬ(СУММКВРАЗН(C3:C5;D3:D5)/3).



Прогнозирование временного ряда в Excel

Составим прогноз продаж, используя данные из предыдущего примера.

На график, отображающий фактические объемы реализации продукции, добавим линию тренда (правая кнопка по графику – «Добавить линию тренда»).

Настраиваем параметры линии тренда:

Выбираем полиномиальный тренд, что максимально сократить ошибку прогнозной модели.


R2 = 0,9567, что означает: данное отношение объясняет 95,67% изменений объемов продаж с течением времени.

Уравнение тренда – это модель формулы для расчета прогнозных значений.

Получаем достаточно оптимистичный результат:


В нашем примере все-таки экспоненциальная зависимость. Поэтому при построении линейного тренда больше ошибок и неточностей.

Для прогнозирования экспоненциальной зависимости в Excel можно использовать также функцию РОСТ.


Для линейной зависимости – ТЕНДЕНЦИЯ.

При составлении прогнозов нельзя использовать какой-то один метод: велика вероятность больших отклонений и неточностей.