Фальсифицируя логарифмическую модель роста цены биткойна

0

Ни собаки, ни дороги – только пьяница.

Краткий обзор

Эта статья посвящена исследованию вопроса о том, существует ли какая-либо зависимость между временем и ценой биткойна. Мы проверим предложенную [здесь: 1, 2, 3] двойную логарифмическую модель на статистическую достоверность методом наименьших квадратов, а также на стационарность в отношении каждой переменной и на потенциальные ложные зависимости, используя для анализа коинтеграции метод Энгла – Грейнджера. Результаты всех проведённых тестов, кроме одного, опровергают гипотезу о том, что время может являться важным предиктором цены биткойна.

Введение

Модель log цена ~ log время (aka логарифмическая модель роста) была предложена несколькими авторами [1, 2, 3] для объяснения значительной части движений цены биткойна в прошлом и, как следствие, для прогнозирования будущих цен.

Научный метод с трудом поддаётся пониманию большинства людей. Он контринтуитивен. Это может привести к выводам, которые не будут отражать личных убеждений. Для того чтобы понять этот метод, необходимо понять и принять его фундаментальную идею: ошибаться нормально.

По убеждению великого философа науки Карла Поппера, проверка гипотезы на её ошибочность – это единственный надёжный способ добавить веса аргументу о том, что она верна. Если строгие многократные тесты не могут доказать, что гипотеза ошибочна, то с каждым таким тестом вероятность того, что она верна, возрастает. Эта концепция называется фальсифицируемостью (или потенциальной опровержимостью) гипотезы. В этой статье я попытаюсь сфальсифицировать модель логарифмического роста цены биткойна в том виде, как она была сформулирована в трёх указанных выше источниках: 1, 2, 3.

Примечания:

  • Для всех анализов использовалось ПО Stata 14.
  • Статья не содержит финансовых рекомендаций.

Определение проблемы

Чтобы сфальсифицировать гипотезу, сначала нужно точно установить, в чём она состоит:

Нулевая гипотеза (H0): Цена биткойна является функцией от количества дней существования Биткойна.

Альтернативная гипотеза (H1): Цена биткойна не является функцией от количества дней существования Биткойна.

Авторы указанных выше источников решили проверить H0 путём подбора регрессии обычных наименьших квадратов (OLS) на натуральный логарифм цены биткойна и натуральный логарифм количества дней существования Биткойна. Ни один из авторов не привёл ни сопутствующей диагностики, ни какой-либо определённой причины для логарифмического преобразования обеих переменных. Модель не учитывала возможности установления ложной зависимости вследствие нестационарности, возможности для взаимодействия или иных искажающих факторов.

Метод

В сегодняшней статье мы рассмотрим эту модель, проведём диагностику нормальной регрессии и определим, было ли преобразование логарифма необходимо или целесообразно (или и то и другое), а также исследуем возможные искажающие факторы (конфаундеры), взаимодействия и чувствительность модели к искажениям.

Ещё одна проблема, которую мы исследуем, – это проблема нестационарности. Стационарность (неизменность во времени) является необходимым условием большинства статистических моделей. Имеется в виду идея о том, что, если тренд относительно времени отсутствует в средних значениях (или дисперсии), то он отсутствует и в любой момент времени.

Помимо анализа стационарности, мы исследуем также возможность коинтеграции.

Условные обозначения

Традиционно расчётное значение статистического параметра обозначается «шапочкой» над символом. Здесь вместо него мы будем использовать [ ], т.е. расчётное значение β = [β]. Матрицу 2×2 мы будем представлять как [r1c1, r1c2 r2c1, r2c2] и т.д. Для обозначения индексированных элементов будем использовать символ @ – например, для 10-й позиции в векторе X обычно используется X с подстрочным индексом 10. Вместо этого, мы будем писать X@10.

Обычные наименьшие квадраты

Регрессия обычных наименьших квадратов – это метод нахождения линейной зависимости между двумя и более переменными.

Для начала давайте определим линейную модель как некоторую функцию X, которая равна Y с некоторой погрешностью.

Y = βX+ε

где Y – зависимая переменная, X – независимая переменная, ε – это величина погрешности, а β – множитель X. Задача OLS – вывести значение β так, чтобы минимизировать ε.

Для того чтобы вывести надёжное расчётное значение [β], необходимо соблюсти некоторые основные условия (известные как условия к Теореме Гаусса – Маркова):

  • Наличие линейной связи между зависимой и независимой переменными
  • Гомоскедастичность (то есть постоянство дисперсии) погрешностей
  • Среднее значение распределения погрешностей обычно равно нулю
  • Отсутствие автокорреляции ошибок (то есть они не коррелируют с последовательностью ошибок, взятых со сдвигом по времени)
  • Линейность

    Начнём с рассмотрения не преобразованного в диаграмму рассеяния отношения цены и количества дней (данные Coinmetrics).

    Рис. 1 – Отношение цены к количеству дней. Данные рассеяны в слишком большом диапазоне, чтобы определить линейность визуально.

    На рисунке 1 ясно видна достаточная причина для взятия логарифма от цены: разброс значений слишком велик. При взятии логарифма от цены (но не количества дней) и повторном построении диаграммы мы получаем знакомый паттерн (рисунок 2).

    Рис. 2 – Отношение логарифма от цены к количеству дней. Возникает отчётливый логарифмический паттерн.

    Взяв логарифм от количества дней и построив диаграмму уже с ним, мы получаем очевидный линейный паттерн, идентифицированный авторами наших трёх источников (см. начало статьи) на рисунке 3.

    Рис. 3 – возникает очевидная линейная зависимость.

    Это подтверждает правильность выбора двойного логарифма как единственного варианта, дающего в результате хорошо просматриваемую линейную зависимость.

    Рис. 4 – преобразования квадратного корня дают ненамного лучший результат, чем нетрансформированные данные

    Таким образом, предварительный анализ не опровергает H0.

    Результаты двойной логарифмической регрессии приведены на рисунке 5 ниже, где [β] = 5,8.

    Рисунок 5 – результаты для двойной логарифмической регрессии.

    Используя эту модель, мы теперь можем определить остатки [ε] и расчётные значения [Y], а также проверить соответствие другим условиям.

    Гомоскедастичность

    При соблюдении условия о постоянстве дисперсии в величине погрешности (т.е. о гомоскедастичности), погрешность для каждого значения прогнозируемой стоимости колеблется произвольным образом около нуля. Следовательно, график отношения остаточной стоимости к расчётной (рис. 6) представляет собой простой, но эффективный способ графически проверить выполнение этого условия. На рисунке 6 мы видим явно определённый паттерн, а не случайное рассеяние, что указывает на непостоянство дисперсии в величине погрешности (т.е. на гетероскедастичность).

    Рис. 6(а) – график отношения остаточной стоимости к расчётной. Наличие паттерна здесь указывает на вероятную проблему.

    Следствием подобной гетероскедастичности является бóльшая дисперсия и, соответственно, меньшая точность расчётных значений коэффициентов [β]. Кроме того, она приводит к большей, чем следует, значимости p-значений, поскольку метод OLS не выявляет повышенную дисперсию. Поэтому для расчёта t- и F-величин мы используем заниженное значение дисперсии, приводящее к более высокой значимости. Это влияет также на 95% доверительный интервал для [β], который также является функцией дисперсии (через стандартную погрешность).

    Результаты теста Бройша – Годфри на автокорреляцию тоже говорят о наличии этой проблемы.

    Рис. 6(б) – Автокорреляция в остатках

    На этом этапе обычно стоит остановиться и уточнить модель. Однако, учитывая, что нам известен эффект от этих проблем, будет относительно безопасно продолжить с регрессионным пониманием того, что эти проблемы существуют. Способы справиться с ними (по крайней мере, в лёгкой их форме) существуют – например, взятие бутстреп-выборок или робастная оценка дисперсии.

    Рис. 7 — Влияние гетероскедастичности в различных оценках.

    Как видно на рисунке 7, несмотря на небольшое увеличение дисперсии (см. расширенный доверительный интервал), по большому счёту, присутствующая гетероскедастичность в действительности не оказывает слишком большого вредного эффекта.

    Нормальное распределение ошибок

    Удовлетворение условия о том, что погрешность в норме распределяется со средним значением, равным нулю, не так важно, как удовлетворение условий о линейности или гомоскедастичности. При не соответствующих нормальному распределению, но не искажённых остатках, доверительные интервалы будут чрезмерно оптимистичными. Если же остатки искажены, то искажён может быть и конечный результат. Как видно из рисунков 8 и 9, остатки сильно искажены. Тест на нормальность по критерию Шапиро – Уилка даёт p-значение, равное 0. Они не соответствуют нормальной кривой в достаточной мере для того, чтобы не были затронуты доверительные интервалы.

    Рис. 8 – Гистограмма погрешности с наложенной на неё (зелёной) кривой нормального распределения. Величина погрешности должна быть нормальной, однако таковой не является.
    Рис. 9 – график с нормальными квантилями величины погрешности. Чем ближе точки к линии, тем лучше нормальная подгонка.

    Леверидж

    Леверидж – это концепция, согласно которой не все точки данных в регрессии вносят равный вклад в оценку коэффициентов. Некоторые точки с высоким левериджем могут существенно изменить коэффициент в зависимости от того, присутствуют они или нет. На рисунке 10 ясно видно, что есть слишком много внушающих сомнение точек (выше среднего остатка и выше среднего левериджа).

    Рис. 10 – Леверидж и возведённые в квадрат остатки.

    Резюме по OLS

    Базовая диагностика указывает на нарушение практически всех условий Гаусса – Маркова, за исключением линейности. Это довольно сильное доказательство несостоятельности H0.

    Стационарность

    Стационарным называют процесс с общим порядком 0 (напр., I(0)). Нестационарный процесс – это I(1) и более. Вычисление интеграла в этом контексте – это скорее «для бедных», сумма разностей со сдвигом по времени. I(1) означает, что при вычитании первого лага из каждого значения в серии получается I(0) процесс. Довольно хорошо известно, что регрессия по нестационарным временным рядам может привести к выявлению ложных связей.

    На рисунках 12 и 13 ниже видно, что мы не можем опровергнуть нулевую гипотезу расширенного теста Дики-Фуллера (ADF). Нулевая гипотеза ADF-теста заключается в том, что данные являются нестационарными. Это значит, что мы не можем сказать, что данные стационарны.

    Оставьте ответ

    Ваш электронный адрес не будет опубликован.