paint-brush
Балансировка смещения и дисперсии в сетевых экспериментах: когда следует кластеризоваться?к@escholar
343 чтения
343 чтения

Балансировка смещения и дисперсии в сетевых экспериментах: когда следует кластеризоваться?

Слишком долго; Читать

Погрузитесь в процесс принятия решений по выбору между кластером и дизайном Бернулли в экспериментах. В этой статье подробно исследуются смещение и дисперсия наихудшего случая, предлагая ценную информацию об оптимальном использовании кластерных схем. Раскройте сценарии, в которых кластерные схемы превосходят схемы Бернулли, и получите практические последствия для рассмотрения экспериментальных ошибок. Откройте для себя практическое правило принятия обоснованных решений, особенно при наличии кластеров одинакового размера, обеспечивающее соответствие вашего экспериментального плана целям вашего исследования.
featured image - Балансировка смещения и дисперсии в сетевых экспериментах: когда следует кластеризоваться?
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture

Авторы:

(1) Давиде Вивиано, факультет экономики Гарвардского университета;

(2) Лихуа Лэй, Высшая школа бизнеса Стэнфордского университета;

(3) Гвидо Имбенс, Высшая школа бизнеса и факультет экономики Стэнфордского университета;

(4) Брайан Каррер, FAIR, Мета;

(5) Окке Шрийверс, Meta Central Applied Science;

(6) Лян Ши, Meta Central Applied Science.

Таблица ссылок

Аннотация и введение

Настраивать

(Когда) следует кластеризоваться?

Выбор дизайна кластера

Эмпирическая иллюстрация и численные исследования

Рекомендации для практики

Рекомендации

А) Обозначения

Б) Эндогенные эффекты сверстников

В) Доказательства

3 (Когда) следует кластеризоваться?


3.1 Смещение в худшем случае


3.2 Наихудшая дисперсия

Лемма 3.2 утверждает, что два реализованных результата имеют нулевую ковариацию, если два человека (i) находятся в двух разных кластерах, так что ни один из двух кластеров не содержит друга другого человека, и (ii) не являются друзьями или не имеют общего друга ( set), а также если в кластере, содержащем друга j, нет друга j (набор Gi). Заметим, что лемма 3.2 эквивалентна утверждению, что µi(Di , D−i)[2Di − 1], µj (Dj , D−j )[2Dj − 1] имеют нулевую ковариацию, если Bi ∩ Bj = ∅. Далее мы анализируем ковариации для остальных единиц.


Замечание 5 (не наблюдается А). Предположим, что A не наблюдается или частично наблюдается, и у исследователей есть априорное значение по сравнению с A. В этом случае характеристики систематической ошибки и дисперсии продолжают сохраняться, как только мы принимаем ожидания в отношении распределения A, где априорное значение по сравнению с A может зависеть на частичной сетевой информации [например, Breza et al., 2020].

3.3 Сравнение с планом Бернулли


теперь число кластеров имеет порядок n (например, кластеры содержат несколько особей каждый). Тогда конструкция кластера оптимальна.


Таблица 1. Практические последствия теоремы 3.5. Эмпирическое правило рассчитывается для λ = 1, при наличии кластеров одинакового размера, результаты которых принимают значения от нуля до единицы, а смещение кластеризации равно (или меньше) 50 % (т. е. для каждого индивидуума 50 % ее соединения находятся в том же кластере). Здесь ψ¯ ≤ 4, когда исходы бинарные.



Для λ = 1, известного ψ¯, эмпирическое правило обеспечивает наименьшие побочные эффекты, которые гарантировали бы, что кластерный дизайн доминирует над дизайном Бернулли.


В последнем столбце таблицы 1 собраны последствия эмпирического правила, предполагающего (i) кластеры одинакового размера, (ii) смещение кластеризации составляет не более 50% в качестве консервативной верхней границы и (iii) результаты ограничены между ноль и единица (в этом случае ψ¯ ≤ 4). В этой ситуации исследователям следует провести кластерный эксперимент, когда ψ¯ n √ Kn больше 2,3, когда ψ¯ = 4. На рисунке 2 показано эмпирическое правило как функция систематической ошибки и кластеров.





[10] Условие Kn/n = o(1) можно ослабить с помощью условия конечной выборки Kn ⩽ nδ′ (ψ/ψ¯) для некоторого δ′ ∈ [0, 1). В частности, при предположениях раздела 4.2 ψ = ψ¯, и это условие эквивалентно тому, что фиксированная доля кластеров имеет более одного наблюдения.


Этот документ доступен на arxiv под лицензией CC 1.0.