Кандидат биологических наук Екатерина Виноградова в рамках второй Международной научно-практической конференции имени В.Л. Гинзбурга и Э.П. Круглякова «Лженаука в современном мире: медиасфера, высшее образование, школа» выступила с докладом «Антигуманизм феминизма XXI века». Нам стало интересно, какая была найдена связь между общественно-политическим движением за права женщин и лженаукой, а также в чем заключается «антигуманизм» (мы полагаем, что столь громкое название больше подошло бы журналистской статье, нежели выступлению на научно-практической конференции).
Вторая причина нашего интереса заключается в том, что вокруг этого доклада ранее уже возник оживленный спор, постепенно переросший в скандал, в котором все стороны показали себя не с лучшей стороны. Исходя из принципа «лучше поздно, чем никогда» мы решили беспристрастно разобраться в этом вопросе.
Сразу следует сказать, что изначально делать доклад Екатерина Виноградова должна была вместе с Дмитрием Жуковым, который не смог прибыть вовремя. В связи с этим мы не будем излишне строги к мелочам (например, на 18:15 докладчик сама признает, что ошиблась, внося правки в таблицы на слайдах). Во-первых, Екатерине Виноградовой пришлось делать доклад в одиночку, а во-вторых, такие ошибки не критичны и случаются у всех. Мы постараемся сконцентрировать внимание на наиболее значимых с нашей точки зрения промахах.
Также мы искренне надеемся, что наша статья не будет воспринята как личные нападки. Мы уважаем стремление распространять научное знание, бороться со лженаукой и просвещать людей. Но мы также убеждены, что честная и недвусмысленная критика — это необходимый элемент как для развития науки в целом, так и для профессионального роста каждого ученого в отдельности.
Итак, основная часть доклада строится вокруг одного (исследования шведских специалистов). Ниже мы рассмотрим и результаты, полученные шведами, и их пересказ с интерпретацией Екатерины Виноградовой.
Что сделали шведские ученые?
В шведской работе анализируются связи между количеством дней родительского отпуска, взятого отцами и матерями (вернее, соотношением количества дней матери и отца) и последующим психическим здоровьем детей. Последнее оценивается по количеству детей, которым либо прописывали противотревожные препараты или антидепрессанты, либо ставили диагнозы, связанные с тревожным расстройством или депрессией. Семьи были разбиты на несколько категорий в зависимости от соотношения количества дней отпуска матери и отца — в «традиционных» семьях большую часть отпуска брала мать, в «нетрадиционных» — отец, а в «равноправных» — примерно поровну.
Экстраординарное утверждение требует экстраординарных доказательств
Прежде чем переходить к обсуждению исследования в деталях, мы хотим обратить внимание на две вещи. Мы исходим из принципа, что если ученый делает громкие публичные заявления (а «гендерное равенство — это антигуманно и вредно для здоровья детей!» безусловно является громким заявлением), основываясь на одном исследовании, то требуется досконально проанализировать само это исследование. Кроме того, мы считаем, что в просветительскую обязанность ученого входит объективное освещение данных в любых обстоятельствах. Давайте посмотрим, насколько соответствует этим двум пунктам доклад Екатерины Виноградовой.
С самого начала о нейтральности докладчика говорить не приходится. Прежде чем она начинает говорить о каких-либо данных, уже идет заявление: «Гендерное равенство в семье — риск психических расстройств детей? […] По итогам — “да”, получается».
«Гендерное равенство в семье — риск психических расстройств детей? По итогам — “да”, получается».
|
Когда человек выступает как научный авторитет для публики и с самого начала говорит, как нужно интерпретировать данные, не стоит ждать, что слушатели подумают о чем-то другом, придумают свои интересные объяснения. Это может показаться придиркой с нашей стороны, однако далее мы покажем, что столь однозначный вывод на самом деле сделать нельзя.
Проблема шведского исследования: не все данные доступны для анализа
Само исследование, к сожалению, страдает огромным количеством проблем. Прежде всего это проблемы в статистической обработке данных и в их доступности для читателей. Часть статистических процедур (в том числе о «достоверности» которых говорит Екатерина Виноградова) вообще в статье не описывается (см. далее). Остальные описываются не в полноте деталей, а данные опубликованы таким образом, что их нельзя проверить. Например, количество семей в той или иной категории опубликовано в таблице 1, но количество детей, которым прописывали препараты или ставили диагноз, не указано, хотя было бы очень просто это сделать. Дан только округленный процент[1] от общего числа, что не позволяет повторить анализ и верифицировать результат.
Проблема в интерпретации: размер выборки
Некоторые слова докладчика вызвали у нас крайне сильное удивление. Когда она только начала описывать исследование, то говорила о размере выборки: «И тот результат, который они получили, вызвал удивление у самих авторов, и поскольку он получился сильно неполиткорректный, то они крайне, вот, они все набирали-набирали статистику, набирали, а чем больше они набирали, тем больше эта выраженность».
Почему Екатерина Виноградова решила, что авторы так обеспокоены политкорректностью результата, остается лишь предполагать: оставим это в стороне. Но с «набором статистики» необходимо сделать два замечания.
Во-первых, это неправда. Это исследование было проведено на всех данных, имеющихся в государственной базе, то есть вообще на всех шведских семьях, подходящих под критерии исследования. Никакой статистики тут не «набирали-набирали», просто использовали все, что было.
Во-вторых, просто так увеличивать размер выборки нельзя. Представление о том, что это только поднимет качество статистического анализа, не соответствует действительности.
Почему нельзя просто увеличить размер выборки?
Увеличение выборки только по той причине, что получается нежелательный результат — это разновидность научной махинации, за которую можно лишиться и репутации, и регалий. Размер выборки должен основываться на оценке разброса данных и статистической мощности для эффекта, который нужно обнаружить. В самом крайнем случае, если вышеозначенные параметры нельзя оценить, размер выборки должен быть решен заранее, как раз для того, чтобы подобных махинаций с изменением размера не происходило. Единственное к чему они ведут — это увеличение количества ложноположительных результатов и раздутие (инфляция) величины эффекта (интересующиеся причинами этого могут прочитать объяснение на английском).
Проблема с исследованием: ошибка в одной из таблиц
Далее, Екатерина Виноградова описывала результаты: «Оказалось, что среди мальчиков в “традиционных” и “очень традиционных” семьях процент обращений достоверно ниже, чем в “равных” и “скорее нетрадиционных”. Очень высокие там цифры, и это все достоверно».
В первую очередь надо заметить, что в таблице с этими результатами (таблица 1) в статье допущена ошибка, которую легко заметить. Итак, таблица 1, количество семей в разделе мальчики («Boys») и категории «равноправные» («Equal») — вторая колонка, строчка 4 — там стоит цифра 420. То есть было 420 семей в этой категории с сыновьями. Теперь та же категория семьи с дочерьми — вторая колонка, строчка 3 — таких семей было 1234. Сам факт, что соотношение полов детей у семей в этой категории настолько разный, должен насторожить.
Может быть настрой на равноправие у родителей увеличивает шанс рождения девочки? Вот это был бы интересный результат. Но на самом деле все намного прозаичнее. Если посмотреть на суммарное количество семей (both) — вторая колонка, строчка 3 — всего равноправных семей было 2551. 1234 + 420 никак не дает 2551. Что произошло? В разделе «мальчики» были перепутаны названия категорий. На самом деле третья строчка должна быть «равноправные семьи», четвертая — «довольно нетрадиционные», и пятая — «очень нетрадиционные». Тогда все числа сходятся.
Таблица 1 из обсуждаемой статьи. Красным обведены цифры, относящиеся к «равноправным» по смыслу таблицы. Синим отмечены семьи, которые на самом деле относятся к «равноправным».
|
Что интересно, на слайдах у Екатерины Виноградовой эта ошибка исправлена. Можно увидеть, что проценты, которые она показывает по депрессии у мальчиков, стоят в правильном порядке.
Неправильные значения в таблице в статье и исправленные значения в презентации Екатерины Виноградовой.
|
Неясно, каким образом рецензенты шведской статьи не заметили этой ошибки, но это случается время от времени. Поэтому в научном сообществе считается хорошим тоном написать автору статьи, чья электронная почта всегда специально указывается в публикации, и указать на ошибку. Тогда журнал может выпустить поправку в печатном виде и исправить ошибку в онлайн публикации. Мы написали одной из авторов статьи, и она подтвердила наличие ошибки (почему Екатерина Виноградова или же Дмитрий Жуков сами не сообщили ученым об ошибке — неизвестно). По мнению авторов статьи, переставленные значения в таблице не повлияли на результаты, так что мы продолжим анализ, считая, что остальная часть исследования выполнена без ошибок.
Достоверность исследования и общие замечания о статистике
Теперь давайте обратимся к тому, как докладчик описывала результат. На слайде она привела значение Хи-квадрат: р = 0,052. При этом она говорит о том, что «это все достоверно». Что же означает этот Хи-квадрат, это р (читается как «пи») и почему там на самом деле все не так достоверно, как утверждает Екатерина Виноградова? Чтобы разобраться, придется немного углубиться в статистику.
«Это все достоверно».
|
Статистика — не волшебная палочка, позволяющая однозначно выяснить, есть ли какая-то разница между группами или нет. Единственное, что статистический тест может сделать, — это оценить вероятность того, что, если разницы между группами на самом деле нет, мы увидим тот эффект, который мы видим.
Вот мы собрали какие-то данные, например, по двум категориям семей — «традиционные» и «равноправные». Вот есть цифры по количеству мальчиков, страдающих депрессией. Действительно ли есть разница между семьями? Никто точно не знает. Статистика может только сказать следующее: если разницы нет, т.е. если на самом деле процент мальчиков с депрессией одинаковый у традиционных и равноправных семей, то вы увидите те экспериментальные результаты, которые вы увидели, с вероятностью «p». Иными словами, «p» — это вероятность того, что результат ложноположителен: на самом деле разницы нет, а мы (неправильно) заключили, что она есть.
Почему так вообще может получиться? Почему вдруг мы по результатам эксперимента можем заключить, что разница есть, хотя ее на самом деле нет? Дело в том, что выборка всегда подразумевает фактор случайности. Если вы хотите сделать вывод о всех семьях (и тех, что были в прошлом, и тех, что будут в будущем), вам в идеале «просто» нужно собрать данные о всех когда-либо существовавших семьях, и дело с концом. Но «просто» не случайно взято в кавычки: как вы соберете данные о будущих семьях? Этого сделать невозможно, поэтому приходится удовлетворяться теми, что есть. Например, семьями с детьми в 1989-1990 годах, как в этом исследовании.
А вдруг так случилось, что в равноправных семьях в этот год, по чистой случайности, родилось больше детей с предрасположенностью к депрессии? То есть на самом деле, если бы мы взяли данные всех на свете семей, или хотя бы данные за большее количество лет, мы бы не обнаружили разницы, а вот в этот год так не повезло. Может такое быть? Еще как может, и тогда мы ошибочно заключим, что равноправие в семьях коррелирует с повышенным риском депрессии. Это и называется ложноположительный результат. И именно это значение выражает «p».
Другой и, может быть, более простой способ посмотреть на значение «p»: если по результатам статистического теста p ≅ 0,05 (или 1/20), это означает, что если вы проведете 20 подобных исследований, вы в среднем в одном из них найдете различия, даже если их там на самом деле нет. А это уже серьезно — в среднем, каждый двадцатый научный результат, в котором разница между группами оценена с p ≅ 0,05, на самом деле ложноположителен. То есть на самом деле разницы, которую «нашли» ученые, может не быть вовсе, а может быть всего лишь результат случайных различий в выборках. [В данном абзаце содержится ошибка, на которую нам указали в комментариях после публикации, она несущественна для статьи в целом, однако лучше ее разъяснить, смотри здесь].
Когда смотришь на статистику с этой позиции, начинаешь понимать, что статистические инструменты — это не кувалда, которой можно ковать данные, пока не получится что-то удобоваримое. Это скорее набор инженера-электротехника, инструмент, нуждающийся в тонкой настройке под конкретное задание. Здесь важно и что делаешь, и в каком порядке, и как интерпретируешь. Иначе рискуешь попасть впросак, и истории известны случаи, когда неправильная интерпретация статистики в исследованиях вела к гибели множества людей.
Все это мы пишем для того, чтобы было понятно — это не просто придирки к докладу Екатерины Виноградовой, эти детали действительно имеют значение, особенно когда исследование в конечном счете сводится к «феминизм вреден для детей» или «феминизм не вреден для детей». Малейшие различия в понимании происходящего ведут к неправильной интерпретации. Например, что такое тест Хи-квадрат. В этом контексте — статистический тест, который позволяет оценить, влияет ли категория (в данном случае — тип семьи, «традиционные», «равноправные» и т.д.) на какую-то другую переменную (в данном случае — вероятность депрессии у сына). Значение «р» в данном случае выражает вероятность того, что если на самом деле не влияет, то вы увидите те результаты, которые увидели, вот с этой вероятностью «р». То есть в данном случае это 5,2% (p=0,052).
Поскольку общепринятый максимальный уровень «р» для заключения «статистической достоверности различий» — 5%, в данном случае различия, вопреки словам Екатерины Виноградовой, не достоверны (с этим согласны и авторы статьи — см. дальше).
Ошибка доклада: что с чем сравнивали авторы исследования
Екатерина Виноградова говорила: «Оказалось, что среди мальчиков в “традиционных” и “очень традиционных” семьях процент обращений достоверно ниже, чем в “равных” и “скорее нетрадиционных”».
Но так ли это? Нет, это не так. Сравнивались не “традиционные”+“очень традиционные” со всеми остальными. Сравнивался эффект типа семьи в целом на вероятность депрессии. Это совершенно разные вещи и разные тесты, которые дадут разные результаты. Результат теста, о котором говорит Екатерина Виноградова, ни нам, ни ей не известен.
Предложенная ею интерпретация неправильна. Та же ситуация с девочками (следующий слайд). Здесь «р» заметно ниже, но, опять же, это не отражает достоверность различия каждой категории семей с каждой другой. То есть утверждение Екатерины Виноградовой про то что «хуже всего для девочек, когда нет мамы и папы, когда они одинаковые, когда функции мамы и папы не разделены» основана на неправильной интерпретации теста.
Результаты исследования не означают, что в «традиционных» и «нетрадиционных» семьях вероятность депрессии достоверно ниже, чем в «равноправных». Они лишь обозначают, что эффект типа семьи в целом есть.
Хотя, есть ли? Нас очень удивило, что авторы статьи не описывают в деталях статистические процедуры для теста Хи-квадрат. У них даже есть специальная секция «Статистический анализ» в разделе «Методы», но о тесте Хи-квадрат там ни слова. Авторы считают, что их «р» недостаточно малы для того, чтобы заключить эффект типа семьи!
Что пишут авторы исследования?
Они так и писали в тексте статьи, когда обсуждали таблицу 1 — "At a descriptive level, the mental ill-health outcomes do not vary by (in)equality category…"[2], — и тут же переходили к результатам регрессионного анализа, сделанного дальше в статье. То есть проценты из таблицы 1, приведенные на слайдах Екатерины Виноградовой, и значения «р» по Хи-квадрат, самими авторами статьи не признаются как статистически значимые (и не зря, потому что 0,052 и 0,031 это достаточно высокие значения «р», особенно если учесть проблему множественных сравнений — о которой мы еще поговорим далее).
Нужно оговориться, что, хотя мы понимаем мотивацию авторов статьи, отсутствие достоверности при тестировании не оправдывает отсутствие описания статистического теста в разделе со статистическими процедурами. Если тесты проведены, они должны быть описаны в статье. Отсутствие четкого описания лишь сбивает с толку тех, кто не занимается статистикой профессионально.
Ложноположительные результаты и множественные сравнения
Выше мы говорили о ложноположительных результатах и о том, что «p» выражает вероятность того, что результат ложноположителен. Мы также упомянули, что если вы принимаете различия как достоверные[3] при p<0,05, то в среднем 1 из 20 результатов будет ложноположительный. Но это касается не каждой статьи, это касается каждого сравнения!
Например, в этой статье авторы сравнивают семьи с мальчиками, семьи с девочками и все вместе, и по каждой категории есть 4 разных критерия:
1) назначение препаратов против депрессии…
2) …или тревожного расстройства;
3) наблюдение у специалиста по диагнозу депресии…
4) …или тревожного расстройства.
Получается, что сравнение по Хи-квадрат происходит 3*4 = 12 раз. Если считать выборки и критерии независимыми (они не независимы, но это не сильно улучшает ситуацию), а критерий достоверности принять p<0,05, то вероятность хотя бы одного ложноположительного результата будет равна ~46.0%, а двух — ~43.1%. То есть вероятность того, что мы увидим p<0,05 хотя бы в одном из сравнений при том, что разницы на самом деле нет (как здесь, например, p=0,031 для девочек по критерию тревожных препаратов) — почти 50%! Иными словами, если проводить подобный эксперимент с 12 сравнениями много раз, то в половине случаев как минимум по одному критерию найдешь «статистически значимые различия», хотя на самом деле их нет!
Это называется «проблема множественных сравнений», бич современной науки. Порой в одном исследовании приходится делать сотни сравнений, поэтому без поправок на множественные сравнения научное сообщество было бы по уши в море ложноположительных «результатов», среди которых невозможно найти что-то реально значимое. Название одной из самых цитируемых работ последних лет по статистике — «Почему большинство опубликованных результатов — ложь» говорит само за себя.
Корреляция и причинно-следственные связи
Но давайте допустим, что с результатами шведского исследования полный порядок. Допустим, что разница действительно присутствует: количество случаев психических заболеваний в равноправных семьях 1989-1990 годов действительно достоверно выше — именно это утверждала в своем докладе Екатерина Виноградова. Даже если сделать такие допущения (а это очень зыбкие предположения в свете всего сказанного про статистику), то все равно мы столкнемся с большой проблемой.
Проблема будет заключаться в том, что такой результат — это всего лишь корреляция. А корреляция, как знает любой ученый (а должен бы знать любой грамотный человек), не подразумевает причинно-следственной связи. Екатерина Виноградова говорит о результатах исследования как будто ученые взяли 100 000 семей, разделили их случайным образом на группы и сказали: «Вот вы будете вести себя как равные, вы — как очень традиционные, вы — как очень нетрадиционные», а потом смотрели на эффекты. Это было бы по-настоящему серьезным исследованием. Но здесь же речь идет совершенно не об этом. Тот факт, что результат — лишь корреляция, требует упоминания альтернативных объяснений результатов, и их авторы статьи обсуждают море. То, что Екатерина Виноградова пропускает все это и сразу переходит к причинно-следственной связи (равноправие в семье влияет на психическое здоровье детей), нам представляется странным.
Сами авторы исследования предлагают ряд альтернативных объяснений, ряд иных возможных причинно-следственных связей — они прямо указывают, что проблема может быть вовсе не в равноправии (в случае, если она действительно существует). Перечислим, какие альтернативные объяснения полученным результатам предлагают авторы статьи.
1. В «равноправных» семьях (напоминаю, что «равноправность» определяется соотношением количества дней родительского отпуска, взятого отцом и матерью) у обоих родителей выше карьерные амбиции, что может вести к большему количеству ссор и переговоров за то, кто будет сидеть с ребенком, что в свою очередь сказывается на психологическом здоровье детей. (Эта интерпретация не подразумевает вред феминизма как такового).
2. Отцы, активно вовлеченные в воспитание детей, получают негативное социальное давление (ссылка из статьи номер 33), что сказывается на их взаимоотношении с детьми и в результате — на здоровье детей. (Эта интерпретация подразумевает вред непринятия равноправия в обществе, а вовсе не феминизма).
3. Ребенок может испытывать стресс из-за того, что его семья устроена по-другому, не так как большинство других, «традиционных», семей. (опять-таки проблема не в гендерном равноправии, «инаковость» может быть и иной — национальной, к примеру, и это не будет значить, что проблема именно в национальности!)
4. Родители в равноправных семьях особенно внимательны к психическому здоровью детей и чаще водят их ко врачам. То есть, люди, стремящиеся к половому равноправию, могут также стремиться к тому, чтобы психическое здоровье их детей было в порядке. Иными словами — «равноправные» родители больше водят детей по врачам.
Все это многообразие объяснений сводится к следующему: «равноправные» семьи могут быть уникальными не только по критериям «равноправности», но и еще чем-то в среднем отличаться от других категорий.
Авторы завершают обсуждение результатов следующим замечанием:
«[…] данные по родителям были собраны в конце 1980-х. Это означает, что последствия ведения отличного от принятых норм образа жизни могли быть сильнее в изученных семьях, чем в в современных. Швеция была первой страной, которая разрешила отцам брать родительский отпуск в 1974 году […]. С тех пор, пропорция отпуска отцов значительно увеличилась, от 0.5% в 1974, 5.2% в 1980, 7.4% в 1990, 12.4% в 2000 и 23,1% в 2010. […] В целом, применение наших результатов в сегодняшней ситуации в Швеции должно быть сделано с осторожностью.» В завершении они пишут: «Существует несколько возможных объяснений наших результатов, и в ожидании их подтверждения или опровержения мы рекомендуем использовать данное исследование исключительно в ориентировочных целях».
Все это отсутствовало в докладе Екатерины Виноградовой. Мы понимаем, что доклад, тем более научно-популярный — это не статья, и не может вместить в себя все. Но даже с учетом этого, в докладе результаты и выводы исследования были очень сильно искажены, буквально до неузнаваемости. Как нам кажется — в целях продвижения идеи о вреде феминизма.
Примеры вне науки
В завершение заметим, что доклад Екатерины Виноградовой основан не только на данных шведского исследования и их интерпретации, сделанной преимущественно авторами доклада, а не самими шведами. В той части, где Екатерина Виноградова говорит о гендерных различиях между мужчинами и женщинами, она часто прибегает не к результатам исследований, опубликованных в соответствующей литературе, а к бытовым примерам и анекдотам. А говоря об интуиции, Екатерина Виноградова (на 7:15) утверждает: «интуиция у мужчин, как правило, не развита».
Однако есть опровергающие ее утверждение данные. Используя разработанный в 1968 году Westcott’s Test of Intuitive Ability[4], исследователи из университета Мэриленда не смогли найти половых различий в уровне интуиции. Ни в приведенной работе, ни в более поздних обзорных материалах с упоминанием данного теста не удалось найти данных в пользу лучшей интуиции у женщин.
Представленный подобным образом перечень различий между мужчинами и женщинами, в котором часть пунктов не подтверждается научными данными, зато иллюстрируется примерами из народного творчества или же быта, снижает степень доверия к словам докладчика в целом.
Выводы
1. В своем докладе Екатерина Виноградова исказила результаты шведского исследования и проигнорировала альтернативные объяснения возможных результатов.
2. Часть результатов, описанных Екатериной Виноградовой, на самом деле не является статистически достоверными (не признается авторами шведского исследования), а часть тестов неправильно интерпретирована.
3. Несмотря на большую выборку, исследование страдает от проблемы множественных сравнений, увеличивая вероятность того, что обнаруженные различия ложноположительны (т.е. на самом деле отсутствуют, являются лишь эффектом случайных флуктуаций в выборке). Это замечание, впрочем, затрагивает само шведское исследование, а не доклад.
4. Даже если результаты не ложноположительны, это лишь корреляция. Из нее нельзя заключить, что детям вредит именно равноправие в семье. Существует несколько правдоподобных и подкрепленных данными альтернативных объяснений, проигнорированных Екатериной Виноградовой.
5. Сами авторы небезосновательно (принимая во внимание пункты 3, 4) замечают, что их результаты могут не распространяться на современную ситуацию, и рекомендуют использовать это исследование исключительно в ориентировочных целях.
8 сентября 2015 г.
Над материалом работали
Статья Сергея Антопольского для группы EQUALITY; за проверку выражаем благодарность солидарным со статьей специалистам: Шаболтас Алле Вадимовне, к.пс.н., декану факультета психологии СПбГУ, Ходыревой Наталии Валериевне, к.пс.н. доценту факультета психологии СПбГУ, Александровой Ольге Владимировне, к.пс.н., доценту кафедры психологии поведения и превенции поведенческих аномалий СПбГУ, Лучининой Ольге Александровне, к.пс.н., доценту кафедры общегуманитарных дисциплин Астраханской государственной консерватории, Семеновой Лидии Эдуардовне, д.пс.н., профессору кафедры классической и практической психологии Нижегородского государственного педагогического университета им. К. Минина, Семеновой Вере Эдуардовне, к.филос.н., доценту кафедры философии и политологии Нижегородского государственного архитектурно-строительного университета, Луковицкой Елене, к.пс.н, доценту кафедры социологии НовГУ, а также Зинове Елене Анатольевне, к. пед. наук.
Отдельное спасибо за правки и вычитку Алексею Тимошенко и Танке Лісной.
По этой теме читайте также:
Примечания