Данные (не так ли?) Ложь – фундаментальная наука

Эдгард Пиментель

Корреляции, причинно-следственные связи и ошибочные выводы

*

Хорошая стратегия для получения информации об окружающем мире и подготовки к нему – это наблюдение. Узнайте погоду и возьмите зонтик, осмотритесь, прежде чем переходить улицу. Мы изучаем данные, анализируем и принимаем решения. Процесс кажется простым, но иногда бывает довольно сложно. Данные могут быть большими, они подвержены неточностям, аналитические методы не всегда самые адекватные и, прежде всего, наш вопрос может быть неправильным. В конце концов, есть ли аргумент против данных?

Фалес Милетский, известный как основоположник космологии, независимой от мифов, также известен как страстный наблюдатель – согласно легенде, он даже упал в колодец, гуляя и наблюдая за звездами. Но, вооружившись данными, он предсказал бы затмение и определил дату солнцестояний. И, согласно Аристотелю, он предсказал благоприятные урожаи и даже пришел к выводу, что Земля круглая.

Ты был не один, Фалес. Гиппарх, Эратосфен и Птолемей – это лишь некоторые из тех, кто объединил наблюдения и данные, чтобы ответить на фундаментальные вопросы о мире. Точность модели Птолемея впечатляет, она работает даже при допущении геоцентризма. Само падение геоцентрической парадигмы и коперниканская революция, или законы Кеплера, были усилены данными, полученными датчанином Тихо Браге в комплексе, расположенном на острове Вен.

В этих случаях ряд наблюдений привел к предсказаниям. Но связь между данными и предсказанными явлениями не ясна. Была ли это причинная связь? Принесут ли зимние погодные условия хорошие урожаи в следующие сезоны? Или между этими фактами существует сильная корреляция?

Причинность тонка, и она связана с идеей импликации. Оно возникает, когда один факт приводит к другому: бильярдный шар сталкивается с другим и вызывает его движение; пар в котле запускает механизм. В мире данных идея та же. Предположим, что увеличение государственных расходов приводит к увеличению уровня совокупного спроса и, следовательно, занятости. Поэтому всякий раз, когда данные указывают, что было первое, мы можем дождаться второго. Кроме того, мы можем использовать первое для производства второго. Причинность очень близка к идее правила или модели.

Соотношение другое. Это могло быть результатом причинно-следственной связи или простой случайности – а могло быть и ошибкой! В книге «Ложные корреляции» Тайлер Виген приводит несколько забавных примеров корреляций. Количество докторских степеней в области гражданского строительства в США сильно коррелирует с потреблением сыра моцарелла. Количество докторов наук по информатике сильно коррелирует с продажами комиксов. Фаворит: количество студентов, обучающихся в американских университетах, почти полностью соответствует количеству бытовых несчастных случаев, вызванных падением телевизора.

А также? Теперь очень высокая корреляция может иметь место даже между несвязанными фактами. И они могут быть полезны: если вы знаете, что в следующем году будет много кандидатов технических наук, стоит ли вкладываться в моцареллу? А если количество первокурсников в вузах увеличится, не стоит ли уделять больше внимания телевизору дома? Не то чтобы существует правило, устанавливающее связь между этими фактами. Тем не менее, анализ данных может указать нам путь.

Пока что дискуссия носит, скажем, платонический характер; данные будут правильными и точно описывают то, что мы ожидали. На самом деле так не работает. См. Переписи БИГС 1991 и 2000 г. Данные каждого вопросника (микроданные) содержат очень ценную информацию. В частности, они позволяют сравнивать различные измерения экономической и социальной жизни страны на двух этапах. Но есть несколько деталей.

Национальная валюта не была одинаковой в 1991 и 2000 годах, равно как и количество муниципалитетов в стране. Другими словами, несмотря на исправление данных и анализ очень опытных аналитиков, есть тонкости, которые могут привести к неточностям, если участники процесса не ясно сформулированы. Как и в недавнем случае с вакцинами с предположительно просроченным сроком годности, когда многоплановые информационные усилия побудили практиков пересмотреть данные и выводы, а также способы их получения. С точки зрения анализа данных обучение и уточнение, получаемые в результате этих процессов, становятся социальными активами и улучшают жизнь людей.

Будь то причинно-следственная связь, будь то невообразимая корреляция или даже странность выводов, жребий брошен. Вам просто нужно спросить.

*

Эдгард Пиментель – математик и профессор PUC-Rio.

Подпишитесь на информационный бюллетень Serrapilheira, чтобы следить за другими новостями института и блога Ciência Fundamental.

Back to top button