2024 07 18 граф причин
(045/100) Граф причин
В верхней ветке issue tree речь шла о дереве причин. Но в статистике это давно уже не дерево, а граф, так как причины имеют свойство влиять друг на друга. Понимание этого помогает объяснить, почему порой находимые корреляции кажутся нелепыми (https://www.tylervigen.com/spurious-correlations).
Рассмотрим элементарные звенья таких связей:
- A –> B –> C - простые следствия. Например, пожарная сигнализация, которая реагирует на дым: огонь -> дым -> сигнал о пожаре.
- A <– B –> C - в англоязычной литературе называется вилкой (fork). Примером может служить связь между размером ноги и способностью ребенка говорить, где настоящей причиной является возраст: размер ноги <– возраст –> способность говорить.
- A –> B <– C - сток, где необходимо несколько причин для одного результата. Например, талант и красота оба влияют на успех актера: талант –> успех актера <– красота. Если зафиксировать одну из причин (например, талант), то другая (красота) начнет казаться связанной.
В статистику был введен do-calculus, позволяющий с помощью трех правил определить, какие причинные связи важны, а какие можно отбросить. Подробнее о do-calculus можно прочитать здесь - https://www.andrewheiss.com/blog/2021/09/07/do-calculus-backdoors/.
Зачем это все? На примере споров о связи курения и рака легких в середине прошлого века становится ясно, как сложно было доказать эту связь. Медики и статистики спорили, была ли это наследственная предрасположенность к никотину или канцерогены в табаке. Изначально ответы давались сверху-вниз и только спустя 50 лет было установлено, что связь между курением и раком легких действительно существует, и влияют на это канцерогены.
#марафон #модели @chernov_sharit