NotionNext BLOG

NotionNext BLOG https://notion-next-eta-weld.vercel.app// 这是一个由NotionNext生成的站点 Mon, 08 May 2023 13:48:49 GMT https://validator.w3.org/feed/docs/rss2.html https://github.com/jpmonette/feed zh-CN All rights reserved 2023, on the way <![CDATA[无]]> https://notion-next-eta-weld.vercel.app//article/59a215f9-6ead-4a3b-9817-31fa9b41e734 https://notion-next-eta-weld.vercel.app//article/59a215f9-6ead-4a3b-9817-31fa9b41e734 Mon, 17 Apr 2023 00:00:00 GMT

]]> <![CDATA[潜在因果模型]]> https://notion-next-eta-weld.vercel.app//article/art-1 https://notion-next-eta-weld.vercel.app//article/art-1 Mon, 17 Apr 2023 00:00:00 GMT

潜在因果模型

变量定义：：个体的观察结果：干预变量为时的个体的潜在结果

一、潜在结果模型中的定义

1.1 潜在结果

考虑两个随机变量，当我们研究的因果效应时，如果干预变量，个体的潜在结果可以表示为。它表示的是个体在干预变量时结果变量的值。

💡

可以看到潜在结果其实定义的是某个个体的因果量，因此可以很容易的定义个体因果效应。与潜在结果对应的是“观察结果”，即对个体实际执行了某种干预对应的结果，可以记为。假设干预变量，那么有。

1.2 个体因果效应（ITE）

假设干预变量，结果变量，那么个体的ITE就是当这个个体在实验组和对照组时所对应的两个潜在结果的差：

1.3 平均因果效应（ATE）

平均因果效应是指在「群体」层面的因果效应，即是ITE在整体上的期望：

1.4 条件因果效应（CATE）

指特征变量取值为时的群体上的平均因果效应：

当干预效果在不同的子群中存在差异时，CATE 是一个常用的干预效果评估方法，也被称为异质干预效果。

1.5 干预组的平均因果效应（ATT）

特指干预组子群的平均因果效应：

二、因果推断的目的

对于因果推断，我们的目标是从观察性数据中估计干预效果。从形式上看，给定观察性数据集，则因果推断任务的目标是估计上述定义中的各项干预效果。

三、三个假设

潜在因果模型能够进行因果识别主要基于以下几个假设：

个体处理效应稳定假设（SUTVA），此假设包含两部分

第一部分，无干预假设，不同个体间的潜在结果是相互独立的，即对任意个体的干预不会影响到其他个体。如我的头疼症只应该与我自己吃不吃阿斯匹林有关，别人吃不吃阿斯匹林不应该对我的头疼症产生任何影响。SUTVA使我们可以把样本中每个个体的反应看作独立事件，从而降低了我们需要的样本体积、模型体积和建模时间。
第二个部分，一致性假设，一个个体被观测到在干预变量下的结果（事实结果），也就是他的干预变量时的潜在结果，即。如一个人服用阿斯匹林并因此康复的人，假如他在临床试验中以随机分配的方式分配到实验组并服用了阿斯匹林，那么他一样会康复。

可忽略性假设

在控制混杂因子的条件下，潜在结果与是否进行干预是相互独立的。一般表示为：。可以分成两部分进行描述：

给定变量，无论的取值，潜在结果的取值都相同。即。即如果两名患者具有相同的背景变量，则无论采取怎样的干预措施，其潜在结果都会是相同的，又或者无论我有没有吃阿斯匹林，阿斯匹林对我头疼症的因果效应都应该是一样的。
给定变量，若个体和的潜在结果相同，那么干预的分布相同，即可视为随机分配。即。

通俗的解释就是，对于混杂因子相同的「子群」，是否进行干预是随机的，近似于随机对照试验，从而在混杂因子相同的「子群」上，“观察结果” 等价于 “潜在结果”，那么条件平均因果效应：

💡

第二个等式转换是基于期望的性质，差值的期望等于期望的差值。第三个等式是基于可忽略性假设，即在控制的值时，潜在结果与干预相互独立。第四个等式是基于一致性假设，即被观测到的事实结果就是相同干预下的潜在结果。

💡

从因果图的角度来描述是否满足可忽略性，就是控制变量时，是否阻断了和之间的后门路径，且的成员都不是的后代。如果是则可以说明对来说是可忽略的。对于可忽略性假设来说也就是包含了所有的混杂因子，不存在未观测的混杂因子。

对比以下两种因果图是否满足可忽略性：

从图中可知，对于和之间的因果关系，是混淆因子，且存在到的后门路径，当控制了变量后就阻断了到的后门路径，且不是的后代，因此满足可忽略性。因此通过控制变量就可以估计出和之间因果效应。（后门准则）


graph LR;
  T-->Y
	X-->T
  X-->Y

从图中可知，对于和之间的因果关系，不存在到的后门路径，那么就算控制了变量，因为是的后代，故不满足可忽略性。因此想要通过控制变量，无法估计出和之间因果效应。（需采用前门准则）


graph LR;
  T-->Y
	T-->X
  X-->Y

正值假设

对于任意值的干预分配都不是确定的。即。换句话说就是确保对于任意「子群」，和的结果均存在。从而避免由于对给定的，仅包含的结果数据，使得的结果无法估测。

四、因果效应估计

假设干预变量，要估计，若直接采用观测数据进行计算，则很可能由于「混杂因子」的存在，导致估计的包含完全虚假的因果效应：

对等式左侧进行拆解分析造成等式不成立的原因：

其中：

：表示干预组的平均因果效应；

：表示控制组的平均因果效应；

：表示选择偏差，描述的是干预组和对照组在潜在结果的分布上有差异；

：差值表示的是因果效应在干预组和控制组之间存在差异，称为混淆偏差。

：表示干预的概率。则有:

因此，一般情况下我们无法直接根据观测数据计算出。只有在满足了较强的假设下才可以用观测数据进行的估计：

在上式中，第二到第三等式推导用到了“可忽略性”假设，第三到第四等式的推导用到了SUTVA中“一致性”假设。

实际中我们很难满足“可忽略性”假设，因为我们无法观测到所有的混杂因子，就如第(4.2)式推导，直接采用观测数据计算，由于未观测到的混杂因子导致选择偏差和混淆偏差的发生（其实都可以理解为选择偏差，都是实验组与对照组不够随机）。

“辛普森悖论”就是典型的例子，即存在混杂因子-患者年龄（），不同年龄的患者对于使用药物的倾向不同，导致我们若直接计算是否服药和是否康复之间的因果效应就会由于混杂因子-患者年龄的影响而算出“伪效应”，但假设在是否服药和是否康复之间仅存在患者年龄（）这一个混杂因子，那么就可以先估计以患者年龄（）为条件的干预效果，然后基于混杂因子的分布进行加权平均，即控制变量来阻断了是否服药和是否康复之间的后门路径。

当无法观测到所有的混杂因子时，有什么比较好的方式进行因果效应估计呢？

常用的一般有两种解决方案：

第一种方案通过创造一个「拟群」（pseudo group）来近似目标组的真实分布。常用的方法包括样本重加权、匹配、基于树的方法、混杂因子平衡、平衡表征学习方法、基于多任务的方法等。创建的拟群可以缓解选择偏差的消极影响，从而得到更加可靠的反事实结果估计；

第二种方案首先仅基于观察性数据训练基础的潜在结果估计模型，然后对选择偏差引起的估计偏差进行纠正。这种方案的代表性方法是基于元学习的方法。

]]>