做数据十年, 这是我见过最好的因果推断模型!

  • 2025-07-24 09:47:40
  • 372

拆解、相关、实验、匹配……四种因果推断方法一次讲透!十年数据老司机拆解优劣,附真实踩坑案例,帮你选对模型、找准真因,不再被业务追问哑口无言。

很多人,都怕被问到:“到底导致问题的原因是什么!”大家都会觉得多种因素相互交织,很难分析清楚。今天介绍4种常见办法,从土办法到模型都有!

1常见方法1:拆解法最常见的方法是:拆解法。

把一个结果指标,从多个角度拆解,找到影响它的原因。举例:昨天有4个推广渠道,一共获客100,今天只获客80,问为啥获客少了。

‍拆解法做法(如上图):

1、把总获客数,按四个渠道拆解,发现A渠道获客最少。得到结论1:因为A渠道少了,所以总获客少了。

2、把A渠道的获客,按获客流程拆解,拆解为展示页-落地页-转化三步,发现是转化环节少了,得到结论:因为A渠道的转化环节出了问题,所以总获客少了。

3、总结:因为A渠道转化环节出问题,这是获客少的原因。看起来回答得很完美,原因找到了!可这种答法经不起业务部门再问一句:那为什么A转化差了呢?

我也没改文案呀?

投放经费也没少呀?

前后只差1天,为啥差异这么大?

为啥只有A变差了,其他又不变呢?一个都回答不上来……所谓的拆解法,本质上只是通过细分,锁定了问题发生的位置。并不能找到元凶。所以常常被用来发现问题,而不是解释问题(如下图)

2常见方法2:相关系数法

统计学里有相关分析的方法。而且有个看起来很复杂公式(如下图):

这次有一个复杂的公式做支撑,应该很科学了吧?但是!这么搞,很容易搞出来统计学领域经典的“龙脉梗”

1、中国GDP年年涨

2、我家门前的树年年涨

3、把两个数据带进去,算出相关系数0.994、所以我家门前的树是中国的龙脉!相关分析,本质上不是“分析”,而是计算。

只要两列数字保持相同/相反走势,就能算出来很高的相关系数。至于这个相关系数在现实中,到底有没有含义,就不管那么多了。

因此,相关分析可以大范围地筛选指标,过滤掉纸面上不相关的,真正的因果分析还要深入做(如下图)

3常见方法3:随机实验

从本质上看,因果推断问题难解,是因为有多重因素共同作用。因此,朴素的解题思路,就是:控制其他因素的影响,只测试我们关心的那个因素的影响。

我们可以把影响因素记作X,结果记为Y,分析目标是得出X→Y的效果如何控制影响因素呢?最好的办法就是做随机实验!随机实验被称作因果推断的黄金法则。

只要随机分组做的足够充分,就能生成两个一模一样的个体,从而剔除其他因素影响。之后,对其中一组施加我们想要的影响,另一组不施加影响。然后观察两组指标差异(如下图)

但是,实际工作中开展ABtest会很复杂,因为需要产品准备不同设计,开发做不同版本,工作量太大。

而且当测试的因素很多时,因素之间可能存在:1)

交叉效应:两个动作同时生效时,产生更好/更坏作用2)

新奇效应:新上功能时大家图好玩,事后又不喜欢了3)

覆盖效应:影响大的把影响小的覆盖掉4)

季节效应:只在特定时期,人们需要这个功能所以,一定要提前做好功课:1)

到底我测试的X是啥2)我想影响的Y是啥3)有没有季节问题4)有没有重大事件干扰5)有没有可能多因素交叉最好是提前做好分析,找到问题最大的点以后再逐一测试

综上来看,随机试验方法很好,但是需要较多前期准备,且可能涉嫌区别对待用户,不太适合在线下开展,更适合在线上开展(它区别对待了,你也难感受到)

4匹配法注意!

很多场景没法上ABtest,比如线下门店,不可能同一个商品,一个客户来了收30,另一个收20,会被投诉到工商局的!此时可以用匹配法,常见的,比如:DID:找发展趋势相同的匹配,对比政策影响效果PSM:先算评分模型,找评分接近的匹配,对比效果RDD:以某个特殊时间点(比如18岁成人礼),做前后时间对比