分析数据的相关性和因果性

分析数据的相关性和因果性

资料

相关书籍: - 《统计因果推理入门-Judea-Pearl》 - 《数据挖掘导论》 - 《数据挖掘:概念与技术》

相关性挖掘(机器学习、大数据、数据挖掘)

实际上,在面对少量数据时关联分析并不难,可以直接使用统计学中有关相关性的知识,这也正是机器学习界没有研究关联分析的一个重要原因。

关联分析的困难其实完全是由海量数据造成的,因为数据量的增加会直接造成挖掘效率的下降,当数据量增加到一定程度,问题的难度就会产生质变,例如,在关联分析中必须考虑因数据太大而无法承受多次扫描数据库的开销、可能产生在存储和计算上都无法接受的大量中间结果等,而关联分析技术正是围绕着“提高效率”这条主线发展起来的。在R. Agrawal等人首先对关联规则挖掘进行研究之后,大批学者投身到这方面的研究中并产生了很多成果,代表性工作有R. Agrawal和R. Srikant的Apriori算法以及J. Han等人的FP-Growth算法等。

--- 《机器学习与数据挖掘》

因此,分析数据的相关性和因果性,可以从下面两个角度:

  • 基于统计学的相关性:因果分析
  • 针对大数据的算法

因果分析的重要性-辛普森悖论

  • 数据总体上的结果,可能和内部一小块细分数据相反!(辛普森悖论)
  • 相关性不是因果关系。统计学知识通常只能分析出相关性。

样例1

患者 患者服药情况 患者未服药情况
症状患者数 症状率/% 症状患者数 症状率/%
男性患者 81 例(共 87 例) 93 234 例(共 270 例) 87
女性患者 192 例(共 263 例) 73 55 例(共 80 例) 69
合计 273 例(共 350 例) 78 289 例(共 350 例) 83

对于男性和女性各自有效,但是为什么合起来看就没有效果了呢?难道说,医生如果知道性别就可以开药,不知道性别就不能开药吗?

因为女性的激素让她们更不容易痊愈。而因为允许患者自由选择是否服药,导致数据中,女性更倾向于服药,男性倾向于不服药。导致整体的数据受到了数据分布的偏差。更进一步地,女性在服药中权重更大,因此整体的服药痊愈率被拉低到女性服药后的结果。整体的不服药痊愈率,被拉高到男性的结果。

如果你要