# 决策树
-
Be careful when interpreting predictive models in search of causal insights -- SHAP系列论文
XGBoost 等预测性机器学习模型与 SHAP 等可解释性工具配合使用时,会变得更加强大。这些工具确定了输入特征和预测结果之间信息量最大的关系,这对于解释模型正在做什么、获得利益相关者的支持和诊断潜在问题非常有用。 我们很容易将这种分析更进一步,并假设解释工具也可以确定决策者如果想在未来改变结果,应该操纵哪些特征。然而,在本文中,我们讨论了使用预测模型来指导这种政策选择通常会产生误导。 原因与相关性和因果关系之间的根本区别有关。SHAP 使预测 ML 模型拾取的相关性变得透明。但是,使相关性透明并不意味着它们是因果关系!所有预测模型都隐含地假设每个人将来都会保持相同的行为方式,因此相关模式将保持不变。要了解如果某人开始行为不同会发生什么,我们需要建立因果模型,这需要做出假设并使用因果分析工具。
-
可解释机器学习的SHAP分析
本文首先介绍了 shapley 值的概念,通过一个LoL比赛的例子,拆解了 shapley 值的计算方法,并介绍了其中的数学方法。 本文将对使用 Shapley 值解释机器学习模型的介绍, 主要举例讲解了Shapley用于各种机器学习算法的解释方法。
-
Adaboost 算法与集成学习
这篇文章详细介绍了Boosting方法中的Adaboost算法。首先,解释了如何生成基本分类器。然后,讨论了Adaboost中的数据权重及其目标,详细说明了在每一轮迭代中更新数据权重的方式,并介绍了合并生成最终分类器的过程。 文章总结了Adaboost的全局过程,并描述了Adaboost在回归问题中的算法流程。接着,通过代码示例展示了如何实现Adaboost,并介绍了Adaboost类库的调用方法,特别是AdaBoostClassifier和AdaBoostRegressor框架参数及其弱学习器参数。通过这些内容,全面展示了Adaboost算法在分类和回归问题中的应用和实现方法。
-
随机森林算法与集成学习
这篇文章介绍了随机森林算法与集成学习的相关内容。首先,讨论了聚合模型,包括同权重和不同权重的模型,解释了如何生成g(x)。然后,介绍了Bagging(一袋子模型)和Boosting(提升模型)的基本概念和区别。 文章详细讲解了随机森林算法,并讨论了OOB(Out of Bag)问题。接着,通过鸢尾花数据集进行实战,展示了多种模型结合Bagging的方法,以及随机森林在处理OOB问题中的应用。通过这些内容,全面展示了随机森林算法与集成学习在实际中的应用及其优势。
-
经典决策树CART、ID3与C4.5
这篇文章介绍了决策树模型的理论与实践。首先,解释了决策树的数学表达,包括整体表达式和迭代表达式。然后,讨论了决策树的分裂指标,介绍了Gini系数与CART算法的应用,其中CART用于分类和回归目标。接着,介绍了信息增益与ID3算法,以及信息增益率与C4.5算法,比较了ID3与C4.5的区别,并讨论了何时停止分裂决策树。 文章总结了决策树的优缺点,并比较了CART、ID3与C4.5。接着,通过鸢尾花数据集进行实战,绘制不同超参数对应的决策树模型图形,并实现回归树,展示不同超参数下决策树模型的回归效果。通过这些内容,全面展示了决策树模型的理论基础及其在分类和回归任务中的应用。