# 机器学习
-
Be careful when interpreting predictive models in search of causal insights -- SHAP系列论文
XGBoost 等预测性机器学习模型与 SHAP 等可解释性工具配合使用时,会变得更加强大。这些工具确定了输入特征和预测结果之间信息量最大的关系,这对于解释模型正在做什么、获得利益相关者的支持和诊断潜在问题非常有用。 我们很容易将这种分析更进一步,并假设解释工具也可以确定决策者如果想在未来改变结果,应该操纵哪些特征。然而,在本文中,我们讨论了使用预测模型来指导这种政策选择通常会产生误导。 原因与相关性和因果关系之间的根本区别有关。SHAP 使预测 ML 模型拾取的相关性变得透明。但是,使相关性透明并不意味着它们是因果关系!所有预测模型都隐含地假设每个人将来都会保持相同的行为方式,因此相关模式将保持不变。要了解如果某人开始行为不同会发生什么,我们需要建立因果模型,这需要做出假设并使用因果分析工具。
-
可解释机器学习的SHAP分析
本文首先介绍了 shapley 值的概念,通过一个LoL比赛的例子,拆解了 shapley 值的计算方法,并介绍了其中的数学方法。 本文将对使用 Shapley 值解释机器学习模型的介绍, 主要举例讲解了Shapley用于各种机器学习算法的解释方法。
-
t-SNE数据降维可视化
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于将高维数据映射到低维空间进行可视化。它基于保持数据点在原始空间中的邻近关系来构建低维表示,但存在距离不对称和拥挤现象的问题。确定参数$\sigma$时常使用启发式方法。尽管t-SNE适合于局部结构和簇状特征的探索,但在保留全局结构方面表现一般。在实践中,可以用Python实现t-SNE,并与其他降维方法如UMAP进行对比,UMAP通常在保留全局结构方面效果更好。
-
EM算法与GMM模型
高斯混合模型(GMM)是一种概率模型,它通过多个高斯分布的线性组合来对数据进行建模。单个高斯模型的参数估计通常使用最大似然估计,即通过最大化观测数据的似然函数来估计高斯分布的均值和方差。对于混合高斯分布(GMM),参数估计则涉及到每个高斯分布的均值、方差和混合系数的估计,通常使用期望最大化(EM)算法来进行。EM算法分为两步:E步骤计算每个数据点属于每个分布的后验概率,M步骤更新每个分布的参数以最大化似然函数。在实际应用中,EM算法可以用于GMM的训练和参数估计,也可以应用在K-means算法中进行聚类任务。GMM在图像识别中的应用包括图像分割和特征提取,通过对像素分布进行建模来实现对复杂图像数据的分析和处理。
-
Canopy聚类、层次聚类、密度聚类-DBSCAN
Canopy聚类是一种基于距离阈值的聚类算法,它通过两个阈值来定义两个阶段:第一个阶段称为T1,用于生成初始的聚类中心,第二个阶段称为T2,用于将数据点分配给这些初始的聚类中心。层次聚类是一种迭代方法,它可以使用分裂法或凝聚法。分裂法从一个大的簇开始,逐步分裂为小的簇;凝聚法则从单个数据点开始,逐步合并为越来越大的簇。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它根据每个数据点的密度和邻域的密度来确定核心点、边界点和噪声点,是处理具有噪声和复杂形状数据集的有效方法。
-
密度最大值聚类、谱聚类
密度最大值聚类和谱聚类是机器学习中常用的聚类算法。密度最大值聚类通过识别数据中的密度最大值点来分割簇,适用于密度不均匀且分布不规律的数据。而谱聚类则基于图论,通过构建邻接矩阵、度矩阵和拉普拉斯矩阵,利用特征向量的分解来实现聚类,特别适用于复杂数据结构和非线性分布的数据。谱聚类还涉及到两种主要的切图方法:RatioCut和Ncut,每种方法都有其独特的优缺点和适用场景。
-
SVM 支持向量机(Support Vector Machine)(Part 2)
这篇文章详细介绍了支持向量机(SVM)的概念和算法,重点在于硬间隔和软间隔SVM的应用及其问题解决方案。首先,回顾了硬间隔SVM的算法流程及其面临的问题,然后介绍了软间隔SVM,通过优化目标函数和分析支持向量解决硬间隔的局限。接着,讨论了非线性支持向量机,解释了软间隔与非线性SVM的区别,提出升维和引入核函数来解决非线性问题,并列举了常用核函数。 文章还回顾了SVM的历史渊源,详细讲解了SMO算法的思想和求解过程,以及启发式选择变量的方法。然后,介绍了SVM概率化输出,通过拟合sigmoid模型实现,并讨论了Loss损失的求解方法。最后,文章探讨了SVM在多分类问题中的应用,综合总结了SVM的优缺点,并对比了逻辑回归(LR)和SVM,提出了选择的建议。
-
SVM 支持向量机(Support Vector Machine)(Part 1)
这篇文章介绍了支持向量机(SVM)的概念和算法,从感知器模型开始,解释了如何找到一个超平面并构建损失函数,涉及几何距离和函数距离的概念。然后,详细阐述了SVM算法的思想,提出关键概念,介绍硬间隔SVM的转化过程,将其转换成有约束的函数优化问题,并通过拉格朗日乘子法和对偶问题进行求解。最后,总结了硬间隔SVM的要点,并提供了算法的详细流程,全面展示了SVM在分类问题中的应用及其理论基础。
-
聚类算法K-mean及其变形
这篇文章介绍了无监督机器学习的基础概念,重点是数据间的相似度和聚类方法。首先,讨论了相似度的度量方法和距离公式。接着,详细讲解了K-means聚类算法及其损失函数,并通过一个具体的例子进行说明。然后,介绍了其他聚类方法,包括K-Medoids聚类、二分K-means、K-means++和Mini-batch K-means。最后,文章总结了这些聚类方法的特点和应用场景,展示了它们在无监督学习中的重要性和实用性。
-
概率图模型--最大后验概率状态推理MAP
这篇文章简单回顾了概率图模型的推理方法,特别是最大后验概率(MAP)状态推理。首先,讨论了如何使用变量消元法和团树传播算法求解MAP。接着,通过一个包含三个变量的例子详细说明了这两种方法的应用。然后,介绍了在马尔可夫随机场(MRF)中应用变量消元算法和团树传播算法求解MAP的具体步骤。最后,总结了这两种方法在MRF中的应用,展示了它们在概率图模型推理中的重要性和实用性。