# 机器学习
-
t-SNE数据降维可视化
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于将高维数据映射到低维空间进行可视化。它基于保持数据点在原始空间中的邻近关系来构建低维表示,但存在距离不对称和拥挤现象的问题。确定参数$\sigma$时常使用启发式方法。尽管t-SNE适合于局部结构和簇状特征的探索,但在保留全局结构方面表现一般。在实践中,可以用Python实现t-SNE,并与其他降维方法如UMAP进行对比,UMAP通常在保留全局结构方面效果更好。
-
EM算法与GMM模型
高斯混合模型(GMM)是一种概率模型,它通过多个高斯分布的线性组合来对数据进行建模。单个高斯模型的参数估计通常使用最大似然估计,即通过最大化观测数据的似然函数来估计高斯分布的均值和方差。对于混合高斯分布(GMM),参数估计则涉及到每个高斯分布的均值、方差和混合系数的估计,通常使用期望最大化(EM)算法来进行。EM算法分为两步:E步骤计算每个数据点属于每个分布的后验概率,M步骤更新每个分布的参数以最大化似然函数。在实际应用中,EM算法可以用于GMM的训练和参数估计,也可以应用在K-means算法中进行聚类任务。GMM在图像识别中的应用包括图像分割和特征提取,通过对像素分布进行建模来实现对复杂图像数据的分析和处理。
-
Canopy聚类、层次聚类、密度聚类-DBSCAN
Canopy聚类是一种基于距离阈值的聚类算法,它通过两个阈值来定义两个阶段:第一个阶段称为T1,用于生成初始的聚类中心,第二个阶段称为T2,用于将数据点分配给这些初始的聚类中心。层次聚类是一种迭代方法,它可以使用分裂法或凝聚法。分裂法从一个大的簇开始,逐步分裂为小的簇;凝聚法则从单个数据点开始,逐步合并为越来越大的簇。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它根据每个数据点的密度和邻域的密度来确定核心点、边界点和噪声点,是处理具有噪声和复杂形状数据集的有效方法。
-
密度最大值聚类、谱聚类
密度最大值聚类和谱聚类是机器学习中常用的聚类算法。密度最大值聚类通过识别数据中的密度最大值点来分割簇,适用于密度不均匀且分布不规律的数据。而谱聚类则基于图论,通过构建邻接矩阵、度矩阵和拉普拉斯矩阵,利用特征向量的分解来实现聚类,特别适用于复杂数据结构和非线性分布的数据。谱聚类还涉及到两种主要的切图方法:RatioCut和Ncut,每种方法都有其独特的优缺点和适用场景。
-
SVM 支持向量机(Support Vector Machine)(Part 2)
这篇文章详细介绍了支持向量机(SVM)的概念和算法,重点在于硬间隔和软间隔SVM的应用及其问题解决方案。首先,回顾了硬间隔SVM的算法流程及其面临的问题,然后介绍了软间隔SVM,通过优化目标函数和分析支持向量解决硬间隔的局限。接着,讨论了非线性支持向量机,解释了软间隔与非线性SVM的区别,提出升维和引入核函数来解决非线性问题,并列举了常用核函数。 文章还回顾了SVM的历史渊源,详细讲解了SMO算法的思想和求解过程,以及启发式选择变量的方法。然后,介绍了SVM概率化输出,通过拟合sigmoid模型实现,并讨论了Loss损失的求解方法。最后,文章探讨了SVM在多分类问题中的应用,综合总结了SVM的优缺点,并对比了逻辑回归(LR)和SVM,提出了选择的建议。
-
SVM 支持向量机(Support Vector Machine)(Part 1)
这篇文章介绍了支持向量机(SVM)的概念和算法,从感知器模型开始,解释了如何找到一个超平面并构建损失函数,涉及几何距离和函数距离的概念。然后,详细阐述了SVM算法的思想,提出关键概念,介绍硬间隔SVM的转化过程,将其转换成有约束的函数优化问题,并通过拉格朗日乘子法和对偶问题进行求解。最后,总结了硬间隔SVM的要点,并提供了算法的详细流程,全面展示了SVM在分类问题中的应用及其理论基础。
-
聚类算法K-mean及其变形
这篇文章介绍了无监督机器学习的基础概念,重点是数据间的相似度和聚类方法。首先,讨论了相似度的度量方法和距离公式。接着,详细讲解了K-means聚类算法及其损失函数,并通过一个具体的例子进行说明。然后,介绍了其他聚类方法,包括K-Medoids聚类、二分K-means、K-means++和Mini-batch K-means。最后,文章总结了这些聚类方法的特点和应用场景,展示了它们在无监督学习中的重要性和实用性。
-
概率图模型--最大后验概率状态推理MAP
这篇文章简单回顾了概率图模型的推理方法,特别是最大后验概率(MAP)状态推理。首先,讨论了如何使用变量消元法和团树传播算法求解MAP。接着,通过一个包含三个变量的例子详细说明了这两种方法的应用。然后,介绍了在马尔可夫随机场(MRF)中应用变量消元算法和团树传播算法求解MAP的具体步骤。最后,总结了这两种方法在MRF中的应用,展示了它们在概率图模型推理中的重要性和实用性。
-
概率图模型--因子图
这篇文章介绍了因子图在概率图模型中的应用。首先,简单回顾了概率图模型的基本概念,并回顾了贝叶斯网络和马尔可夫随机场(MRF)。接着,介绍了因子图的概念及其在表示贝叶斯网络和马尔可夫随机场中的应用。最后,总结了因子图在概率图模型中的作用,展示了其在简化和统一表示复杂概率关系中的优势。
-
概率图模型--马尔可夫随机场
这篇文章介绍了从贝叶斯网络过渡到马尔可夫链的过程。首先,简单回顾了贝叶斯网络的基本概念。接着,解释了如何通过head-to-tail方法导出马尔可夫链,并讨论了马尔可夫随机场(MRF)及其与马尔可夫链的关系。 文章通过简单实例说明了MRF的应用,并介绍了加入节点势函数以改进MRF的方法,特别是成对马尔可夫随机场。然后,讨论了如何将图像处理问题转化为定义在MRF上的最大后验概率推理问题,并详细解释了最大后验概率的改写过程。最后,总结了贝叶斯网络、马尔可夫链和马尔可夫随机场的联系及其在推理任务中的应用。