# 无监督学习
-
t-SNE数据降维可视化
t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维技术,用于将高维数据映射到低维空间进行可视化。它基于保持数据点在原始空间中的邻近关系来构建低维表示,但存在距离不对称和拥挤现象的问题。确定参数$\sigma$时常使用启发式方法。尽管t-SNE适合于局部结构和簇状特征的探索,但在保留全局结构方面表现一般。在实践中,可以用Python实现t-SNE,并与其他降维方法如UMAP进行对比,UMAP通常在保留全局结构方面效果更好。
-
EM算法与GMM模型
高斯混合模型(GMM)是一种概率模型,它通过多个高斯分布的线性组合来对数据进行建模。单个高斯模型的参数估计通常使用最大似然估计,即通过最大化观测数据的似然函数来估计高斯分布的均值和方差。对于混合高斯分布(GMM),参数估计则涉及到每个高斯分布的均值、方差和混合系数的估计,通常使用期望最大化(EM)算法来进行。EM算法分为两步:E步骤计算每个数据点属于每个分布的后验概率,M步骤更新每个分布的参数以最大化似然函数。在实际应用中,EM算法可以用于GMM的训练和参数估计,也可以应用在K-means算法中进行聚类任务。GMM在图像识别中的应用包括图像分割和特征提取,通过对像素分布进行建模来实现对复杂图像数据的分析和处理。
-
Canopy聚类、层次聚类、密度聚类-DBSCAN
Canopy聚类是一种基于距离阈值的聚类算法,它通过两个阈值来定义两个阶段:第一个阶段称为T1,用于生成初始的聚类中心,第二个阶段称为T2,用于将数据点分配给这些初始的聚类中心。层次聚类是一种迭代方法,它可以使用分裂法或凝聚法。分裂法从一个大的簇开始,逐步分裂为小的簇;凝聚法则从单个数据点开始,逐步合并为越来越大的簇。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,它根据每个数据点的密度和邻域的密度来确定核心点、边界点和噪声点,是处理具有噪声和复杂形状数据集的有效方法。
-
密度最大值聚类、谱聚类
密度最大值聚类和谱聚类是机器学习中常用的聚类算法。密度最大值聚类通过识别数据中的密度最大值点来分割簇,适用于密度不均匀且分布不规律的数据。而谱聚类则基于图论,通过构建邻接矩阵、度矩阵和拉普拉斯矩阵,利用特征向量的分解来实现聚类,特别适用于复杂数据结构和非线性分布的数据。谱聚类还涉及到两种主要的切图方法:RatioCut和Ncut,每种方法都有其独特的优缺点和适用场景。
-
聚类算法K-mean及其变形
这篇文章介绍了无监督机器学习的基础概念,重点是数据间的相似度和聚类方法。首先,讨论了相似度的度量方法和距离公式。接着,详细讲解了K-means聚类算法及其损失函数,并通过一个具体的例子进行说明。然后,介绍了其他聚类方法,包括K-Medoids聚类、二分K-means、K-means++和Mini-batch K-means。最后,文章总结了这些聚类方法的特点和应用场景,展示了它们在无监督学习中的重要性和实用性。