# CNN
-
OCR光学字符识别
这篇文章介绍了OCR(光学字符识别)的各种方法。首先讨论了传统的OCR方法,包括文字行提取和基于切分的方法,以及不依赖切分的方法。然后,介绍了深度学习在OCR中的应用,涵盖受控场景和非受控场景下的文字检测。文章还详细讲解了基于序列学习的文字识别方法,特别是CTC Loss及其数学表达。通过这些内容,全面展示了OCR技术的发展和实现方法。
-
swin-Transformer论文详解
这篇文章详细解析了Swin-Transformer论文。首先,介绍了研究背景和动机。接着,详细讲解了Swin-Transformer的网络架构及其核心组件Swin Transformer Block。然后,探讨了巧妙的Mask机制在模型中的应用。最后,介绍了实验部分,展示了Swin-Transformer在各类任务中的表现和优越性。通过这些内容,全面展示了Swin-Transformer在视觉任务中的创新与效果。
-
语义分割Mask R-CNN
这篇文章解析了语义分割方法Mask R-CNN,介绍了上采样技术(双线性插值和转置卷积)的结合及代码实现,详细讲解了ROI Align(包括RoI Pooling、RoIWrap Pooling和ROIAlign Pooling)。讨论了FPN(特征金字塔网络)的思想及其在Fast R-CNN和Faster R-CNN中的应用。还介绍了语义分割方法,如FCN和UNet,详细解释了Mask R-CNN的网络结构、Loss函数、训练过程、推理细节及溶解实验。最后,介绍了Mask R-CNN在人体关键点检测中的应用及MS-R-CNN的改进。
-
MoCo论文详解
这篇文章详细解析了MoCo(Momentum Contrast)论文。首先,介绍了前言部分的研究背景和动机。接着,解释了MoCo的整体架构和对比学习的基本概念,强调了大而一致的字典在训练过程中的作用。然后,讨论了实验部分,包括Linear Classification Protocol和其他下游任务的应用。通过这些内容,全面展示了MoCo在对比学习中的创新和实验结果。
-
目标检测 DETR
这篇文章介绍了目标检测模型DETR(Detection Transformer)。首先,介绍了DETR的基本思想,即将目标检测视为集合预测任务。接着,详细讲解了整体网络架构,包括自注意力机制在处理重叠目标时的表现。文章还讨论了训练DETR的技巧,帮助提高模型的检测精度和性能。通过这些内容,全面展示了DETR在目标检测中的创新方法和技术细节。
-
GreedySearch和BeamSearch解码方式
这篇文章介绍了三种解码方式:Greedy Search、Beam Search和Prefix Beam Search。Greedy Search采用贪心策略,每一步选择最有可能的单词,简单但容易错过全局最优解。Beam Search则在每一步保留多个最优候选项(束),通过权衡多个路径提高解码质量。Prefix Beam Search是一种改进的Beam Search,特别适用于语言模型,通过考虑前缀的概率来进一步优化解码结果。文章详细解释了每种方法的原理和应用场景,展示了它们在解码任务中的优缺点。
-
YOLO-v4论文详解
这篇文章详细解析了YOLO-v4论文,首先介绍了YOLO-v4的背景及其在目标检测中的应用,讨论了一阶段检测器(One-stage Detector)和两阶段检测器(Two-stage Detector)的区别。文章解释了YOLO-v4引入的“Bag of Freebies”和“Bag of Specials”技术,并详细分析了其网络结构和其他改进,特别是对FPN的改进PAN(Path Aggregation Network),包括三个方面的增强。还介绍了BoF(Bag of Freebies)和BoS(Bag of Specials)的具体内容,并提供了DropBlock和DIOU-NMS的代码实现。通过这些内容,全面展示了YOLO-v4在目标检测领域的创新和技术细节。
-
YOLO-v3论文详解
这篇文章详细解析了YOLO-v3论文,首先介绍了其继承了YOLO-9000的基础并进行了多项技术改进。接着,讨论了YOLO-v3尝试过但未成功的一些技术,包括探索新的架构和优化方法。通过这些内容,全面展示了YOLO-v3在目标检测领域的进展和挑战,以及其在速度和精度方面的提升。
-
YOLO-9000论文详解
这篇文章详细解析了YOLO-9000论文。首先介绍了YOLO-9000及其在目标检测中的创新。接着,讲解了YOLO-v2的10个改进,包括更高的精度和速度优化。文章进一步解释了YOLO-9000的核心思想,特别是分层分类(Hierarchical classification)的应用。通过这些内容,全面展示了YOLO-9000在目标检测领域的突破性进展及其实现细节。
-
YOLO-v1论文详解
这篇文章详细解析了YOLO-v1论文,首先介绍了其与Faster R-CNN的最大不同之处,即YOLO采用端到端的单阶段检测方法,处理速度更快。接着,解释了“You Only Look Once”的核心理念和算法流程。 文章深入分析了YOLO的网络结构和Anchor部分的设计,详细讲解了输出结果的格式和Loss函数的构成。具体包括位置Loss、confidence Loss和分类Loss,并讨论了Loss前面的系数对模型训练的影响。最后,指出了YOLO-v1的局限性,全面展示了该算法的优缺点及其创新之处。