DeepSeek创始人硕士学位论文赏析 [精读]


3楼猫 发布时间:2025-02-08 18:43:02 作者:gdtop Language

DeepSeek发布差不多也有半个月了,在全球AI圈掀起DS热,DS的创始人大佬梁文锋也瞬间成为全球热点人物,梁文锋是广东湛江人,本硕都是在浙大的电子信息与通信工程专业就读,最近小黑盒又有一堆作者开始写DS,今天这篇文章主要和大家一起赏析梁文锋大佬的硕士毕业论文。

DeepSeek创始人硕士学位论文赏析 [精读]-第0张

梁文锋大佬的硕士毕业论文题目为《基于低成本PTZ摄像机的目标跟踪算法研究》,论文有84页,并不算难读,核心算法在今天来看也是非常基础的(但在当时属于绝对的前沿领域,选择精读这篇文章的理由也很简单,因为这是梁文锋众多论文中最容易读懂的一篇,如果大家喜欢这类文章的话,还可以继续做精读DS的论文系列)。

DeepSeek创始人硕士学位论文赏析 [精读]-第1张

论文的关键词有“低成本”、“PTZ摄像机”和“目标跟踪算法”,其中最容易理解的就是“低成本”,这个思路与DeepSeek的发展方向高度契合,也是DS的核心优势之一。梁文锋大佬这篇论文是2010年的5月14日发表的,到今天已经有差不多15年的时间,深度学习元年是2018年,当时并没有阿尔法狗击败李世石、柯洁这样的破圈事件,10年左右仍然是传统的统计学习方法和机器学习的天下,梁文锋10年这篇毕业论文核心算法是目标跟踪算法,属于计算机视觉CV的子领域,也就是后来的目标检测领域(Object Detection)。

DeepSeek创始人硕士学位论文赏析 [精读]-第2张

论文的核心任务

梁文锋当时希望设计一种低成本的智能目标跟踪系统,可以让PTZ摄像机在复杂环境下也能有效工作,首先第一个目标是运动检测,即通过长时间图像序列中相同位置像素颜色的方差变化,对目标物体进行运动检测,这里涉及到的内容比较多,我们一个个来解释。

目标检测是CV领域很大的一个方向,主要任务是找到图像中的目标物体,确定这些物体的类别和位置,但是现实生活中的图像往往会有很多干扰,各类物体也有不用的外观、形状和姿态,再加上图像光照和遮挡因素,给定一段视频里面的目标物体还会运动,这些都给任务造成很大的难度。

目标检测也是CV领域最重要最实用的方向,比如每年安装了很多的监控摄像机,产生了大量的视频数据,传统的人工监控方式效率低下,无法及时处理和响应所有数据,这时就需要智能跟踪技术来辅助处理图像问题。梁文锋论文对10年的技术进行分析,当时的智能跟踪技术主要分为两类:

DeepSeek创始人硕士学位论文赏析 [精读]-第3张

监控网络结构图

第一类是模式识别,通俗来说就是先射箭再画靶,往往针对那些有特定形式的数据(目标物体),比如车辆监控摄像头需要进行车牌识别和车辆检测,这些目标往往具有固定的形状和模式,但是局限性很大,如果碰到目标形状比较多样的任务时,模式识别就很难用(注意我这里只介绍了图像的模式识别,实际上自然语言处理、生物信息学这些领域也有大量的模式识别应用)。

第二类是运动检测,即对视频图像里所有运动的物体,都列为可疑的检测目标,算法对图像所有的运动物体进行识别跟踪,运动检测适用更广泛的目标检测任务,与目标形状无关,仅仅只和目标是否运动有关,这种方法更加贴近实际监控需求,接下来梁文锋继续讨论不同的运动检测算法,也是梁文锋论文的核心算法。

DeepSeek创始人硕士学位论文赏析 [精读]-第4张

运动检测算法

既然要用运动(目标)检测,首先得看看10年代大家都在用什么算法,这里我给大家梳理了四类方法:

第一类是减背景法,对图像建立背景模型,将当前图像与背景图像进行比较,用游戏打比方,你在一个箱庭式2D关卡打怪,这时需要把你控制的角色、敌人NPC检测出来,梁文锋介绍的第一种方法是将箱庭背景的固定建筑建一个模型,然后将每个图像和这个背景模型对比,箱庭中运动的目标物体自然被检测出来了。但是这种方法也有局限性,因为箱庭式关卡我们默认是以静态摄像机的视角去看2D地图,如果是3D第一视角的动态摄像机,以10年代的显卡算力,即使你把模型做出来,也不可能实时对环境进行剑魔。

DeepSeek创始人硕士学位论文赏析 [精读]-第5张

第二类是光流法与帧差法,即分析图像中像素的色彩梯度变化,捕捉细微的运动变化来检测运动,局限是受到噪声、光源变化、阴影和遮挡的影响极大;帧差法实操与光流法类似,光流比较的是像素色彩梯度变化,帧差就是比较两帧图像的差值,若差值超过某个阀值,则认为有运动,这个思路倒是非常不错,但是如果运动物体出现重叠,这个算法就几乎失效了,灵敏度很低。

第三类是累积差分图法,统计一段时间内像素颜色的变动累积和,这种方法比帧差法灵敏度高多了,但是一旦噪声增大,性能就会急剧下降,噪声干扰可能掩盖真实运动;第四种方法是特征点法,放弃像素级别的匹配,转而使用角点等特征信息进行匹配,通过比较当前图像与背景图像的特征点来检测运动,这种方法降低了对机械精度的要求,适合动态环境,但是处理步骤太多,信息loss太大,仍然有缺点。

DeepSeek创始人硕士学位论文赏析 [精读]-第6张

PTZ摄像机

算法不够,硬件来解,BP算法1988年就有了,最早的卷积神经网络LeNet5也是98年就有了,但是大家公认深度学习进入发展快车道还是12年的AlexNet,黄皮衣的CUDA从此成为英伟达的护城河,但是梁文锋写硕士论文的这一年,李飞飞还没有做ImageNet大赛,后面的故事也无从谈起,接下来我们看论文的另一个关键词“PTZ摄像机”,介绍完了算法,从拍摄图像的摄像机上也能做文章。

上面的减背景法我详细给大家介绍了原理,提取背景算法需要摄像机在每个角度静止较长时间,但是真实场景中摄像机会运动,所以背景提取极为困难,一些研究者尝试使用角点信息替代像素进行背景建模,但这些方法在精度和稳定性上无法与静态摄像机的高斯建模相媲美,而传统的摄像机机械精度较差,镜头难以标定,同时还有控制延时,这些问题在低成本摄像机中表现得尤为明显。

相比于传统相机,PTZ摄像机在水平和垂直方向上进行旋转和倾斜,同时具备变焦功能,提供更广的视野和更多的细节,可以平替多个静态摄像机的功能,从而降低成本,在PTZ摄像机的基础上,梁文锋提出了一种新颖的运动检测算法,即采用类似累积差分图法的多帧运算方式,计算像素颜色方差来判断运动,同时因为方差计算的运算量大,不利于实时的实现,所以梁文锋又提出了一种等价的快速算法,把方差计算的中间结果保留,以供后续的计算使用,接下来继续看算法的具体实现。

DeepSeek创始人硕士学位论文赏析 [精读]-第7张

具体实现

梁文锋的系统软件主要由五个模块组成:视频预处理、运动检测、方差模型、运动预测和目标识别、运动控制。视频预处理模块负责获取摄像机的图像数据,并进行初步的图像处理,将数据存储为合适的数据结构,随后传递给运动检测模块,运动检测模块专注于检测像素的颜色变化,空间方差模型建立一个环形的历史方差信息数据库,通过查询这个数据库来判断当前某个区域是否发生运动,运动预测和目标识别模块负责决定哪个是需要跟踪的目标,并预测其下一时刻可能出现的位置。这些模块构成一个闭环系统,从摄像机获取视频数据,经过计算机处理生成控制信号,进而控制摄像机进行运动。

DeepSeek创始人硕士学位论文赏析 [精读]-第8张

上面五个模块组成了系统完整的数据流程图,在这个流程中‚ 除了空间方差模块和运动检测模块存在双向的数据流之外,其余所有模块之间的数据流都是单向的,梁文锋提出了一种新的运动检测指标序列方差,来作为衡量运动变化的有效指标,工程实现上,运动检测方差算法主要由三个部分组成:队列缓冲、快速算法和灵敏度控制。

第一部分队列缓冲。运动检测模块接收经过滤波和缩放的数据,将上次云台稳定以来的所有视频数据全部缓存,如果没有运动或运动变化微小时,图像数据会填满整个队列,最老的数据会自动从队列末尾丢弃。第二部分采用滑动窗口算法,利用历史数据进行运动检测,输出结果一一对应纯算术数据。第三部分灵敏度控制主要是优化系统对微小运动的检测能力,确保即使在低对比度或复杂背景中,系统也能准确识别运动目标。

DeepSeek创始人硕士学位论文赏析 [精读]-第9张

介绍完视频预处理、运动检测和方差模型,之后则是实现运动预测和目标识别,梁文锋在论文中提出历史轨迹模型来分析目标的运动轨迹,首先通过每一帧的图像处理算法识别运动目标,一旦目标被识别,系统便开始记录其运动轨迹,然后再基于轨迹对目标未来的位置进行预测,与此同时,系统会对新帧图像每个目标进行判断,将新图像与预测位置进行对比,来识别前后两帧图像是否为同一目标,这里最难的其实是相同目标识别方法,由于有时候摄像机运动过程中可能出现数据缺失,再加上信号处理延迟,会影响对运动的预测和对相同目标识别的速度和准确度。

梁文锋介绍有三种主流方法,第一种进行位置匹配,第二种通过目标的长宽比和面积进行识别,类似于模式识别,第三种是颜色直方图匹配,由于图像质量及背景干扰,效果较差,梁文锋实验做到一半放弃了这种方法,但是论文中梁文锋还是详细介绍了这种方案的优缺点,至此一套完整的复现流程已经呈现出来。

DeepSeek创始人硕士学位论文赏析 [精读]-第10张

后话

从梁文锋大佬的硕士论文,到如今梁文锋放在Arxiv上DeepSeek-R1的论文,技术的发展脉络非常清晰,12年深度学习的快速发展彻底改变了目标追踪的格局,卷积神经网络(CNN)开始广泛应用于目标检测和识别领域,YOLO、Faster R-CNN等经典模型涌现出来,彻底改变了CV领域。

而梁文锋毕业后其实并没有继续做CV,而是转用AI做量化,幻方成为国内量化的领头羊,幻方投入大模型领域的转机,应该是2020年的GPT-3以及之后ChatGPT开启的大模型时代。2021年,幻方量化资产管理规模突破千亿,做量化也储备了很多的GPU,梁文锋在23年做出了进军大模型的决定,创立DeepSeek公司。

在创立DeepSeek公司时,梁文锋将他在计算机视觉领域的积累与量化投资的经验结合起来,也恰恰是这种跨领域的思维,使得DeepSeek能够快速崛起,梁文锋招人基本上就是按照自己浙大顶尖毕业生的模板来招,团队贵精不贵多,不到140人的研发团队,平均年龄35岁,管理结构扁平,鼓励提倡创新不怕试错,从而造就了DeepSeek的奇迹。

DeepSeek创始人硕士学位论文赏析 [精读]-第11张

往期相关:

深度学习入门——图灵奖AI三巨头

AI编年史——深度学习的发展史(收藏向)

AI编年史2——GPT是如何诞生的?

AI学术巨佬——何恺明,从游戏中获得论文灵感

AI领军人物——孙剑,重剑无锋的经典之作

AI传奇巨佬——汤晓鸥,中国人工智能领袖人物!

张益唐——黎曼猜想,华人数学家再创重大突破!

李飞飞——从成都七中,到顶级AI科学家!

B站大学——线代不挂科,MIT传奇教授的最后一课!

华为——盘古大模型解读,专注“小模型”工业落地!

英伟达——跟着老黄学AI,英伟达官方免费推出AI课!

微软免费AI课程——18节课,初学者入门大模型!

机器学习——科学家周志华,成为中国首位AI顶会掌门人!

机器学习入门——数学基础(积分篇

机器学习入门——数学基础(代数篇

机器学习入门——数学基础(贝叶斯篇


© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com