DeepSeek發佈差不多也有半個月了,在全球AI圈掀起DS熱,DS的創始人大佬梁文鋒也瞬間成為全球熱點人物,梁文鋒是廣東湛江人,本碩都是在浙大的電子信息與通信工程專業就讀,最近小黑盒又有一堆作者開始寫DS,今天這篇文章主要和大家一起賞析梁文鋒大佬的碩士畢業論文。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第0張](https://imgheybox.max-c.com/web/bbs/2025/02/05/5b13a16328c9360775bc6e36d436d7c8/thumb.jpeg)
梁文鋒大佬的碩士畢業論文題目為《基於低成本PTZ攝像機的目標跟蹤算法研究》,論文有84頁,並不算難讀,核心算法在今天來看也是非常基礎的(但在當時屬於絕對的前沿領域,選擇精讀這篇文章的理由也很簡單,因為這是梁文鋒眾多論文中最容易讀懂的一篇,如果大家喜歡這類文章的話,還可以繼續做精讀DS的論文系列)。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第1張](https://imgheybox.max-c.com/web/bbs/2025/02/05/2afc9efd21f16d4783d1d56498dbb7b3/thumb.png)
論文的關鍵詞有“低成本”、“PTZ攝像機”和“目標跟蹤算法”,其中最容易理解的就是“低成本”,這個思路與DeepSeek的發展方向高度契合,也是DS的核心優勢之一。梁文鋒大佬這篇論文是2010年的5月14日發表的,到今天已經有差不多15年的時間,深度學習元年是2018年,當時並沒有阿爾法狗擊敗李世石、柯潔這樣的破圈事件,10年左右仍然是傳統的統計學習方法和機器學習的天下,梁文鋒10年這篇畢業論文核心算法是目標跟蹤算法,屬於計算機視覺CV的子領域,也就是後來的目標檢測領域(Object Detection)。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第2張](https://imgheybox.max-c.com/web/bbs/2025/02/05/fe8bccde7c784c053075f803d6147aed/thumb.png)
論文的核心任務
梁文鋒當時希望設計一種低成本的智能目標跟蹤系統,可以讓PTZ攝像機在複雜環境下也能有效工作,首先第一個目標是運動檢測,即通過長時間圖像序列中相同位置像素顏色的方差變化,對目標物體進行運動檢測,這裡涉及到的內容比較多,我們一個個來解釋。
目標檢測是CV領域很大的一個方向,主要任務是找到圖像中的目標物體,確定這些物體的類別和位置,但是現實生活中的圖像往往會有很多幹擾,各類物體也有不用的外觀、形狀和姿態,再加上圖像光照和遮擋因素,給定一段視頻裡面的目標物體還會運動,這些都給任務造成很大的難度。
目標檢測也是CV領域最重要最實用的方向,比如每年安裝了很多的監控攝像機,產生了大量的視頻數據,傳統的人工監控方式效率低下,無法及時處理和響應所有數據,這時就需要智能跟蹤技術來輔助處理圖像問題。梁文鋒論文對10年的技術進行分析,當時的智能跟蹤技術主要分為兩類:
![DeepSeek創始人碩士學位論文賞析 [精讀]-第3張](https://imgheybox.max-c.com/web/bbs/2025/02/05/1a849104e27bbbd1fd007bbc2ed8d615/thumb.png)
監控網絡結構圖
第一類是模式識別,通俗來說就是先射箭再畫靶,往往針對那些有特定形式的數據(目標物體),比如車輛監控攝像頭需要進行車牌識別和車輛檢測,這些目標往往具有固定的形狀和模式,但是侷限性很大,如果碰到目標形狀比較多樣的任務時,模式識別就很難用(注意我這裡只介紹了圖像的模式識別,實際上自然語言處理、生物信息學這些領域也有大量的模式識別應用)。
第二類是運動檢測,即對視頻圖像裡所有運動的物體,都列為可疑的檢測目標,算法對圖像所有的運動物體進行識別跟蹤,運動檢測適用更廣泛的目標檢測任務,與目標形狀無關,僅僅只和目標是否運動有關,這種方法更加貼近實際監控需求,接下來梁文鋒繼續討論不同的運動檢測算法,也是梁文鋒論文的核心算法。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第4張](https://imgheybox.max-c.com/web/bbs/2025/02/05/0ced0a0d666591b84552d9d0a26414a0/thumb.png)
運動檢測算法
既然要用運動(目標)檢測,首先得看看10年代大家都在用什麼算法,這裡我給大家梳理了四類方法:
第一類是減背景法,對圖像建立背景模型,將當前圖像與背景圖像進行比較,用遊戲打比方,你在一個箱庭式2D關卡打怪,這時需要把你控制的角色、敵人NPC檢測出來,梁文鋒介紹的第一種方法是將箱庭背景的固定建築建一個模型,然後將每個圖像和這個背景模型對比,箱庭中運動的目標物體自然被檢測出來了。但是這種方法也有侷限性,因為箱庭式關卡我們默認是以靜態攝像機的視角去看2D地圖,如果是3D第一視角的動態攝像機,以10年代的顯卡算力,即使你把模型做出來,也不可能實時對環境進行劍魔。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第5張](https://imgheybox.max-c.com/web/bbs/2025/02/05/d915bac25ef36cae581676b21468bdfa/thumb.png)
第二類是光流法與幀差法,即分析圖像中像素的色彩梯度變化,捕捉細微的運動變化來檢測運動,侷限是受到噪聲、光源變化、陰影和遮擋的影響極大;幀差法實操與光流法類似,光流比較的是像素色彩梯度變化,幀差就是比較兩幀圖像的差值,若差值超過某個閥值,則認為有運動,這個思路倒是非常不錯,但是如果運動物體出現重疊,這個算法就幾乎失效了,靈敏度很低。
第三類是累積差分圖法,統計一段時間內像素顏色的變動累積和,這種方法比幀差法靈敏度高多了,但是一旦噪聲增大,性能就會急劇下降,噪聲干擾可能掩蓋真實運動;第四種方法是特徵點法,放棄像素級別的匹配,轉而使用角點等特徵信息進行匹配,通過比較當前圖像與背景圖像的特徵點來檢測運動,這種方法降低了對機械精度的要求,適合動態環境,但是處理步驟太多,信息loss太大,仍然有缺點。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第6張](https://imgheybox.max-c.com/web/bbs/2025/02/05/9ff784ee80ed1df36dafee144176d947/thumb.png)
PTZ攝像機
算法不夠,硬件來解,BP算法1988年就有了,最早的卷積神經網絡LeNet5也是98年就有了,但是大家公認深度學習進入發展快車道還是12年的AlexNet,黃皮衣的CUDA從此成為英偉達的護城河,但是梁文鋒寫碩士論文的這一年,李飛飛還沒有做ImageNet大賽,後面的故事也無從談起,接下來我們看論文的另一個關鍵詞“PTZ攝像機”,介紹完了算法,從拍攝圖像的攝像機上也能做文章。
上面的減背景法我詳細給大家介紹了原理,提取背景算法需要攝像機在每個角度靜止較長時間,但是真實場景中攝像機會運動,所以背景提取極為困難,一些研究者嘗試使用角點信息替代像素進行背景建模,但這些方法在精度和穩定性上無法與靜態攝像機的高斯建模相媲美,而傳統的攝像機機械精度較差,鏡頭難以標定,同時還有控制延時,這些問題在低成本攝像機中表現得尤為明顯。
相比於傳統相機,PTZ攝像機在水平和垂直方向上進行旋轉和傾斜,同時具備變焦功能,提供更廣的視野和更多的細節,可以平替多個靜態攝像機的功能,從而降低成本,在PTZ攝像機的基礎上,梁文鋒提出了一種新穎的運動檢測算法,即採用類似累積差分圖法的多幀運算方式,計算像素顏色方差來判斷運動,同時因為方差計算的運算量大,不利於實時的實現,所以梁文鋒又提出了一種等價的快速算法,把方差計算的中間結果保留,以供後續的計算使用,接下來繼續看算法的具體實現。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第7張](https://imgheybox.max-c.com/web/bbs/2025/02/05/3d39e9d1f65ae8391b72569cc43fced6/thumb.png)
具體實現
梁文鋒的系統軟件主要由五個模塊組成:視頻預處理、運動檢測、方差模型、運動預測和目標識別、運動控制。視頻預處理模塊負責獲取攝像機的圖像數據,並進行初步的圖像處理,將數據存儲為合適的數據結構,隨後傳遞給運動檢測模塊,運動檢測模塊專注於檢測像素的顏色變化,空間方差模型建立一個環形的歷史方差信息數據庫,通過查詢這個數據庫來判斷當前某個區域是否發生運動,運動預測和目標識別模塊負責決定哪個是需要跟蹤的目標,並預測其下一時刻可能出現的位置。這些模塊構成一個閉環系統,從攝像機獲取視頻數據,經過計算機處理生成控制信號,進而控制攝像機進行運動。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第8張](https://imgheybox.max-c.com/web/bbs/2025/02/05/1653a688fc68d2fa9bd38507782c4a40/thumb.png)
上面五個模塊組成了系統完整的數據流程圖,在這個流程中 除了空間方差模塊和運動檢測模塊存在雙向的數據流之外,其餘所有模塊之間的數據流都是單向的,梁文鋒提出了一種新的運動檢測指標序列方差,來作為衡量運動變化的有效指標,工程實現上,運動檢測方差算法主要由三個部分組成:隊列緩衝、快速算法和靈敏度控制。
第一部分隊列緩衝。運動檢測模塊接收經過濾波和縮放的數據,將上次雲臺穩定以來的所有視頻數據全部緩存,如果沒有運動或運動變化微小時,圖像數據會填滿整個隊列,最老的數據會自動從隊列末尾丟棄。第二部分採用滑動窗口算法,利用歷史數據進行運動檢測,輸出結果一一對應純算術數據。第三部分靈敏度控制主要是優化系統對微小運動的檢測能力,確保即使在低對比度或複雜背景中,系統也能準確識別運動目標。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第9張](https://imgheybox.max-c.com/web/bbs/2025/02/05/d59d3e2b0ca4c40ccf87347c9f894d33/thumb.png)
介紹完視頻預處理、運動檢測和方差模型,之後則是實現運動預測和目標識別,梁文鋒在論文中提出歷史軌跡模型來分析目標的運動軌跡,首先通過每一幀的圖像處理算法識別運動目標,一旦目標被識別,系統便開始記錄其運動軌跡,然後再基於軌跡對目標未來的位置進行預測,與此同時,系統會對新幀圖像每個目標進行判斷,將新圖像與預測位置進行對比,來識別前後兩幀圖像是否為同一目標,這裡最難的其實是相同目標識別方法,由於有時候攝像機運動過程中可能出現數據缺失,再加上信號處理延遲,會影響對運動的預測和對相同目標識別的速度和準確度。
梁文鋒介紹有三種主流方法,第一種進行位置匹配,第二種通過目標的長寬比和麵積進行識別,類似於模式識別,第三種是顏色直方圖匹配,由於圖像質量及背景干擾,效果較差,梁文鋒實驗做到一半放棄了這種方法,但是論文中梁文鋒還是詳細介紹了這種方案的優缺點,至此一套完整的復現流程已經呈現出來。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第10張](https://imgheybox.max-c.com/web/bbs/2025/02/05/975144551d4cf8a4af4ec63a78330d88/thumb.png)
後話
從梁文鋒大佬的碩士論文,到如今梁文鋒放在Arxiv上DeepSeek-R1的論文,技術的發展脈絡非常清晰,12年深度學習的快速發展徹底改變了目標追蹤的格局,卷積神經網絡(CNN)開始廣泛應用於目標檢測和識別領域,YOLO、Faster R-CNN等經典模型湧現出來,徹底改變了CV領域。
而梁文鋒畢業後其實並沒有繼續做CV,而是轉用AI做量化,幻方成為國內量化的領頭羊,幻方投入大模型領域的轉機,應該是2020年的GPT-3以及之後ChatGPT開啟的大模型時代。2021年,幻方量化資產管理規模突破千億,做量化也儲備了很多的GPU,梁文鋒在23年做出了進軍大模型的決定,創立DeepSeek公司。
在創立DeepSeek公司時,梁文鋒將他在計算機視覺領域的積累與量化投資的經驗結合起來,也恰恰是這種跨領域的思維,使得DeepSeek能夠快速崛起,梁文鋒招人基本上就是按照自己浙大頂尖畢業生的模板來招,團隊貴精不貴多,不到140人的研發團隊,平均年齡35歲,管理結構扁平,鼓勵提倡創新不怕試錯,從而造就了DeepSeek的奇蹟。
![DeepSeek創始人碩士學位論文賞析 [精讀]-第11張](https://imgheybox.max-c.com/web/bbs/2025/02/05/e22aa812e05822a42d26a8393f0dfa0c/thumb.png)
往期相關:
深度學習入門——圖靈獎AI三巨頭
AI編年史——深度學習的發展史(收藏向)
AI編年史2——GPT是如何誕生的?
AI學術巨佬——何愷明,從遊戲中獲得論文靈感
AI領軍人物——孫劍,重劍無鋒的經典之作
AI傳奇巨佬——湯曉鷗,中國人工智能領袖人物!
張益唐——黎曼猜想,華人數學家再創重大突破!
李飛飛——從成都七中,到頂級AI科學家!
B站大學——線代不掛科,MIT傳奇教授的最後一課!
華為——盤古大模型解讀,專注“小模型”工業落地!
英偉達——跟著老黃學AI,英偉達官方免費推出AI課!
微軟免費AI課程——18節課,初學者入門大模型!
機器學習——科學家周志華,成為中國首位AI頂會掌門人!
機器學習入門——數學基礎(積分篇)
機器學習入門——數學基礎(代數篇)
機器學習入門——數學基礎(貝葉斯篇)