要說今年過年最出風頭的科技企業,那除了整天服務器繁忙的 DeepSeek ,估計就得數宇樹科技了。
就是春晚上拿機器人扭秧歌的那個。

看看這動作,這後仰跳投,是不是還挺有那味的?
別說你是詹蜜,經典的霸王步人家也學了。

有差友可能會問,我是年輕人,不懂規矩,不看球也不看 nba ,我咋能知道這機器人到底什麼水平呢?
也別慌,各位熟知的 “NBA 大使 ” 的經典鐵山靠,人家也能學。。。

有一說一,給機器人編程早就不是啥新鮮事了,你坤哥這種招牌動作,粉絲內部甚至還有用簡單機械機構就能實現的。所以宇樹這次要是隻能復刻這種的話,那還算不上啥科技狠活。

那麼這波這個展示真正牛波兒的地方在哪呢,大過年的人家總不會就是為了唱跳 rap 打籃球吧。

至於咱為啥這麼說,那就得先聊聊現在的機器人是咋訓練的。
眾所周知,機器人這玩意甭管外表多酷炫,骨子裡還是算法在跑。

所以你要想讓一個機器人學會打籃球的話,最簡單的辦法就是先測量出機器人的各方面數據,比如關節扭矩、連桿質量分佈啥的;再拿這些數據去搞個動力學建模,就是在電腦裡模擬機器人的運動。

但問題在於,要一點點把各種參數都調到完美,這是個特別肝的活兒,需要大量時間,還得是專業人士才能搞;
而且就算你在模擬器裡調好了,現實裡也不一定就是那麼回事兒。就好比你在 NBA 2K 裡練出一代喬丹,但上了真球場,可能連球都運不利索。

虛擬世界再真,跟現實的參數維度也不是一個量級的,像什麼籃球的手感、彈性,空氣阻力、風向風速,甚至其他球員的肘擊,模型都沒法面面俱到。

既然真實環境這麼複雜,有的科學家就開始反向操作了:與其死磕完美模型,不如直接把機器人丟進各種 “ 奇葩 ” 環境裡去練級。

比如有時候地面很滑,有時候籃球很重,有時候籃筐很高。。。反正就讓機器人在各種極端條件下自己迭代,找到最優策略。

聽著好像有點道理,可這也有問題。這種方法就跟 “ 盲人摸象 ” 似的,機器人就算見識了各種情況,但要總結出真正的規律還是很難,而且很容易 “ 用力過猛 ” 。

再加上為了適應各種極端情況,機器人就得求穩,於是動作就很保守、不靈活,比如運球的時候總是小心翼翼的,投籃的時候不敢放開手腳。

可要想讓機器人真的參與到生活裡,不說代替咱們打工,起碼像人一樣的靈活性總得有吧,要是多少都沾點人工智障,那不白期待了嘛。
那麼宇樹這波到底是咋做到讓機器人這麼靈敏的呢,重點來了。
論文裡說,他們用了一個叫ASAP( Aligning Simulation and Real Physics ,對齊模擬與真實物理框架)的東西。

按文章裡的說法,這個技術要先 “利用這些經過處理的人類運動數據在仿真環境中訓練一個基於相位的運動跟蹤策略” ,再 “通過強化學習訓練一個殘差動作模型補償仿真與現實之間的差異” 。
聽起來很繞,但你先別急,這玩意的實際思路還挺簡明的,其實就是把咱上面說的傳統功夫,用化勁整合起來,搞了個機器人訓練速成班。

簡單來說,這個速成班分兩步走,咱先說第一步:就是給機器人打基礎,搞模擬預習。

而要搞預習,你得有教材。這裡就是要先下載一堆視頻,打籃球的也行,其他視頻也行,重點是視頻裡得有人;

拿打籃球這個動作來說,你得先找一堆打球視頻,記錄下運球、投籃的動作,把這些動作數據處理好,再把這些數據扔到模擬器裡,讓機器人先在模擬器裡雲練球,相當於先做好模擬再考試。

所以速成班的第二步就得真槍實彈的來,三年模擬完了,是時候五年高考了。

雖然之前的數據已經是從現實中提取的了,但等到機器人被拉到真球場上的時候,它就會發現雲玩家還是差點意思,真實環境裡的位置、速度、加速度、關節角度等數據,跟仿真裡還是有一定差別。

有了這個殘差動作模型,這下機器人在模擬器裡的運動,就跟在現實裡大差不差了,然後工程師再把當中的少量參數微調一下,機器人就能做到跟視頻里人類運球一樣敏捷流暢了。

但你要把這個 ASAP 框架的兩步放一起看,就會發現這玩意搞的效果雖然看著挺牛逼的,比傳統方案練出來的機器人好多了,但思路其實跟咱上面說的傳統訓練思路差的沒那麼大。
原理也很簡單嘛,純建模訓練不真實還費時間,純現實訓練動作不靈活,那把這兩個方案結合起來:

用現實數據去幫助建模,再把建模的成功放在現實裡校正,虛實結合,不就兩難自解~
實際上,這種用現實數據搞虛擬建模,再把在虛擬建模裡完成的工程搬到現實,其實也算是很英偉達的操作了。

之前他們就有一個 Cosmos 平臺,號稱是世界模型,目的就是像這次這樣把現實裡的物理現象搬到電腦裡去模擬,這樣就能大大節省工程師們的研發時間。
訓練時長大幅縮短,結果最後訓練效果還更好了,這不妥妥的黑科技嘛。

哦對了,最後還有一個彩蛋:今天這篇論文的主要作者,英偉達 GEAR 團隊成員、現在在卡內基梅隆大學留學的B 站 up 主何泰然,他小時候的夢想還真就是造一個電影《 鐵甲鋼拳 》( 設定是人類操控機器人打拳 )裡的機器人。

對一個理工男來說,把兒時的夢想變成現實,我覺得這太酷了。
撰文:納西
編輯:江江 & 面線
美編:萱萱
圖片、資料來源:
ASAP: Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills
Human
oidLocomotion and Manipulation: Current Progress and Challenges in Control, Planning, and Learning
Adaptive Kinematic Modelling for MultiobjectiveControl of a Redundant Surgical Robotic Tool
微博,bilibili等,部分圖源網絡
