訊號一|人類影像是地基,不是補充
Figure 去年的 Project Go-Big 證明了一件事:它的 Helix 模型只看人類第一人稱影像、零個機器人示範,就學會在凌亂的住宅裡聽懂「去冰箱」並走過去。機器人要的料,就是一個人從自己眼睛的角度,看著自己的手做事。
Fiona Signal Radar
你以為那些永遠開機的裝置,是來幫你的。眼鏡、別針、筆、喇叭——它們真正的產物,是一條第一人稱的資料流。而那條流,是人形機器人的飼料。
Signal
具身智能(Embodied AI)正撞到一道牆,叫「資料荒」。網路上有的是文字和圖片,但機器人要的不是這些。它要的是「接觸密集」的第一人稱影像——一雙手怎麼擰瓶蓋、怎麼把碗端穩、怎麼在雜亂的廚房裡走位。這種料,網路上沒有。於是,有人開始在全世界採料。
Key Signals · 五個訊號
Figure 去年的 Project Go-Big 證明了一件事:它的 Helix 模型只看人類第一人稱影像、零個機器人示範,就學會在凌亂的住宅裡聽懂「去冰箱」並走過去。機器人要的料,就是一個人從自己眼睛的角度,看著自己的手做事。
NVIDIA 的 EgoScale 拿 20,854 小時第一人稱人類影像預訓練,挖出一條縮放定律(Scaling Law):影像越多,模型越準,關係是對數線性,相關係數高達 0.9983。翻成白話——多餵料,機器人就確定變強,像水龍頭一樣可預測。資料變成可以稱重計價的原物料。
資料要多少?Micro1 的副總直言:「大概要數十億小時。」目前該公司有 4,000 名「機器人通才」散在 71 個國家,每月交回 16 萬小時——遠遠不夠。DoorDash 推出 Tasks,付錢給 800 萬名外送員錄自己做家事(據 Bloomberg,洗碗任務要求隨身攝影機對著雙手,洗滿至少五個碗、每個端穩)。Scale AI 估計也握有 10 萬小時。這不是零星實驗,是一條成形的工業供應鏈。
這些任務的共同規格只有一個:第一人稱。攝影機綁在頭上、對著手。因為機器人要學的,是「從做事的人的視角,看著手怎麼動」。料的格式,被統一成了你的視角。
就在今天,台北 GTC 開幕,黃仁勳發表 NVIDIA Isaac GR00T 參考人形機器人——NVIDIA 第一款開放的人形機器人參考設計。身體採用大陸宇樹科技(Unitree)的 H2 Plus、五指手來自 Sharpa、運算用 Jetson Thor,而軟體跑的 GR00T,正是用 EgoScale 那批人類影像訓練出來的模型。年底開賣,「任何人都能買」,先供應給 Stanford、ETH 等西方實驗室。
Fiona View
上面那條供應鏈,付錢請人戴攝影機,對著手錄第一人稱影像。
然後想想,你臉上那副 AI 眼鏡、胸前那枚別針、桌上那支永遠開著的筆、那台一直在聽的喇叭,每天在錄什麼。
同樣是第一人稱。同樣對著你的手、你的視野、你的一天。格式,一模一樣。
我不把箭頭釘死——廠商沒說這些消費裝置的資料會拿去訓練機器人。但「料的格式相同」是不可抹滅的事實。剩下的線索,你自己連。
DoorDash 付錢請外送員錄自己洗碗。而你花錢買的那副眼鏡,正免費做同一件事。
裝置的多元化——眼鏡、別針、筆、喇叭——表面是消費電子百花齊放。換個角度,是「採料口」的多元化。每多一種隨身裝置,就多一個對準你生活的鏡頭。
而這條第一人稱資料流,有兩個出海口。一頭,餵 agent,學你的判斷、你的流程,去取代白領(這是我們上一篇〈權限〉那場仗)。另一頭,餵機器人,學你的手、你的動作,去取代體力。
同一條流,兩種取代。
最荒謬的是:DoorDash 那批外送員,至少還收每小時 15 美元。而我們這些花錢買裝置的人,是倒貼——付錢買下那個鏡頭,然後免費生產取代自己的訓練料。
而這波熱潮,今天在台北 GTC 上又被點著了。那台用宇樹身體、GR00T 大腦的機器人,定了價、排了出貨。熱潮重燃不是口號——它是買家。買家越急,那「數十億小時」的料就越值錢。而料,是我們。
看清楚這條線,不是要你把眼鏡丟掉。是提醒我們:在這場交易裡,先搞清楚自己是顧客,還是料。能自己關掉的鏡頭,才是自己的。
Sources