← 返回首頁

Fiona Signal Radar

你以為那些永遠開機的裝置,是來幫你的。眼鏡、別針、筆、喇叭——它們真正的產物,是一條第一人稱的資料流。而那條流,是人形機器人的飼料。

🗓️ 2026.06.01
🤖 具身智能
🎥 第一人稱資料
🦾 人形機器人
📍 GTC Taipei

機器人缺的不是腦,是一雙手的影片

具身智能(Embodied AI)正撞到一道牆,叫「資料荒」。網路上有的是文字和圖片,但機器人要的不是這些。它要的是「接觸密集」的第一人稱影像——一雙手怎麼擰瓶蓋、怎麼把碗端穩、怎麼在雜亂的廚房裡走位。這種料,網路上沒有。於是,有人開始在全世界採料。

Key Signals · 五個訊號

訊號一|人類影像是地基,不是補充

Figure 去年的 Project Go-Big 證明了一件事:它的 Helix 模型只看人類第一人稱影像、零個機器人示範,就學會在凌亂的住宅裡聽懂「去冰箱」並走過去。機器人要的料,就是一個人從自己眼睛的角度,看著自己的手做事。

訊號二|縮放定律把「錄影」變成「印鈔」

NVIDIA 的 EgoScale 拿 20,854 小時第一人稱人類影像預訓練,挖出一條縮放定律(Scaling Law):影像越多,模型越準,關係是對數線性,相關係數高達 0.9983。翻成白話——多餵料,機器人就確定變強,像水龍頭一樣可預測。資料變成可以稱重計價的原物料。

訊號三|一支戴著攝影機的全球大軍

資料要多少?Micro1 的副總直言:「大概要數十億小時。」目前該公司有 4,000 名「機器人通才」散在 71 個國家,每月交回 16 萬小時——遠遠不夠。DoorDash 推出 Tasks,付錢給 800 萬名外送員錄自己做家事(據 Bloomberg,洗碗任務要求隨身攝影機對著雙手,洗滿至少五個碗、每個端穩)。Scale AI 估計也握有 10 萬小時。這不是零星實驗,是一條成形的工業供應鏈。

訊號四|他們收的,是你眼睛的角度

這些任務的共同規格只有一個:第一人稱。攝影機綁在頭上、對著手。因為機器人要學的,是「從做事的人的視角,看著手怎麼動」。料的格式,被統一成了你的視角。

訊號五|今天,料有了身體(GTC Taipei,6/1)

就在今天,台北 GTC 開幕,黃仁勳發表 NVIDIA Isaac GR00T 參考人形機器人——NVIDIA 第一款開放的人形機器人參考設計。身體採用大陸宇樹科技(Unitree)的 H2 Plus、五指手來自 Sharpa、運算用 Jetson Thor,而軟體跑的 GR00T,正是用 EgoScale 那批人類影像訓練出來的模型。年底開賣,「任何人都能買」,先供應給 Stanford、ETH 等西方實驗室。

人類第一人稱影像(料)→ EgoScale → GR00T(模型)→ 宇樹 H2 Plus(身體)→ 市場開賣。 這條鏈,今天補上了最後一段。

同一條資料流,一頭餵 agent,一頭餵機器人

以下這一段,是我的推論,不是任何廠商說的話。 我把它跟上面的事實分開,請你也分開讀。

上面那條供應鏈,付錢請人戴攝影機,對著手錄第一人稱影像。

然後想想,你臉上那副 AI 眼鏡、胸前那枚別針、桌上那支永遠開著的筆、那台一直在聽的喇叭,每天在錄什麼。

同樣是第一人稱。同樣對著你的手、你的視野、你的一天。格式,一模一樣。

我不把箭頭釘死——廠商沒說這些消費裝置的資料會拿去訓練機器人。但「料的格式相同」是不可抹滅的事實。剩下的線索,你自己連。

DoorDash 付錢請外送員錄自己洗碗。而你花錢買的那副眼鏡,正免費做同一件事。

裝置的多元化——眼鏡、別針、筆、喇叭——表面是消費電子百花齊放。換個角度,是「採料口」的多元化。每多一種隨身裝置,就多一個對準你生活的鏡頭。

而這條第一人稱資料流,有兩個出海口。一頭,餵 agent,學你的判斷、你的流程,去取代白領(這是我們上一篇〈權限〉那場仗)。另一頭,餵機器人,學你的手、你的動作,去取代體力。

同一條流,兩種取代。

最荒謬的是:DoorDash 那批外送員,至少還收每小時 15 美元。而我們這些花錢買裝置的人,是倒貼——付錢買下那個鏡頭,然後免費生產取代自己的訓練料。

而這波熱潮,今天在台北 GTC 上又被點著了。那台用宇樹身體、GR00T 大腦的機器人,定了價、排了出貨。熱潮重燃不是口號——它是買家。買家越急,那「數十億小時」的料就越值錢。而料,是我們。

看清楚這條線,不是要你把眼鏡丟掉。是提醒我們:在這場交易裡,先搞清楚自己是顧客,還是料。能自己關掉的鏡頭,才是自己的。

訊號來源

← 返回首頁 ← 前一天 Radar 🗂️ 返回 Archive