核心敘事
Hackernoon 引述多個基準測試結果:當前 AI Agent 在多步驟任務中的失敗率穩定超過 50%。這個數字過去半年在 builder 圈子裡是常識——demo 跑得很漂亮,放到真實環境就崩潰。差別是,過去主流媒體都在報導「Agent 將取代白領」的願景,現在開始報導失敗。當主流敘事從「願景」轉向「失敗」,這本身就是一個敘事拐點。
Hackernoon 引述多個基準測試結果:當前 AI Agent 在多步驟任務中的失敗率穩定超過 50%。這個數字過去半年在 builder 圈子裡是常識——demo 跑得很漂亮,放到真實環境就崩潰。差別是,過去主流媒體都在報導「Agent 將取代白領」的願景,現在開始報導失敗。當主流敘事從「願景」轉向「失敗」,這本身就是一個敘事拐點。
文章把失敗原因拆得很清楚:不是 LLM 不夠聰明,而是「規劃(Planning)」與「環境互動(Grounding)」之間有結構性斷層。模型在單次推理中可以表現優異,但在需要連續調用工具的長鏈任務中,只要其中一步出現幻覺、誤判 UI 元素、或遇到彈窗——後續步驟全部偏離目標。這是工程結構問題,不是模型參數量能解決的。
文章給出的解方很反浪漫:不要追求極致智慧,要追求可觀測性(Observability)和容錯機制(Error Recovery)。具體做法是把複雜任務拆成可驗證的子任務,每段交給最適合的工具——LLM 推理、確定性程式邏輯、人工檢核點——再用結構化工作流串起來。垂直領域 Agent(會計、軟體工程、客服)表現遠優於通用型助理。這個結論等於宣告:「萬能 Agent」的浪漫敘事降溫,「垂直整合」的工程現實當道。
工程師想一步到位,因為那是技術人的浪漫。軟體公司不想被取代,所以暗中希望工程師失敗。而最終的解決方案,往往是兩邊都不太滿意的折衷——拆解、組合、垂直整合。 這不是 AI 第一次走這條路,也不會是最後一次。每一次「革命性技術」都會經歷同樣的循環:理想願景 → 現實打臉 → 拆解重組 → 進入工程化階段。雲端如此,行動裝置如此,區塊鏈如此,現在輪到 Agent。 當失敗率被攤上檯面、當「等 GPT-5 救世」的信仰被打破,AI Agent 才真正進入它應該在的位置——不是萬能的取代者,是被馴服的工具。而被馴服的工具,才是能賺錢的工具。 理想很豐滿,現實很骨感。但每一次骨感的現實,都是工程化階段的真正起點。
Moody's 說不會脫軌——需要被保證的事,本身就是訊號。銀行財報好看,是因為風險早就外包出去了。
主流敘事降溫,工程化階段啟動——「萬能 Agent」的浪漫被拆解,垂直整合成為實質出路。SaaS 從被取代對象升格為 Agent 母體。
私募資金鍊斷裂、美伊戰火燒起、散戶被迫接棒——SpaceX、OpenAI、Anthropic 三場合計 $3 兆的 IPO 同步開窗,是資本市場有史以來最大的流動性考驗。