新質(zhì)觀察｜具身智能的時代已來，AI正在邁出關(guān)鍵一步

2025-3-18 11:15| 發(fā)布者: admin| 查看: 195| 評論: 0

摘要: 2024年7月6日，上海，2024世界人工智能大會，人工智能機器人伸出仿生機械手與參觀的小朋友握手。視覺中國資料圖1997年，IBM的深藍戰(zhàn)勝國際象棋大師加里·卡斯帕羅夫，震驚世界。2016年，“阿爾法圍棋”（AlphaGo） ...

2024年7月6日，上海，2024世界人工智能大會，人工智能機器人伸出仿生機械手與參觀的小朋友握手。視覺中國資料圖

1997年，IBM的深藍戰(zhàn)勝國際象棋大師加里·卡斯帕羅夫，震驚世界。2016年，“阿爾法圍棋”（AlphaGo）又讓圍棋冠軍李世石束手無策。從此，人工智能成為全球熱議的話題。但那時的AI，只是一個會計算的“頭腦”，它能分析棋盤局勢，卻摸不著棋子。

AlphaGo能夠在服務(wù)器上快速訓(xùn)練數(shù)千場棋局，甚至擊敗世界冠軍。但它本質(zhì)上仍是純粹的算法系統(tǒng)，缺乏在物理世界中執(zhí)行動作的能力。每當它下棋時，必須依賴一位工作人員在場上幫它落子。這正是AI 發(fā)展的第一階段——信息智能。它擅長處理數(shù)據(jù)，卻無法直接影響現(xiàn)實。

如果 AI的發(fā)展是一場馬拉松，那么第一階段，我們造出了一個超凡的大腦?，F(xiàn)在，它正在迎來第二階段——具身智能（Embodied AI），也就是物理智能。這一階段，AI不再局限于數(shù)據(jù)中心和屏幕，而是擁有了感知、長出了手腳，開始與物理世界交互。2025年，《政府工作報告》首次將“具身智能”寫入其中，提出建立未來產(chǎn)業(yè)投入增長機制，重點培育生物制造、量子科技、具身智能和6G等未來產(chǎn)業(yè)。這一政策信號，標志著具身智能正從實驗室走向現(xiàn)實，成為人工智能發(fā)展的重要方向。

從算法到動作，AI 邁出關(guān)鍵一步

想象一下，你走進一家餐廳，點了一杯咖啡。一臺機器人服務(wù)員優(yōu)雅地端著托盤，將熱騰騰的咖啡放在你面前，沒有灑出一滴。這件事，一個普通人輕松能做到，但對AI來說，卻是一個天大的難題。

過去幾十年，計算機視覺、語音識別、自然語言處理等信息智能取得了驚人的進展。AI可以識別圖像、理解語言，甚至與人類流暢對話。然而，這些技術(shù)依然停留在數(shù)據(jù)世界。它們可以“看懂”一杯咖啡，但無法真正端起一杯咖啡。要讓AI走出屏幕、影響現(xiàn)實，它必須學(xué)會如何在物理世界中行動。

這正是物理智能面臨的核心難題。拿起一杯咖啡，這個看似簡單的動作，實則涉及復(fù)雜的傳感、肌肉控制、平衡調(diào)整。AI需要精準感知杯子的形狀、材質(zhì)、重量，計算手指施加的力度，同時調(diào)整身體平衡，以確保液體不會灑出。而這些，對人類來說幾乎是本能，對AI而言，卻需要從零開始學(xué)習(xí)。

如果說，信息智能的AI是生活在“理想國”里的哲學(xué)家，那么物理智能的AI，就是要下地干活的工人。而現(xiàn)實世界，比數(shù)據(jù)世界復(fù)雜得多，也更加不可預(yù)測。

最典型的例子，就是波士頓動力（Boston Dynamics）的機器人。它們能奔跑，跳躍，甚至做后空翻，看上去仿佛已掌握了物理智能。但你如果讓它去開門，擰螺絲，或者在濕滑的地面上奔跑，它可能就會摔得四腳朝天。動作的流暢性不等于真正的靈活性，要讓機器人適應(yīng)復(fù)雜的現(xiàn)實環(huán)境，仍然存在巨大挑戰(zhàn)。

為了讓機器人更好地執(zhí)行日常任務(wù)，斯坦福大學(xué)李飛飛團隊提出了一種全身操作綜合框架——行為機器人套件（BRS）。該框架旨在提升機器人在家庭環(huán)境中的自主執(zhí)行能力，使其能夠完成倒垃圾、整理衣物、刷馬桶等多樣化的家務(wù)任務(wù)。這項研究是具身智能突破的典型案例，它不僅讓機器人“理解”任務(wù)，還讓它們真正具備“動手”能力，使AI逐步邁向現(xiàn)實世界的高效執(zhí)行者。

AI的關(guān)鍵，不只在于思考，更在于行動

信息智能讓AI成為“世界上最聰明的讀書人”，但僅僅會思考，無法改變世界。真正的變革，來自行動。具身智能，才是AI走向現(xiàn)實的關(guān)鍵。

回顧人類的進化歷程，我們是因為會思考而強大，還是因為會行動而強大？

牛頓發(fā)現(xiàn)了萬有引力定律，這是劃時代的突破；但如果沒有工程師們設(shè)計并制造出飛機引擎，我們依然無法飛翔于藍天。愛因斯坦提出了相對論，這是科學(xué)史上的偉大突破；但如果沒有物理學(xué)家和工程師的不斷努力，我們也無法享受到GPS技術(shù)帶來的便捷。知識塑造世界，但最終推動世界前行的，是實踐。

人工智能亦是如此。信息智能讓AI理解世界，物理智能讓AI改造世界。今天，我們可以用Deepseek生成一篇文章，用豆包AI畫一張圖。但我們還無法讓AI蓋一座房子、做一頓飯、或為病人完成一場手術(shù)。未來，具身智能的突破，才是真正讓AI進入日常生活的關(guān)鍵。

2025年3月，谷歌與機器人開發(fā)公司Apptronik合作，推出了兩個基于Gemini 2.0的機器人AI模型——Gemini Robotics和Gemini Robotics-Embodied Reasoning（ER），旨在幫助機器人執(zhí)行比以往更多的現(xiàn)實任務(wù)。

這兩款模型的核心目標，是讓機器人不僅能聽懂指令，還能理解并適應(yīng)新的環(huán)境和任務(wù)，這是物理智能發(fā)展的關(guān)鍵一步。測試表明，Gemini Robotics具備更強的泛化能力，能夠處理未經(jīng)過訓(xùn)練的任務(wù)，如折紙、將眼鏡放入盒中、打開瓶蓋等。相比之下，Gemini Robotics-ER版本更側(cè)重于空間感知和任務(wù)規(guī)劃，可供受信任的機器人開發(fā)者集成到自身系統(tǒng)中。這些技術(shù)突破，標志著機器人在現(xiàn)實環(huán)境中的適應(yīng)能力和執(zhí)行力取得了重要進展，使AI進一步從虛擬世界邁向物理世界。

具身智能面前的“三座大山”

AI要真正進入物理世界，最大的挑戰(zhàn)是什么？目前來看，主要有三座大山：感知能力、運動控制和學(xué)習(xí)能力。這三者的突破，正在讓具身智能從“實驗室玩具”蛻變?yōu)椤叭苤帧薄?br>
第一座山：感知能力的進化，從“盲人摸象”到“眼觀六路”

感知能力是機器人邁向現(xiàn)實世界的首要難題。人類的大腦，依靠眼睛、耳朵、皮膚等多種傳感器感知世界，而機器人也需要類似的“感官”——攝像頭、激光雷達、觸覺和壓力傳感器等等。但問題在于，人類的感知能力是動態(tài)、綜合且可適應(yīng)的，而當前的AI感知系統(tǒng)通常是單一的、割裂的。

未來的機器人需要具備更強的泛化能力，能夠適應(yīng)從未見過的任務(wù)，并且在新的環(huán)境中迅速理解和反應(yīng)。例如，機器人需要能夠在面對不同物體、復(fù)雜場景或陌生環(huán)境時，快速識別并采取適當?shù)男袆?。未來的家庭機器人管家需要在昏暗臥室避開滿地樂高，抱起嬰兒時自動調(diào)節(jié)力度，煮咖啡時根據(jù)香氣調(diào)整萃取時間。這要求AI具備真正的全模態(tài)感知能力，讓機器人像人類一樣“眼耳鼻舌身意”俱全，在真實世界中精準感知、靈活應(yīng)對。

第二座山：運動控制的革命，從“機械舞者”到“靈活工匠”

如果說感知能力決定了機器人能“看見”世界，那么運動控制決定了它能否與世界互動。你有沒有注意到，今天的機器人能做許多事情，但它們的動作總顯得有些生硬。這主要是因為人類的運動控制非常靈活，我們的肌肉、神經(jīng)系統(tǒng)能夠?qū)崟r調(diào)整，而現(xiàn)有的AI運動系統(tǒng)仍顯得粗糙。人類行走時，每步涉及200多塊肌肉的毫秒級協(xié)調(diào)，而機器人要實現(xiàn)這種行云流水的動作，必須突破動態(tài)平衡、精細操作和能量效率三重難關(guān)。

隨著技術(shù)的進步，機器人在動作控制方面的靈活性也在不斷提升。未來的機器人能夠精細地完成一些復(fù)雜的任務(wù)，如折紙、拿起易碎物品，甚至像人類一樣操作物品。要實現(xiàn)這一點，機器人不僅需要精準的動作控制，還需要對周圍環(huán)境做出實時的感知和調(diào)整。這種靈活性將使機器人更好地適應(yīng)真實世界中的多變場景，執(zhí)行需要高度協(xié)調(diào)和精密操作的任務(wù)。只有真正做到這一點，機器人才能適應(yīng)真實世界的多變場景，從流水線上的機械臂，進化為可以勝任各種精細任務(wù)的“靈活工匠”。

第三座山：學(xué)習(xí)能力的蛻變，從“死記硬背”到“見機行事”

學(xué)習(xí)能力是機器人面臨的第三大挑戰(zhàn)。人類的學(xué)習(xí)，往往是通過試錯、經(jīng)驗積累和直覺判斷等多種方式結(jié)合的，而現(xiàn)有的AI雖然可以通過強化學(xué)習(xí)來訓(xùn)練動作，但它們?nèi)匀蝗狈φ嬲摹爸庇X”和“經(jīng)驗”，使得它們在面對環(huán)境變化時常常無法應(yīng)對。

未來的機器人需要具備更強的自適應(yīng)學(xué)習(xí)能力，能夠通過日常對話或指令理解，不斷調(diào)整自己的行為，并根據(jù)環(huán)境的變化不斷優(yōu)化自己的操作方式。這種持續(xù)學(xué)習(xí)和動態(tài)適應(yīng)的能力，才能讓機器人在復(fù)雜的現(xiàn)實世界中真正勝任任務(wù)，而不僅僅是按照預(yù)設(shè)程序執(zhí)行操作。真正的智能，不是存儲在數(shù)據(jù)庫里的代碼，而是在物理交互中涌現(xiàn)的生命力。

這些突破意味著，未來的機器人將不僅僅是單純的工具，而是具備感知、行動、學(xué)習(xí)和適應(yīng)能力的智能體。隨著技術(shù)的不斷發(fā)展，AI將逐漸從云端算力堆砌的“數(shù)字幽靈”，進化為扎根現(xiàn)實世界的“硅基生命體”。

AI的邊界，還能延展到何處？

信息智能，讓AI變得聰明；物理智能，讓AI具備力量。但AI的終點，并非只是更強的計算能力或更靈活的肢體，而是邁向更高級的第三階段——生物智能。

MIT實驗室正在探索將神經(jīng)細胞與芯片結(jié)合的技術(shù)，而中國科學(xué)院的研究團隊已成功使機器人通過腦機接口“感知”虛擬疼痛。這些探索或許意味著，AI正在向生命的復(fù)雜性靠近。未來的AI將不再僅僅是冷冰冰的機器，而是像人類生命一樣思考、學(xué)習(xí)、適應(yīng)，甚至自主進化。

然而，生物智能仍是遙遠的第三階段。今天，我們才剛剛踏入第二階段——具身智能的門檻。讓AI具備真正的行動力，讓它能夠理解、感知、適應(yīng)現(xiàn)實世界，這一過程可能比我們預(yù)想的更漫長。歷史上，每一次技術(shù)革命，都是從思想到行動的演進。人類用了幾千年，從哲學(xué)的思辨走向科技的實踐，從構(gòu)想工具到掌握工具，再到成為工具的創(chuàng)造者。而AI，正在沿著同樣的路徑前進。

唯一的問題是，我們準備好迎接這個“站起來的AI”了嗎？

（作者胡逸為數(shù)據(jù)工作者，著有《未來可期：與人工智能同行》一書）

來源：胡逸

(本文來自澎湃新聞，更多原創(chuàng)資訊請下載“澎湃新聞”APP)