| “(人形機(jī)器人公司)真正重要的是同時(shí)做硬件和AI,而且要讓它們能夠很好地整合在一起?!苯谝粓?chǎng)對(duì)話中,美國(guó)當(dāng)紅人形機(jī)器人公司Figure AI創(chuàng)始人布雷特·阿德考克(Brett Adcock)強(qiáng)調(diào),軟硬件一體,不可偏廢。 阿德考克還談及,中國(guó)的機(jī)器人公司關(guān)注硬件,但不在乎AI。實(shí)際上,同步發(fā)力AI與硬件,正在成為中國(guó)頭部人形機(jī)器人企業(yè)的戰(zhàn)略選擇。 3月10日,智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長(zhǎng)姚卯青接受采訪時(shí)說(shuō),人形機(jī)器人賽道上,“偏科”的公司較多。有些公司特別擅長(zhǎng)算法,但硬件制造能力較弱,這會(huì)嚴(yán)重限制對(duì)算法研發(fā)的驗(yàn)證;另有大量機(jī)器人本體公司,對(duì)AI投入比較受限。智元?jiǎng)t追求硬件和AI的完整布局,這是一家2023年2月在上海注冊(cè)成立的人形機(jī)器人“獨(dú)角獸”公司。 的確有中國(guó)的機(jī)器人公司把重心置于硬件。去年8月,宇樹科技創(chuàng)始人王興興受訪時(shí)表示,具身智能大模型的研發(fā)太燒錢,宇樹科技對(duì)此選擇謹(jǐn)慎投入。之所以態(tài)度保守,也是考量到機(jī)器人具身模型的技術(shù)路線目前仍不像大語(yǔ)言模型那么清晰,不能在技術(shù)路線模糊的時(shí)候亂投入。但王興興補(bǔ)充強(qiáng)調(diào),宇樹科技依然會(huì)繼續(xù)關(guān)注和研發(fā)具身智能大模型,因?yàn)橛布锳I服務(wù),一旦對(duì)具身智能模型缺乏了解,很難做出好的人形機(jī)器人本體。 相較于宇樹科技在具身智能大模型上的審慎心態(tài),姚卯青稱,智元把具身智能研發(fā)作為公司的戰(zhàn)略級(jí)投入領(lǐng)域。 “機(jī)器人公司如果不做大模型,那是沒(méi)有未來(lái)的。沒(méi)有智能化,就沒(méi)有作業(yè)能力?!币γ嗾J(rèn)為,AI能力將來(lái)一定是區(qū)分機(jī)器人產(chǎn)品競(jìng)爭(zhēng)力的關(guān)鍵因素,就像當(dāng)前的新能源汽車和手機(jī)等終端一樣,隨著硬件方案逐漸趨于一致,供應(yīng)鏈高度整合,“最后比拼的一定是AI能力”。
智元的人形機(jī)器人。圖:智元公司 3月10日,智元發(fā)布首個(gè)通用具身基座大模型GO-1。據(jù)公司介紹,這款具身智能模型最大的創(chuàng)新在于架構(gòu)變化。智元GO-1提出了Vision-Language-Latent-Action (ViLLA) 架構(gòu),該架構(gòu)由VLM(多模態(tài)大模型)+ MoE(混合專家模型)組成。 其中,VLM利用海量互聯(lián)網(wǎng)純文本與圖文數(shù)據(jù)的學(xué)習(xí)中,幫助機(jī)器人理解通用知識(shí)和場(chǎng)景。MoE則由兩組“專家”組成:Latent Planner(隱式規(guī)劃器)借助大量的人類和其他機(jī)器人本體的操作數(shù)據(jù),獲得通用的動(dòng)作理解能力;Action Expert(動(dòng)作專家)則借助仿真數(shù)據(jù)和真機(jī)采集的數(shù)據(jù),獲得精細(xì)的動(dòng)作執(zhí)行能力。 “構(gòu)建了從通用場(chǎng)景感知、指令理解、動(dòng)作理解到動(dòng)作最終執(zhí)行的全鏈條。”姚卯青用人類學(xué)習(xí)乒乓球的進(jìn)階過(guò)程類比說(shuō),VLM之于機(jī)器人的作用,好比上乒乓球的基礎(chǔ)理論課,從圖文指導(dǎo)中形成對(duì)乒乓球招式的初步理解。Latent Planner(隱式規(guī)劃器)的角色,類似于給初學(xué)者觀看乒乓球世界冠軍打比賽的炫酷視頻。Action Expert(動(dòng)作專家)利用仿真數(shù)據(jù),好比使用發(fā)球機(jī)進(jìn)行模擬學(xué)習(xí);利用真機(jī)數(shù)據(jù)的訓(xùn)練,則如同請(qǐng)乒乓球教練手把手示教。
具身智能模型的四類訓(xùn)練數(shù)據(jù)。圖:智元公司 智元具身研究中心常務(wù)主任任廣輝表示,目前市場(chǎng)上的具身智能模型存在諸多落地難題。比如,以斯坦福的ACT為代表的具身智能小模型,沒(méi)有利用大規(guī)模的圖文和操作視頻訓(xùn)練,技能單一且無(wú)法學(xué)習(xí)新技能;基于視覺(jué)-語(yǔ)言-動(dòng)作多模態(tài)大模型(Vision-Language-Action,VLA)構(gòu)建的具身智能模型,雖然學(xué)習(xí)了大量圖文數(shù)據(jù),具備場(chǎng)景感知和指令理解能力,但未有利用到大規(guī)模的人類和和其他機(jī)器人本體的操作視頻數(shù)據(jù),缺少了一個(gè)重要的數(shù)據(jù)來(lái)源,導(dǎo)致迭代的成本更高。 智元發(fā)布的實(shí)驗(yàn)數(shù)據(jù)顯示,相比已有的最優(yōu)模型,GO-1的成功率提高了32%,從46%提升至78%。 “GO-1大模型將使機(jī)器人向著具備通用智能的自主體發(fā)展?!敝窃矫娣Q,GO-1具備更強(qiáng)的泛化能力,降低了具身模型的使用門檻。而且,這款具身智能模型搭配一整套數(shù)據(jù)回流系統(tǒng),用于反饋場(chǎng)景測(cè)試中的錯(cuò)誤數(shù)據(jù),公司再將其列入后續(xù)的模型訓(xùn)練,實(shí)現(xiàn)模型迭代。 智元還在尋求和頭部大模型公司來(lái)開發(fā)具身智能模型。2月下旬,階躍星辰宣布與智元達(dá)成戰(zhàn)略合作,共同探索AI+具身機(jī)器人應(yīng)用場(chǎng)景。據(jù)智元介紹,后續(xù)雙方的合作,圍繞階躍的多模態(tài)、推理和訓(xùn)練等底層平臺(tái)能力展開,將其賦能到機(jī)器人上。 當(dāng)前,開發(fā)具身智能大模型的數(shù)據(jù)采集路線也存在分歧。銀河通用等公司傾向于合成數(shù)據(jù),但許多公司仍視真機(jī)數(shù)據(jù)為解決數(shù)據(jù)瓶頸的重要手段。為此,智元在上海專門建設(shè)了一座數(shù)據(jù)采集工廠,投放近百臺(tái)機(jī)器人,日均采集3萬(wàn)至5萬(wàn)條真機(jī)數(shù)據(jù)。另外,智元還針對(duì)工業(yè)場(chǎng)景開展概念驗(yàn)證項(xiàng)目(POC),前往工廠實(shí)地采集數(shù)據(jù)。 2025年被業(yè)內(nèi)視為“量產(chǎn)元年”。1月初,智元宣布已累計(jì)下線1000臺(tái)通用具身機(jī)器人。其中,雙足人形機(jī)器人731套,輪式通用機(jī)器人269套。姚卯青透露,千臺(tái)機(jī)器人中,有數(shù)百臺(tái)出貨給客戶,其余的作為研發(fā)樣機(jī)。 姚卯青預(yù)估,今年公司的出貨量會(huì)達(dá)到數(shù)千臺(tái)的規(guī)模,而營(yíng)收相較去年會(huì)實(shí)現(xiàn)數(shù)倍的增長(zhǎng),推進(jìn)科研教育、服務(wù)業(yè)等場(chǎng)景的布局。 采寫:南都記者 楊柳 |
19款電子扎帶
電路板識(shí)別電子標(biāo)簽