VLA模型,已經成為具身智能當前最熱的技術趨勢。
近日,谷歌推出了自身最強大的VLA(Vision-Language-Action,視覺-語言-動作)模型Gemini Robotics On-Device。據介紹,這款機器人端側模型運行時無需依賴數據網絡,可以完全在機器人設備本地離線運行,并在多種測試場景中實現了強大的視覺、語義和行為泛化能力,能理解自然語言指令,并完成拉開拉鏈、折疊衣物等高靈巧度任務。
具身智能領域的關鍵新范式,VLA讓機器人擁有了將語言意圖、視覺感知與物理動作編織成連續決策流的能力。記者梳理發現,今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發布了自己的VLA模型,銀河通用、智元機器人、自變量機器人等國內機器人公司也已在這一領域有所布局。
“機器人版安卓”,50次演示即可學會新動作
今年3月,谷歌DeepMind團隊首次推出了新一代專為機器人設計的AI模型Gemini Robotics,被視為“機器人版的安卓”。
這一模型基于Gemini 2.0打造,如同機器人的“大腦”,能夠讓機器人理解復雜環境、執行精細任務。在谷歌DeepMind展示的演示視頻中,Gemini Robotics借助一臺雙臂機器人,能夠流暢地折紙、拉拉鏈、把皮帶安裝到齒輪上。
而最新推出的Gemini Robotics On-Device,則是專為在機器人設備本地運行而優化的模型。業內人士分析稱,具身智能的發展一直以來受限于對云計算資源的高度依賴,這使得機器人在網絡不穩定或無網絡的環境中難以獨立作業。同時,模型體積龐大,在機器人有限的計算資源上也難以高效運行。
Gemini Robotics On-Device的發布,標志著具身智能從依賴云端算力向本地自主運行的重大轉變,為機器人產業的落地應用開辟了新的路徑,為機器人在更多場景中的應用提供可能。比如,機器人在無網絡的工廠精準裝配零件、在災區廢墟中自主救援,這些應用場景都離不開機器人端側模型的部署。
據介紹,Gemini Robotics On-Device具備三大特點:一是專為靈巧操作的快速實驗而設計;二能通過微調來適應新任務進一步提高性能;三是經過優化,可在本地運行并實現超低延遲推理。
此外,谷歌還推出Gemini Robotics SDK,幫助開發者評估Gemini Robotics在設備上的性能,包括在MuJoCo物理模擬器中進行測試。開發者只需50—100個演示即可完成模型評估,讓機器人快速學習新技能。
VLA成“必爭之地”,這些國內機器人公司也布局了
如果過去十年,機器人領域的焦點先后經歷了“看得見”的視覺感知、“聽得懂”的語言理解,那么在VLA模型出現之后,機器人開始走向“動得準”的第三階段。
當下,VLA模型已逐漸成為具身智能行業的共識,被視為連接感知、語言與行為的通用架構。今年6月,在2025北京智源大會上,Physical Intelligence聯合創始人兼CEO Karol Hausman表示,VLA是通往通用智能的重要基石,能夠讓機器人從互聯網等多源數據中學習并轉化為具體行動。
記者梳理發現,今年以來,不僅谷歌、微軟、Figure AI等海外公司相繼發布了自己的VLA模型,銀河通用、智元機器人、自變量機器人等國內機器人公司也已在這一領域有所布局。
今年6月1日,銀河通用正式推出自主研發的產品級端到端導航大模型TrackVLA。這是一款具備純視覺環境感知、語言指令驅動、可自主推理、具備零樣本泛化能力的具身大模型。而在一周后的2025北京智源大會上,銀河通用又發布了全球首個面向零售場景的端到端VLA大模型GroceryVLA。
根據現場展示,在現場搭建的1比1還原真實商超場景中,當銀河通用創始人兼CTO王鶴向搭載了GroceryVLA的機器人Galbot發出“我又熱又餓,幫我拿點吃的”這一指令后,Galbot能夠自主精確地移動到準確位置,在貨架中為顧客選擇餅干和飲料等食物,然后有序地拿取并送到顧客手中,全程無遙控操作,并且無事先采集場景數據。
今年3月,智元機器人發布了首個通用具身基座模型智元啟元大模型(Genie Operator-1,簡稱GO-1),該模型采用了Vision-Language-Latent-Action (ViLLA) 架構,由VLM(視覺語言模型)和MoE(混合專家)組成,實現了可以利用人類視頻學習,完成小樣本快速泛化。目前,GO-1大模型已成功部署到智元多款機器人本體之中。
此外,智元機器人還聯合香港大學推出UniVLA系統。據介紹,UniVLA是一個具備跨機器人本體、場景與任務泛化能力的通用策略學習系統。它通過構建以任務為中心的隱式動作空間,利用語言描述與視頻示范進行策略學習,實現從“看視頻”、“聽指令”到“動手操作”的通用控制。
而作為國內唯一一家從創業第一天就選擇了端到端統一大模型技術路線的公司,自變量機器人研發的WALL-A則是世界上最大規模的端到端統一具身大模型。這一模型突破了傳統分層架構的噪聲傳遞問題,支持從原始傳感器信號到機器人動作的縱向統一和橫向任務統一,跨任務泛化能力出色。
今年5月,自變量機器人宣布完成數億元A輪融資,由美團戰投領投、美團龍珠跟投。公司表示,本輪融資將用于持續加速全自研端到端通用具身智能大模型與機器人本體的同步迭代,以及未來多個應用場景的智慧化方案合作和落地。成立起不到一年半時間內,自變量機器人已完成7輪融資,累計融資金額超10億元。據投資人介紹,公司所堅持的“大小腦統一的端到端大模型”路線,正是多家投資機構青睞自變量機器人的核心原因。
校對:廖勝超