2025-03-29
今日,第二屆中國具身智能大會(CEAI2025)在北京成功召開。大會吸引了國內外科研院所、高校及企業(yè)代表逾千人參與,共同探討具身智能領域的前沿技術與產業(yè)應用。20余場專題論壇,涵蓋大模型與具身智能、人形機器人、深空探測等前沿領域。天娛數科首席數據官吳邦毅受邀出席此次盛會,圍繞“感知-決策-行動閉環(huán),具身智能體的通用化之路”核心命題,系統闡釋了具身智能體通用化技術路徑的創(chuàng)新范式。
演講中,吳邦毅直指行業(yè)痛點:“當前階段具身智能產業(yè)還有很多亟待突破的瓶頸,在數據獲取、算法開發(fā)、標準認證等方面仍存在諸多挑戰(zhàn)。比如在數據層面,3D數據匱乏且獲取成本高,嚴重制約了具身智能的深度訓練;算法層面,多數企業(yè)需從0到1獨立研發(fā),導致資源浪費和效率低下;標準認證不統一,硬件接口、通信協議和數據格式等缺乏統一標準,具身智能難以跨本體應用等等?!?/span>
天娛數科將具身智能通用AI Agent列為研發(fā)重點,以Behavision命名的AI Agent整合了“算法+數據+算力”,致力于打造通用的大腦和小腦開發(fā)平臺。Behavision通過云邊端協同的創(chuàng)新架構,形成了形成完整的智能閉環(huán)。
吳邦毅表示:“通過自建的3D數據采集基地,集成高精度動捕系統與光場掃描技術,天娛數科已整合120萬組3D場景數據、50萬組多模態(tài)數據,覆蓋工業(yè)、家庭、醫(yī)療等不同場景,并借助Sim2Real仿真數據智能泛化技術顯著提升數據訓練效率,實現多模態(tài)決策與世界模型構建。
不止如此,吳邦毅還提到:“由天娛數科參股公司——專注空間計算及人工智能芯片及產品設計的高科技企業(yè)芯明開發(fā)的3D雙目立體算法芯片及深度視覺模組,單芯片集成實時3D立體視覺感知、AI人工智能、SLAM實時定位建圖等多項功能,具備1毫秒運動到顯示延時、3.5TOPS超低功耗、12nm先進制程等優(yōu)勢,為機器人在復雜環(huán)境下的穩(wěn)定運行提供了強大的感知算力支持,為機器人裝上了‘空間之眼’。”
當前,具身智能正經歷從“機械控制”到“認知涌現”的質變。早期機器人依賴預設程序執(zhí)行單一動作(1.0階段),大模型時代通過模仿學習掌握技能(2.0階段),而真正的通用化必須跨越到3.0階段——讓機器建立對物理世界的因果推理能力。
決策層是具身智能體的“大腦”,決策邏輯本質上是對人類經驗的統計學習,天娛數科提出“云、邊、端”通用AI Agent架構,通過多模態(tài)大模型與擴散算法的融合,實現決策層的智能化升級。公司自研的天星基座大模型以及面向3D智能領域的“智者千問”行業(yè)大模型和智慧廣告大模型已通過中央網信辦備案,形成了協同互驅、優(yōu)勢疊加的模型矩陣。這些模型結合先進的數據訓練策略,如Action Chunking with Transformers(ACT)算法,讓機器人能夠快速學習復雜的動作序列和操作邏輯。
吳邦毅表示:“基于大模型的模仿學習技術正引領人形機器人進入智能化新階段段。通過構建多模態(tài)感知系統,機器人可實時捕捉人類示范的運動軌跡、力量控制等關鍵參數,結合強化學習算法自主優(yōu)化動作序列,實現從觀察到執(zhí)行的端到端能力遷移?!?/span>
隨著多模態(tài)大模型與物理引擎的深度耦合,具身智能體將具備更高級別的決策能力,通過實時環(huán)境語義分割、動作意圖預測等技術,不僅能完成指定任務,更能根據場景變化自主調整策略在工業(yè)、醫(yī)療、家居等不同場景中展現出更強的環(huán)境適應力。這種認知能力的躍升,標志著機器人正從單純的工具型設備向智能體形態(tài)加速演進。
“真正的智能,是在行動閉環(huán)中涌現”。吳邦毅表示在演講中詳細解析了天娛數科創(chuàng)新構建的云邊端協同架構,通過云端百萬級3D數據集與多模態(tài)大模型的深度訓練,邊緣側集成SLAM算法與3D空間計算芯片的實時決策,以及終端深度視覺模組實現精準執(zhí)行,形成三位一體的智能閉環(huán)。云端依托Behavision通用具身智能AI Agent,實現復雜場景的全局規(guī)劃與數據迭代;邊緣端以單芯片毫秒級響應能力處理實時感知數據,完成常規(guī)任務的自主決策;終端通過毫米級3D掃描和多模態(tài)交互,實現虛實場景的無縫銜接。