德克薩斯農工大學的工程學生們開發了一個基於記憶的導航框架,正在重新定義救援機器的潛力。這類由人工智能驅動的機器狗不僅能夠響應指令,還能夠進行視覺識別、記憶位置並即時做出決策。該機器旨在在混亂的環境中運作,支持搜索和救援隊伍、緊急救援人員及災難應對單位。團隊表示,該機器能理解語音指令,並利用人工智能和相機輸入進行路徑規劃及物體識別。
研究人員指出,憑藉先進的記憶、移動能力和語音控制,這款機器不僅僅是自動化的工具,更是在關鍵任務中提供更智能、更直觀的合作夥伴。上個月,麻省理工學院的研究人員開發了一套人工智能系統,使得機器人能迅速生成詳細的三維地圖,從而改善在危險、倒塌或災難環境中的導航和反應效率,因為在這些情況下每一秒都至關重要。
這套系統是一個地面機器人,配備了一個記憶驅動的導航框架,並利用多模態的大型語言模型進行運行。該模型能夠解讀視覺輸入,支持環境感知,並生成路由決策。它整合了圖像捕捉、高級推理和路徑優化,並與混合控制架構配合使用,實現長期策略和快速實時調整的平衡。機器人導航的發展歷程已從簡單的地標基礎方法轉向使用各種感官數據的先進計算系統,但不可預測和非結構化的環境,如災難區域、倒塌建築或偏遠地形,仍然對自動化系統提出挑戰,靈活性、高效性和快速決策至關重要。
研究人員強調,雖然機器狗和基於語言模型的導航已經分開探討,但將定制的多模態語言模型與視覺記憶結合於一個通用的模塊化平台,代表了一個新方向。開發團隊首先檢視該模型如何解讀基於相機的視覺數據,並將這些信息轉換為導航邏輯。在國家科學基金會的支持下,團隊將這一能力與語音指令互動相結合,展示視覺、記憶和語言如何協同運作。根據研究人員的說法,該機器的運作方式類似於人在不熟悉環境中的導航,將反應行為與深思熟慮的計劃相結合。它能夠即時避開障礙,同時利用高級推理根據當前視覺上下文和記憶來決定下一步行動。
隨著技術的進步,這種控制結構可能會成為人形機器人的普遍標準。德克薩斯農工大學的跨學科工程博士生Sanjaya Mallikarachchi在聲明中表示,機器的記憶驅動導航系統使其能夠回憶和重用之前走過的路徑,從而減少重複探索,提高效率。這一能力在缺乏GPS或未標記的環境中尤為重要,因為在搜索和救援行動中,快速可靠的移動至關重要。
該團隊指出,除了緊急應對外,這項技術的潛在應用範圍也非常廣泛。醫院、倉庫及其他大型設施可以利用這一系統來簡化運作。同樣的技術還可以支持視障人士的移動輔助,在危險地點進行偵察,或安全探索地雷區及其他危險地形。德克薩斯農工大學工程技術與工業分配系的助理教授Isuru Godage在聲明中說:“我們的願景核心是將多模態大型語言模型應用於邊緣,這使得我們的機器狗具備了前所未有的即時高級情境意識和情感智慧,這使系統能夠無縫地彌合人與機器之間的互動差距。”該團隊的研究細節已發表於IEEE Xplore期刊。




