機器人研究迎來ImageNet時刻：一個資料集，讓DeepMind具身智慧大模型突飛猛進

為什麼機器人技術遠遠落後於 NLP、視覺和其他 AI 領域？除其他困難外，資料短缺是罪魁禍首。Google DeepMind 聯合其他機構推出了 Open X-Embodiment 資料集，並訓練出了能力更強的 RT-X 模型。

在大模型不斷取得突破的 2023，把大模型當做大腦來輔助運行的具身智慧機器人研究也在被迅速推進。

2 個多月前，Google DeepMind 推出了第一個控制機器人的視覺 – 語言 – 動作（VLA）模型 ——RT-2。這個模型讓機器人不僅能解讀人類的複雜指令，還能看懂眼前的物體（即使這個物體之前從未見過），並按照指令採取動作。比如，你讓機器人拿起桌上「已滅絕的動物」。它會抓起眼前的恐龍玩偶。

當時，一位Google高管稱，RT-2 是機器人制造和程式設計方式的重大飛躍。「由於這一變化，我們不得不重新考慮我們的整個研究規劃了。」

更令人吃驚的是，時間僅僅過去了兩個多月，DeepMind 的這個機器人模型又進步了，而且一下就提高了兩倍。

這是怎麼實現的呢？

我們知道，機器人通常在做某一件事情上非常專業，但通用能力很差。一般情況下，你必須針對每項任務、每個機器人和環境訓練一個模型。改變一個變數往往需要從頭開始。但是，如果我們能將各種機器人學的知識結合起來，創造出一種訓練通用機器人的方法呢？

這就是 DeepMind 在過去一段時間所做的事情。他們彙集了來自 22 種不同機器人類型的資料，以創建 Open X-Embodiment 資料集，然後在之前的模型（RT-1 和 RT-2）的基礎上，訓練出了能力更強的 RT-X（分別為 RT-1-X 和 RT-2-X）。

他們在五個不同的研究實驗室測試了 RT-1-X 模型，結果顯示，與針對每個機器人獨立開發的方法相比，新方法在五種不同的常用機器人中平均成功率提高了 50%。他們還表明，在上述資料集上訓練的 RT-2-X 在現實世界機器人技能上的表現提高了 2 倍，而且，通過學習新資料，RT-2-X 掌握了很多新技能。這項工作表明，在來自多個機器人類型資料上訓練的單個模型比在來自單個機器人類型資料上訓練的模型在多個機器人上的性能要好得多。

值得一提的是，這項研究並非由 DeepMind 獨立完成，而是他們與 33 家學術實驗室通力合作的結果。他們致力於以開放和負責任的方式開發這項技術。

d2b5cde88ee3568a14954158cde1b6f96ca702d6

目前，Open X-Embodiment 資料集和 RT-1-X 模型檢查點已經對廣泛的研究社區開放。

ffadac78e726196931f797d7337c0afe4db65e8e

英偉達高級人工智慧科學家Jim Fan表示今天可能是機器人的ImageNet時刻。

158bba13b7b49e4700d332e8c029603eb57fe28d

Google研究員Karol Hausman也表達了同樣的感嘆：機器人的ImageNet時刻終於到來了。

630396868bddc4860e0daf7e8ddbe4c51e8b923e

Open X-Embodiment 資料集，機器人的 ImageNet 時刻

資料集以及基於資料集訓練的模型在推進 AI 進步方面發揮了關鍵作用。正如 ImageNet 推動了計算機視覺的研究，Open X-Embodiment 同樣推動了機器人技術的發展。

一直以來，構建多樣化資料集是訓練通用模型的關鍵，這些訓練好的模型可以控制許多不同類型的機器人，遵循不同的指令，對複雜任務進行基本推理，並有效地進行泛化。然而，對於任何單個實驗室來說，收集這樣的資料集都過於耗費資源。

為此，DeepMind 與 33 家機構的學術研究實驗室展開合作，從而構建了 Open X-Embodiment 資料集。他們從 22 個機器人實例中收集資料，這些資料涵蓋超過 100 萬個片段，展示了機器人 500 多項技能和在 150000 項任務上的表現。該資料集是同類中最全面的機器人資料集。

6becc163f3037e6791b4bdf5d58bd27ea4e96056

來自 Open X-Embodiment 資料集的樣本，包括 500 多種技能和 150000 個任務。

d09f73874f924bc531d135453f9bad79dc030cbd

Open X-Embodiment 基本資訊

RT-1-X：成功率提升 50%

RT-X 基於兩個 robotics transformer（RT）模型構建而成。

具體而言，他們使用 RT-1 訓練 RT-1-X，其中 RT-1 是建立在 Transformer 架構上的 35M 參數網路，專為機器人控制而設計，如圖 3 所示。

此外，他們還在 RT-2 上訓練 RT-2-X，其中 RT-2 是一系列大型視覺語言動作模型 (VLA)，在網際網路規模的視覺和語言資料以及機器人控制資料上訓練而成。

e345b6a6e510503ff8277681bb576fca87064e82

為了評估 RT-1-X，DeepMind 將其與在特定任務上（例如開門）開發的模型進行了比較。結果顯示，使用 Open X-Embodiment 資料集訓練的 RT-1-X 平均性能優於原始模型 50%。

a7566d4afc52c5e8b8ce5ead120032eba3e6a0cb

RT-1-X 平均成功率比原始方法提高 50%。

來自不同合作機構的關於 RT-1-X 的效果展示

RT-2-X：無障礙解鎖新技能

為了研究 RT-X 的知識遷移能力，DeepMind 又進行了其他實驗。這些實驗涉及 RT-2 資料集中不存在的對象和技能，但這些對象和技能存在於另一個機器人的資料集中。結果表明，在掌握新技能方面，RT-2-X 的成功率是其之前的最佳模型 RT-2 的三倍。這也說明了，與其他平臺的資料進行聯合訓練可以為 RT-2-X 賦予原始資料集中不存在的額外技能，使其能夠執行新穎的任務。

ef96b43559b56525865c5112dc847a76ebd15aa2

上圖展示了 RT-2-X 對物體之間空間關係的理解。

一系列結果表明，RT-2-X 實現了 RT-2 以前無法實現的技能，包括對空間更好的理解。例如，如果我們要求機器人「將蘋果移動到布料附近」、又或者要求機器人「將蘋果移動到布料上」，為了實現目標要求，機器人會採取完全不同的軌跡。只需將介詞從「near」更改為「on」，就可以調整機器人採取的動作。

RT-2-X 表明，將其他機器人的資料結合到 RT-2-X 訓練中可以改善機器人的任務執行範圍，但前提是使用足夠高容量的架構。

RT-2-X (55B): 迄今為止在學術實驗室執行未知任務的最大模型之一

研究啟發：機器人需要相互學習，研究人員也一樣

機器人研究正處於令人興奮的早期階段。DeepMind 的這項新研究表明，通過利用更多樣化的資料和更好的模型進行擴展學習，有可能開發出更有用的輔助機器人。與世界各地的實驗室合作並共享資源，對於以開放和負責任的方式推進機器人研究至關重要。DeepMind 希望通過開放資料來源和提供安全但有限的模型來減少障礙，加快研究。機器人技術的未來有賴於機器人之間的相互學習，最重要的是，讓研究人員能夠相互學習。

這項工作證明，模型可以在不同環境下通用，無論是在Google DeepMind 的機器人上，還是在世界各地不同大學的機器人上，其性能都得到了顯著提高。未來的研究可以探索如何將這些進步與 RoboCat 的自我完善特性相結合，使模型能夠根據自身經驗不斷改進。未來的另一個方向是進一步探索不同資料集的混合會如何影響跨具身智慧體泛化，以及這種泛化是如何是實現的。

如果你想了解有關 RT-X 的更多資訊，可以參考 DeepMind 發佈的這篇論文：

edbe3670ce374c4d1760aeb02a206d8bbc062919

論文連結：https://robotics-transformer-x.github.io/paper.pdf
項目連結：https://robotics-transformer-x.github.io/

參考連結：https://www.deepmind.com/blog/scaling-up-learning-across-many-different-robot-types

機器人研究迎來ImageNet時刻：一個資料集，讓DeepMind具身智慧大模型突飛猛進

機器人研究迎來ImageNet時刻：一個資料集，讓DeepMind具身智慧大模型突飛猛進

You missed

核问题仍是美伊谈判死结，特朗普希望更多国家护航霍尔木兹

一个人跑通一家公司，上海模速空间里的AI新物种

33万进口商共可获1660亿美元，美国关税退款5月11日左右开始发放

【深度】大主播离职，东方甄选逃不出的困局