多模態版Llama2上線，Meta發佈AnyMAL

在多個基準測試中均刷新了業界最好的 zero-shot 性能。

一個統一的模型，可以對不同模態輸入內容（文字、圖像、視訊、音訊、IMU 運動傳感器資料）實現理解，並生成文字響應，技術基於 Llama 2，來自 Meta。

昨天，多模態大模型 AnyMAL 的研究吸引了 AI 研究社區的關注。

大型語言模型（LLM）以其巨大的規模和複雜性而聞名，它極大地增強了機器理解和表達人類語言的能力。LLM 的進步使視覺語言領域有了顯著進步，彌合了圖像編碼器和 LLM 之間的差距，將它們的推理能力結合起來。先前的多模態 LLM 研究集中在結合文字和另一種模態的模型上，如文字和圖像模型，或者集中在非開源的專有語言模型上。

如果有能夠實現多模態的更好方法，將各種模態能夠嵌入在 LLM 中使用，會給我們帶來不一樣的體驗嗎？

輸出示例

為解決這個問題，來自 Meta 的研究人員近日推出了 AnyMAL（Any-Modality Augmented Language Model）。這是一個經過訓練的多模態編碼器集合，可將來自各種模態（包括圖像、視訊、音訊和 IMU 運動傳感器資料）的資料轉換到 LLM 的文字嵌入空間。

47b943e3a53018c3394e5a326777b7418725a6a7

論文地址：https://huggingface.co/papers/2309.16058

據介紹，該研究的主要貢獻如下：

為構建多模態 LLM 提出了一種高效、可擴展的解決方案。本文提供了在大型資料集上預先訓練的投影層，這些資料集包含多種模態（例如，2 億張圖像、220 萬段音訊、50 萬 IMU 時間序列、2800 萬段視訊），所有資料集都與同一個大模型（LLaMA-2- 70B-chat）對齊，從而實現了交錯式多模態上下文提示。
本文利用跨三種模式（圖像、視訊和音訊）的多模態指令集對模型進行了進一步微調，涵蓋了簡單 QA 領域之外的各種不受約束的任務。該資料集具有高質量的人工收集指令資料，因此本文也將其作為複雜多模態推理任務的基準。
與現有文獻中的模型相比，本文最佳模型在各種任務和模式的自動和人工評估中都取得了很好的零誤差性能，在 VQAv2 上提高了 7.0% 的相對準確率，在零誤差 COCO 圖像字幕上提高了 8.4% 的 CIDEr，在 AudioCaps 上提高了 14.5% 的 CIDEr，創造了新的 SOTA。

方法

方法概覽

預訓練模態對齊

本文使用配對的多模態資料（特定模態信號和文字敘述）對 LLM 進行預訓練，從而實現多模態理解能力，如圖 2 所示。具體來說，研究為每種模態訓練一個輕量級介面卡，將輸入信號投射到特定 LLM 的文字 token 嵌入空間中。這樣，LLM 的文字 token 嵌入空間就變成了一個聯合 token 嵌入空間，token 代表文字或其他模態。

對於圖像對齊，研究使用了 LAION-2B 資料集的一個乾淨子集，使用 CAT 方法進行過濾，並對任何可檢測的人臉進行模糊處理。對於音訊對齊，研究使用 AudioSet (2.1M)、AudioCaps (46K) 和 CLOTHO (5K) 資料集。研究還使用 Ego4D 資料集進行 IMU 和文字對齊 (528K)。

對於大型資料集，將預訓練擴展到 70B 參數模型需要大量資源，通常需要使用 FSDP 封裝器在多個 GPU 上對模型進行分片。為了有效地擴展訓練規模，本文在多模態設置中實施了量化策略（4 bit 和 8 bit），其中凍結了模型的 LLM 部分，只有模態 tokenizer 是可訓練的。這種方法將記憶體需求縮小了一個數量級。因此， 70B AnyMAL 能夠在單個 80GB VRAM GPU 上就完成訓練，batch size 為 4。與 FSDP 相比，本文所提出的量化方法只使用了 GPU 資源的一半，卻實現了相同的吞吐量。

利用多模態指令資料集進行微調

為了進一步提高模型對不同輸入模態的指令跟隨能力，研究利用多模態指令調整（MM-IT）資料集進行了額外的微調。具體來說，我們將輸入連接為 [

]，這樣響應目標就同時以文字指令和模態輸入為基礎。研究對以下兩種情況進行消減：（1）在不改變 LLM 參數的情況下訓練投影層；或（2）使用低級適應（Low-Rank Adaptation）進一步調整 LM 行為。研究同時使用人工收集的指令調整資料集和合成資料。

實驗及結果

圖像標題生成

表 2 顯示了在 COCO 和標有「詳細描述」任務（MM-IT-Cap）的 MM-IT 資料集子集上的零樣本圖像字幕生成性能。可以看出， AnyMAL 變體在這兩個資料集上的表現都明顯優於基線。值得注意的是，AnyMAL-13B 和 AnyMAL-70B 變體的性能沒有明顯差距。這一結果表明，底層 LLM 能力對圖像標題生成任務的影響較小，但在很大程度上取決於資料規模和配準方法。

多模態推理任務的人工評估

圖 3 顯示，與基線（LLaVA：34.4% 的勝率和 MiniGPT4：27.0% 的勝率）相比，AnyMAL 性能強勁，與人工標註的實際樣本的差距較小（41.1% 的勝率）。值得注意的是，使用完整指令集微調的模型表現出最高的優先勝率，顯示出與人類標註的響應相當的視覺理解和推理能力。還值得注意的是，BLIP-2 和 InstructBLIP 在這些開放式查詢中表現不佳（分別為 4.1% 和 16.7% 的優先勝出率），儘管它們在公開的 VQA 基準測試中表現出色（見表 4）。

VQA 基準

表 4 顯示了在 Hateful Meme 資料集、VQAv2 、TextVQA 、ScienceQA、VizWiz 和 OKVQA 上的零樣本性能，與文獻中報告了各自基準上零樣本結果的模型進行了比較。研究將重點放在零樣本評估上，以便在推理時最好地估計模型在開放式查詢上的性能。

視訊 QA 基準

如表 6 所示，研究在三個具有挑戰性的視訊 QA 基準上對模型進行了評估。

音訊字幕生成

表 5 顯示了 AudioCaps 基準資料集上的音訊字幕生成結果。AnyMAL 的表現明顯優於文獻中其他最先進的音訊字幕模型（例如，CIDEr +10.9pp，SPICE +5.8pp），這表明所提出的方法不僅適用於視覺，還適用於各種模態。與 7B 和 13B 變體相比，文字 70B 模型表現出了明顯的優勢。