微軟用GPT-4V解讀視訊，看懂電影還能講給盲人聽，1小時不是問題

編輯：Panda、陳萍

差不多已經掌握語言能力的大模型正在進軍視覺領域，但具有里程碑意義的 GPT-4V 也仍有諸多不足之處，參閱《試過 GPT-4V 後，微軟寫了個 166 頁的測評報告，業內人士：高級使用者必讀》。近日，微軟 Azure AI 將 GPT-4V 與一些專用工具集成到一起，打造出了更強大的 MM-Vid，其不僅具備其它 LMM 的基本能力，還能分析長達一小時的長視訊以及解說視訊給視障人士聽。

世界各地的人們每天都會創造大量視訊，包括使用者直播的內容、短視訊、電影、體育比賽、廣告等等。

視訊是一種多功能媒介，可以通過文字、視覺和音訊等多種模態傳遞資訊和內容。如果可以開發出能學習多模態資料的方法，就能幫助人們設計出具備強大能力的認知機器 —— 它不會受限於經過人工調整的資料集，而是可以分析原生態的真實世界視訊。但是，在研究視訊理解時，多模態這種豐富的表徵會帶來諸多挑戰，尤其是當視訊較長時。

理解長視訊是很複雜的任務，需要能分析多個片段的圖像和音訊序列的先進方法。不僅如此，另一大挑戰是提取不同來源的資訊，比如分辨不同的說話人、識別人物以及保持敘述連貫性。此外，基於視訊中的證據回答問題也需要深入理解視訊的內容、語境和字幕。當分析的是直播或遊戲視訊時，還存在實時處理動態環境的難題，這需要語義理解和長期策略規劃能力。

近段時間，大型預訓練視訊模型和視訊 – 語言模型帶來了巨大進步，它們在視訊內容上的推理能力已經顯現。但是，這些模型通常是用短視訊片段訓練的（比如 Kinetics 和 VATEX 中的 10 秒視訊）或預定義了動作類別（Something-Something v1 有 174 類）。由此造成的後果是，這些模型可能難以詳細理解真實世界視訊的複雜微妙。

為了讓模型能更全面地理解我們日常生活中遇到的視訊，我們需要能解決這些複雜挑戰的方法。

近日，微軟 Azure AI 為這些問題給出了自己的解答：MM-Vid。該團隊表示這種技術可以直接用於理解真實世界視訊。簡單來說，他們的方法涉及將長視訊分解成連貫敘述，然後再利用這些生成的故事來分析視訊。

a0eee41c67cd1e023cb2f7d6520e14b9538e958a

論文地址：https://arxiv.org/pdf/2310.19773.pdf
項目地址：https://multimodal-vid.github.io/

MM-Vid 是近來處於 AI 社區關注中心的大型多模態模型（LMM）的新成員；而 LMM 中最具代表性的 GPT-4V 已經展現出了突破性的能力 —— 可以同時處理輸入的圖像和文字，執行多模態理解。為了實現視訊理解，MM-Vid 將 GPT-4V 與一些專用工具集成到了一起，實驗結果也證明了這種方法的有效性。圖 1 展示了 MM-Vid 能夠實現的多種能力。

MM-Vid 方法介紹

圖 2 展示了 MM-Vid 系統的工作流程。MM-Vid 以視訊檔案為輸入，輸出一個描述該視訊內容的腳本。這種生成的腳本讓 LLM 可以實現多種視訊理解能力。

6742f62cda4671028896385c48a508c7f6dfbec5

MM-Vid 包含四個模組：多模態預處理、外部知識收集、視訊片段層面的視訊描述生成、腳本生成。

多模態預處理。對於輸入的視訊檔案，預處理模組首先使用已有的 ASR 工具從視訊中提取出轉錄文字。之後，將視訊切分成多個短視訊片段。此過程需要對視訊幀進行均勻取樣，使得每個片段由 10 幀組成。為了提升幀取樣的整體質量，研究者使用了 PySceneDetect 等成熟的場景檢測工具來幫助識別關鍵的場景邊界。

外部知識收集。在 GPT-4V 的輸入 prompt 中，研究者採用了集成外部知識的方法。該方法涉及收集可用的資訊，比如視訊的元資料、標題、摘要和人物面部照片。在實驗中，研究者收集的元資料、標題和摘要來自 YouTube。

片段層面的視訊描述生成。在多模態預處理階段，輸入視訊會被切分為多個視訊片段。每個片段通常包含 10 幀，研究者的做法是使用 GPT-4V 來為每個片段生成視訊描述。通過將視訊幀與相關的文字 prompt 一起輸入到 GPT-4V 模型，便能得到捕獲了這些幀中描繪的視覺元素、動作和事件的詳細描述。

此外，研究者還探索了視覺 prompt 設計，即在 GPT-4V 的輸入中不僅提供人物的名字，還提供人物的面部照片。實驗結果表明這種視覺 prompt 設計有助於提升視訊描述的質量，尤其有助於更準確地識別人物。

使用 LLM 生成腳本。在為每個視訊片段生成描述之後，再使用 GPT-4 將這些片段層面的描述整合成一個連貫的腳本。該腳本是對整個視訊的全面描述，可被 GPT-4 用於解決各種視訊理解任務。

用於流輸入的 MM-Vid

圖 3 展示了用於流輸入的 MM-Vid。

5360701ad47aa76d5efc669a7cff2cec9d5ff27a

在這種情況下，MM-Vid 的運作模式是作為動態環境中的一個智慧體（agent），其主要輸入為流視訊幀。該智慧體會將持續輸入的流視訊幀視為狀態，其代表了在該環境中不斷揭示的持續性視覺資訊。然後再由 GPT-4V 處理這些狀態，從而得到有資訊依據的決策並生成響應。

通過持續分析流視訊幀，MM-Vid 可將原始視覺資料轉換成有意義的見解，進而為視訊遊戲、具身智慧體和 GUI 引導等應用提供有價值的幫助。

實驗

實驗設置

該團隊實現的 MM-Vid 基於 MM-React 程式碼庫。他們使用的自動語音識別（ASR）工具是通過 Azure Cognitive Services API 使用的公開可用工具，場景檢測則是使用了 PySceneDetect。

MM-Vid 的功能

研究者在論文中展示了多個 MM-Vid 完整執行流程的示例。

下面是一個 MM-Vid 執行流程示例。

d3aa9641460c898cd096a8d00886a1331e63dc97

經過這些流程後，MM-Vid 生成的腳本總結了對視訊內容的理解。從而讓後續 LLM 可以基於此處理具體的任務。研究者討論過的具體任務包括：有根據的問答、多模態推理、理解長達一小時的視訊、多視訊情景分析、人物識別、說話人識別、音訊描述生成、自我調優、快速變化的短視訊。具體詳情請參閱原論文，但總體而言，MM-Vid 都展現出了很不錯的效果。

下面是一個說話人識別的示例。

應用於互動式環境

研究者也評估了 MM-Vid 應用於流輸入時的情況。MM-Vid 可作為互動式環境中的智慧體，持續接收流視訊幀輸入。

具身智慧體。下圖展示了將 MM-Vid 應用於一段頭戴式相機拍攝的第一人稱視訊的情況。這段視訊來自 Ego4D 資料集，簡單展示了拍攝者在家居環境中的日常生活。值得注意的是，MM-Vid 理解這種視訊內容的能力得到了體現，並且還能輔助使用者完成一些實際任務。

122d46800a160057b4533dce7085c0e156beaa5d

玩視訊遊戲。下面的視訊示例是將 MM-Vid 用於視訊遊戲《超級瑪麗》。實驗中，智慧體會持續地以三幀視訊作為輸入的狀態，然後計算下一個可能的控制動作。結果表明，這個智慧體能夠理解這種特定的視訊遊戲動態，並能生成可以有效玩遊戲的合理動作控制。

GUI 導引。下圖給出了一個示例。這裡，智慧體持續接收的輸入是 iPhone 螢幕截圖和之前的使用者動作。結果發現，該智慧體可以有效預測使用者使用手機時的下一步可能動作，比如點選正確的購物應用，然後搜尋感興趣的商品，最後下單購買。這些結果表明 MM-Vid 能與圖形使用者界面進行有效的互動，能通過數字接口實現無縫且智慧化的使用者導引。

使用者研究

研究者探索 MM-Vid 幫助盲人或弱視者的潛力。音訊描述（AD）能在視訊的音軌中增加音訊敘述，這能提供主視訊音軌中沒有提供的重要視覺詳情。這樣的描述能為視覺障礙人士傳達關鍵的視覺內容。

為了評估 MM-Vid 在生成音訊描述方面的有效性，研究者進行了一場使用者研究。他們邀請了 9 位參與者參與評估。其中 4 位參與者失明或視力低下，其餘 5 名視力正常。所有參與者聽力都正常。

下面的視訊是 MM-Vid 的音訊描述應用示例：

結果如圖 5 所示，對於以李克特量表計量的參與者總體滿意度（0 = 不滿意到 10 = 非常滿意），MM-Vid 生成的音訊描述平均比人工給出的音訊描述低 2 分。

b0e3259d00c132100976e032d53fc05dec2f9409

在聽 MM-Vid 生成的音訊描述時，參與者提出的困難包括：1）音訊描述與原始視訊中的對話偶爾重疊，2）由於 GPT-4V 的幻覺問題而出現錯誤描述。儘管總體滿意度有差異，但所有參與者都認同這一點：MM-Vid 生成的音訊描述是一種成本高效且可擴展的解決方案。因此，對於無法被專業人士描述成音訊的大量視訊來說，就可以使用 MM-Vid 這樣的工具來處理它們，從而造福視覺障礙社區。

微軟用GPT-4V解讀視訊，看懂電影還能講給盲人聽，1小時不是問題

微軟用GPT-4V解讀視訊，看懂電影還能講給盲人聽，1小時不是問題

You missed

核问题仍是美伊谈判死结，特朗普希望更多国家护航霍尔木兹

一个人跑通一家公司，上海模速空间里的AI新物种

33万进口商共可获1660亿美元，美国关税退款5月11日左右开始发放

【深度】大主播离职，东方甄选逃不出的困局