Apple 的研究人員最近發佈了一個經過調整的 SlowFast-LLaVA 模型,這個模型在長篇視頻分析和理解方面的表現超越了許多更大型的模型。這一發展具有重要意義,因為它展示了如何有效地將視覺信息與自然語言處理結合起來,從而提升了對視頻內容的理解能力。當一個大型語言模型 (LLM) 被訓練來理解視頻時,它的運作方式是將視頻分解為幀,然後利用計算機視覺技術提取視覺特徵,分析這些特徵隨時間的變化,並將其與語言對齊,以便能夠用文字來描述或推理視頻內容。
傳統上,一種效率極低的方法是分析視頻中的每一個幀,這會產生大量的重複信息,因為大多數幀之間幾乎沒有顯著的變化。這樣的重複信息不僅增加了計算負擔,還容易超過 LLM 的上下文窗口,這是其能夠同時保留的信息量。一旦超過這個窗口,模型將不再考慮舊的標記,而是為新的標記騰出空間,這樣會影響到模型的推理能力。雖然有更高效的方法可以訓練視頻 LLM,但 Apple 的研究提供了一個清晰的框架,展示了如何在保持高效性的同時提升視頻理解的準確性。
Apple 的研究指出,現有的視頻 LLM 存在三個主要的限制:首先,這些模型往往依賴於長上下文窗口和大量幀,這樣的設計不僅效率低下,還難以轉移到較小的模型;其次,許多模型需要複雜的多階段訓練流程,這些流程通常使用私有數據集,難以重現;最後,許多模型僅針對視頻任務進行優化,這限制了它們作為通用模型的有效性。為了解決這些問題,Apple 首先研究了 SlowFast-LLaVA,一個組合空間和時間線索的開源模型。這個模型透過雙流設置進行工作:慢流在較高的細節下觀察較少的幀,以捕捉場景內容,而快流則在較低的細節下觀察更多的幀,以跟蹤時間上的運動。
在此基礎上,Apple 對 SlowFast-LLaVA 進行了微調,以增強其通用視覺推理能力。接下來,這個模型同時在圖像和視頻上進行訓練,旨在學習時間結構的同時不犧牲圖像理解。最終形成的 SlowFast-LLaVA-1.5 模型,具備 1B、3B 和 7B 參數的不同版本,能夠在多項視頻任務中超越許多更大型的模型,研究人員指出,這種超越有時是“顯著的”。在長篇視頻基準測試中,Apple 的模型在所有尺寸上都創造了新的最佳結果,特別是在其最小的 1B 版本中。
儘管如此,Apple 的研究仍然承認這一模型存在一些限制。SF-LLaVA-1.5 的最大輸入幀長度設定為 128,這意味著不論是分析幾分鐘還是幾小時的視頻,最多只能選取 128 幀進行分析,其中 96 幀來自快流,32 幀來自慢流。這種設計可能會在長篇視頻中錯過一些關鍵幀,並可能誤導模型對視頻播放速度的理解。雖然研究人員認為可以通過調整所有參數來進一步提高性能,但這對於長視頻 LLM 來說並不簡單,因為高 GPU 記憶體成本使得緩存激活值變得困難。未來的研究可能會探討集成節省記憶體的技術,如隨機反向傳播。
Apple 的這一研究通過公開數據集進行訓練,使得 SF-LLaVA-1.5 成為一個最新的開源模型,並且可以在 GitHub 和 Hugging Face 上獲得完整的研究資料。這標誌著在視頻理解和自然語言處理領域的一個重要進步,也為未來的技術發展提供了新的思路。




