
影像處理技術隨著 Nano Banana 和 Qwen Image 等產品的釋出而強勢迴歸,拓展了以往技術的邊界。我們已經告別了手指數量錯誤和文字拼寫錯誤等難題。這些模型能夠生成栩栩如生的影像和插圖,媲美設計師的作品。Meta 最新發布的 SAM3 也加入了這一生態系統。它採用統一的檢測、分割和跟蹤方法,為視覺內容賦予結構和理解,而不僅僅是生成影像。
本文將詳細介紹 SAM3 的功能、它在業界掀起的波瀾,以及如何獲取它。
什麼是SAM3?
SAM3,全稱 Segment Anything Model 3,是一款用於影像和影片分割與跟蹤的新一代計算機視覺模型。它接受文字或提示(例如影像示例)作為輸入,而不僅僅是固定的類別標籤。這是一種基於人工智慧的目標檢測和提取技術。現有模型只能分割諸如“人”、“桌子”等一般概念,而 SAM3 可以分割更細緻的概念,例如“穿菠蘿襯衫的人”。
SAM3 利用其可提示的概念分割功能克服了上述侷限性。無論您是用簡短的短語描述還是提供示例,它都能在影像或影片中找到並識別出您指定的任何內容,而無需依賴固定的物件型別列表。
如何訪問SAM3?
以下是訪問 SAM3 模型的一些方法:
基於 Web 的演示/體驗區:您可以訪問名為“Segment Anything Playground”的 Web 介面,上傳影像或影片,提供文字提示(或示例),並體驗 SAM3 的分割和跟蹤功能。

模型權重和程式碼可在 GitHub 上找到:Meta Research 的官方程式碼庫 (facebookresearch/sam3) 包含推理和微調程式碼,以及訓練好的模型檢查點的下載連結。
Hugging Face 模型中心:該模型可在 Hugging Face (facebook/sam3) 上找到,其中包含模型描述、載入方法以及影像/影片示例。
您還可以從 SAM3 的官方釋出頁面找到其他訪問該模型的方法。
SAM3的實際應用
讓我們開始動手實踐。為了測試 SAM3 的效能,我將在以下兩個任務中對其進行測試:
- 影像分割
- 影片分割
影像分割
雖然大多數人會嘗試識別影像中的不同型別物體,但我認為最好將其應用於更實際的工作負載。所以,在這個任務中,我會輸入一張包含多張桌子的圖片,看看它識別和區分桌子的能力如何。這是影像處理器最常用的任務之一。
輸入影像:

Source: YouTube
響應:
我在“Review Objects”框中輸入表格後,收到了以下回復。

該模型能夠圍繞影像中的所有桌子建立一個邊界框。它將這三張桌子呈現為三個物件,我們可以分別命名和修改它們。但這還不是全部。我們還可以對影像中識別出的物件新增不同的效果。在下面的影像中,我新增了模糊效果:

您還可以使用效果名稱旁邊的效果設定來調整這些效果的強度。
影片分割
對於影片分割,我將測試模型在足球場上跟蹤球員的效果,攝像機角度的變化會導致縮放比例相應改變。為了演示,我將使用梅西進球的這段影片:
響應:
當我將物件設定為“球員”後,收到了以下響應:

考慮到物件描述過於寬泛,模型標記了影片片段中的所有球員是可以理解的。但問題在於,根本無法單獨選中某個球員!
我嘗試使用“運球手”、“前鋒”、“邊鋒”等描述性詞語,但只有“球員”一詞效果尚可。而且一旦選中了球員,就無法將其從列表中移除。這很奇怪,因為在影像分割任務中,我可以使用 ROI 工具(位於工具右上角)來標記感興趣的球員。但在影片分割中,這個工具卻存在缺陷。
我還注意到,影片時長為 45 秒,但在影片播放器中卻只顯示了 10 秒。

這就是結果。正如你所見,所有玩家最終都被追蹤到了。但這裡又出現了一個問題:移除這些物體實在太難了。即使只移除一個物體,整個影片也需要重新渲染,這非常耗時,尤其是在需要移除多個物體(本影片片段中有 24 個)的情況下。
如果你感興趣,這是最終的影片片段:
這個模型確實很強大。它不僅能夠識別影像中的物體,還能根據輸入資訊識別物體,這無疑是一大亮點。該模型處理影像和影片的速度都很快,這是一個很大的優勢。影像分割功能比影片分割功能給我留下了更深刻的印象。但如果你實在沒有其他辦法,或許也可以勉強使用影片分割功能。
以下是我在使用 SAM3 時的一些建議:
- 儘可能使用 ROI 標記來突出顯示你想要的目標物體。
- 如果影片時長超過 10 秒,請將其分割成多個 10 秒的片段。
- 上傳媒體後,請儘量在 5 分鐘內完成任務,否則可能會遇到伺服器錯誤:

小結
SAM3 在提供便捷的尖端影像處理工具和濾鏡方面堪稱佼佼者。它在影像處理方面的表現堪稱突破性,而其影片分割功能也極具潛力。SAM3 與 SAM3D 的結合使其成為任何希望利用 AI 提升工作效率的影像愛好者的首選工具。這些模型目前正在不斷改進,其功能將隨著時間的推移而進一步增強。
常見問題解答
問題 1:SAM3 與其他分割模型有何不同?
答:SAM3 可以根據簡短的文字提示或示例影像分割物件,而不僅僅是預定義的標籤。它能夠理解更具體的概念,例如“穿菠蘿襯衫的人”,並且適用於影像和影片。
問題 2:如何使用 SAM3?
答:您可以透過基於網頁的 Segment Anything Playground 進行嘗試,也可以從 GitHub 下載權重和程式碼,或者從 Hugging Face 模型中心載入。
問題 3:SAM3 的不足之處是什麼?
答:影片分割仍然存在一些侷限性。例如,很難從大類物件中分離出單個物件,移除物件會強制重新渲染,而且超過 10 秒的影片片段可能需要分割。

評論留言