
隨著 Nano Banana 和 Qwen Image 等軟體的釋出,影像處理技術迎來了復興,突破了以往的界限。我們不再侷限於多餘手指或斷斷續續的文字。這些模型能夠生成栩栩如生的影像和插圖,媲美設計師的作品。Meta 最新發布的 SAM3D 也加入了這一生態系統。憑藉其巧妙的 3D 物體和人體建模方法,SAM3D 將成為任何設計師工具箱中不可或缺的利器。
本文將詳細介紹 SAM3D 的功能、使用方法以及實際操作,幫助您瞭解其強大之處。
什麼是SAM3D?
SAM3D,全稱 Segment Anything Model 3D,是一款用於全 3D 場景空間分割的新一代系統。它可處理點雲、深度圖和重建體資料,並接受文字或提示資訊,而非固定的類別標籤。這是利用人工智慧驅動的理解,直接在三維空間中進行物體檢測和提取的工具。雖然現有的 3D 模型可以分割諸如“人”或“椅子”之類的寬泛類別,但 SAM3D 可以提取出更具體的概念,例如沙發旁的落地燈。
SAM3D 透過在 3D 空間中使用可提示的概念分割來克服這些限制。無論您使用簡短的短語、一個點還是一個參考形狀進行提示,它都可以找到並提取掃描場景中您描述的任何物體,而無需依賴預設的類別列表。
如何訪問SAM3?
以下是一些訪問 SAM3 模型的方法:
- 基於 Web 的演示/體驗區:您可以訪問名為“Segment Anything Playground”的 Web 介面,上傳影像或影片,提供文字提示(或示例),並體驗 SAM3D 的分割和跟蹤功能。

- 模型權重和程式碼可在 GitHub 上找到:Meta Research 的官方程式碼庫 (facebookresearch/sam-3d-body) 包含推理和微調程式碼,以及訓練好的模型檢查點的下載連結。
- Hugging Face 模型中心:該模型可在 Hugging Face (huggingface/SAM3D) 上找到,其中包含模型描述、載入方法以及影像/影片示例。
您還可以從 SAM3D 的官方釋出頁面找到其他訪問該模型的方法。
SAM3的實際應用
讓我們開始動手實踐。為了測試 SAM3D 的效能,我將在以下兩個任務中對其進行測試:
- 建立 3D 場景
- 建立 3D 人體
用於演示的影像是 Meta 在其 Playground 上提供的示例影像。
建立3D場景
此工具允許您從影像建立 3D 物件模型。只需單擊物件,它就會在其周圍建立一個輪廓,您可以進一步細化該輪廓。本次測試我們將使用以下圖片:

響應:

選擇咖啡機後,我收到了以下響應:
模型識別出這是一臺咖啡機,並能夠對其進行建模。仔細觀察視覺化結果,你會發現有些咖啡的成分在影像中並不存在,但模型卻根據其對咖啡機的理解自行生成了這些成分。
建立3D人體模型
對於 3D 人體識別,我將測試模型在給定影像中對人體的對映效果。為了演示,我將使用以下影像:

響應:
它正確識別了影片片段中唯一的人物,並根據他的身體建立了一個可互動的 3D 模型。模型與人物體型非常接近,這令人滿意。對於不包含多個人物且影像質量較高的照片,這款工具將非常實用。
結論
該模型能夠完成其工作。但我感覺使用它時存在一些限制,尤其是與可定製性更高的 SAM3 相比。此外,3D 建模並不完美,尤其是在物體檢測方面。
以下是我在使用該工具時發現的一些明顯問題:
- 僅限於簡單影像:當我使用 Meta 提供的示例影像作為輸入時,3D 人體模型表現良好。但當我提供質量較低且未針對該工具進行最佳化的影像時,它的表現就顯得很差。

選擇多個書籍(物件)時建模錯誤
- 無法手動選擇:3D 人體工具會自動識別人體,不允許進行任何劃分。因此,當人體輪廓不正確或不符合預期時,該工具難以使用。
- 崩潰和超時:當輸入影像複雜且包含多個物件時(如第一點所述),模型不僅需要花費大量時間來識別人體,還會佔用大量硬體資源。有時甚至會因為資源不足而導致網頁直接崩潰。
小結
SAM3D 透過大幅簡化高階空間分割的使用,提高了 3D 場景處理的標準。它為點雲和體資料處理帶來了重大進步,而其跨多個檢視的分割能力則開闢了新的可能性。SAM3D 與 SAM3 結合使用,對於任何希望在 2D 和 3D 環境中進行 AI 驅動的場景理解的使用者來說,都是一個強有力的選擇。該模型仍在不斷發展,隨著研究的成熟,其功能也將不斷擴充套件。

評論留言