
图像处理技术随着 Nano Banana 和 Qwen Image 等产品的发布而强势回归,拓展了以往技术的边界。我们已经告别了手指数量错误和文本拼写错误等难题。这些模型能够生成栩栩如生的图像和插图,媲美设计师的作品。Meta 最新发布的 SAM3 也加入了这一生态系统。它采用统一的检测、分割和跟踪方法,为视觉内容赋予结构和理解,而不仅仅是生成图像。
本文将详细介绍 SAM3 的功能、它在业界掀起的波澜,以及如何获取它。
什么是SAM3?
SAM3,全称 Segment Anything Model 3,是一款用于图像和视频分割与跟踪的新一代计算机视觉模型。它接受文本或提示(例如图像示例)作为输入,而不仅仅是固定的类别标签。这是一种基于人工智能的目标检测和提取技术。现有模型只能分割诸如“人”、“桌子”等一般概念,而 SAM3 可以分割更细致的概念,例如“穿菠萝衬衫的人”。
SAM3 利用其可提示的概念分割功能克服了上述局限性。无论您是用简短的短语描述还是提供示例,它都能在图像或视频中找到并识别出您指定的任何内容,而无需依赖固定的对象类型列表。
如何访问SAM3?
以下是访问 SAM3 模型的一些方法:
基于 Web 的演示/体验区:您可以访问名为“Segment Anything Playground”的 Web 界面,上传图像或视频,提供文本提示(或示例),并体验 SAM3 的分割和跟踪功能。

模型权重和代码可在 GitHub 上找到:Meta Research 的官方代码库 (facebookresearch/sam3) 包含推理和微调代码,以及训练好的模型检查点的下载链接。
Hugging Face 模型中心:该模型可在 Hugging Face (facebook/sam3) 上找到,其中包含模型描述、加载方法以及图像/视频示例。
您还可以从 SAM3 的官方发布页面找到其他访问该模型的方法。
SAM3的实际应用
让我们开始动手实践。为了测试 SAM3 的性能,我将在以下两个任务中对其进行测试:
- 图像分割
- 视频分割
图像分割
虽然大多数人会尝试识别图像中的不同类型物体,但我认为最好将其应用于更实际的工作负载。所以,在这个任务中,我会输入一张包含多张桌子的图片,看看它识别和区分桌子的能力如何。这是图像处理器最常用的任务之一。
输入图像:

Source: YouTube
响应:
我在“Review Objects”框中输入表格后,收到了以下回复。

该模型能够围绕图像中的所有桌子创建一个边界框。它将这三张桌子呈现为三个对象,我们可以分别命名和修改它们。但这还不是全部。我们还可以对图像中识别出的对象添加不同的效果。在下面的图像中,我添加了模糊效果:

您还可以使用效果名称旁边的效果设置来调整这些效果的强度。
视频分割
对于视频分割,我将测试模型在足球场上跟踪球员的效果,摄像机角度的变化会导致缩放比例相应改变。为了演示,我将使用梅西进球的这段视频:
响应:
当我将对象设置为“球员”后,收到了以下响应:

考虑到对象描述过于宽泛,模型标记了视频片段中的所有球员是可以理解的。但问题在于,根本无法单独选中某个球员!
我尝试使用“运球手”、“前锋”、“边锋”等描述性词语,但只有“球员”一词效果尚可。而且一旦选中了球员,就无法将其从列表中移除。这很奇怪,因为在图像分割任务中,我可以使用 ROI 工具(位于工具右上角)来标记感兴趣的球员。但在视频分割中,这个工具却存在缺陷。
我还注意到,视频时长为 45 秒,但在视频播放器中却只显示了 10 秒。

这就是结果。正如你所见,所有玩家最终都被追踪到了。但这里又出现了一个问题:移除这些物体实在太难了。即使只移除一个物体,整个视频也需要重新渲染,这非常耗时,尤其是在需要移除多个物体(本视频片段中有 24 个)的情况下。
如果你感兴趣,这是最终的视频片段:
这个模型确实很强大。它不仅能够识别图像中的物体,还能根据输入信息识别物体,这无疑是一大亮点。该模型处理图像和视频的速度都很快,这是一个很大的优势。图像分割功能比视频分割功能给我留下了更深刻的印象。但如果你实在没有其他办法,或许也可以勉强使用视频分割功能。
以下是我在使用 SAM3 时的一些建议:
- 尽可能使用 ROI 标记来突出显示你想要的目标物体。
- 如果视频时长超过 10 秒,请将其分割成多个 10 秒的片段。
- 上传媒体后,请尽量在 5 分钟内完成任务,否则可能会遇到服务器错误:

小结
SAM3 在提供便捷的尖端图像处理工具和滤镜方面堪称佼佼者。它在图像处理方面的表现堪称突破性,而其视频分割功能也极具潜力。SAM3 与 SAM3D 的结合使其成为任何希望利用 AI 提升工作效率的图像爱好者的首选工具。这些模型目前正在不断改进,其功能将随着时间的推移而进一步增强。
常见问题解答
问题 1:SAM3 与其他分割模型有何不同?
答:SAM3 可以根据简短的文本提示或示例图像分割对象,而不仅仅是预定义的标签。它能够理解更具体的概念,例如“穿菠萝衬衫的人”,并且适用于图像和视频。
问题 2:如何使用 SAM3?
答:您可以通过基于网页的 Segment Anything Playground 进行尝试,也可以从 GitHub 下载权重和代码,或者从 Hugging Face 模型中心加载。
问题 3:SAM3 的不足之处是什么?
答:视频分割仍然存在一些局限性。例如,很难从大类对象中分离出单个对象,移除对象会强制重新渲染,而且超过 10 秒的视频片段可能需要分割。


评论留言