SAM3：革新图像和视频处理

图像处理技术随着 Nano Banana 和 Qwen Image 等产品的发布而强势回归，拓展了以往技术的边界。我们已经告别了手指数量错误和文本拼写错误等难题。这些模型能够生成栩栩如生的图像和插图，媲美设计师的作品。Meta 最新发布的 SAM3 也加入了这一生态系统。它采用统一的检测、分割和跟踪方法，为视觉内容赋予结构和理解，而不仅仅是生成图像。

本文将详细介绍 SAM3 的功能、它在业界掀起的波澜，以及如何获取它。

什么是SAM3？

SAM3，全称 Segment Anything Model 3，是一款用于图像和视频分割与跟踪的新一代计算机视觉模型。它接受文本或提示（例如图像示例）作为输入，而不仅仅是固定的类别标签。这是一种基于人工智能的目标检测和提取技术。现有模型只能分割诸如“人”、“桌子”等一般概念，而 SAM3 可以分割更细致的概念，例如“穿菠萝衬衫的人”。

SAM3 利用其可提示的概念分割功能克服了上述局限性。无论您是用简短的短语描述还是提供示例，它都能在图像或视频中找到并识别出您指定的任何内容，而无需依赖固定的对象类型列表。

如何访问SAM3？

以下是访问 SAM3 模型的一些方法：

基于 Web 的演示/体验区：您可以访问名为“Segment Anything Playground”的 Web 界面，上传图像或视频，提供文本提示（或示例），并体验 SAM3 的分割和跟踪功能。

“Segment Anything Playground”的 Web 界面

模型权重和代码可在 GitHub 上找到：Meta Research 的官方代码库 (facebookresearch/sam3) 包含推理和微调代码，以及训练好的模型检查点的下载链接。

Hugging Face 模型中心：该模型可在 Hugging Face (facebook/sam3) 上找到，其中包含模型描述、加载方法以及图像/视频示例。

您还可以从 SAM3 的官方发布页面找到其他访问该模型的方法。

SAM3的实际应用

让我们开始动手实践。为了测试 SAM3 的性能，我将在以下两个任务中对其进行测试：

图像分割
视频分割

图像分割

虽然大多数人会尝试识别图像中的不同类型物体，但我认为最好将其应用于更实际的工作负载。所以，在这个任务中，我会输入一张包含多张桌子的图片，看看它识别和区分桌子的能力如何。这是图像处理器最常用的任务之一。

输入图像：

输入图像

Source: YouTube

响应：

我在“Review Objects”框中输入表格后，收到了以下回复。

在“Review Objects”框中输入表格

该模型能够围绕图像中的所有桌子创建一个边界框。它将这三张桌子呈现为三个对象，我们可以分别命名和修改它们。但这还不是全部。我们还可以对图像中识别出的对象添加不同的效果。在下面的图像中，我添加了模糊效果：

该模型能够围绕图像中的所有桌子创建一个边界框

您还可以使用效果名称旁边的效果设置来调整这些效果的强度。

视频分割

对于视频分割，我将测试模型在足球场上跟踪球员的效果，摄像机角度的变化会导致缩放比例相应改变。为了演示，我将使用梅西进球的这段视频：

响应：

当我将对象设置为“球员”后，收到了以下响应：

将对象设置为“球员”后

考虑到对象描述过于宽泛，模型标记了视频片段中的所有球员是可以理解的。但问题在于，根本无法单独选中某个球员！

我尝试使用“运球手”、“前锋”、“边锋”等描述性词语，但只有“球员”一词效果尚可。而且一旦选中了球员，就无法将其从列表中移除。这很奇怪，因为在图像分割任务中，我可以使用 ROI 工具（位于工具右上角）来标记感兴趣的球员。但在视频分割中，这个工具却存在缺陷。

我还注意到，视频时长为 45 秒，但在视频播放器中却只显示了 10 秒。

移除这些物体实在太难了

这就是结果。正如你所见，所有玩家最终都被追踪到了。但这里又出现了一个问题：移除这些物体实在太难了。即使只移除一个物体，整个视频也需要重新渲染，这非常耗时，尤其是在需要移除多个物体（本视频片段中有 24 个）的情况下。

如果你感兴趣，这是最终的视频片段：

这个模型确实很强大。它不仅能够识别图像中的物体，还能根据输入信息识别物体，这无疑是一大亮点。该模型处理图像和视频的速度都很快，这是一个很大的优势。图像分割功能比视频分割功能给我留下了更深刻的印象。但如果你实在没有其他办法，或许也可以勉强使用视频分割功能。

以下是我在使用 SAM3 时的一些建议：

尽可能使用 ROI 标记来突出显示你想要的目标物体。
如果视频时长超过 10 秒，请将其分割成多个 10 秒的片段。
上传媒体后，请尽量在 5 分钟内完成任务，否则可能会遇到服务器错误：

服务器错误

小结

SAM3 在提供便捷的尖端图像处理工具和滤镜方面堪称佼佼者。它在图像处理方面的表现堪称突破性，而其视频分割功能也极具潜力。SAM3 与 SAM3D 的结合使其成为任何希望利用 AI 提升工作效率的图像爱好者的首选工具。这些模型目前正在不断改进，其功能将随着时间的推移而进一步增强。

常见问题解答

问题 1：SAM3 与其他分割模型有何不同？

答：SAM3 可以根据简短的文本提示或示例图像分割对象，而不仅仅是预定义的标签。它能够理解更具体的概念，例如“穿菠萝衬衫的人”，并且适用于图像和视频。

问题 2：如何使用 SAM3？

答：您可以通过基于网页的 Segment Anything Playground 进行尝试，也可以从 GitHub 下载权重和代码，或者从 Hugging Face 模型中心加载。

问题 3：SAM3 的不足之处是什么？

答：视频分割仍然存在一些局限性。例如，很难从大类对象中分离出单个对象，移除对象会强制重新渲染，而且超过 10 秒的视频片段可能需要分割。

SAM3 图像分割视频分割

SAM3：革新图像和视频处理

文章目录

什么是SAM3？

如何访问SAM3？

SAM3的实际应用

图像分割

输入图像：

响应：

视频分割

响应：

小结

常见问题解答

评论留言

取消回复

SAM3：革新图像和视频处理

文章目录

什么是SAM3？

如何访问SAM3？

SAM3的实际应用

图像分割

输入图像：

响应：

视频分割

响应：

小结

常见问题解答

相关文章

评论留言

取消回复