SAM3:革新图像和视频处理

SAM3:革新图像和视频处理

文章目录

  • 什么是SAM3?
  • 如何访问SAM3?
  • SAM3的实际应用
  • 图像分割
  • 视频分割
  • 小结
  • 常见问题解答

SAM3:革新图像和视频处理

图像处理技术随着 Nano Banana 和 Qwen Image 等产品的发布而强势回归,拓展了以往技术的边界。我们已经告别了手指数量错误和文本拼写错误等难题。这些模型能够生成栩栩如生的图像和插图,媲美设计师的作品。Meta 最新发布的 SAM3 也加入了这一生态系统。它采用统一的检测、分割和跟踪方法,为视觉内容赋予结构和理解,而不仅仅是生成图像。

本文将详细介绍 SAM3 的功能、它在业界掀起的波澜,以及如何获取它。

什么是SAM3?

SAM3,全称 Segment Anything Model 3,是一款用于图像和视频分割与跟踪的新一代计算机视觉模型。它接受文本或提示(例如图像示例)作为输入,而不仅仅是固定的类别标签。这是一种基于人工智能的目标检测和提取技术。现有模型只能分割诸如“人”、“桌子”等一般概念,而 SAM3 可以分割更细致的概念,例如“穿菠萝衬衫的人”。

SAM3 利用其可提示的概念分割功能克服了上述局限性。无论您是用简短的短语描述还是提供示例,它都能在图像或视频中找到并识别出您指定的任何内容,而无需依赖固定的对象类型列表。

如何访问SAM3?

以下是访问 SAM3 模型的一些方法:

基于 Web 的演示/体验区:您可以访问名为“Segment Anything Playground”的 Web 界面,上传图像或视频,提供文本提示(或示例),并体验 SAM3 的分割和跟踪功能。

“Segment Anything Playground”的 Web 界面

模型权重和代码可在 GitHub 上找到:Meta Research 的官方代码库 (facebookresearch/sam3) 包含推理和微调代码,以及训练好的模型检查点的下载链接。

Hugging Face 模型中心:该模型可在 Hugging Face (facebook/sam3) 上找到,其中包含模型描述、加载方法以及图像/视频示例。

您还可以从 SAM3 的官方发布页面找到其他访问该模型的方法。

SAM3的实际应用

让我们开始动手实践。为了测试 SAM3 的性能,我将在以下两个任务中对其进行测试:

  1. 图像分割
  2. 视频分割

图像分割

虽然大多数人会尝试识别图像中的不同类型物体,但我认为最好将其应用于更实际的工作负载。所以,在这个任务中,我会输入一张包含多张桌子的图片,看看它识别和区分桌子的能力如何。这是图像处理器最常用的任务之一。

输入图像:

输入图像

Source: YouTube

响应:

我在“Review Objects”框中输入表格后,收到了以下回复。

在“Review Objects”框中输入表格

该模型能够围绕图像中的所有桌子创建一个边界框。它将这三张桌子呈现为三个对象,我们可以分别命名和修改它们。但这还不是全部。我们还可以对图像中识别出的对象添加不同的效果。在下面的图像中,我添加了模糊效果:

该模型能够围绕图像中的所有桌子创建一个边界框

您还可以使用效果名称旁边的效果设置来调整这些效果的强度。

视频分割

对于视频分割,我将测试模型在足球场上跟踪球员的效果,摄像机角度的变化会导致缩放比例相应改变。为了演示,我将使用梅西进球的这段视频:

响应:

当我将对象设置为“球员”后,收到了以下响应:

将对象设置为“球员”后

考虑到对象描述过于宽泛,模型标记了视频片段中的所有球员是可以理解的。但问题在于,根本无法单独选中某个球员!

我尝试使用“运球手”、“前锋”、“边锋”等描述性词语,但只有“球员”一词效果尚可。而且一旦选中了球员,就无法将其从列表中移除。这很奇怪,因为在图像分割任务中,我可以使用 ROI 工具(位于工具右上角)来标记感兴趣的球员。但在视频分割中,这个工具却存在缺陷。

我还注意到,视频时长为 45 秒,但在视频播放器中却只显示了 10 秒。

移除这些物体实在太难了

这就是结果。正如你所见,所有玩家最终都被追踪到了。但这里又出现了一个问题:移除这些物体实在太难了。即使只移除一个物体,整个视频也需要重新渲染,这非常耗时,尤其是在需要移除多个物体(本视频片段中有 24 个)的情况下。

如果你感兴趣,这是最终的视频片段:

这个模型确实很强大。它不仅能够识别图像中的物体,还能根据输入信息识别物体,这无疑是一大亮点。该模型处理图像和视频的速度都很快,这是一个很大的优势。图像分割功能比视频分割功能给我留下了更深刻的印象。但如果你实在没有其他办法,或许也可以勉强使用视频分割功能。

以下是我在使用 SAM3 时的一些建议:

  1. 尽可能使用 ROI 标记来突出显示你想要的目标物体。
  2. 如果视频时长超过 10 秒,请将其分割成多个 10 秒的片段。
  3. 上传媒体后,请尽量在 5 分钟内完成任务,否则可能会遇到服务器错误:

服务器错误

小结

SAM3 在提供便捷的尖端图像处理工具和滤镜方面堪称佼佼者。它在图像处理方面的表现堪称突破性,而其视频分割功能也极具潜力。SAM3 与 SAM3D 的结合使其成为任何希望利用 AI 提升工作效率的图像爱好者的首选工具。这些模型目前正在不断改进,其功能将随着时间的推移而进一步增强。

常见问题解答

问题 1:SAM3 与其他分割模型有何不同?

答:SAM3 可以根据简短的文本提示或示例图像分割对象,而不仅仅是预定义的标签。它能够理解更具体的概念,例如“穿菠萝衬衫的人”,并且适用于图像和视频。

问题 2:如何使用 SAM3?

答:您可以通过基于网页的 Segment Anything Playground 进行尝试,也可以从 GitHub 下载权重和代码,或者从 Hugging Face 模型中心加载。

问题 3:SAM3 的不足之处是什么?

答:视频分割仍然存在一些局限性。例如,很难从大类对象中分离出单个对象,移除对象会强制重新渲染,而且超过 10 秒的视频片段可能需要分割。

评论留言

闪电侠

(工作日 10:00 - 18:30 为您服务)

2025-12-07 12:33:42

您好,无论是售前、售后、意见建议……均可通过联系工单与我们取得联系。

您也可选择聊天工具与我们即时沟通或点击查看:

您的工单我们已经收到,我们将会尽快跟您联系!
取消
选择聊天工具: