如何逐步使用 SAM Audio 进行音频分离
SAM Audio 基于 Meta 的 Segment Anything Audio 范式构建,作为一种强大的音频分离解决方案脱颖而出,赋予了用户对声音隔离前所未有的控制力。无论你是音乐人、播客创作者、视频编辑,还是对 AI 音频工具感到好奇,学习如何使用 SAM Audio 进行音频分离都将改变你的工作流程。
我们将探讨什么是 SAM Audio 模型,为什么它正在重新定义音频编辑,以及如何从头到尾使用它来隔离人声、乐器、语音或任何你可以描述的声音。
什么是 SAM Audio 模型?
SAM Audio 模型是 “Segment Anything Audio” 的缩写,是一种最先进的 AI 基座模型,旨在根据直观的提示词(而非仅限固定类别)执行灵活的音频源分离。其底层理念是将推动视觉 Segment Anything Model (SAM) 的前沿研究扩展到了音频领域。与将音频分离为人声 vs 伴奏等固定组件的传统分离工具不同,SAM Audio 模型允许你隔离任何你描述的声音。
SAM Audio 融合了自然语言理解、视觉提示和时间感知,以以前只能通过手动编辑才能实现的方式对音频进行分割。这意味着你可以通过单个提示词,从复杂的现场曲目中提取吉他独奏,或者从环境噪音深处提取脚步声。 Sam Audio
为什么 SAM Audio 音频分离具有革命性
AI 音频分离的兴起改变了我们处理媒体编辑的方式。你可以使用像 SAM Audio 这样的工具,利用人工智能不仅执行技术任务,还能通过自然提示词理解用户意图。
以下是 SAM Audio 迅速受到关注的一些原因:
灵活的提示选项
-
文本提示:描述你想要隔离的内容,例如“人声”、“合成器领奏”或“鸟鸣声”。 Sam Audio
-
视觉提示:当音频来自视频时,你通常可以点击产生声音的物体来引导模型。 Sam Audio
-
时间提示:突出显示一个时间段,以精确教导模型声音出现的时间。 Sam Audio
-
这种多模态提示的灵活性使 SAM Audio 的表现优于旧工具,后者仅限于人声、鼓、贝斯等固定分轨。 Sam Audio
逐步指南:如何使用 SAM Audio 进行音频分离
现在我们已经介绍了什么是 SAM Audio 模型以及它为什么重要,让我们深入了解如何实际使用它来隔离你想要的任何声音……一步一步来。
第 1 步:访问 SAM Audio 界面
根据你的工作流程,你可以通过以下方式访问 SAM Audio 模型:
-
Fish Audio - 在这里你可以通过简单地上传音频文件来尝试 AI 驱动的音频分离:SAM Audio
-
官方 SAM Audio 游乐场或演示版,允许你上传文件并尝试 Segment Anything Audio 模型:SAM Audio
-
如果你正在将 SAM Audio 模型集成到自定义工作流中,可以使用本地或开发者安装。 SAM Audio
选择适合你技能水平的版本。对于初学者来说,在线浏览器工具通常是最简单的开始方式。
第 2 步:上传你的音频或视频文件
进入 SAM Audio 界面后:
-
点击上传并选择你的音频或视频文件(.MP3, .WAV, .MP4 等)。
-
确保音频质量尚可。清晰的录音通常会产生更干净的分离效果。
在此阶段,无论你是要隔离播客语音还是提取乐器轨道,音频文件现在都已准备好进行 AI 处理。
第 3 步:选择提示类型
这就是 Segment Anything Audio 模型的魔力所在:
文本提示:
描述你想要隔离的声音。示例包括:
-
“分离主唱人声”
-
“隔离镲片声”
-
“移除背景交通噪音”
文本提示非常适合希望以自然或直观的方式告诉模型分离什么的搜索用户。 视觉提示:如果你的音频带有视频,点击声音来源(如演讲者或表演者),SAM Audio 将利用视觉上下文来引导分离。
时间提示:
-
选择目标声音明显的时段,让 SAM Audio 在整个轨道中对其进行泛化处理。
-
每种模式都能让你精确定位想要的声音。对于棘手的音频场景,你甚至可以组合使用提示。
第 4 步:运行分离
设置好提示后:
-
点击“处理”或“分离”按钮。
-
AI 会运行 SAM Audio 模型,分析你的提示和音频以隔离目标声音。
-
处理时间取决于文件大小、提示复杂性和服务器速度,但许多 Web 实现都优化了快速处理。
第 5 步:预览并微调
处理完成后,你将看到:
-
隔离出的声音轨道
-
剩余部分(其他所有声音)
-
播放这两个音轨以确保分离效果符合你的预期。
如果结果不完美:
-
使用更具体的措辞微调你的文本提示。
-
缩小时间提示的时间跨度。
-
尝试组合不同的提示类型。
-
迭代是创作过程的一部分,SAM Audio 模型旨在对微调做出良好响应。
第 6 步:导出分离后的音频
对结果满意吗?点击“下载”以你喜欢的格式导出隔离出的音轨。
现在你可以:
-
重新混音人声部分
-
增强播客的语音清晰度
-
从视频剪辑中移除不需要的噪音
-
构建创意 AI 语音集成
SAM Audio 的录音室级输出为你提供专业的分离效果,无需手动工程或图形套件。
🎧 SAM Audio 音频分离的实际应用场景
以下是创作者目前应用 SAM Audio 模型的一些强大方式:
🎵 音乐制作与混音
提取单个乐器音轨进行重新混音、采样,或配合隔离出的分轨进行练习。
🎙️ 播客清理
将语音从噪音中隔离出来,在转录或发布前提高清晰度。
🎬 视频后期制作
移除干扰性的背景声音,或隔离特定的音频元素以获得更干净的剪辑序列。
🧠 声音设计与特效制作
分离并重复使用有趣的音频片段,如脚步声、引擎声或鸟鸣声,用于其他创意项目。
📚 转录与无障碍
更干净的音频可以输入到更好的语音合成和语音转文字流程中,提高无障碍性。当结合其他 AI 功能(如语音生成器或 AI 声音克隆)时,你可以从分离的音源轨道构建引人入胜的多媒体体验——无论是生成旁白还是制作混合音景。
SAM Audio 与传统分离工具的对比
传统的音频分离工具如 Spleeter 和 Demucs 已经广泛使用了多年,尤其是在分离人声与伴奏等基础任务上。虽然这些工具很有帮助,但它们是围绕固定类别和预定义分轨构建的,这限制了创作的灵活性。
由 Segment Anything Audio 提供支持的 SAM Audio 模型采用了根本不同的方法。SAM Audio 音频分离不是将用户限制在一小组输出中,而是允许你使用直观的提示隔离几乎任何声音。你不再局限于“人声”或“鼓声”。你可以针对背景噪音、特定乐器、声音特效,甚至是传统工具根本无法识别的细微音频细节。
另一个主要优势是提示功能。与旧工具不同,SAM Audio 支持文本提示,让你用自然语言描述想要的声音。在基于视频的工作流中,视觉和时间提示增加了更多的精确度,允许模型理解声音发生的地点和时间。这带来了更干净的分离效果,并能对最终输出进行更多控制。
总的来说,SAM Audio 模型消除了传统分离工具带来的许多限制。工作流程感觉更直观、更具创意,更适合当今处理音乐、播客、视频制作、AI 语音和语音合成流程的创作者。
获得最佳结果的技巧
为了最大限度地发挥 SAM Audio 音频分离的效果:
-
使用具体而非模糊的文本提示。
-
尽可能从更清晰的录音开始。
-
使用多个提示进行迭代,处理多层混音。
-
将 AI 分离与你喜欢的 DAW(数字音频工作站)相结合,进行进一步编辑。
总结
SAM Audio 模型开启了 AI 辅助音频编辑的新篇章。通过使用 Segment Anything Audio 技术,创作者现在拥有了一种简单而强大的方法,只需使用语言、视觉或时间线索即可隔离他们能描述的任何声音。
从几分钟内提取人声到增强语音清晰度,SAM Audio 音频分离正在重新定义音乐制作、播客编辑、视频后期制作等领域的工作流程。随着 AI 的不断进化,像 SAM Audio 这样的工具正让专业成果触手可及,无需复杂的软件技能。
无论你是刚开始接触,还是希望将智能音频分离集成到你的制作流程中,逐步掌握如何使用 SAM Audio 都是一项值得学习的技能。

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.
阅读James Ding的更多内容

