人声 / 伴奏 AI 分离
SOTA 模型 — BS-Roformer + ensemble · 快速 · 免费起步
⚡ SDR 12.97 dB · 比 Demucs 高约 3 dB
🔒 不上传云端 · GPU 位于泰国
🎯 高频保真度比肩 vocalremover.org
🎚️ Studio 录音室级品质
3 模型 ensemble(BS-Roformer + Mel-Roformer + MDX23C)+ EBU-R128 响度归一化 — 每首约 5-6 分钟
—
⚡ Standard
—
使用方法
- 上传 — 拖入 MP3 / WAV / M4A 歌曲文件 — 不超过 100 MB,不超过 15 分钟
- 等待 AI 处理 — Studio 流程(BS-Roformer + Mel-Roformer + MDX23C ensemble)约需 5-6 分钟
- 下载 — 分别获得 vocals.wav(人声)+ instrumental.wav(伴奏 / 卡拉OK)
免费 每天 1 首 · 加入 Patreon → Pro 每天 20 首 · 文件不出境 · GPU 在泰国运行
常见问题
AIVoiceSeparator 真的免费吗?
是的。匿名用户每天可免费处理 1 首歌曲,享受完整的 Studio 画质(3 模型 AI ensemble + 响度归一化)。Patreon Pro 可将上限提升至每天 20 首。
与 LALAL.AI 或 vocalremover.org 相比画质如何?
我们的 3 模型 ensemble(BS-Roformer + Mel-Roformer + MDX23C)实测 SDR 12.97 dB —— 比开源 Demucs 基线高约 3 dB。输出经过 EBU-R128 响度归一化,使两个 stem 在任何混音中都听感自然。音频在泰国的私有 GPU 上处理,绝不发送到任何第三方云端。
你们会保存我上传的歌曲吗?
每个任务(输入 + 输出)都会在 24 小时后自动删除。我们绝不会用你的音频训练 AI 模型,也绝不会在用户之间共享结果 —— 访问仅通过不透明的 job_id 进行。
支持哪些音频格式?
输入:MP3、WAV、M4A、FLAC、OGG、WebM、Opus。最大 100 MB,最长 15 分钟。输出:MP3 320 kbps(默认)、WAV 或 FLAC(无损)。
可以直接从 YouTube 链接分离歌曲吗?
可以。粘贴 YouTube、SoundCloud、TikTok、Bandcamp 或 Vimeo 链接,服务器会自动为你下载音频。你需自行确保拥有所处理内容的合法权利。
可以从歌曲中获取歌词 / 字幕吗?
可以。在处理前打开“生成歌词”开关。我们会在分离出的人声 stem 上运行 Whisper,并返回 SRT(字幕)、LRC(卡拉OK)和 TXT(纯文本)文件。约增加 30 秒。