AIVoiceSeparator
🌐 English

免费 YouTube 人声消除 — 从任意 YouTube 视频隔离人声

粘贴任意 YouTube 链接。我们的 AI 在约 6 分钟内将人声从伴奏中分离 —— 录音室级画质,无需注册,无水印,每天免费 1 首。

SDR 12.97 dB · 比 Demucs 高约 3 dB 🎥 youtu.be · youtube.com · YouTube Music 🎚️ MP3 / WAV / FLAC 输出

粘贴 YouTube 链接,剩下的交给我们

🔗 打开 YouTube 人声消除工具

免费每天 1 首 · 无需注册 · Patreon Pro = 每天 20 首

如何去除 YouTube 视频的人声 — 4 步

  1. 复制 YouTube 链接。在浏览器或 YouTube 应用中打开视频,复制链接。
  2. 打开 AIVoiceSeparator,切换到 粘贴 YouTube / SoundCloud / TikTok 链接 标签。
  3. 粘贴并点击“开始分离”。我们的服务器会用 yt-dlp 下载音频,并排队送入 AI ensemble。
  4. 等待约 6 分钟,然后下载隔离出的 vocals.wavinstrumental.wav。你也可以选择 MP3 320 kbps 或 FLAC。

整个流程在泰国的私有 GPU 上运行 —— 你的音频绝不会发送到第三方云端,每个任务都会在 24 小时后自动删除。

为什么用 AIVoiceSeparator 处理 YouTube 视频

🎚️ 录音室级画质

三模型 ensemble —— BS-Roformer + Mel-Roformer + MDX23C —— 实测 SDR 12.97 dB,比开源 Demucs 基线高约 3 dB。

🔗 直接支持 YouTube 链接

无需先用可疑的第三方转换器下载 MP3。只需粘贴链接 —— 我们在服务器端处理 yt-dlp。

🎤 歌词转写

打开“生成歌词”开关,即可从隔离出的人声 stem 获取 SRT、LRC 和 TXT 字幕文件(由 Whisper 驱动)。

🥁 BPM 与调性检测

每个输出都附带检测到的速度与调性 —— 对混音、打碟和音乐制作非常有用。

🔒 隐私优先

输入与输出在 24 小时后自动删除。我们绝不用你的音频训练模型,也没有上传共享功能。

💸 真正免费

每 24 小时 1 首,匿名使用,完整 Studio 画质。无水印,无需邮箱注册,无时长限制预览。

YouTube 人声消除工具对比

功能AIVoiceSeparatorLALAL.AIvocalremover.org
画质(分离 SDR)12.97 dB · 3 模型 ensemble约 11 dB · Phoenix 模型约 9 dB · 单一 Spleeter 模型
YouTube 链接支持支持 —— 粘贴即用不支持(需先下载)不支持(需先下载)
免费额度每天 1 首,完整画质仅 10 分钟预览免费 1 首,低画质
输出格式MP3 320 / WAV / FLACMP3 / WAV(付费)仅 MP3
歌词 / 字幕导出SRT + LRC + TXT不支持不支持
需要注册不需要需要(付费功能)不需要

YouTube 人声消除的常见用途

常见问题

这个 YouTube 人声消除工具真的免费吗?

是的。匿名用户每天可处理 1 首歌曲,享受完整 Studio 画质。Patreon Pro 可提升至每天 20 首并增加优先排队。

处理一个 5 分钟的 YouTube 视频需要多久?

从头到尾约 5–6 分钟 —— 包括用 yt-dlp 下载音频和运行三模型 AI ensemble。

你们接受哪些 YouTube 链接格式?

标准 youtube.com/watch?v=…、短链接 youtu.be/…、YouTube Music 链接和 Shorts。也支持 SoundCloud、TikTok、Bandcamp 和 Vimeo。

有长度限制吗?

每个源最长 15 分钟,音频下载后最大 100 MB。大多数完整歌曲都远低于这两个上限。

可以把歌词导出为字幕文件吗?

可以 —— 在处理前打开“生成歌词”,我们会在隔离出的人声 stem 上运行 Whisper。你将获得 SRT(视频字幕)、LRC(卡拉OK)和 TXT(纯文本)文件。

你们会保存我的 YouTube 下载吗?

不会。每个任务(输入音频 + 分离出的 stem)都会在 24 小时后自动删除。我们绝不用你的音频训练 AI,也不在用户之间共享输出。

去除 YouTube 视频的人声合法吗?

你需自行确保拥有合法权利。卡拉OK练习或扒谱等个人用途通常被视为合理;转发或商用他人作品则不可。请查看我们的使用条款

你们使用哪些 AI 模型?

三个业界顶尖模型的加权 ensemble:BS-Roformer(40%)、Mel-Band Roformer(35%)和 MDX23C InstVoc(25%)。输出经过 EBU-R128 响度归一化,使 stem 在任何混音中都听感自然。

相关免费工具

准备好在你的 YouTube 链接上试试了吗?

🔗 打开 YouTube 人声消除工具

免费,无需注册,无水印 —— 每 24 小时 1 首