免费 YouTube 人声消除 — 从任意 YouTube 视频隔离人声
粘贴任意 YouTube 链接。我们的 AI 在约 6 分钟内将人声从伴奏中分离 —— 录音室级画质,无需注册,无水印,每天免费 1 首。
如何去除 YouTube 视频的人声 — 4 步
- 复制 YouTube 链接。在浏览器或 YouTube 应用中打开视频,复制链接。
- 打开 AIVoiceSeparator,切换到 粘贴 YouTube / SoundCloud / TikTok 链接 标签。
- 粘贴并点击“开始分离”。我们的服务器会用 yt-dlp 下载音频,并排队送入 AI ensemble。
- 等待约 6 分钟,然后下载隔离出的
vocals.wav和instrumental.wav。你也可以选择 MP3 320 kbps 或 FLAC。
整个流程在泰国的私有 GPU 上运行 —— 你的音频绝不会发送到第三方云端,每个任务都会在 24 小时后自动删除。
为什么用 AIVoiceSeparator 处理 YouTube 视频
🎚️ 录音室级画质
三模型 ensemble —— BS-Roformer + Mel-Roformer + MDX23C —— 实测 SDR 12.97 dB,比开源 Demucs 基线高约 3 dB。
🔗 直接支持 YouTube 链接
无需先用可疑的第三方转换器下载 MP3。只需粘贴链接 —— 我们在服务器端处理 yt-dlp。
🎤 歌词转写
打开“生成歌词”开关,即可从隔离出的人声 stem 获取 SRT、LRC 和 TXT 字幕文件(由 Whisper 驱动)。
🥁 BPM 与调性检测
每个输出都附带检测到的速度与调性 —— 对混音、打碟和音乐制作非常有用。
🔒 隐私优先
输入与输出在 24 小时后自动删除。我们绝不用你的音频训练模型,也没有上传共享功能。
💸 真正免费
每 24 小时 1 首,匿名使用,完整 Studio 画质。无水印,无需邮箱注册,无时长限制预览。
YouTube 人声消除工具对比
| 功能 | AIVoiceSeparator | LALAL.AI | vocalremover.org |
|---|---|---|---|
| 画质(分离 SDR) | 12.97 dB · 3 模型 ensemble | 约 11 dB · Phoenix 模型 | 约 9 dB · 单一 Spleeter 模型 |
| YouTube 链接支持 | 支持 —— 粘贴即用 | 不支持(需先下载) | 不支持(需先下载) |
| 免费额度 | 每天 1 首,完整画质 | 仅 10 分钟预览 | 免费 1 首,低画质 |
| 输出格式 | MP3 320 / WAV / FLAC | MP3 / WAV(付费) | 仅 MP3 |
| 歌词 / 字幕导出 | SRT + LRC + TXT | 不支持 | 不支持 |
| 需要注册 | 不需要 | 需要(付费功能) | 不需要 |
YouTube 人声消除的常见用途
- 卡拉OK练习。从你喜欢的歌曲中去掉人声轨,跟着伴奏一起唱。
- 翻唱。把伴奏作为伴唱底轨,用于你自己的人声录制或 AI 翻唱。
- 混音与采样。提取干净的清唱,用你拥有合法权利的素材制作混音、混搭或节拍。
- 音乐扒谱。隔离人声后,扒歌词、和声与旋律线会容易得多。
- DJ stem 混音。把 vocals.wav 和 instrumental.wav 作为可现场混音的 stem,用于 Serato、Rekordbox 或 Virtual DJ。
- 语言学习。单独聆听人声轨,捕捉每一个词,再与自动生成的歌词对照。
常见问题
这个 YouTube 人声消除工具真的免费吗?
是的。匿名用户每天可处理 1 首歌曲,享受完整 Studio 画质。Patreon Pro 可提升至每天 20 首并增加优先排队。
处理一个 5 分钟的 YouTube 视频需要多久?
从头到尾约 5–6 分钟 —— 包括用 yt-dlp 下载音频和运行三模型 AI ensemble。
你们接受哪些 YouTube 链接格式?
标准 youtube.com/watch?v=…、短链接 youtu.be/…、YouTube Music 链接和 Shorts。也支持 SoundCloud、TikTok、Bandcamp 和 Vimeo。
有长度限制吗?
每个源最长 15 分钟,音频下载后最大 100 MB。大多数完整歌曲都远低于这两个上限。
可以把歌词导出为字幕文件吗?
可以 —— 在处理前打开“生成歌词”,我们会在隔离出的人声 stem 上运行 Whisper。你将获得 SRT(视频字幕)、LRC(卡拉OK)和 TXT(纯文本)文件。
你们会保存我的 YouTube 下载吗?
不会。每个任务(输入音频 + 分离出的 stem)都会在 24 小时后自动删除。我们绝不用你的音频训练 AI,也不在用户之间共享输出。
去除 YouTube 视频的人声合法吗?
你需自行确保拥有合法权利。卡拉OK练习或扒谱等个人用途通常被视为合理;转发或商用他人作品则不可。请查看我们的使用条款。
你们使用哪些 AI 模型?
三个业界顶尖模型的加权 ensemble:BS-Roformer(40%)、Mel-Band Roformer(35%)和 MDX23C InstVoc(25%)。输出经过 EBU-R128 响度归一化,使 stem 在任何混音中都听感自然。