如何把任意歌曲做成卡拉OK版本

你不必买卡拉OK碟，也不必等别人上传你最爱的曲子。借助 AI 去除人声和自动歌词转写，你可以在大约十分钟内把几乎任何歌曲变成精致、歌词同步的卡拉OK版本——而且免费。

🎤 干净去除主唱人声 📝 自动同步 LRC 歌词 🎚️ 按你的音域变调

“制作卡拉OK伴奏”到底意味着什么

卡拉OK版本其实是两样东西协同工作：一个伴奏（去掉主唱人声的歌曲）和一组时间同步的歌词，它们按节奏滚动，让你知道何时该开口。老式卡拉OK系统把这些做成专有的 MIDI 或 CDG 文件。如今，你可以用任何你有权使用的录音构建出同样的东西，因为过去两个棘手的难题——把人声从音乐中分离，以及把歌词对齐到节拍——现在都被 AI 解决了。

AIVoiceSeparator 上的 AI 卡拉OK制作器一次处理就能搞定两件事。它运行三模型集成来剥离人声，还能在分离出的人声音轨上运行 Whisper，生成一个带时间戳、可直接用于卡拉OK的 .lrc 文件。本教程接下来会讲完整流程，包括如何把结果变调到你自己的音域，以及哪些播放器真正能读取卡拉OK歌词文件。

用任意歌曲做一个卡拉OK伴奏

🎤 打开卡拉OK制作器

免费每月 3 首 · 无需注册 · Patreon Pro = 每天 2 首

第 1 步——添加你的歌曲（上传或粘贴链接）

打开 AIVoiceSeparator 应用，选择添加曲目的方式。你可以拖入音频文件（MP3、WAV、FLAC、M4A 等，最大 100 MB / 15 分钟），或切换到 URL 标签页粘贴链接。链接支持涵盖 YouTube、YouTube Music、SoundCloud 和 TikTok——如果你想要的歌曲是在 YouTube 人声去除器那一侧、而不是磁盘上的文件，这就很方便。服务器会用 yt-dlp 下载音频，所以你永远不必先到某个可疑的转换站点里去捞 MP3。

为了得到最干净的卡拉OK效果，请尽量从你能找到的最高音质来源开始。320 kbps 的流或无损文件给分离模型的细节，比尖细的 96 kbps 转录要多得多，而这种差异在最终伴奏里是听得出来的。

第 2 步——处理前先打开“生成歌词”

这是大多数人会跳过、然后又后悔的一步。在你点击分离按钮之前，先启用生成歌词开关。打开后，服务会在分离出的人声音轨上（而不是完整混音上）运行 Whisper——一个开源的语音识别模型。在干净的人声（而非原曲）上做转写，正是让时间对齐准确的诀窍：没有伴奏会被模型误听成歌词。

你会得到三个文件：

SRT——标准视频字幕格式，带起止时间戳。适合给视频加歌词。
LRC——卡拉OK格式。每一行都带 [mm:ss.xx] 时间戳，让播放器能随音乐同步滚动并高亮歌词。
TXT——纯文本，无时间信息。适合打印歌词单或校对。

Whisper 支持多种语言，所以这适用于中文、泰语、日语、韩语、西班牙语等数十种语言——下面会详谈多语言卡拉OK。

第 3 步——分离歌曲

点击分离，让 AI 工作。AIVoiceSeparator 的 Studio 模式运行三个模型的加权集成——BS-Roformer、Mel-Band Roformer 和 MDX23C——而不是单一网络。集成能抹平任何单个模型会留下的瑕疵，结果实测约为 12.97 dB SDR，明显高于更老的 Demucs 基线。一首典型的五分钟歌曲在 GPU 上约六分钟完成。如果你好奇这种分离底层是怎么实现的，请看我们关于 AI 人声分离原理的解析。

任务运行时，服务还会检测歌曲的 BPM 和音乐调性——两者对卡拉OK都很实用，因为它们告诉你将要演唱的速度，以及调性是否落在你舒适的音域内。

第 4 步——下载伴奏（以及 LRC）

任务完成后，在浏览器里预览各音轨，然后下载你需要的内容：

伴奏——这就是你的卡拉OK背景音轨。如果你打算之后变调或翻混，请下载无损 WAV 或 FLAC；如果只是想跟唱，MP3 320 kbps 即可。
.lrc 文件——你的同步歌词。
可选的人声音轨——在你学旋律时作为参考引导音轨很有用。

如果你的目标纯粹是伴奏、不在意歌词，专门的伴奏提取器会做同样的分离，但工作流程是为这一个输出而调校的。

第 5 步——把伴奏变调到你的音域（可选）

原调是艺人录音时的调，那未必是你嗓音所在的位置。如果副歌高得够不着，就把整个伴奏降几个半音；如果太低、听起来发闷，就往上挪一点。任一方向两三个半音通常足以把一首歌移到舒适的音域，又不至于听出明显的处理痕迹。

大多数现代卡拉OK播放器（KaraFun、Walaoke）都内置变调控制，所以你可以即时改变音高，无需重新渲染任何东西。如果你更想把新调直接烘焙进文件，任何音频编辑器——免费的 Audacity 就行——都能在保持速度的同时变调。因为你在上一步下载了无损 WAV，所以你可以变调而不会像反复重新编码 MP3 那样叠加有损瑕疵。

第 6 步——在卡拉OK应用中播放

只有当你的播放器知道如何读取 LRC 文件时，它才会发挥作用。几乎所有播放器都遵循一个简单约定：把歌词文件命名为与音频文件相同的名字，并放在同一文件夹里——song.mp3 旁边放 song.lrc。以下是常见选项：

🎬 VLC

免费、跨平台的常备工具。使用同名 LRC 文件（并启用歌词扩展）后，VLC 会在你的伴奏上滚动同步歌词。支持 Windows、macOS、Linux、Android 和 iOS。

🎹 KaraFun

专为卡拉OK打造的播放器，带即时变调与变速控制，以及大幅的高亮式歌词显示。非常适合客厅卡拉OK之夜。

🎤 Walaoke

一款轻量的 Windows 卡拉OK播放器，在家庭场景中很受欢迎；加载你的伴奏加上对应的 LRC，并显示滚动、彩色高亮的歌词。

🎵 MiniLyrics

一个歌词插件，可挂接到 foobar2000 等播放器，读取 LRC 时间信息，在曲目播放时显示同步歌词。

如果你只想把歌词烧录到视频上做卡拉OK屏幕，请改用 SRT 文件，在任意视频播放器或编辑器里把它作为字幕轨道添加。

获得干净卡拉OK效果的技巧

从干净的录音室录音开始。现场版、带观众噪声的原声翻唱以及重度母带处理的响亮曲目更难干净分离。标准录音室混音给出最干净的伴奏。
留意和声。人声去除针对的是所有人声，所以密集的和声叠层和齐唱副歌有时会留下淡淡的残留，或者反过来，把你想保留的和声也抽走。没有完美答案——多听几遍，挑你更喜欢的结果。
校对 LRC。Whisper 很强，但在俚语、专有名词和快速说唱上并非无懈可击。用任意文本编辑器打开 TXT 或 LRC，把它漏掉的少数几个词改正。
到最后再转有损格式。在 WAV/FLAC 上做变调和编辑，仅在最后一步导出为 MP3。
让歌词文件名与音频匹配。歌词“不显示”最常见的原因就是文件名不一致。

多语言卡拉OK（中文、泰语、日语、韩语等）

用 AI 构建卡拉OK、而不依赖卡拉OK曲库，最大的优势之一就是语言覆盖。商业卡拉OK库对英语和少数几个主要市场很深，对其他地方则很薄。因为这里的歌词来自 Whisper，这套流程可以处理中文（普通话、粤语）、泰语、日语、韩语、西班牙语、印尼语、越南语等数十种语言——包括任何卡拉OK服务从未制作过的歌曲。

人声去除这一步与语言无关：分离模型不在意唱的是什么，只在意混音里有人声。所以一首泰国 luk thung 抒情曲或一首 J-pop 单曲，分离效果和一首英文榜单热单一样好。对于非拉丁字母的文字，请多检查转写，因为生僻词和风格化拼写正是自动转写最容易出错的地方。

一点法律提示

为自己练习或私人聚会制作卡拉OK版本，通常被视为个人使用。出售你用他人录音做出的卡拉OK伴奏、公开上传它们，或商业演出它们，则涉及版权方的许可，是另一回事。你需要对所处理的任何内容拥有相应权利负责。完整情况请见我们的使用条款。在隐私方面：每个任务——你的上传和我们生成的音轨——都会在 24 小时后自动删除，你的音频绝不会被用于训练 AI 模型。

常见问题

制作卡拉OK伴奏真的免费吗？

是的。匿名用户每天可处理 1 首歌，享受完整 Studio 音质，包括歌词生成。Patreon Pro 将上限提升到每天 2 首并享有优先排队。

LRC 文件到底是什么？

它是一个纯文本歌词文件，每一行前面带一个像 [01:14.30] 这样的时间戳。卡拉OK播放器读取这些时间戳，随音乐同步滚动并高亮歌词。

我能改变调性来适应我的嗓音吗？

可以。下载无损伴奏，使用卡拉OK播放器内置的变调控制，或在 Audacity 等免费编辑器里变调。两到三个半音通常就够了。

伴奏里会残留人声吗？

三模型集成在大多数录音室作品上能干净去除主唱人声。密集的和声叠层和现场录音可能留下淡淡痕迹；效果因歌而异。

这适用于非英文歌曲吗？

适用。人声去除与语言无关，Whisper 能为歌词文件转写中文、泰语、日语、韩语、西班牙语等多种语言。

你们会保留我的文件多久？

每个任务都在 24 小时后删除。我们绝不会把你的音频用于 AI 训练。