如何把任意歌曲做成卡拉OK版本
你不必买卡拉OK碟,也不必等别人上传你最爱的曲子。借助 AI 去除人声和自动歌词转写,你可以在大约十分钟内把几乎任何歌曲变成精致、歌词同步的卡拉OK版本——而且免费。
“制作卡拉OK伴奏”到底意味着什么
卡拉OK版本其实是两样东西协同工作:一个伴奏(去掉主唱人声的歌曲)和一组时间同步的歌词,它们按节奏滚动,让你知道何时该开口。老式卡拉OK系统把这些做成专有的 MIDI 或 CDG 文件。如今,你可以用任何你有权使用的录音构建出同样的东西,因为过去两个棘手的难题——把人声从音乐中分离,以及把歌词对齐到节拍——现在都被 AI 解决了。
AIVoiceSeparator 上的 AI 卡拉OK制作器一次处理就能搞定两件事。它运行三模型集成来剥离人声,还能在分离出的人声音轨上运行 Whisper,生成一个带时间戳、可直接用于卡拉OK的 .lrc 文件。本教程接下来会讲完整流程,包括如何把结果变调到你自己的音域,以及哪些播放器真正能读取卡拉OK歌词文件。
第 1 步——添加你的歌曲(上传或粘贴链接)
打开 AIVoiceSeparator 应用,选择添加曲目的方式。你可以拖入音频文件(MP3、WAV、FLAC、M4A 等,最大 100 MB / 15 分钟),或切换到 URL 标签页粘贴链接。链接支持涵盖 YouTube、YouTube Music、SoundCloud 和 TikTok——如果你想要的歌曲是在 YouTube 人声去除器那一侧、而不是磁盘上的文件,这就很方便。服务器会用 yt-dlp 下载音频,所以你永远不必先到某个可疑的转换站点里去捞 MP3。
为了得到最干净的卡拉OK效果,请尽量从你能找到的最高音质来源开始。320 kbps 的流或无损文件给分离模型的细节,比尖细的 96 kbps 转录要多得多,而这种差异在最终伴奏里是听得出来的。
第 2 步——处理前先打开“生成歌词”
这是大多数人会跳过、然后又后悔的一步。在你点击分离按钮之前,先启用生成歌词开关。打开后,服务会在分离出的人声音轨上(而不是完整混音上)运行 Whisper——一个开源的语音识别模型。在干净的人声(而非原曲)上做转写,正是让时间对齐准确的诀窍:没有伴奏会被模型误听成歌词。
你会得到三个文件:
- SRT——标准视频字幕格式,带起止时间戳。适合给视频加歌词。
- LRC——卡拉OK格式。每一行都带
[mm:ss.xx]时间戳,让播放器能随音乐同步滚动并高亮歌词。 - TXT——纯文本,无时间信息。适合打印歌词单或校对。
Whisper 支持多种语言,所以这适用于中文、泰语、日语、韩语、西班牙语等数十种语言——下面会详谈多语言卡拉OK。
第 3 步——分离歌曲
点击分离,让 AI 工作。AIVoiceSeparator 的 Studio 模式运行三个模型的加权集成——BS-Roformer、Mel-Band Roformer 和 MDX23C——而不是单一网络。集成能抹平任何单个模型会留下的瑕疵,结果实测约为 12.97 dB SDR,明显高于更老的 Demucs 基线。一首典型的五分钟歌曲在 GPU 上约六分钟完成。如果你好奇这种分离底层是怎么实现的,请看我们关于 AI 人声分离原理的解析。
任务运行时,服务还会检测歌曲的 BPM 和音乐调性——两者对卡拉OK都很实用,因为它们告诉你将要演唱的速度,以及调性是否落在你舒适的音域内。
第 4 步——下载伴奏(以及 LRC)
任务完成后,在浏览器里预览各音轨,然后下载你需要的内容:
- 伴奏——这就是你的卡拉OK背景音轨。如果你打算之后变调或翻混,请下载无损 WAV 或 FLAC;如果只是想跟唱,MP3 320 kbps 即可。
- .lrc 文件——你的同步歌词。
- 可选的人声音轨——在你学旋律时作为参考引导音轨很有用。
如果你的目标纯粹是伴奏、不在意歌词,专门的 伴奏提取器会做同样的分离,但工作流程是为这一个输出而调校的。
第 5 步——把伴奏变调到你的音域(可选)
原调是艺人录音时的调,那未必是你嗓音所在的位置。如果副歌高得够不着,就把整个伴奏降几个半音;如果太低、听起来发闷,就往上挪一点。任一方向两三个半音通常足以把一首歌移到舒适的音域,又不至于听出明显的处理痕迹。
大多数现代卡拉OK播放器(KaraFun、Walaoke)都内置变调控制,所以你可以即时改变音高,无需重新渲染任何东西。如果你更想把新调直接烘焙进文件,任何音频编辑器——免费的 Audacity 就行——都能在保持速度的同时变调。因为你在上一步下载了无损 WAV,所以你可以变调而不会像反复重新编码 MP3 那样叠加有损瑕疵。
第 6 步——在卡拉OK应用中播放
只有当你的播放器知道如何读取 LRC 文件时,它才会发挥作用。几乎所有播放器都遵循一个简单约定:把歌词文件命名为与音频文件相同的名字,并放在同一文件夹里——song.mp3 旁边放 song.lrc。以下是常见选项:
🎬 VLC
免费、跨平台的常备工具。使用同名 LRC 文件(并启用歌词扩展)后,VLC 会在你的伴奏上滚动同步歌词。支持 Windows、macOS、Linux、Android 和 iOS。
🎹 KaraFun
专为卡拉OK打造的播放器,带即时变调与变速控制,以及大幅的高亮式歌词显示。非常适合客厅卡拉OK之夜。
🎤 Walaoke
一款轻量的 Windows 卡拉OK播放器,在家庭场景中很受欢迎;加载你的伴奏加上对应的 LRC,并显示滚动、彩色高亮的歌词。
🎵 MiniLyrics
一个歌词插件,可挂接到 foobar2000 等播放器,读取 LRC 时间信息,在曲目播放时显示同步歌词。
如果你只想把歌词烧录到视频上做卡拉OK屏幕,请改用 SRT 文件,在任意视频播放器或编辑器里把它作为字幕轨道添加。
获得干净卡拉OK效果的技巧
- 从干净的录音室录音开始。现场版、带观众噪声的原声翻唱以及重度母带处理的响亮曲目更难干净分离。标准录音室混音给出最干净的伴奏。
- 留意和声。人声去除针对的是所有人声,所以密集的和声叠层和齐唱副歌有时会留下淡淡的残留,或者反过来,把你想保留的和声也抽走。没有完美答案——多听几遍,挑你更喜欢的结果。
- 校对 LRC。Whisper 很强,但在俚语、专有名词和快速说唱上并非无懈可击。用任意文本编辑器打开 TXT 或 LRC,把它漏掉的少数几个词改正。
- 到最后再转有损格式。在 WAV/FLAC 上做变调和编辑,仅在最后一步导出为 MP3。
- 让歌词文件名与音频匹配。歌词“不显示”最常见的原因就是文件名不一致。
多语言卡拉OK(中文、泰语、日语、韩语等)
用 AI 构建卡拉OK、而不依赖卡拉OK曲库,最大的优势之一就是语言覆盖。商业卡拉OK库对英语和少数几个主要市场很深,对其他地方则很薄。因为这里的歌词来自 Whisper,这套流程可以处理中文(普通话、粤语)、泰语、日语、韩语、西班牙语、印尼语、越南语等数十种语言——包括任何卡拉OK服务从未制作过的歌曲。
人声去除这一步与语言无关:分离模型不在意唱的是什么,只在意混音里有人声。所以一首泰国 luk thung 抒情曲或一首 J-pop 单曲,分离效果和一首英文榜单热单一样好。对于非拉丁字母的文字,请多检查转写,因为生僻词和风格化拼写正是自动转写最容易出错的地方。
一点法律提示
为自己练习或私人聚会制作卡拉OK版本,通常被视为个人使用。出售你用他人录音做出的卡拉OK伴奏、公开上传它们,或商业演出它们,则涉及版权方的许可,是另一回事。你需要对所处理的任何内容拥有相应权利负责。完整情况请见我们的使用条款。在隐私方面:每个任务——你的上传和我们生成的音轨——都会在 24 小时后自动删除,你的音频绝不会被用于训练 AI 模型。
常见问题
制作卡拉OK伴奏真的免费吗?
是的。匿名用户每天可处理 1 首歌,享受完整 Studio 音质,包括歌词生成。Patreon Pro 将上限提升到每天 20 首并享有优先排队。
LRC 文件到底是什么?
它是一个纯文本歌词文件,每一行前面带一个像 [01:14.30] 这样的时间戳。卡拉OK播放器读取这些时间戳,随音乐同步滚动并高亮歌词。
我能改变调性来适应我的嗓音吗?
可以。下载无损伴奏,使用卡拉OK播放器内置的变调控制,或在 Audacity 等免费编辑器里变调。两到三个半音通常就够了。
伴奏里会残留人声吗?
三模型集成在大多数录音室作品上能干净去除主唱人声。密集的和声叠层和现场录音可能留下淡淡痕迹;效果因歌而异。
这适用于非英文歌曲吗?
适用。人声去除与语言无关,Whisper 能为歌词文件转写中文、泰语、日语、韩语、西班牙语等多种语言。
你们会保留我的文件多久?
每个任务都在 24 小时后删除。我们绝不会把你的音频用于 AI 训练。