どんな曲でもカラオケ版を作る方法
カラオケのディスクを買ったり、お気に入りの曲が誰かにアップロードされるのを待ったりする必要はありません。AIによるボーカル除去と自動歌詞書き起こしを使えば、ほぼどんな曲でも、約10分で歌詞同期された洗練されたカラオケ版に変えられます — しかも無料で。
「カラオケトラックを作る」とは実際にどういうことか
カラオケ版とは、実は2つの要素が連携したものです。伴奏(リードボーカルを除去した曲)と、いつ歌い出せばよいかが分かるように時間どおりにスクロールする時間同期された歌詞です。古いカラオケシステムはこれらを独自のMIDIやCDGファイルとして提供していました。今日では、あなたが利用する権利を持つどんな録音からでも同じものを作れます。なぜなら、かつて難しかった2つの問題 — 音楽から声を分離すること、歌詞をビートに合わせることが、いまやAIによって解決されているからです。
AIVoiceSeparatorのAIカラオケメーカーは、その両方を一度の処理で扱います。3モデルのアンサンブルを実行してボーカルを抜き取り、分離されたボーカルステムに対してWhisperを実行して、タイムスタンプ付きのカラオケ対応 .lrc ファイルを生成できます。このガイドの残りでは、結果を自分の声域にピッチ変更する方法や、どのプレーヤーが実際にカラオケ歌詞ファイルを読めるかを含め、ワークフロー全体を解説します。
ステップ1 — 曲を追加する(アップロードまたはURLを貼り付け)
AIVoiceSeparatorのアプリを開き、トラックの追加方法を選びます。音声ファイル(MP3、WAV、FLAC、M4Aなど、最大100MB / 15分)をドラッグするか、URLタブに切り替えてリンクを貼り付けます。URL対応はYouTube、YouTube Music、SoundCloud、TikTokをカバーしており、欲しい曲がディスク上のファイルではなくYouTubeボーカルリムーバー側にあるときに便利です。サーバーが yt-dlp で音声をダウンロードするので、怪しい変換サイトから先にMP3を引っ張り出す必要は一切ありません。
最もクリーンなカラオケ結果を得るには、入手できる最高音質の音源から始めてください。320 kbpsのストリームやロスレスファイルは、薄っぺらい96 kbpsのリップよりも分離モデルに多くのディテールを与え、その差は最終的な伴奏で聞き取れます。
ステップ2 — 処理前に「歌詞を生成」をオンにする
これは多くの人が飛ばして後悔するステップです。分離ボタンを押す前に、歌詞を生成トグルを有効にしてください。オンにすると、サービスはWhisper(オープンな音声認識モデル)を、フルミックスではなく分離されたボーカルステムに対して実行します。元の曲ではなくクリーンなボーカルに対して書き起こしを行うことが、タイミングを正確にするコツです。モデルが言葉と聞き間違える楽器音がそこにはないからです。
3つのファイルが返されます:
- SRT — 開始/終了タイムスタンプ付きの標準的な動画字幕フォーマット。動画に歌詞を載せるのに適しています。
- LRC — カラオケフォーマット。各行に
[mm:ss.xx]のタイムスタンプが付いているので、プレーヤーが音楽に同期して歌詞をスクロール・ハイライトできます。 - TXT — タイミングなしのプレーンテキスト。歌詞シートの印刷や校正に便利です。
Whisperは幅広い言語に対応しているので、日本語、英語、韓国語、中国語、スペイン語、その他何十もの言語で機能します — 多言語カラオケについては後述します。
ステップ3 — 曲を分離する
分離をクリックしてAIに任せましょう。AIVoiceSeparatorのStudioモードは、単一のネットワークではなく、3モデル(BS-Roformer、Mel-Band Roformer、MDX23C)の重み付けアンサンブルを実行します。アンサンブルは、どの単一モデルも残してしまうアーティファクトを均(なら)し、その結果は約12.97 dB SDRと計測されています。これは旧来のDemucsベースラインを明確に上回る水準です。一般的な5分の曲はGPUで約6分で完了します。その分離が内部で実際にどう動いているかが気になる方は、AIボーカル分離の仕組みの解説をご覧ください。
ジョブの実行中、サービスは曲のBPMと音楽的なキーも検出します — どちらもカラオケに本当に役立ちます。歌うことになるテンポと、キーが自分の声域に心地よく収まるかどうかが分かるからです。
ステップ4 — 伴奏(とLRC)をダウンロードする
ジョブが完了したら、ブラウザでステムをプレビューし、必要なものをダウンロードします:
- 伴奏 — これがあなたのカラオケ用バッキングトラックです。後でピッチ変更やリミックスをするならロスレスのWAVかFLACで、ただ歌いたいだけならMP3 320 kbpsで入手してください。
- .lrcファイル — 同期された歌詞です。
- 任意でボーカルステム — メロディを覚える間のガイドトラックとして役立ちます。
目的が純粋に伴奏トラックだけで歌詞は不要なら、専用のインスト抽出ツールが、その1つの出力に特化したワークフローで同じ分離を行います。
ステップ5 — 伴奏を自分の声域にピッチ変更する(任意)
元のキーはアーティストが録音したキーであって、必ずしもあなたの声が出しやすいキーとは限りません。サビが手の届かない高さで叫ぶようなら、伴奏全体を数半音下げましょう。逆に低すぎて濁って聞こえるなら、少し上げましょう。どちらの方向にも2〜3半音あれば、明らかに加工された感じを出さずに曲を心地よい声域に移すのに十分なことが多いです。
最近のカラオケプレーヤー(KaraFun、Walaoke)の多くにはキー調整機能が組み込まれているので、何も再レンダリングせずにその場でピッチを変えられます。新しいキーをファイルに焼き込みたい場合は、どんな音声エディタ(Audacityは無料)でもテンポを保ったままピッチ変更できます。前のステップでロスレスのWAVをダウンロードしているので、MP3を何度も再エンコードして生じるロッシーなアーティファクトを重ねることなくピッチ変更できます。
ステップ6 — カラオケアプリで再生する
LRCファイルは、プレーヤーがその読み方を知っていて初めて役割を果たします。ほぼすべてのプレーヤーが従う慣習はシンプルです。歌詞ファイルを音声ファイルと同じ名前にし、同じフォルダに置く — song.mp3 の隣に song.lrc です。一般的な選択肢は次のとおりです:
🎬 VLC
無料・クロスプラットフォームの定番。同名のLRCファイル(と歌詞拡張機能の有効化)があれば、VLCは伴奏の上に同期歌詞をスクロールします。Windows、macOS、Linux、Android、iOSで動作します。
🎹 KaraFun
その場でのキー・テンポ調整と大きなハイライト式の歌詞表示を備えた、カラオケ専用プレーヤー。リビングでのカラオケナイトに最適です。
🎤 Walaoke
家庭用セットアップで人気の軽量Windowsカラオケプレーヤー。伴奏と対応するLRCを読み込み、色付きハイライトでスクロールする歌詞を表示します。
🎵 MiniLyrics
foobar2000などのプレーヤーに組み込まれる歌詞プラグイン。LRCのタイミングを読み取り、トラックの再生に合わせて同期歌詞を表示します。
カラオケ画面用に歌詞を動画に焼き付けたいだけなら、代わりにSRTファイルを使い、任意の動画プレーヤーやエディタで字幕トラックとして追加してください。
クリーンなカラオケ結果のためのコツ
- クリーンなスタジオ録音から始める。 ライブ版、観客ノイズ入りのアコースティックカバー、強くマスタリングされた大音量トラックはクリーンに分離するのが難しくなります。標準的なスタジオミックスが最もクリーンな伴奏を生みます。
- バックコーラスに注意。 ボーカル除去はすべてのボーカルを対象にするので、密なハーモニーの重なりや大人数のコーラスは、わずかな残留を残したり、逆に残したかったハーモニーを抜き取ったりすることがあります。完璧な答えはありません — 聴いて、好みの結果を選んでください。
- LRCを校正する。 Whisperは強力ですが、スラング、固有名詞、速いラップでは完璧ではありません。TXTやLRCを任意のテキストエディタで開き、取りこぼした数語を直しましょう。
- 最後までロスレスを保つ。 ピッチ変更や編集はWAV/FLACで行い、最後のステップとしてのみMP3に書き出してください。
- 歌詞ファイル名を音声に合わせる。 歌詞が「表示されない」最も多い原因は、ファイル名の不一致です。
多言語カラオケ(日本語・韓国語・中国語など)
カラオケカタログに頼るのではなくAIからカラオケを作る最大の利点の1つが、言語の網羅性です。商用のカラオケライブラリは英語と一部の主要市場では充実していますが、それ以外はどこも手薄です。ここでの歌詞はWhisperから来るので、このワークフローは日本語、韓国語、北京語、広東語、スペイン語、インドネシア語、ベトナム語、タイ語、その他何十もの言語を扱えます — どのカラオケサービスも一度も制作したことのない曲も含めて。
ボーカル除去のステップは言語に依存しません。分離モデルは何が歌われているかを気にせず、ミックスの中に人の声があることだけを見ています。だから日本のJ-POPシングルやタイのルークトゥンバラードも、英語のチャートヒットとまったく同じくらいうまく分離されます。非ラテン文字の場合は、まれな語や様式化された表記で自動書き起こしが最も滑りやすいので、書き起こしを再確認してください。
法的なメモ
自分の練習や私的な集まりのためにカラオケ版を作ることは、一般的に個人利用として扱われます。他人の録音から作ったカラオケトラックを販売したり、公開でアップロードしたり、商業的に演奏したりすることは、権利者の許諾が関わる別の問題です。処理する素材の権利を有しているかどうかはご自身の責任です。全体像については利用規約をご覧ください。プライバシーの面では、すべてのジョブ — あなたのアップロードと当サイトが作るステム — は24時間後に自動的に削除され、あなたの音声がAIモデルの学習に使われることは一切ありません。
よくある質問
カラオケトラックを作るのは本当に無料ですか?
はい。匿名ユーザーは歌詞生成を含め、フルのStudio品質で1日1曲を利用できます。Patreon Proなら優先キュー付きで1日20曲に引き上げられます。
LRCファイルとは正確には何ですか?
各行に [01:14.30] のようなタイムスタンプが先頭に付いたプレーンテキストの歌詞ファイルです。カラオケプレーヤーはそのタイムスタンプを読んで、音楽に同期して歌詞をスクロール・ハイライトします。
自分の声に合わせてキーを変えられますか?
はい。ロスレスの伴奏をダウンロードし、カラオケプレーヤーの内蔵キー調整を使うか、Audacityのような無料エディタでピッチ変更してください。2〜3半音で通常は十分です。
伴奏にボーカルが残りますか?
3モデルのアンサンブルは、ほとんどのスタジオトラックでリードボーカルをクリーンに除去します。密なバックコーラスの重なりやライブ録音ではわずかな痕跡が残ることがあり、結果は曲によって異なります。
英語以外の曲でも機能しますか?
はい。ボーカル除去は言語に依存せず、Whisperは日本語、韓国語、中国語、スペイン語、その他多くの言語を歌詞ファイル用に書き起こします。
ファイルはどのくらい保存されますか?
すべてのジョブは24時間後に削除されます。あなたの音声をAI学習に使うことは一切ありません。