Как сделать караоке-версию любой песни

Вам не нужно покупать караоке-диск или ждать, пока кто-то выложит ваш любимый трек. С AI-удалением вокала и автоматической расшифровкой текста можно превратить почти любую песню в аккуратное караоке с синхронным текстом примерно за десять минут — бесплатно.

🎤 Чисто убирает ведущий вокал 📝 Авто-синхронный текст LRC 🎚️ Смена тональности под ваш голос

Что на самом деле значит «сделать караоке-минусовку»

Караоке-версия — это, по сути, две вещи, работающие вместе: минусовка (песня с убранным ведущим вокалом) и набор синхронного текста, который прокручивается в такт, чтобы вы знали, когда вступать. Старые караоке-системы поставляли это в виде проприетарных MIDI- или CDG-файлов. Сегодня вы можете собрать то же самое из любой записи, на которую у вас есть права, потому что две задачи, которые раньше были сложными — отделить голос от музыки и подогнать текст под бит — теперь решает AI.

AI-создание караоке на AIVoiceSeparator делает и то, и другое за один проход. Оно прогоняет ансамбль из трёх моделей, чтобы снять вокал, и может запустить Whisper по выделенной вокальной дорожке, чтобы сгенерировать готовый для караоке файл .lrc с тайм-кодами. Остальная часть руководства разбирает весь процесс, включая то, как сменить тональность под ваш голос и какие плееры действительно читают файлы текста для караоке.

Сделайте караоке-минусовку из любой песни

🎤 Открыть создание караоке

Бесплатно 3 песни/месяц · без регистрации · Patreon Pro = 2 песни/день

Шаг 1 — Добавьте песню (загрузка или ссылка)

Откройте приложение AIVoiceSeparator и выберите, как добавить трек. Можно перетащить аудиофайл (MP3, WAV, FLAC, M4A и другие, до 100 МБ / 15 минут) или переключиться на вкладку ссылки и вставить URL. Поддержка ссылок охватывает YouTube, YouTube Music, SoundCloud и TikTok — удобно, если нужная песня живёт на стороне удаления вокала из YouTube, а не как файл у вас на диске. Сервер скачает аудио через yt-dlp, так что вам не придётся сначала выуживать MP3 с сомнительного конвертера.

Для самого чистого караоке-результата начинайте с источника наивысшего качества. Поток 320 кбит/с или lossless-файл дают модели разделения больше деталей, чем тонкий рип 96 кбит/с, и эта разница слышна в итоговой минусовке.

Шаг 2 — Включите «Сгенерировать текст» перед обработкой

Это шаг, который большинство пропускает, а потом жалеет. Перед нажатием кнопки разделения включите тумблер Сгенерировать текст. Когда он включён, сервис прогоняет Whisper — открытую модель распознавания речи — по выделенной вокальной дорожке, а не по всему миксу. Запуск расшифровки по чистому вокалу (а не по исходной песне) — это и есть приём, который делает тайминг точным: модели нечего ошибочно принять за слова из инструментов.

Вы получаете три файла:

SRT — стандартный формат видеосубтитров с тайм-кодами начала/конца. Хорош для наложения текста на видео.
LRC — формат караоке. Каждая строка помечена тайм-кодом [мм:сс.хх], чтобы плеер прокручивал и подсвечивал текст синхронно с музыкой.
TXT — обычный текст без тайминга. Удобен для печати листа с текстом или вычитки.

Whisper поддерживает широкий набор языков, так что это работает для русского, тайского, японского, корейского, китайского, испанского и десятков других — подробнее о многоязычном караоке ниже.

Шаг 3 — Разделите песню

Нажмите «Разделить» и дайте AI поработать. Режим Studio в AIVoiceSeparator использует взвешенный ансамбль из трёх моделей — BS-Roformer, Mel-Band Roformer и MDX23C — а не одну сеть. Ансамблирование сглаживает артефакты, которые оставила бы любая отдельная модель, и результат измеряется примерно на уровне 12,97 дБ SDR — заметный шаг вперёд по сравнению со старым базовым Demucs. Обычная пятиминутная песня обрабатывается примерно за шесть минут на GPU. Если интересно, как именно работает это разделение под капотом, смотрите наш разбор как работает AI-разделение вокала.

Пока задача выполняется, сервис также определяет BPM и тональность песни — обе вещи действительно полезны для караоке, потому что подсказывают темп, под который вы будете петь, и удобно ли тональность ложится в ваш диапазон.

Шаг 4 — Скачайте минусовку (и LRC)

Когда задача завершится, прослушайте дорожки в браузере, затем скачайте, что нужно:

Минусовка — это ваша караоке-подложка. Берите её в lossless WAV или FLAC, если планируете позже менять тональность или ремиксовать, либо MP3 320 кбит/с, если просто хотите петь под неё.
Файл .lrc — ваш синхронный текст.
При желании вокальную дорожку — полезна как референс-гид, пока вы учите мелодию.

Если ваша цель — исключительно подложка и текст не нужен, отдельное извлечение минусовки делает то же разделение с процессом, заточенным под один этот результат.

Шаг 5 — Смените тональность минусовки под свой голос (необязательно)

Оригинальная тональность — это та, в которой записывал артист, и она не всегда там, где живёт ваш голос. Если припев улетает за пределы вашего диапазона, транспонируйте всю минусовку на пару полутонов вниз; если сидит слишком низко и звучит глухо — подвиньте вверх. Двух-трёх полутонов в любую сторону обычно достаточно, чтобы перевести песню в комфортный диапазон без явно слышимой обработки.

В большинстве современных караоке-плееров (KaraFun, Walaoke) есть встроенный регулятор тональности, так что можно менять высоту на лету без перерендера. Если предпочитаете «запечь» новую тональность в файл, любой аудиоредактор — Audacity бесплатен — может сменить высоту с сохранением темпа. Поскольку на прошлом шаге вы скачали lossless WAV, можно менять тональность без накопления lossy-артефактов, которые появились бы при многократном перекодировании MP3.

Шаг 6 — Воспроизведите в караоке-приложении

Файл LRC выполняет свою работу, только если плеер умеет его читать. Соглашение, которому следует почти каждый плеер, простое: назовите файл текста так же, как аудиофайл, и держите их в одной папке — song.mp3 рядом с song.lrc. Вот распространённые варианты:

🎬 VLC

Бесплатный кроссплатформенный стандарт. С одноимёнными LRC-файлами (и включённым расширением для текстов) VLC прокручивает синхронный текст поверх вашей минусовки. Работает на Windows, macOS, Linux, Android и iOS.

🎹 KaraFun

Специализированный караоке-плеер с регулировкой тональности и темпа на лету и крупным подсвечивающим отображением текста. Отлично для домашних караоке-вечеров.

🎤 Walaoke

Лёгкий караоке-плеер для Windows, популярный для домашних сетапов; загружает вашу минусовку плюс соответствующий LRC и показывает прокручивающийся, подсвеченный цветом текст.

🎵 MiniLyrics

Плагин для текстов, который встраивается в плееры вроде foobar2000 и читает тайминг LRC, показывая синхронный текст по мере воспроизведения трека.

Если вам просто нужен текст, «впечённый» в видео для караоке-экрана, используйте файл SRT и добавьте его как дорожку субтитров в любом видеоплеере или редакторе.

Советы для чистого караоке-результата

Начинайте с чистой студийной записи. Концертные версии, акустические каверы с шумом толпы и сильно отмастеренные громкие треки разделяются чисто труднее. Обычный студийный микс даёт самую чистую минусовку.
Следите за бэк-вокалом. Удаление вокала нацелено на весь вокал, поэтому плотные гармонии и хоровые припевы иногда оставляют лёгкий остаток или, наоборот, вытягивают гармонии, которые вы хотели сохранить. Идеального ответа нет — послушайте и выберите вариант, который вам больше нравится.
Вычитайте LRC. Whisper силён, но не безупречен на сленге, именах собственных и быстром рэпе. Откройте TXT или LRC в любом текстовом редакторе и поправьте пару пропущенных слов.
Держите lossless до самого конца. Делайте смену тональности и редактирование на WAV/FLAC, а в MP3 экспортируйте только на финальном шаге.
Сопоставьте имя файла текста с аудио. Самая частая причина, почему текст «не показывается», — несовпадение имён файлов.

Многоязычное караоке (русский, японский, корейский и не только)

Одно из главных преимуществ сборки караоке через AI, а не опоры на караоке-каталог, — охват языков. Коммерческие караоке-библиотеки глубоки для английского и горстки крупных рынков и скудны во всём остальном. Поскольку текст здесь приходит от Whisper, процесс справляется с русским, японским, корейским, мандаринским, кантонским, испанским, индонезийским, вьетнамским и десятками других языков — включая песни, которые ни один караоке-сервис никогда не выпускал.

Шаг удаления вокала языконезависим: модели разделения всё равно, что поётся, важно лишь, что в миксе человеческий голос. Так что тайская баллада лук-тхунг или J-pop-сингл разделяются ровно так же хорошо, как английский чарт-хит. Для нелатинских письменностей перепроверяйте расшифровку, ведь редкие слова и стилизованные написания — это там, где автоматическая расшифровка чаще всего спотыкается.

Краткая юридическая заметка

Создание караоке-версии для собственной репетиции или частной вечеринки обычно считается личным использованием. Продажа караоке-минусовок, собранных из чужой записи, их публичная выкладка или коммерческое исполнение требуют разрешения правообладателей и являются другим делом. Вы несёте ответственность за наличие прав на всё, что обрабатываете. Полная картина — в наших условиях использования. Что касается приватности: каждая задача — ваша загрузка и созданные нами дорожки — автоматически удаляется через 24 часа, а ваше аудио никогда не используется для обучения AI-моделей.

Частые вопросы

Создание караоке действительно бесплатно?

Да. Анонимным пользователям доступна 3 песни в месяц в полном качестве Studio, включая генерацию текста. Patreon Pro поднимает лимит до 2 песен в день с приоритетной очередью.

Что такое файл LRC?

Это обычный текстовый файл с текстом песни, где каждая строка предваряется тайм-кодом вроде [01:14.30]. Караоке-плееры читают эти тайм-коды, чтобы прокручивать и подсвечивать текст синхронно с музыкой.

Можно ли сменить тональность под свой голос?

Да. Скачайте lossless-минусовку и либо используйте встроенный регулятор тональности в караоке-плеере, либо смените высоту в бесплатном редакторе вроде Audacity. Двух-трёх полутонов обычно достаточно.

Останется ли в минусовке остаток вокала?

Ансамбль из трёх моделей чисто убирает ведущий вокал на большинстве студийных треков. Плотные слои бэк-вокала и концертные записи могут оставить лёгкие следы; результат зависит от песни.

Это работает для неанглийских песен?

Да. Удаление вокала языконезависимо, а Whisper расшифровывает русский, японский, корейский, китайский, испанский и многие другие языки для файла текста.

Сколько вы храните мои файлы?

Каждая задача удаляется через 24 часа. Мы никогда не используем ваше аудио для обучения AI.

Связанные инструменты и статьи

Готовы петь? Соберите свою караоке-минусовку прямо сейчас

🎤 Открыть создание караоке

Бесплатно, без регистрации, без водяного знака — 1 песня каждые 24 часа