Cómo Hacer una Versión Karaoke de Cualquier Canción

No necesitas comprar un disco de karaoke ni esperar a que alguien suba tu tema favorito. Con la eliminación de voz por IA y la transcripción automática de la letra, puedes convertir casi cualquier canción en una versión karaoke pulida y con letra sincronizada en unos diez minutos, y gratis.

🎤 Quita la voz principal con limpieza 📝 Letra LRC autosincronizada 🎚️ Cambia el tono a tu rango

Qué significa realmente "hacer una pista de karaoke"

Una versión karaoke son en realidad dos cosas que trabajan juntas: un instrumental (la canción con la voz principal eliminada) y un conjunto de letra sincronizada en el tiempo que se desplaza a compás para que sepas cuándo entrar. Los sistemas de karaoke antiguos los entregaban como archivos MIDI o CDG propietarios. Hoy puedes construir lo mismo a partir de cualquier grabación que tengas derecho a usar, porque dos problemas que antes eran difíciles — separar la voz de la música y sincronizar la letra con el ritmo — ahora los resuelve la IA.

El creador de karaoke con IA de AIVoiceSeparator se encarga de ambos en una sola pasada. Ejecuta un ensamble de tres modelos para extraer la voz y puede correr Whisper sobre la pista vocal aislada para generar un archivo .lrc listo para karaoke con marcas de tiempo. El resto de esta guía recorre el flujo completo, incluido cómo cambiar el tono del resultado a tu propio rango y qué reproductores leen de verdad los archivos de letra de karaoke.

Haz una pista de karaoke de cualquier canción

🎤 Abrir el creador de karaoke

Gratis 3 canciones/mes · sin registro · Patreon Pro = 2 canciones/día

Paso 1 — Añade tu canción (sube un archivo o pega una URL)

Abre la app de AIVoiceSeparator y elige cómo añadir tu pista. Puedes arrastrar un archivo de audio (MP3, WAV, FLAC, M4A y más, hasta 100 MB / 15 minutos), o cambiar a la pestaña de URL y pegar un enlace. La compatibilidad de URL cubre YouTube, YouTube Music, SoundCloud y TikTok — práctico si la canción que quieres vive en el lado del eliminador de voz para YouTube en lugar de como archivo en tu disco. El servidor descarga el audio con yt-dlp, así que nunca tienes que sacar un MP3 de un sitio conversor dudoso primero.

Para el resultado de karaoke más limpio, parte de la fuente de mayor calidad que puedas. Un stream a 320 kbps o un archivo sin pérdida le da al modelo de separación más detalle con el que trabajar que un rip tenue a 96 kbps, y esa diferencia se oye en el instrumental final.

Paso 2 — Activa "Generar letra" antes de procesar

Este es el paso que la mayoría omite y luego lamenta. Antes de pulsar el botón de separar, activa la opción Generar letra. Cuando está activada, el servicio ejecuta Whisper — un modelo abierto de reconocimiento de voz — sobre la pista vocal aislada, no sobre la mezcla completa. Ejecutar la transcripción sobre la voz limpia (en vez de sobre la canción original) es el truco que hace que la sincronización sea precisa: no hay instrumentación que el modelo pueda confundir con palabras.

Recibes tres archivos:

SRT — formato estándar de subtítulos de vídeo, con marcas de inicio/fin. Bueno para poner la letra sobre un vídeo.
LRC — el formato de karaoke. Cada línea lleva una marca de tiempo [mm:ss.xx] para que un reproductor pueda desplazar y resaltar la letra en sincronía con la música.
TXT — texto plano, sin sincronización. Útil para imprimir una hoja de letra o para corregirla.

Whisper admite una amplia variedad de idiomas, así que esto funciona para tailandés, japonés, coreano, chino, español y decenas más — más sobre el karaoke multiidioma abajo.

Paso 3 — Separa la canción

Haz clic en separar y deja trabajar a la IA. El modo Studio de AIVoiceSeparator ejecuta un ensamble ponderado de tres modelos — BS-Roformer, Mel-Band Roformer y MDX23C — en lugar de una sola red. El ensamblado suaviza los artefactos que cualquier modelo individual dejaría atrás, y el resultado se mide en unos 12,97 dB de SDR, un paso significativo por encima de la base más antigua de Demucs. Una canción típica de cinco minutos termina en unos seis minutos en la GPU. Si tienes curiosidad por cómo funciona esa separación bajo el capó, consulta nuestra explicación sobre cómo funciona la separación de voz con IA.

Mientras corre el trabajo, el servicio también detecta el BPM y el tono musical de la canción — ambos genuinamente útiles para el karaoke, porque te dicen el tempo al que vas a cantar y si el tono encaja cómodamente en tu rango.

Paso 4 — Descarga el instrumental (y el LRC)

Cuando el trabajo termine, escucha las pistas en el navegador y descarga lo que necesites:

El instrumental — esta es tu pista de fondo de karaoke. Cógelo como WAV o FLAC sin pérdida si planeas cambiar el tono o remezclar después, o como MP3 320 kbps si solo quieres cantar.
El archivo .lrc — tu letra sincronizada.
Opcionalmente la pista vocal — útil como guía de referencia mientras aprendes la melodía.

Si tu objetivo es puramente la pista de fondo y no te importa la letra, el extractor de instrumentales dedicado hace la misma separación con un flujo optimizado para esa única salida.

Paso 5 — Cambia el tono del instrumental a tu rango (opcional)

El tono original es aquel en el que grabó el artista, y no siempre es donde vive tu voz. Si el estribillo se te escapa hacia arriba, transpone todo el instrumental unos semitonos hacia abajo; si queda demasiado grave y suena turbio, súbelo un poco. Dos o tres semitonos en cualquier dirección suelen bastar para llevar una canción a un rango cómodo sin que suene obviamente procesado.

La mayoría de los reproductores de karaoke modernos (KaraFun, Walaoke) tienen un control de tono integrado, así que puedes cambiar el tono sobre la marcha sin volver a renderizar nada. Si prefieres fijar el nuevo tono en el archivo, cualquier editor de audio — Audacity es gratis — puede cambiar el tono conservando el tempo. Como descargaste un WAV sin pérdida en el paso anterior, puedes cambiar el tono sin acumular los artefactos con pérdida que tendrías al recodificar un MP3 una y otra vez.

Paso 6 — Reprodúcelo en una app de karaoke

Un archivo LRC solo cumple su función si tu reproductor sabe leerlo. La convención que sigue casi cualquier reproductor es simple: nombra el archivo de letra igual que el archivo de audio y guárdalos en la misma carpeta — cancion.mp3 junto a cancion.lrc. Estas son las opciones comunes:

🎬 VLC

El recurso gratuito y multiplataforma de siempre. Con archivos LRC del mismo nombre (y una extensión de letra activada), VLC desplaza la letra sincronizada sobre tu instrumental. Funciona en Windows, macOS, Linux, Android e iOS.

🎹 KaraFun

Un reproductor de karaoke dedicado con controles de tono y tempo sobre la marcha y una gran pantalla de letra con estilo de resaltado. Genial para noches de karaoke en el salón.

🎤 Walaoke

Un reproductor de karaoke ligero para Windows, popular en montajes caseros; carga tu instrumental más el LRC correspondiente y muestra la letra desplazándose con resaltado por color.

🎵 MiniLyrics

Un complemento de letra que se engancha a reproductores como foobar2000 y lee la sincronización LRC, mostrando la letra sincronizada mientras suena la pista.

Si solo quieres la letra incrustada sobre un vídeo para una pantalla de karaoke, usa el archivo SRT en su lugar y añádelo como pista de subtítulos en cualquier reproductor o editor de vídeo.

Consejos para resultados de karaoke limpios

Parte de una grabación de estudio limpia. Las versiones en directo, los covers acústicos con ruido de público y las pistas muy masterizadas y altas son más difíciles de separar con limpieza. Una mezcla de estudio estándar da el instrumental más limpio.
Atención a los coros. La eliminación de voz apunta a todas las voces, así que las pilas densas de armonías y los estribillos cantados en grupo a veces dejan un leve residuo o, al revés, sacan armonías que querías conservar. No hay respuesta perfecta — escucha y elige el resultado que prefieras.
Corrige el LRC. Whisper es potente pero no infalible con la jerga, los nombres propios y el rap rápido. Abre el TXT o el LRC en cualquier editor de texto y corrige el puñado de palabras que se le escaparon.
Mantén el formato sin pérdida hasta el final. Haz el cambio de tono y la edición sobre el WAV/FLAC, y exporta a MP3 solo como último paso.
Haz coincidir el nombre del archivo de letra con el del audio. El motivo más común por el que la letra "no aparece" es un nombre de archivo que no coincide.

Karaoke multiidioma (tailandés, japonés, coreano y más)

Una de las mayores ventajas de construir karaoke con IA en lugar de depender de un catálogo de karaoke es la cobertura de idiomas. Las bibliotecas comerciales de karaoke son profundas para el inglés y un puñado de mercados grandes, y escasas en todo lo demás. Como aquí la letra viene de Whisper, el flujo maneja tailandés, japonés, coreano, mandarín, cantonés, español, indonesio, vietnamita y decenas de otros idiomas — incluidas canciones que ningún servicio de karaoke ha producido jamás.

El paso de eliminación de voz es agnóstico al idioma: al modelo de separación no le importa qué se canta, solo que es una voz humana en la mezcla. Así que una balada luk thung tailandesa o un single de J-pop se separan exactamente igual de bien que un éxito de listas en inglés. Para escrituras no latinas, comprueba dos veces la transcripción, ya que las palabras raras y las grafías estilizadas son donde la transcripción automática es más propensa a fallar.

Una nota legal rápida

Hacer una versión karaoke para tu propia práctica o una reunión privada se trata en general como uso personal. Vender pistas de karaoke que construiste a partir de la grabación de otra persona, subirlas públicamente o interpretarlas comercialmente implica el permiso de los titulares de derechos y es otro asunto. Eres responsable de tener los derechos de lo que proceses. Consulta nuestras condiciones de uso para el panorama completo. Sobre la privacidad: cada trabajo — tu subida y las pistas que creamos — se elimina automáticamente tras 24 horas, y tu audio nunca se usa para entrenar modelos de IA.

Preguntas frecuentes

¿Hacer una pista de karaoke es realmente gratis?

Sí. Los usuarios anónimos obtienen 3 canciones al mes con la calidad Studio completa, incluida la generación de letra. Patreon Pro eleva el límite a 2 canciones diarias con cola prioritaria.

¿Qué es exactamente un archivo LRC?

Es un archivo de letra en texto plano donde cada línea va precedida de una marca de tiempo como [01:14.30]. Los reproductores de karaoke leen esas marcas para desplazar y resaltar la letra en sincronía con la música.

¿Puedo cambiar el tono para que encaje con mi voz?

Sí. Descarga el instrumental sin pérdida y usa el control de tono integrado de tu reproductor de karaoke o cámbialo en un editor gratuito como Audacity. Dos o tres semitonos suelen bastar.

¿El instrumental tendrá restos de voz?

El ensamble de tres modelos quita la voz principal con limpieza en la mayoría de las pistas de estudio. Las pilas densas de coros y las grabaciones en directo pueden dejar leves restos; los resultados varían según la canción.

¿Funciona para canciones que no están en inglés?

Sí. La eliminación de voz es agnóstica al idioma, y Whisper transcribe tailandés, japonés, coreano, chino, español y muchos más idiomas para el archivo de letra.

¿Cuánto tiempo guardáis mis archivos?

Cada trabajo se elimina tras 24 horas. Nunca usamos tu audio para entrenar IA.

Herramientas y lecturas relacionadas

¿Listo para cantar? Construye tu pista de karaoke ahora

🎤 Abrir el creador de karaoke

Gratis, sin registro, sin marca de agua — 1 canción cada 24 horas