Bitdoze Logo
7 min de lectura

Como Clonar Tu Voz con Fish Audio (Guia Paso a Paso)

Clona tu voz en menos de 2 minutos con Fish Audio. Guia paso a paso con capturas de pantalla, consejos de grabacion y como obtener los mejores resultados.

Como Clonar Tu Voz con Fish Audio (Guia Paso a Paso)

Clone mi voz en Fish Audio la semana pasada para mis videos de YouTube. Todo el proceso tomo unos dos minutos desde la grabacion hasta tener un clon funcional. Aqui esta exactamente como lo hice, lo que funciono y lo que haria diferente.

Prueba Fish Audio Gratis

Lo que necesitas

  • Una cuenta de Fish Audio (el nivel gratuito funciona)
  • 10-15 segundos de audio claro de ti hablando
  • Una habitacion silenciosa (el ruido de fondo perjudica la calidad)
  • Un microfono decente (el de tu laptop funciona, un USB es mejor)

Antes de empezar

La clonacion de voz de Fish Audio es gratuita en el nivel gratuito. No necesitas un plan de pago para clonar tu voz. El clon puede hablar en 83 idiomas una vez creado.

Paso 1: Graba tu muestra de voz

Graba leyendo un parrafo claramente durante unos 15 segundos. Esto es lo que yo use:

“El rapido zorro marron salta sobre el perro perezoso. Estoy grabando esta muestra para crear un clon de voz que pueda usar para mis proyectos de video. Hablar de forma natural y clara ayuda a la IA a capturar las caracteristicas de mi voz.”

Consejos de grabacion

Mantenlo limpio. Graba en una habitacion silenciosa. Cierra ventanas, apaga ventiladores, silencia tu telefono. El ruido de fondo se hornea en el clon y hace que suene peor.

Habla naturalmente. No leas en monotono o intentes sonar como un presentador de noticias. Habla como normalmente lo harias en una conversacion. El clon coincidira con tu cadencia natural, asi que dale tu voz real.

Usa un buen microfono si tienes uno. Un microfono condensador USB como el Blue Yeti o Audio-Technica AT2020 produce resultados mas limpios que un microfono de laptop. Dicho esto, probe con el microfono de mi laptop y el clon todavia era util.

Apunta a 15 segundos. Fish Audio necesita al menos 10 segundos, pero 15 segundos dan al modelo mas material con el que trabajar. No grabes durante cinco minutos pensando que mas es mejor. No lo es. Muestras cortas y limpias producen clones mejores.

Evita leer listas o numeros. Los parrafos de texto natural funcionan mejor. Las listas y numeros tienen una prosodia inusual que puede confundir al modelo.

Paso 2: Sube a Fish Audio

  1. Ve a Fish Audio e inicia sesion
  2. Haz clic en Voice en la barra lateral izquierda
  3. Haz clic en Create Voice o el boton +
  4. Sube tu archivo de audio (MP3, WAV o M4A)
  5. Agrega un nombre para tu voz (yo use “Mi Voz”)
  6. Agrega una descripcion (opcional, pero te ayuda a encontrarla despues)
  7. Haz clic en Create

La subida y el procesamiento toman unos 30 segundos a 2 minutos. Fish Audio procesa el audio, extrae las caracteristicas de tu voz y construye un modelo a partir de el.

Voz clonada en Fish Audio mostrando forma de onda y configuracion de idioma
Voz clonada en Fish Audio con forma de onda y ajustes de idioma

Paso 3: Prueba tu clon

Una vez que el clon esta listo, ve a la pagina de generacion TTS:

  1. Selecciona tu voz clonada del menu desplegable de voces
  2. Escribe una oracion de prueba (algo diferente a tu grabacion)
  3. Haz clic en Generate
  4. Escucha la salida

Prueba con diferentes tipos de texto:

  • Una oracion normal para verificar la calidad basica
  • Una pregunta para verificar el aumento de entonacion
  • Un parrafo mas largo para verificar la consistencia
  • Algo emocional para verificar el rango

Si el clon suena mal, vuelve a grabar con una muestra mas limpia e intenta de nuevo. La calidad del audio de entrada es el factor mas importante en que tan bueno suena el clon.

Interfaz TTS de Fish Audio con controles de emocion y seleccion de modelo
Interfaz TTS de Fish Audio con controles de emocion y modelo S2.1 Pro

Paso 4: Agrega etiquetas de emocion

Las etiquetas de emocion de Fish Audio es lo que la distingue de otras herramientas TTS. Una vez que tu clon funciona, puedes agregar etiquetas para controlar la entonacion:

  • (excited) — alegre, energetico
  • (sad) — mas lento, tono mas bajo
  • (whisper) — silencioso, intimo
  • (angry) — agresivo, fuerte
  • (serious) — firme, medido
  • (happy) — calido, positivo

Coloca la etiqueta al inicio de la seccion que quieres afectar:

(excited) Acabo de conseguir la promocion en la que he estado trabajando durante dos anos!
(serious) Pero necesito pensar cuidadosamente si aceptarla.
(whisper) Entre tu y yo, ya tome mi decision.

Consejos para etiquetas de emocion

No te excedas. Una o dos etiquetas por parrafo es suficiente. Demasiadas etiquetas hacen que la salida suene antinatural.

Coloca etiquetas en puntos de ruptura natural. Ponlas al inicio de oraciones o clausulas, no en medio de una palabra.

Experimenta. El mismo texto con diferentes etiquetas produce resultados muy diferentes. Prueba algunas variaciones antes de comprometerte con una version final.

Combina con puntuacion. Los signos de exclamacion, puntos suspensivos y signos de interrogacion funcionan con las etiquetas de emocion para dar forma a la entonacion.

Paso 5: Genera y descarga

Una vez que estas satisfecho con la salida:

  1. Haz clic en Generate para crear el audio
  2. Escucha la salida completa
  3. Si suena bien, haz clic en Download para guardar como MP3 o WAV
  4. Importa en tu editor de video, herramienta de podcast o proyecto

Puedes generar tantas variaciones como quieras. Prueba diferentes redacciones, diferentes colocaciones de etiquetas y diferentes textos hasta que la salida coincida con lo que necesitas.

Cuanto tiempo toma la clonacion de voz?

Unos 30 segundos a 2 minutos. Fish Audio procesa tu muestra de audio, extrae las caracteristicas de la voz y construye un modelo. El tiempo real depende de la carga del servidor, pero generalmente es menos de dos minutos.

Puedo clonar la voz de otra persona?

Solo deberias clonar voces para las que tengas permiso. Fish Audio requiere que tengas el derecho de clonar cualquier voz que subas. Clonar la voz de otra persona sin consentimiento puede violar sus terminos de servicio y podria tener consecuencias legales.

Puedo mejorar mi clon despues de crearlo?

Puedes crear un nuevo clon con una muestra de audio mejor. No hay forma de “ajustar” un clon existente. Si la calidad no es lo que quieres, graba una muestra mas limpia y crea una nueva voz.

En cuantos idiomas puede hablar mi clon?

Fish Audio soporta 83 idiomas. Tu clon puede generar habla en cualquiera de estos idiomas. La calidad varia segun el idioma. Los idiomas principales como ingles, chino, japones, frances y aleman funcionan bien. Los idiomas menos comunes pueden tener algunos artefactos de acento.

Estan seguros mis datos de voz?

Fish Audio usa cifrado estandar para datos de voz. No reclaman derechos perpetuos sobre tu voz (a diferencia de algunos competidores). Dicho esto, lee los terminos de servicio antes de subir audio sensible. Para uso comercial, los planes de pago incluyen licencias adecuadas.

Errores comunes

Grabar en una habitacion ruidosa. El ruido de fondo, el eco y la reverberacion de la habitacion se capturan en el clon. Graba en la habitacion mas silenciosa que puedas encontrar.

Hablar demasiado lento o de forma antinatural. Si lees como un robot, tu clon sonara como un robot. Habla como normalmente hablarias.

Usar demasiadas etiquetas de emocion. Dos o tres etiquetas por parrafo esta bien. Diez etiquetas por parrafo hace que la salida suene entrecortada y antinatural.

No probar lo suficiente. Genera varias variaciones con diferente texto antes de decidir si el clon es bueno o malo. Una mala salida no significa que el clon este roto.

Esperar perfeccion. La clonacion de voz IA es buena, no perfecta. El clon sonara como tu en un buen dia, no exactamente como tu en cada situacion. Para la mayoria de los propositos de creacion de contenido, eso es suficientemente bueno.

Lo que haria diferente

Si empezara de nuevo, yo:

  1. Grabaria en una habitacion tratada o closet (menos eco)
  2. Usaria mi microfono USB en lugar del de la laptop
  3. Grabaria algunas muestras diferentes y probaria cada una antes de elegir la mejor
  4. Empezaria sin etiquetas de emocion y las agregaria gradualmente

El clon que tengo ahora funciona bien para mis videos de YouTube. Mi esposa no pudo notar la diferencia en una prueba ciega, lo cual es suficientemente bueno para mi. Pero el primer intento no fue genial porque grabe en una habitacion con un ventilador de techo funcionando. La entrada limpia importa.

Clona Tu Voz Gratis

Articulos relacionados