OpenAI Whisper: qué es, cómo funciona y cómo puedes usar esta inteligencia artificial para transcribir audios

Vamos a explicarte qué es Whisper, el sistema de inteligencia artificial de OpenAI para transcribir archivos de audio a texto. Hay muchas herramientas para transcribir audio a texto, pero la mayoría de ellas suele dar fallos. Sin embargo, esta IA de la que se acaba de presentar su versión v3 ha llegado para ofrecer los mejores resultados.

Vamos a empezar este artículo explicándote de una manera sencilla qué es Whisper y cómo funciona a nivel interno. Y luego, terminaremos diciéndote dos maneras para poder usarlo libremente para transcribir tus textos.

Qué es Whisper

Whisper es una tecnología que utiliza la inteligencia artificial para transcribir audios. Esto quiere decir que tú subes un archivo de audio a su sistema, y esta tecnología analiza todo lo que se dice en el audio y te lo escribe en palabras para que no tengas que hacerlo tú.

Hay trabajos como en el periodismo en el que muchos compañeros tienen que transcribir entrevistas. Esto, normalmente es una tarea tediosa en la que vas escuchando el audio y escribiendo todo lo que se dice, teniendo que ir parando de vez en cuando e invirtiendo una gran cantidad de tiempo y es fuerzo en ello. Con esta herramienta, la transcripción la hace una IA.

En este caso, la mayoría de herramientas gratuitas clásicas suelen dar demasiados fallos, confundiendo palabras o colocando otras mal, e incluso inventándose cifras o no incluyendo expresiones. Esto hace que acabes teniendo que repasarlo todo, y tampoco se ahorre demasiado tiempo.

Y lo que propone OpenAI es una herraimienta muchísimo más fiable a la hora de realizar sus transcripciones. No está ausente de tener errores puntuales de vez en cuando, pero es mucho más eficaz que la mayoría de ellas, es muy rápida y muy efectiva. Y además, se puede usar libremente.

En Xataka

DALL-E 3: 23 ideas, consejos y algún truco para exprimir al máximo tus dibujos con inteligencia artificial

Cómo funciona Whisper

Captura De Pantalla 2023 11 13 A Las 13 49 02

Whisper, en su actual tercera versión, es un sistema de reconocimiento automático de voz o ASR". Es una tecnología que utiliza la inteligencia artificial para procesar un archivo de audio que le hayas enviado, y analizar el contenido, detectar todas las palabras que se dicen y luego escribirte en texto lo que se dice en el audio.

Para conseguirlo, en su tercera versión esta inteligencia artificial ha sido entrenada con más de un millón de horas de audio, que ya es mucho más que las 680.000 horas utilizadas en su segunda versión. Con esto, se han reducido los errores en un 10 y 20 porciento.

Actualmente, Whisper tiene una tasa de error de menos del 5% al transcribir del español, algo que lo sitúa como una de las mejores herramientas para hacerlo. También puede transcribir el inglés y otros idiomas, e incluso detectar cuándo se pasa de un idioma a otro durante la conversación que haya en el audio.

Entre sus ventajas, está el hecho de que pueda interpretar correctamente incluso las pausas en la conversación, usando este entendimiento para colocar comas y puntos de una manera correcta dependiendo de la duración de la pausa.

Whisper es un modelo de lenguaje, una base sobre la que se pueden construir aplicaciones y recursos. Vamos, que una empresa puede crear una web y conectarla a este modelo a través de su API para crear una herramienta de transcripción o un traductor.

Para ello, Whisper está disponible en varios tamaños, de forma que se pueda incluir en varios tipos de aplicaciones dependiendo de sus necesidades. Tienes desde una versión que necesita menos de 1 GB de VRAM y está entrenada con 39 millones de parámetros hasta su modelo más grande, con 1.550 millones de parámetros y unos requisitos de unos 10 GB de VRAM.

En Xataka

Parafrasear con ChatGPT o Bing Chat: cómo reformular textos utilizando inteligencia artificial

Cómo usar Whisper

Captura De Pantalla 2023 11 13 A Las 13 48 36

Whisper es una IA de código abierto, y tiene una página en Github con instrucciones técnicas para cómo descargarla y ejecutarla. Para esto, hacen falta unos conocimientos un poco avanzados, y no está al alcance de los usuarios con menos experiencia.

Como alternativa, puedes utilizar Whisper en la web replicate.com/openai/whisper. Whisper es de código abierto, lo que quiere decir que se puede descargar y usar en páginas web. Y Replicate es un portal en el que puedes usar varios modelos de inteligencia artificial, incluyendo Whisper.

En esta página web, podrás subir el archivo de audio que quieras y elegir el modelo que quieres utilizar. Por ejemplo, puedes usar el modelo v3 en cualquiera de sus versiones. Vas a poder usarlo libremente con tus archivos, aunque para un uso avanzado necesitarás registrarte.

Imagen | Bogomil Mihaylov

En Xataka Basics | Transcribir de audio a texto: 17 herramientas gratuitas