Traducciones automáticas – SeamlessM4T maneja datos de texto y voz

SeamlessM4T, el nuevo proyecto de Meta para revolucionar las traducciones automáticas. Este programa utiliza el concepto de multi-modalidad, esto significa que el programa puede traducir tanto texto como voz.

[Empresa – Información Digital]

 

¿Qué es SeamlessM4T?

SeamlessM4T es el último esfuerzo de Meta en el campo de las traducciones automáticas. A diferencia de los modelos anteriores que se centraban en un solo tipo de datos, este programa utiliza el concepto de multi-modalidad, que es la capacidad de un programa para operar en múltiples tipos de datos. 

Esto significa que puede manejar tanto datos de texto como de voz, lo que lo convierte en una herramienta versátil para diversas aplicaciones.

Los autores del programa argumentan que los datos de voz son más ricos y, por lo tanto, más útiles para las redes neuronales. Este enfoque integral podría tener aplicaciones significativas en servicios de traducción en tiempo real.

SeamlessM4T es un programa de ‘extremo a extremo’, lo que significa que no separa las funciones relacionadas con el texto y la voz. Esto es contrario a los modelos en cascada, que realizan la traducción en etapas. Al integrar múltiples componentes en un solo programa, promete ser más eficiente y preciso.

 

Rendimiento y Pruebas

En las pruebas, SeamlessM4T ha mostrado mejoras significativas en el reconocimiento de voz y la traducción. Ha superado a otros programas tanto en modelos de extremo a extremo como en modelos diseñados específicamente para la voz.

Estos resultados positivos podrían tener un impacto considerable en la calidad de los servicios de traducciones automáticas.

El programa no solo ha mostrado mejoras en las métricas de rendimiento como BLEU, sino que también ha sido evaluado en términos de sesgo de género y toxicidad añadida.

Los resultados son prometedores, con una reducción significativa en la toxicidad añadida en las salidas de traducción (reportando hasta un 63% de reducción en la toxicidad añadida en las salidas de traducción).

Este aspecto podría ser crucial para garantizar que las traducciones automáticas no solo sean precisas sino también seguras y libres de prejuicios.

El programa viene acompañado de un sitio de GitHub que ofrece no solo el código del programa sino también nuevas tecnologías para incrustar datos multi-modales y evaluar automáticamente tareas multi-modales.

 

El programa soporta hasta la traducción de 100 idiomas

La información oficial proporciona detalles técnicos adicionales sobre SeamlessM4T. El programa es capaz de soportar traducción de voz a voz, voz a texto, texto a voz y texto a texto para hasta 100 idiomas.

Para lograr esto, se utilizaron 1 millón de horas de datos de audio de voz abiertos para aprender representaciones de voz auto-supervisadas con w2v-BERT 2.0.

Además, se creó un corpus multimodal de traducciones de voz automáticamente alineadas, denominado SeamlessAlign, que se combinó con datos etiquetados por humanos y datos pseudo-etiquetados, totalizando 406,000 horas.

En términos de rendimiento, SeamlessM4T ha establecido un nuevo estándar para traducciones en múltiples idiomas objetivo, logrando una mejora del 20% en la puntuación BLEU sobre el estado anterior del arte en traducción directa de voz a texto.

No es solo otro programa de traducción, es un paso hacia una comprensión más profunda de cómo las redes neuronales pueden manejar múltiples tipos de datos para ofrecer soluciones más precisas y eficientes.

Este enfoque multimodal podría ser el estándar futuro en la traducción automática, marcando un hito en la forma en que interactuamos con la tecnología y entre nosotros.

 

 

Juan Diego Polo
Ingeniero de más de 40, fundador de WWWhatsnew y editor apasionado.
Trabaja en el mundo de la tecnología desde el año 2.000, y desde entonces no ha parado un minuto de prestar atención a todas las novedades del sector.

Ver el artículo en su edición original

Origen de la imagen:
pexels – cottonbro studio

Ver:

> La Inteligencia Artificial Generativa – Una revolución creativa 
> ChatGPT o Google Bard – La OMS pide una IA segura y ética
> Inteligencia artificial híbrida contra las Fake News
> ‘Gemelos digitales y ‘Blockchain’ – Tendencias tecnológicas 2023 – 1
> Internet de las Cosas, Inteligencia Artificial y Metaverso – Tendencias 2023 – 2
> Aprendizaje automático (Machine Learning) – Inteligencia Artificial – Carles Gomara 
> El metaverso – Un mundo paralelo alternativo
> AgTech – Las Nuevas Tecnologías y el futuro del mundo rural 
> Carme Torras – Robótica asistencial e Inteligencia artificial
> Robótica asistencial – Roboética – Carme Torras
> Robots que curan – Entrevista al doctor ingeniero Fernando Fernández
> Inteligencia Artificial por y para la sociedad
> ‘Tus electrodomésticos te espían’ – Luis Enrique Benítez Jaspe
> Ética e Inteligencia Artificial – Retos éticos de las máquinas pensantes
> Pablo Rodríguez – ‘Inteligencia artificial – Cómo cambiará el mundo (y tu vida)’
> Las redes sociales y los principios emocionales básicos del ser humano 
> Sophia Hanson, la robot humanoide que concede entrevistas

 

 

1 – 11-09-2023