Microsoft: Nuestro software ya escucha mejor que las personas

La firma rompió el récord del reconocimiento de voz y ya tiene menos porcentaje de error que los mejores profesionales

Microsoft anunció que su sistema de reconocimiento y transcripción ya "escucha" mejor que los seres humanos.

El gigante tecnológico informó el lunes que su sistema conversacional de reconocimiento de voz alcanzó una tasa de error del 5,1% superando la de los mejores profesionales.

El hito bate el récord fijado por IBM, que sostenía que para superar a los seres humanos había que romper con la marca del mejor transcriptor: 5,5% de error. Hace un año, Microsoft también había celebrado el logro, pero su margen de error era mayor (5,9%)

¿Para qué sirve?

Según Microsoft, este avance es muy significativo porque promete revolucionar todo tipo de productos de consumo y negocios para que puedan "escuchar" de forma natural con los usuarios. Esto incluye dispositivos de entretenimiento como la Xbox; y el asistente de voz de Microsoft, Cortana.

Sin embargo, el récord no significa que la PC puede reconocer cada palabra a la perfección –de hecho, las personas tampoco lo hacen–, sino que la tasa de errores es levemente mentor a la que se puede esperar de una persona capacitada para la tarea.

Las redes neuronales y el futuro

Al parecer, la clave del éxito fue el uso sistemático de la última tecnología de redes neuronales. El sistema usa modelos de "lenguaje neural" para el que las palabras se representan como vectores continuos en el espacio. Igual que el cerebro.

Así, el sistema usa grandes cantidades de datos –sets de entrenamiento– para enseñar a las computadoras a reconocer patrones de entradas como imágenes o sonidos. El resultado: puede enlazar palabras similares, como "rápido" y "pronto". Y la idea es que a futuro pueda reconocer cada vez más "ruidos externos" para no tratar de interpretarlos.

El gran reto

Y falta algo clave: pasar del reconocimiento al entendimiento. Estos sistemas, por ahora, sólo pueden transcribir las señales acústicas que salen de la boca, pero no entienden las palabras. A futuro, la idea es que el software pueda responder a cualquier tipo de pregunta o comentario.

"Estamos pasando de un mundo donde la gente debe entender a las computadoras a otro en el que las computadoras nos deben entender", explicó Harry Shum, el vicepresidente ejecutivo que encabeza el grupo de Inteligencia Artificial Microsoft. "Sin embargo, la verdadera Inteligencia Artificial todavía está en el horizonte lejano".

Por ahora, el reconocimiento de voz de Microsoft ya funciona en múltiples servicios como el asistente virtual Cortana, Windows, Office y Cognitive Services, entre otros.


Más información: www.microsoft.com.