imovilizate19102016

Microsoft acaba de lograr un hito en lo que se refiere a reconocimiento de voz humana. Uno de sus equipos de Inteligencia Artificial ha desarrollado un sistema de reconocimiento de voz humana que ha logrado una tasa de error de solo 5,9%, similar a la que tiene un humano

Un equipo de la División de Inteligencia Artificial e Investigación de la empresa de Redmond acaba de desarrollar una aplicación con la misma tasa de reconocimiento del habla conversacional humana que tendría una persona.

La tasa de error de la aplicación es del 5,9%, un resultado que es el estándar en humanos. A lo visto, las máquinas y pueden conversar con los humanos de igual a igual. En otras palabras, cuándo se aplique para algo práctico, el sistema entenderá sin dificultades el 94,1% que le diga un humano.

La tasa de error es la misma que se encontraría en un humano que estuviese transcribiendo la conversación. Microsoft bate otro hito ya que se trata de la tasa de error más baja de todos los sistemas que se han creado en inteligencia artificial para interpretar el discurso humano.

Se trata de un paso de gigante en lo que respecta a que los humanos podamos usar nuestro lenguaje natural para interactuar con las máquinas. Entre los hitos que están a punto de ser sobrepasados se encuentra nuevos niveles de interacción humano – máquina y para que personas con diversidad funcional puedan hacer un uso más eficaz de los ordenadores.

Al mismo tiempo Microsoft vuelve a estar a la cabeza en lo que respecta a los asistentes personales, un mercado muy competitivo en el cual compiten con, y entre otros, Google Home o Alexa de Amazon.

Habiendo logrado ya una tasa de error pequeñísima en lo que se podría calificar como comunicación pautada entre humano y máquina, ahora el equipo de Inteligencia Artificial de Microsoft piensa mejorar ese sistema de transcripción para que se pueda usar en situaciones de la vida real.

Otra de las posibles vías de investigación pasa por mejorar el compilador de manera que sea capaz de lograr la transcripción simultánea de discursos de diversas personas y lograr que el ordenador reconozca a cada uno de sus interlocutores.

Gonzalo Sanchez del Pozo (420 Posts)