El dispositivo Echo de Amazon ha hecho realidad la promesa de un asistente personal artificialmente inteligente en cada hogar.
Quienes tienen esta unidad de comando de voz (conocida como Alexa, por su interlocutora mujer) suelen elogiar sus encantos, aplaudir la capacidad de Alexa de pedir un Uber, ordenar una pizza o revisar la tarea de matemáticas de un alumno de 10º grado.
La compañía dice que más de 5 mil personas por día profesan su amor por Alexa.
Pero los devotos de Alexa también saben que, a menos que se le hable muy claro y muy lento, ella va a decir: "Lo lamento, no tengo la respuesta a esa pregunta".
El reconocimiento de voz ha recorrido un largo camino en los últimos años. Pero todavía no es lo suficientemente bueno como para popularizar la tecnología para su uso cotidiano y marcar el comienzo de una nueva era en la interacción persona-máquina que nos permita hablar con todos nuestros aparatos: automóviles, lavarropas, televisores.
Pese a los avances en el reconocimiento de la voz, la mayoría de las personas aún tocan, cliquean o deslizan el dedo por la pantalla. Y probablemente lo sigan haciendo en el futuro cercano.
¿Qué es lo que frena el progreso? En parte, la inteligencia artificial que emplea la tecnología tiene margen para mejorar. Asimismo, hay un grave déficit de datos, sobre todo de audios de voces humanas que hablen en múltiples idiomas, acentos y dialectos en las circunstancias frecuentemente ruidosas que pueden hacer fracasar al código.
Por ello, Amazon, Apple Microsoft y la china Baidu se han embarcado en una caza mundial de terabytes de habla humana.
Microsoft ha creado apartamentos ficticios en ciudades de todo el planeta para grabar a voluntarios que hablen en un ambiente familiar.
Cada hora, Amazon sube consultas de Alexa a un gigantesco depósito digital. Baidu está recolectando todos los dialectos de China. Luego toma todos esos datos y los utiliza para enseñar a sus computadoras a analizar, comprender y responder a órdenes y preguntas.
Cuando uno le ordena a su teléfono que busque algo, que reproduzca una canción o que lo guíe a un determinado destino, es muy probable que una compañía lo esté grabando. (Apple, Google, Microsoft y Amazon subrayan que anonimizan los datos de los usuarios para proteger la privacidad de sus clientes).
"Por su diseño, Alexa se vuelve más inteligente a medida que se la usa", dice Nikko Strom, científico jefe del programa.
Uno de los principales retos es conseguir que la tecnología trabaje con múltiples idiomas, acentos y dialectos. En ninguna parte, quizás, esto es más importante que en China.
Tratando de cosechar dialectos de todo el país, Baidu lanzó una campaña de marketing durante el Año Nuevo Chino a principios de este año. Llamó a la "iniciativa de conservación dialecto", con la que el gigante de las búsquedas prometió a las personas que ayudarían a marcar el comienzo de un futuro en el que hablarían con Baidu usando su dialecto.
En dos semanas, la compañía registró más de mil horas de discurso en sus ordenadores. Muchas personas lo hicieron de forma gratuita, simplemente porque estaban orgullosos de sus dialectos ciudad natal. Un profesor de secundaria en Sichuan estaba tan entusiasmado con el programa, que le pidió a un grupo de estudiantes registrar más de mil poemas antiguos en Sichuan.
Otro reto: la enseñanza de la tecnología de reconocimiento de voz para recoger los datos, por ejemplo, en medio del ruido del clamor de la hora feliz, o un estadio deportivo.
Microsoft ha desplegado una aplicación de Xbox llamada Estudio de voz para recolectar conversación de los usuarios al disparar a villanos o ver películas.
La compañía ofreció recompensas, incluyendo los puntos y ropa para los avatares digitales y atrajo a cientos de sujetos que desean dedicar su charla de juego a los esfuerzos de voz de Microsoft.
Las empresas también están diseñando sistemas de reconocimiento de voz para situaciones específicas. Microsoft ha probado una tecnología que puede responder a las consultas de los viajeros sin distraerse con el constante bombardeo de anuncios de vuelos en los aeropuertos y que también puede utilizarse en el sistema de pedidos automáticos de McDonald's que se hacen desde el automóvil.
En Amazon están realizando pruebas en automóviles, desafiando a Alexa a funcionar bien con el ruido de la calle y las ventanillas abiertas.
Google en general adhiere a una filosofía de menos es más, aplicando un abordaje fragmentado que utiliza unidades ininteligibles de sonido para armar palabras y frases.
Con este sistema de reconocimiento de voz, la compañía apunta a resolver numerosos problemas con apenas un cambio. Para sus conjuntos de datos, Google enlaza decenas de miles de fragmentos de audio que suelen durar de dos a cinco segundos.
Por su parte, Baidu está trabajando en algoritmos más eficientes por los que el aprendizaje de un idioma facilita el aprendizaje de los siguientes doce.
Los investigadores no saben cuándo será posible hablar de forma natural con un asistente digital, pero esperan un gran avance, catapultando la investigación y hacer que Alexa y Siri sean conversadoras verdaderas.
Tech