La voz quiere convertirse en la interfaz de usuario más importante y Alexa es uno de los asistentes que más está ayudando a expandir su uso. Y es que en los últimos meses estamos viendo todo tipo de dispositivos que añaden compatibilidad con Alexa.

Para conocer la importancia del asistente de voz de Amazon y descubrir más detalles sobre su desarrollo, hemos entrevistado a Miriam Daniel, VP de Amazon Echo & Alexa Devices y una de las mentes más destacadas detrás del asistente que quiere conquistar nuestros hogares.

Un momento dulce para Alexa

¿Cuál es el papel y la importancia de Alexa para Amazon?

Es muy importante. No solo porque lo hemos introducido, sino porque nos permite simplificar la interacción. La voz es el siguiente paradigma. No pienses solo en lo que haces diariamente, piensa en el comercio, en la música... con la voz todo es más sencillo y con menos fricción, lo que es muy bueno para nosotros.

"Se han anunciado más de 100 productos este año. Y el 90% de ellos viene realmente fuera de Amazon."

Además con Alexa estamos aprendiendo y descubriendo cada día. Los usuarios lo utilizan en todo tipo de situaciones, nos dan feedback y nuestros partners también están innovando muy rápido. En 2018, introducimos una docena de productos. Pero es que ahora estamos en un momento dulce, donde se han anunciado más de 100 productos este año. Y el 90% de ellos viene realmente fuera de Amazon. Estamos expandiendo la voz en todas partes, y eso es bueno para nosotros.

Durante este CES 2019, Alexa ha sido una de los protagonistas. ¿A qué crees que se debe el éxito de Alexa este año? ¿Ha cambiado algo?

Sí, lo es. Creo que la escala ha sido muy diferente este año.

¿A qué se debe?

En 2018 expandimos nuestras herramientas de creación. Hemos presentado los SDKs que han permitido esta escala. Antes ofrecíamos básicamente los servicios de voz de Alexa, a finales del año pasado expandimos el SDK a las pantallas inteligentes, nuevos idiomas, el Alexa Connected Kit... estamos expandiendo el despliegue. Es un gran cambio para los fabricantes.

Permitimos que muchos productos no conectados puedan dar un salto. Con Alexa les decimos; aquí está el hardware y además viene junto a servicios conectados. Nosotros le ofrecemos la habilidad de construirlo, la seguridad y nos hacemos cargo de la infraestructura. Creamos las herramientas y los kits necesarios para escalar. Así permitimos que los fabricantes se centren en el producto.

"Ofrecemos la habilidad de construirlo, la seguridad y nos hacemos cargo de la infraestructura. Así permitimos que los fabricantes se centren en el producto."

Algunos fabricantes como LG en sus televisores están añadiendo Alexa, cuando previamente ya tenían Google Assistant. ¿Es importante que un dispositivo tenga un asistente en exclusiva?

Varios de nuestros directores han hablado de ello. Creemos en un futuro donde los distintos asistentes coexistirán. Por ejemplo ponte en la idea de los navegadores. ¿Cuántos tienes instalados en el ordenador? Creemos que la variedad de opciones es bueno para el usuario. Cada asistente es bueno en diferentes cosas, Microsoft tiene una gran experiencia empresarial. Alexa y Cortana coexisten y de hecho funcionan muy bien.

Mi duda es, ¿se ofrece una mejor experiencia si es un producto enfocado totalmente en Alexa?

No lo creo. Si tienes dos asistentes, puedes elegir. Por ejemplo, si quieres poner música o Amazon Prime Video, puedes llamar a Alexa para que lo haga, pero naturalmente puedes pedirle a Cortana o Google Assistant otra cosa. Nosotros nos centramos en lo que se puede hacer. Facebook Portal es otro buen ejemplo. Puedes decirle "Ey Portal" o "Ey Alexa". Es muy similar y no hay fricción. Los dos asistentes conviven de manera natural y solo los diferencia el activador.

"Puedes decir "Ey Portal" o "Ey Alexa". Es muy similar y no hay fricción. Los dos asistentes conviven de manera natural y solo los diferencia el activador."

El desarrollo de Alexa

Retrocedamos a los primeros años de Alexa. ¿Cómo fue el desarrollo? ¿Qué anécdota puedes contarnos sobre los primeros tiempos?

Fueron tiempos emocionantes para nosotros. Nos acabábamos de conocer como equipo y simplemente teníamos un vago concepto. En principio, la voz de Alexa se originó entorno a la música. Hay una anécdota que siempre cuento y es que éramos fans de Star Trek, el Capitán Kirk y la Enterprise. "Beam me up, Scotty". Ellos ya llamaban y preguntaban por cosas por la voz.

Un fan de Star Wars por aquí.

(Risas) Todo depende de la manera de verlo. La voz no solo es para los geeks más avanzados ni es un producto que deba ser caro. La experiencia de la voz debe ser 'mainstream'. Es por ello que podremos encontrarla en cualquier lugar de la casa. La música es el caso número 1 de uso, a quién no le gusta la música? Es por ello que los primeros dispositivos tendieron hacia el factor forma de un altavoz. Es la forma en la que el usuario más fácil puede relacionar el dispositivo con la voz. Pero desde el lanzamiento hemos desarrollado muchas cosas, entre ellas toda una colección de skills.

"La música es el uso más relacionado con la voz, por ello los primeros dispositivos tendieron hacia el factor forma de un altavoz."

¿Cuántas?

Más de 70.000 skills. Y cada vez están mejorando más. Desde nuestro lado continuamos desarrollando skills para Alexa, pero los desarrolladores externos son muchos más que nosotros y programan para los centenares de dispositivos que hay.

En tu caso personal, ¿qué skills de Alexa te gustan más?

Habría que dividir entre las que son de "alta utilidad" y de "alto deleite". Mi skill de alta utilidad es Alexa News, selecciono las fuentes que quiero sin necesidad de buscar, totalmente por la voz. También funciona en el coche. Lo utilizo para mi rutina por las mañanas y también por la noche. Otras serían skills para apagar las luces y dormir. En cuanto a una skill de alto deleite estaría '7-minute Workout'; me encanta aprovechar algo rápido y liberar energía en siete minutos. Cada skill es diferente y enfocada en cada momento.

¿Qué tipo de asistente es Alexa? ¿Por qué tiene voz femenina?

En realidad probamos inicialmente con todo tipo de voces, masculinas y femeninas. Con nuestro equipo y con diferentes usuarios. Después, solicitamos que los usuarios nos describieran la voz. En el caso de la actual, se describió como una personalidad agradable, cálida, inteligente y capacitada. Los atributos que normalmente buscamos en aquellas personas de nuestros amigos o familiares a quienes preguntamos información.

"Agradable, cálido, inteligente y capacitado. Eran los adjetivos que buscábamos y la voz de Alexa fue la que más transmitió a los usuarios esa definición."

¿Puedes compartir alguna curiosidad del uso de Alexa que hayáis detectado? Alguna utilidad que os han solicitado y habéis decidido implementarla.

Todo el tiempo.

Dime.

Con Amazon Echo Auto. Todo el mundo habla de Echo Auto y por ejemplo nos solicitaron poder enviar una foto o un audio al coche. Así tenemos Alexa en la carretera. La gente lo encuentra muy útil y han explorado nuevos usos en el coche. Diría que son opciones muy concretas, pero que mejoran enormemente la experiencia.

También nos solicitaron poder conectar varios altavoces y por ello implementamos el multiroom. Después están las solicitudes que validan nuestra estrategia. Por ejemplo muchos usuarios nos pedían poder vigilar al bebé y esto nos animó a lanzar la cámara de videovigilancia que ya teníamos planeada.

Pantallas al rescate de la voz

Para este tipo de accesorios conectados se necesita una pantalla. No sirve solo la voz. ¿Qué ocurre con las pantallas? ¿La voz podrá sustituirlas?

"La combinación de voz y pantalla o voz y elementos visuales es hacia donde vamos."

Desde que lanzamos el Echo, hemos estado enseñando nuevos usos a la voz. Sin embargo hay veces que la voz puede verse superada. Por ejemplo con la búsqueda. Si le decimos "dime una lista de las cafeterías cercanas", con la voz debería empezar a recitarlas. Pero con una pantalla esto es mucho más fácil de entender, ya que vemos el listado y su posición en el mapa. Algo parecido con la lista de la compra o el tiempo. Alexa puede decirte el tiempo, pero si quieres tener información extra de toda la semana, es mucho más lógico la interacción visual. La combinación de voz y pantalla o voz y elementos visuales es hacia donde vamos.

En el caso de las notificaciones, ¿cómo se gestionan?

Los desafíos con las notificaciones son varios. En un dispositivo sin pantalla, no podemos mostrar alertas, no podemos enseñarte ni pronunciar avisos de repente. Sí podemos establecer colores, pero no es tan fácil de identificar como en una pantalla. Al final con una pantalla podemos expandir la potencia de nuestros dispositivos mucho más, por ejemplo mostrando quién pica, un vídeo de cocina o una videollamada. Pero para interactuar tenemos la voz. El vídeo de recetas está bien, pero controlarlo con la mano es incómodo ya que a veces la podemos tener manchadas u ocupadas. En este caso la voz es el complemento perfecto.

Alguna otra desventaja habrá.

La voz es mas natural y fácil de entender, pero tiene como decimos sus limitaciones. No puedes leer una lista larga y necesitas complementar con información visual. Además, añadiría que es difícil saber si Alexa te ha entendido bien. Si la respuesta es la correcta, entonces interpretas que sí. Pero con una pantalla y un indicador es más fácil ver hasta qué punto el sistema ha entendido lo que querías.

Cuando interactúo con los asistentes, no tengo la sensación de mantener una conversación. ¿Es normal?

¿Has escuchado nuestros bots sociales? Realizamos una competición entre las universidades de todo el mundo para el desarrollo de una IA conversacional. El objetivo es intentar generar una conversación coherente y entretenida durante 20 minutos. Le decimos a Alexa; "Vamos a hablar" y la conversación se iniciará.

¿Alexa recuerda lo que vamos diciendo en la conversación?

En esa conversación particular sí. Estamos explorando hasta qué punto el machine learning y la IA nos ayudan a mantener la conversación y que tenga sentido.

¿Y para las futuras?

"Sería bueno que ciertos datos automáticos sí los recuerde."

Tenemos una función en Alexa en la que puedes decirle: "recuerda esto". Y lo hace. En el futuro veremos cómo evoluciona esto, ya que sería bueno que ciertos datos automáticos sí los recuerde. Por ejemplo que recuerde distancias para no tener que estar preguntándole "cuánto tiempo me llevará hasta "X" sitio" una vez tras otra. Mantener el contexto.

Nuevos idiomas y privacidad

Amazon Alexa tardó en llegar a España y a otros países, suponemos que por la dificultad de adaptarla a otros idiomas, ¿Cómo es el proceso? ¿Por qué es tan difícil?

Los nuevos idiomas exigen nuevos ciclos de producción. Tenemos un experto lingüista y modelos lingüísticos . Con cada nuevo idioma, tenemos que adaptarlos y entrenar no solo a que Alexa aprenda un nuevo idioma, también que entienda los diferentes acentos. Eso por la parte de trasladar el audio, pero es solo un punto. Una segunda parte es la comprensión natural. Entender el contexto de ese idioma.

En mi caso, no sé español, pero por ejemplo tenemos el inglés en diferentes países como UK, USA, India o Canadá. Cada región específica tiene un uso para determinadas palabras. Hay muchas maneras de hablar y necesitamos que la respuesta tenga sentido.

Por otro lado, están los servicios específicos para cada país. El tipo de música recomendada o las fuentes de noticias que suelen consultarse. Necesitamos que Alexa sea atractiva también para cada región. Actuamos en global pero también hay servicios locales. Los nuevos idiomas son un proceso con varios pasos y debemos perfilarlo antes de tenerlo listo.

Háblame de privacidad. ¿Qué le dirías a los usuarios que no quieren ser escuchados?

En primer lugar, diseñamos desde el inicio para la privacidad. Tenemos múltiples capas para el control de la privacidad. A nivel de hardware ofrecemos el botón de silenciar y desconectamos los micrófonos de base. Cuando están silenciados no tienen energía y cuando sí están activos, hay un LED que lo avisa claramente. Algo similar ocurre con la cámara. Si no está activada se desconecta toda la electrónica. Cuando dices "silenciar", nadie puede acceder a nada. Por último, Alexa únicamente tiene cuatro activadores: 'Alexa', 'Amazon', 'Echo' y 'Ordenador'. Si no le dices esos activadores, el micrófono no funciona y no hay comunicación entre el aparato y el ambiente. Todas estas medidas están hechas para proteger la privacidad.

"Alexa únicamente tiene cuatro activadores. Si no los dices, el micrófono no funciona y no hay comunicación."

¿Están seguros entonces nuestros datos?

Todos están cifrados, 'end to end'. La única gente que tiene acceso a tus datos eres tú. Esa es la forma en la que lo ofrecemos.