Opinión

Qué tener en cuenta para diseñar un producto de reconocimiento de voz o gestos

14 de Marzo de 2019

Por Marcin Kloda, Vicepresidente de High Tech y Gerente General de la división América de intive.

Siempre nos fascinó la posibilidad de hablar con las máquinas, incluso antes de que existieran Siri o Alexa. Los productos de reconocimiento de voz ya no son una novedad y cada vez más empresas los están desarrollando, para comodidad de los consumidores. Se espera que este mercado alcance un valor de USD 126.500 millones en 2023. La industria de reconocimiento de gestos también está en auge, aunque tiene un volumen menor: se calcula que tendrá un valor de USD 33.000 millones en 2025.

Ambas tecnologías se han vuelto populares, esto no significa que sea sencillo crear un producto de reconocimiento de voz o gestos. Con más de 18 años de presencia en el mercado, nuestra empresa de desarrollo de software ha sido testigo de cómo fracasaron miles de compañías al intentar desarrollar buenos productos de reconocimiento de voz o gestos. Los consumidores, acostumbrados a tener la tecnología al alcance de la mano en sus dispositivos, se molestan enseguida si éstos no comprenden sus órdenes, pero no son conscientes de la dificultad que conlleva crear este tipo de productos. Para diseñar algo que realmente guste a los consumidores, es aconsejable que aquellos que estén dando sus primeros pasos en esta industria sigan estos pasos.

Reducir el ruido

En el mundo real, muchos productos de reconocimiento de voz o gestos no logran descifrar determinadas frases o los movimientos específicos de la persona. Por ende, antes de lanzar productos al mercado, las empresas deben asegurarse de que funcionan bien en situaciones reales. Por ejemplo, los productos tienen que poder ignorar el ruido ambiente.

Para probar los productos de reconocimiento de voz, se deben simular distintas situaciones donde sean frecuentes las interrupciones (niños en un auto, ruidos externos, música o conversaciones de fondo). Por otra parte, s esencial que los productos de reconocimiento de gestos cuenten con un procesador digital de señales (DSP, por sus siglas en inglés) que pueda reconocer cuándo comienza y finaliza una orden y pueda transmitirla a un DSP más grande para que interprete el gesto.

Traducir acentos

El mayor desafío de los productos de reconocimiento de voz es poder traducir correctamente lo que la persona dice. Al principio, el altoparlante inteligente no tiene experiencia alguna con la persona que lo compró y necesita adaptarse a su acento particular.

El asistente debe así, adaptarse y actualizar progresivamente su modelo de voz predeterminado según la manera en que el usuario pronuncia las palabras y frases y según sus matices de voz, que permiten distinguirla de la de otras personas. Los esfuerzos de investigación se dirigen, sobre todo, a crear un modelo general que sea capaz de reconocer diversos estilos de pronunciación. Alexa, por ejemplo, pide al usuario que lea diez oraciones para poder reconocerlo. Para lograr distinguir hablantes, se requiere muchísima investigación.

Desarrollar una experiencia de usuario sencilla

Con respecto a las interfaces máquina-humano en el mercado del reconocimiento de voz y gestos, resta mucho por hacer y las esperanzas están puestas en poder aprovechar las habilidades comunicativas básicas del ser humano.

En la carrera a la cima, muchas empresas no logran ver con claridad qué es lo que los consumidores quieren y necesitan de verdad. Invierten muchísimo dinero en la creación de productos que, al fin de cuentas, fracasan. Eso es lo que sucede cuando tienen muy buenos ingenieros pero malos diseñadores.

Por ello, también es fundamental asociarse con proveedores que comprendan todo acerca de la experiencia de usuario (UX, por sus siglas en inglés). Sin embargo, el problema radica en que no existe en la actualidad una gran UX para los productos de reconocimiento de voz y gestos, por eso es que resulta tan difícil crear un buen producto. Aun así, Alexa es un excelente ejemplo de una aplicación sencilla de usar. Este altoparlante controlado por voz tiene, por ejemplo, una lista de más de 15.000 skills para incorporar, similares a las aplicaciones que se pueden descargar en un teléfono inteligente. Tales skills le permiten adquirir nuevas habilidades, como pedir un taxi, dictar una receta de cocina, contar un chiste, agregar eventos al calendario o comprar algo en Amazon.

Socios en vez de proveedores

Conviene buscar proveedores de desarrollo de software que nos acompañen a largo plazo, porque ese tipo de socios se involucran más en el producto y están más dispuestos a sugerir cambios creativos según las necesidades del usuario final.

El hecho de que todos estén implementando capacidades de reconocimiento de voz o gestos no significa que lo estén haciendo bien. Pero si las empresas se enfocan específicamente en desarrollar una UX simplificada, probar el producto en distintos ambientes y elegir un proveedor a largo plazo, tendrán muchas más chances de éxito.