Dirección
175 Greenwich St, New York, NY 10007
Un par de gafas Meta toman una foto cuando dices: «Hola Meta, toma una foto». Una computadora en miniatura que se engancha a tu camisa, la Ai Pin, traduce idiomas extranjeros a tu lengua materna. Una pantalla con inteligencia artificial cuenta con un asistente virtual que hablar a través de un micrófono.
El año pasado, OpenAI actualizó su chatbot ChatGPT para responder con palabras habladas y, recientemente, Google lanzó Gemini, un reemplazo de su asistente de voz en teléfonos Android.
Las empresas de tecnología apuestan por el renacimiento de los asistentes de voz, muchos años después de que la mayoría de la gente decidiera que hablar con las computadoras no estaba bien.
¿Funcionará esta vez? Tal vez, pero puede que tarde un poco.
La mayoría de las personas todavía nunca han usado asistentes de voz como Alexa de Amazon, Siri de Apple y el Asistente de Google, y la abrumadora mayoría de los que sí dicen que nunca quieren que los vean hablando con ellos en público, según estudios hechos En la ultima década.
También rara vez uso asistentes de voz, y en mi reciente experimento con las gafas Meta, que incluyen una cámara y parlantes para brindar información sobre el medio ambiente, llegué a la conclusión de que hablar con una computadora frente a padres e hijos en un zoológico todavía era increíblemente extraño.
Me hizo preguntarme si esto alguna vez se sentiría normal. No hace mucho, hablar por teléfono con auriculares Bluetooth hacía que la gente pareciera loca, pero ahora todo el mundo lo hace. ¿Veremos algún día a mucha gente caminando y hablando con sus computadoras como en las películas de ciencia ficción?
Planteé esta pregunta a expertos en diseño e investigadores, y el consenso fue claro: a medida que los nuevos sistemas de IA mejoren la capacidad de los asistentes de voz para entender lo que decimos y ayudarnos realmente, es probable que en un futuro próximo hablemos más a menudo con los dispositivos, pero aún faltan muchos años para que esto se haga público.
Esto es lo que debes saber.
Los nuevos asistentes de voz funcionan con inteligencia artificial generativa, que utiliza estadísticas y algoritmos complejos para adivinar qué palabras van juntas, similar a la función de autocompletar de su teléfono. Esto los hace más capaces de utilizar el contexto para comprender solicitudes y preguntas de seguimiento que los asistentes virtuales como Siri y Alexa, que solo podían responder una lista finita de preguntas.
Por ejemplo, si le dice a ChatGPT: «¿Cuáles son algunos vuelos de San Francisco a Nueva York la próxima semana?» – y continúe con «¿Cómo está el clima allí?» y “¿Qué debo llevar?” — el chatbot puede responder estas preguntas porque establece conexiones entre palabras para comprender el contexto de la conversación. (El New York Times demandó a OpenAI y su socio Microsoft el año pasado por utilizar artículos de noticias protegidos por derechos de autor sin permiso para entrenar chatbots).
Un asistente de voz más antiguo como Siri, que reacciona a una base de datos de comandos y preguntas para cuya comprensión ha sido programado, fallaría a menos que se usaran palabras específicas, como «¿Cómo está el clima en Nueva York?» y “¿Qué debo llevar para un viaje a Nueva York?”
La conversación anterior parece más fluida, al igual que la forma en que las personas se hablan entre sí.
Una de las principales razones por las que la gente abandonó los asistentes de voz como Siri y Alexa fue que las computadoras no podían entender mucho de lo que les preguntaban y era difícil saber qué preguntas funcionaban.
Dimitra Vergyri, directora de tecnología del habla en SRI, el laboratorio de investigación detrás de la versión inicial de Siri antes de que fuera adquirida por Apple, dijo que la IA generativa ha resuelto muchos de los problemas con los que los investigadores han luchado durante años. La tecnología hace que los asistentes de voz sean capaces de comprender el habla espontánea y responder con respuestas útiles, dijo.
John Burkey, un ex ingeniero de Apple que trabajó en Siri en 2014 y ha sido un crítico abierto del asistente, dijo que cree que a medida que la IA generativa ha facilitado que las personas obtengan ayuda de las computadoras, es probable que más de nosotros hablemos. a los asistentes pronto, y cuando muchos de nosotros comencemos a hacer esto, podría convertirse en la norma.
«Siri tenía un tamaño limitado: sólo sabía un cierto número de palabras», dijo. «Ahora tienes mejores herramientas».
Pero podrían pasar años antes de que la nueva ola de asistentes de IA sea ampliamente adoptada porque introduce nuevos problemas. Los chatbots, incluidos ChatGPT, Gemini de Google y Meta AI, son propensos a sufrir «alucinaciones», que es cuando inventan cosas porque no pueden encontrar las respuestas correctas. Cometieron errores en tareas básicas como contar y resumir información de la web.
Incluso a medida que la tecnología del habla mejora, es poco probable que el habla reemplace o reemplace las interacciones tradicionales de la computadora con un teclado, dicen los expertos.
Hoy en día, las personas tienen razones de peso para hablar con las computadoras en algunas situaciones cuando están solas, como establecer un destino en un mapa mientras conducen un automóvil. Sin embargo, en público, hablar con un asistente no sólo puede hacerte parecer incómodo, sino que la mayoría de las veces no es práctico. Cuando llevaba gafas Meta en un supermercado y les pedí que identificaran un producto, un comprador que escuchó a escondidas respondió descaradamente: «Eso es un nabo».
Tampoco querrás dictar un correo electrónico de trabajo confidencial a otras personas en un tren. Asimismo, no sería prudente pedirle a un asistente de voz que lea mensajes de texto en voz alta en un bar.
«La tecnología resuelve un problema», dijo Ted Selker, un veterano en diseño de productos que trabajó en IBM y Xerox PARC. “¿Cuándo resolvemos problemas y cuándo creamos problemas?”
Sin embargo, es sencillo imaginar momentos en los que hablar con una computadora ayuda tanto que no te importa lo extraño que pueda parecerles a los demás, dijo Carolina Milanesi, analista de Creative Strategies, una firma de investigación.
Mientras camina hacia su próxima reunión en la oficina, sería útil pedirle a un asistente de voz que le informe sobre las personas que estaba a punto de conocer. Al caminar por un sendero, preguntarle a un asistente de voz dónde girar sería más rápido que detenerse para consultar un mapa. Al visitar un museo, sería genial si un asistente de voz pudiera darte una lección de historia sobre la pintura que estás mirando. Algunas de estas aplicaciones ya se están desarrollando con nuevas tecnologías de IA.
Cuando estaba probando algunos de los últimos productos basados en voz, vislumbré este futuro. Al grabar un vídeo mío haciendo pan y usando las gafas Meta, por ejemplo, fue útil poder decir: «Oye, Meta, graba un vídeo», porque tenía las manos ocupadas. Y pedirle a Ai Pin de Humane que dictara mi lista de tareas pendientes fue más conveniente que detenerme a mirar la pantalla de mi teléfono.
«Mientras caminas, ese es el punto ideal», dijo Chris Schmandt, quien ha trabajado en interfaces de voz durante décadas en el Media Lab del Instituto Tecnológico de Massachusetts.
Cuando se convirtió en uno de los primeros en adoptar uno de los primeros teléfonos celulares hace unos 35 años, dijo, la gente lo miraba fijamente mientras deambulaba por el campus del MIT hablando por teléfono. Ahora esto es normal.
Estoy convencido de que llegará el día en que la gente ocasionalmente hablará con las computadoras cuando estén fuera de casa, pero esto sucederá muy lentamente.
MundoDaily – #Meta #Google #apuestan #por #los #asistentes #voz #con #Despegarán
Publish: 2024-05-01 05:03:37