Speech-to-Text (STT)
- Inicio
- /
- Glosario IA
- /
- Speech-to-Text (STT)
Descripción
Speech-to-Text (STT), también conocido como reconocimiento de voz, es una tecnología que permite que las máquinas comprendan y transcriban la voz humana en texto de manera automática. Aunque el término en español es 'reconocimiento de voz', se suele utilizar también el término en inglés.
¿Por qué es importante?
Imagina que pudieras escribir un correo solo hablando, o buscar una canción en tu teléfono sin tener que teclear. Eso es exactamente lo que permite el STT. Esta tecnología no solo facilita la interacción con dispositivos para personas sin discapacidades, sino que es fundamental para aquellos con limitaciones visuales o motoras, brindando un acceso más equitativo a la tecnología y la información.
Usos en el mundo real
El STT se utiliza en una variedad de aplicaciones cotidianas. Los asistentes virtuales como Siri y Alexa dependen de esta tecnología para procesar los comandos de voz de los usuarios. También es esencial en servicios de transcripción automática, como los que ofrecen las reuniones virtuales en Zoom o Google Meet, donde las palabras habladas se convierten a texto en tiempo real para facilitar el seguimiento.
¿Sabías que?
Una de las primeras aplicaciones de reconocimiento de voz fue desarrollada en 1952 y se llamaba 'Audrey'. Este sistema sólo podía reconocer dígitos hablados por una sola voz.