YouTube implanta un sistema automático de subtitulación


YouTube, la más popular plataforma para compartir vídeos, ha puesto hoy en servicio un sistema de subtitulación automática de todos los vídeos en inglés. Hasta ahora el servicio se estaba probando en un número seleccionado de vídeos, pero ahora se extiende a cualquier vídeo en inglés, aunque a la hora de cargarlo el usuario puede indicar mediante un botón si quiere que esta funcionalidad se aplique inmediatamente a su contenido.

El sistema se basa en un algoritmo para el reconocimiento de voz desarrollado por Google. Como reconocen sus autores en The Times para que funcione correctamente la voz tiene que ser clara y no haber mucho ruido ambiente. También está por ver como reaccionará a los distintos acentos dentro de un mismo idioma.

El reconocimiento de voz se prometía como una función estándar en cualquier ordenador hacer más de una década, pero los requisitos de estos programas, como, por ejemplo la necesidad de que el programa “aprendiera” la dicción del usuario, hizo que nunca llegaran a generalizarse.

En el siguiente vídeo puede observarse una demostración del sistema. En el botón rojo cc (close caption) se puede configurar esta funcionalidad y obtener prestaciones tan importante como descargar la transcripción. Se nos advierte -eso sí- que todas estas prestaciones están todavía en beta.

Este sistema tiene una serie de aplicaciones de enorme interés:

Ayuda a las personas con problemas de audición. Hasta ahora la transcripción es tremendamente costosa. En España el Centro de Subtitulado y Audiodescripción realiza esta tarea con carácter institucional. Todas las televisiones subtitulan películas, pero sólo TVE subtitula sus informativos, que tienen una problemática especial, por la inmediatez del trabajo, y que se resuelve en gran medida descargando los textos existentes en su sistema informático de redacción en el sistema de subtitulado.

– Herramienta para el aprendizaje de lenguas. La subtitulación puede servir no sólo al estudiante de una lengua extranjera, sino también al inmigrante que todavía no domina la lengua del país en que habita.

Herramienta para la búsqueda y documentación de vídeos. Las posibilidades de buscar y documentar aumentan exponencialmente si contamos con la descripción de la palabra, aunque lógicamente el vídeo es mucho más que palabra. Televisiones y agencias de noticias pueden sacar un enorme partido a esta tecnología.

– Servir como punto de partida para el vídeo interactivo. La vinculación entre el texto y la imagen permite crear vínculos salientes a partir del texto. Dos aplicaciones GAudi (que me imagino que esta en el origen de esta aplicación) y el visor interactivo de RTVE, de las que ya me he ocupado anteriormente, ya utilizan estas posibilidades.

¿Funcionará en inglés? ¿Cuándo llegará en español?

Anuncios

GAudi: documentación y lenguaje audiovisual


Los laboratorios de Google han lanzado un nuevo producto: GAudi. No, no tiene nada que ver con Gaudí (¿se habrá buscado la coincidencia en la denominación). Se trata de una sistema de indización de audio, aplicado a la búsqueda de vídeos. Existen desde hace tiempo sistemas profesionales de reconocimiento automático de la palabra (speech recognition), utilizados en relación con ficheros de audio. Hay ya televisiones que utilizan tecnologías semejantes, como hizo TVE con los debates electorales; a novedad no es tanto que está búsqueda por palabras se haga ahora sobre el audio de un vídeo, como la generalización por parte de Google de una herramienta que está llamada a revolucionar la búsqueda y el lenguaje audiovisual.

Por el momento se trata de una versión beta, aplicada sólo a los canales políticos de YouTube sobre las elecciones norteamericanas, y, por lo que parece, sólo trabaja en inglés. La búsqueda puede hacerse sobre el conjunto de los vídeos electorales o exclusivamente sobre uno en concreto. Una vez realizada, nos presenta en la pantalla del vídeo los marcadores que nos dirigen a los puntos donde se encuentra la palabra, expresión o cadena de texto. Basta que situemos el cursor encima para que aparezca la frase donde se han pronunciado esas palabras, lo que facilita la navegación.

La primera implicación de la generalización de esta tecnología es potenciar las posibilidades de las búsquedas . A nivel de profesionales de la documentación audiovisual puede facilitar su trabajo. Y para los periodistas puede ser un útil instrumento para tratar, filtrar y, sobre todo, investigar.

Pero las posibilidades que se abren para el lenguaje audiovisual son grandes. Hasta ahora, los vídeos siguen sin ser un elemento interactivo en el lenguaje hipertextual. Podemos enlazar a un vídeo, pero éste estará yuxtapuesto, “incrustado”, en el discurso textual. Con las herramientas de reconocimiento del audio (y con las de reconocimiento de rostros) los elementos del discurso audiovisual pueden desagregarse, enlazarse y volverse a combinar. Habrá que pensar nuevos usos expresivos de la palabra y la imagen en un contexto hipertextual.

A %d blogueros les gusta esto: