¿Qué puede hacer la Inteligencia Artificial por el sector audiovisual?

Quiero empezar puntualizando que, personalmente, Inteligencia Artificial me parece un concepto demasiado amplio para describir un sistema, y que muy habitualmente se utiliza con pocas dosis de criterio y muchas dosis de mercantilismo. Es una palabra que sin duda está de moda, promete ser la cuarta revolución industrial, y por un lado asusta y por otro da esperanzas de un futuro mejor.

Es un término “mágico” al que muchos recurren, junto con otros como realidad virtual, Big Data o 5G, cuando quieren expresar que su tecnología es puntera. En el caso de uso del sector audiovisual, inteligencia artificial puede abarcar demasiadas áreas y funcionalidades, existentes o que están aún por inventar, es más preciso hablar de procesos semi automáticos de tratamiento de imagen, reconocimiento de voz o procesamiento del lenguaje natural. Pero puesto que se ha instalado como concepto de referencia en la industria, vamos a contextualizar qué es esto de la inteligencia artificial, IA, en este artículo.

Definiciones de inteligencia artificial hay para todos los gustos, ya que es utilizada en múltiples ámbitos con objetivos muy diferentes, pero el elemento común es que se trata de enseñar a una máquina a generar los mismos resultados que generaría un humano en una determinada tarea, utilizando la inteligencia humana como paradigma.

La clave de una inteligencia artificial está en su entrenamiento. Entrenar una IA significa enseñarle qué datos de salida debe devolvernos cuando introducimos ciertos datos de entrada. En un software de reconocimiento de caras, por ejemplo, le daremos a nuestra herramienta muchas fotos de una misma persona, indicándole el nombre al que debe asociar estas imágenes. Una vez haya aprendido esa información, sabrá qué salida debe generar para futuras entradas. Habremos entrenado el sistema, el cual está basado en conceptos tan sugerentes como las redes neuronales o los algoritmos genéticos.

Para entrenar al sistema, por tanto, hacen falta datos. Y por eso, los datos cotizan al alza. Empresas como Google o Facebook lo saben, y en alguna de las miles de cláusulas que firmamos sin prestar excesiva atención les cedemos todos nuestros datos y contenidos para mejorar sus algoritmos.

Los datos se han convertido en un recurso fundamental para muchos modelos de negocio, tanto es así que la Unión Europea ya está legislando al respecto de las transacciones comerciales en las que se paga con datos en lugar de con dinero. El objetivo es, por supuesto, generar un impuesto ante dichas transacciones.

En el pasado, se ha necesitado más de una década para una revolución tecnológica. En el tiempo en que nos encontramos, de desafortunada pandemia COVID-19, los procesos digitales, y la digitalización de las empresas y procesos se han acelerado enormemente y se han apoyado en áreas como la inteligencia artificial. Una encuesta de McKinsey publicada en octubre de 2020 encontró que las empresas tienen tres veces más probabilidades de realizar al menos el 80 por ciento de sus interacciones con los clientes de forma digital, comparado con el tiempo anterior a la crisis COVID. Nos encontramos por tanto en una madura tercera revolución industrial que a marchas forzadas está empujando a implantar la Cuarta Revolución Industrial, la revolución de las máquinas.

Puede incomodar esto de que una máquina sustituya a un humano en un entorno como el audiovisual, donde la creatividad tiene un papel tan importante. Y tienen razón, el genio creativo no puede, ni seguramente podrá, ser sustituido por una máquina, pero hay otras tareas más repetitivas dentro del sector audiovisual en las que la IA puede ser de gran ayuda. Centrémonos en este artículo en una tarea, en un área no siempre valorada pero realmente crítica e importantísima: la catalogación, metadatado y documentación de contenido audiovisual.

Ejemplos como:

  • Necesitamos todos los goles de Messi de esta temporada, que vamos a hacer una pieza de resumen para el programa deportivo líder de audiencia.
  • Hoy ha hablado Pedro Sánchez sobre el problema de los refugiados, necesito los cortes de todas sus intervenciones respecto a este tema durante este año.
  • Necesito aquel discurso de Felipe González donde hablaba de Venezuela cuando era presidente, ¿te acuerdas? Sí hombre… ¿Qué año era? Por el 1990, o el 91… creo…

Muchos profesionales del sector habrán oído, o incluso dicho, frases muy similares a estas. Las peticiones a documentación son de lo más variado, y siempre se espera que el área de documentación nos devuelva la pieza exacta a la que nos referimos. Pero para poder recuperar esta información es necesario un exhaustivo, y muy costoso, trabajo de indexación de todo el contenido que se produce y que llega a una cadena. Y ahí es donde la Inteligencia Artificial nos es muy útil, automatizando parte del proceso de indexación, y reduciendo el tiempo que tiene que pasar cada documentalista con un contenido.

La aplicación de IA en indexación se puede clasificar en tres ámbitos, en función del tipo de dato de entrada: audio, vídeo o texto. Es capaz de generar gran cantidad de información gracias a algoritmos capaces de reconocer caras, detectar logos y marcas, leer rótulos, segmentar hablantes, transcribir voz a texto, extraer palabras clave, categorizar el contenido, etc. A continuación, vamos a centrarnos en el algoritmo más utilizado en la ayuda a la documentación audiovisual, el reconocimiento de voz.

Hace ya bastantes años que se habla de reconocimiento de voz y su uso en los primeros sistemas de ámbito audiovisual. Sin embargo, aquellos sistemas no estaban preparados, los resultados eran sucios, mediocres y se creó un cierto rechazo por parte de la industria a su uso. Hoy día, el escenario es otro y es importante realizar una nueva reflexión al respecto, y analizar estas tecnologías sin prejuicios, ya que el beneficio que pueden aportar es muy grande.

La tecnología actual está preparada para su explotación industrial. Con esto no quiero decir que se pueda transcribir o subtitular cualquier contenido sin errores, es necesario que la calidad del audio sea alta y que no hablen varias personas a la vez. Pero, sobre todo, es necesario un entrenamiento específico para cada tipo de contenido y, en el mejor de los casos, para la voz de cada persona. Por eso crear un subtitulador universal está fuera del alcance incluso de gigantes como Google, no hay más que probar el generador automático de subtítulos de Youtube para ver que todavía falta un importante camino por recorrer.

Sin embargo, un sistema sí puede aprender cómo se habla en un tipo de contenido definido: qué gramática se usa y qué vocabulario es el más habitual. En lo referente al léxico, es crítico conocer los nombres de personas, lugares o instituciones que se van a utilizar; el sistema nunca será capaz de reconocer una palabra que no conozca previamente. Así, la primera vez que introdujimos una sesión de las Cortes de Aragón en nuestro sistema de reconocimiento Etiqmedia, me dijo que “El gobierno Dragón propone a la ciudad de Cruel una partida presupuestaria para luchar contra la despoblación del territorio”. O el reconocedor se había decantado por la literatura fantástica, o necesitaba un entrenamiento adecuado. Decidimos que un entrenamiento con transcripciones de sesiones antiguas sería la mejor opción. Volvimos a intentarlo y esta vez el sistema dedujo que realmente “El gobierno de Aragón propone a la ciudad de Teruel una partida presupuestaria para luchar contra la despoblación del territorio”. Mucho mejor.

En la parte humana de la implantación de cualquier nueva tecnología, surge siempre una pregunta del tipo, ¿y ahora que, y mi trabajo?: ¿Estos sistemas van a dejar sin trabajo a los documentalistas? La respuesta ahora mismo es clara: NO. La tecnología no está preparada para trabajar de forma autónoma, todos los datos extraídos con IA tienen un porcentaje de error no nulo, habitualmente entre el 3% y el 10%. Por ello se requiere, y se establece, un flujo de supervisión humana, donde el documentalista corrige los datos generados por el sistema automático y añade información relevante que no pueda ser automatizada. La gran diferencia frente al sistema manual, es el gran aumento de la productividad, un documentalista es capaz de indexar ahora mucho más contenido que de forma manual. Tradicionalmente las áreas de documentación siempre andan justas de personal y no todas las empresas audiovisuales valoran la importancia de esta área y la fuerte demanda de personal suele tener. La IA ha venido para ayudar.

Entramos en una fase de transición en la que poco a poco se irá introduciendo la tecnología en los sistemas de documentación. Igual que en su día la edición lineal, la catalogación totalmente manual tiene los días contados.

Imágenes: Pikist y www.etiqmedia.com

Antonio León Carpio

Antonio León Carpio

CEO Etiqmedia

Compartir