La inteligencia artificial puede oírte

Artículo
7 octubre 2020
Ver y oír van de la mano cuando se es consciente de lo que sucede a nuestro alrededor. Así que en seguridad, tiene sentido que tanto el audio como la visión puedan ayudar a desarrollar una mejor imagen de lo que realmente está ocurriendo en el área objetivo. En este artículo, Michiel Salters, M.Sc., Director Técnico y Jasper van Dorp Schuitman, PhD, Científico Senior en Sound Intelligence, nos hablan sobre la importancia de ser capaz de identificar y localizar eventos vitales en sus grabaciones de seguridad usando análisis de audio.

Nunca te pierdas un evento


Es imposible estar físicamente presente en todas partes al mismo tiempo. Y como la mayoría de la gente, usamos la videovigilancia para ver y oír lo que pasa en todos los sitios donde no estamos. Es bastante fácil con sólo unas pocas cámaras, pero no es práctico monitorear físicamente muchas cámaras simultáneamente. ¿Cuánto tiempo llevaría descubrir un evento importante en una cámara mientras se está mirando a otro lugar? ¿Qué te perderías? ¿Cuáles serían las consecuencias?

Por eso es que los análisis en tiempo real basados en los extremos son tan valiosos - para detectar y categorizar eventos, y alertar a un operador de situaciones de interés. Cuando piensas en la analítica basada en los extremos de las cámaras, probablemente piensas en la analítica basada en vídeo o imágenes, pero también pueden ser analíticas de audio. Por ejemplo, los disparos, la agresión y la rotura de cristales serían difíciles de detectar con la analítica basada en imágenes, pero pueden detectarse rápidamente mediante la analítica de audio, incluso si el evento está fuera del campo de visión de la cámara. La detección temprana de este tipo de eventos significa que el personal de seguridad o de las fuerzas del orden puede ser enviado para desescalar una situación o llegar a las víctimas rápidamente - y potencialmente incluso salvar vidas.

¿Pero cómo distingue el análisis de audio un disparo de un portazo? ¿Un grupo de adolescentes ruidosos que se divierten o discuten? Si bien la detección temprana de un evento grave es importante, también lo es minimizar el número de falsas alarmas.

Mejor detección con el machine learning


La analítica de audio y vídeo son dos formas de Reconocimiento de Patrones, una rama de la Inteligencia Artificial (IA). La IA ha visto una revolución en la última década, impulsada por el Aprendizaje Automático. Ya no es necesario programar minuciosamente toda la inteligencia en una IA, en su lugar se le proporciona a la IA datos de muestra y se le dice que aprenda los patrones a partir de esos datos. Esta idea no es nueva, pero sólo se ha hecho factible recientemente con la disponibilidad de GPU asequibles. Originalmente desarrollados para juegos, estos chips resultaron ser mucho más versátiles de lo que sus desarrolladores habían previsto. Los algoritmos clave de aprendizaje de máquinas desarrollados a principios de siglo se volvieron repentinamente prácticos. Afortunadamente, estas nuevas técnicas demostraron ser muy flexibles. Los algoritmos de redes neuronales para el reconocimiento de imágenes fijas también pudieron transferirse a la analítica de vídeo y audio.

Sin embargo, la clave para aplicar con éxito estas nuevas técnicas, es el conjunto de datos con los que hay que trabajar. El entrenamiento y la prueba de los modelos de aprendizaje de la máquina correctamente requiere conjuntos de datos que sean lo suficientemente grandes y diversos como para describir la variedad y los tipos de sonidos que le interesa clasificar. En Sound Intelligence, tenemos datos de audio de numerosos entornos de la vida real - datos que han sido recogidos durante los últimos veinte años y anotados manualmente en casa. El hecho de que seamos capaces de aplicar el aprendizaje automático de vanguardia en un conjunto tan singular de datos de audio nos convierte en una empresa líder en la industria del reconocimiento de sonidos de la vida real.

Innovación basada en la comunidad


El rápido desarrollo de la IA no fue sólo una cuestión de hardware y software. También se benefició de una comunidad abierta y de una estrecha cooperación entre el mundo académico y la industria. Las herramientas de la IA están ahora disponibles gratuitamente porque las grandes empresas con grandes departamentos de investigación internos, como Facebook y Google, reconocen que la colaboración acelera el desarrollo y beneficia a toda la comunidad a largo plazo. De hecho, en varios foros se organizan competiciones de IA, en las que se invita a los investigadores a probar nuevas ideas y algoritmos en conjuntos de datos públicos.

Uno de esos foros en los que nosotros en Sound Intelligence hemos estado involucrados es DCASE (Detección y Clasificación de Escenas y Eventos Acústicos) - una serie anual de desafíos de IA específicos para el análisis de audio. Organizado anualmente desde 2016, combina los desafíos en línea con un taller de dos días donde los ganadores presentan sus estrategias exitosas. Cientos de científicos de las principales universidades, institutos de investigación y la industria se reúnen para discutir las tecnologías de vanguardia que pueden utilizarse en soluciones futuras.

Sound Intelligence copatrocina este evento junto con empresas como Amazon, Facebook, Google, IBM y Microsoft. El creciente interés de estos grandes nombres muestra que el campo de la clasificación y detección de sonido está recibiendo cada vez más atención. También servimos como expertos de la industria en la DCASE para revisar y juzgar los desafíos presentados, premiando aquellos que son más relevantes en nuestro campo.

Los desafíos de la DCASE son una gran manera de explorar los límites de lo que es teóricamente posible - con mínimas limitaciones de potencia de procesamiento y tiempo. Los investigadores que trabajan en las tareas del DCASE normalmente tienen múltiples GPU a su disposición para ejecutar algoritmos muy complejos; a veces incluso múltiples algoritmos en paralelo. Sin embargo, en el mundo real, las aplicaciones de seguridad tienen una potencia de procesamiento limitada y las clasificaciones deben realizarse en tiempo real. Un gran desafío para la Inteligencia de Sonido, y para la comunidad de la IA en general, es aplicar las técnicas de aprendizaje de máquinas más avanzadas en dispositivos autónomos para aplicaciones en tiempo real.

Desplegando análisis de vanguardia con Axis


Para un despliegue práctico, los análisis deben funcionar en una plataforma más práctica. Una plataforma basada en los extremos, como la Plataforma de Aplicación de Cámara AXIS (ACAP) es una de esas plataformas, que transforma la cámara en un dispositivo inteligente. Axis también ha hecho grandes progresos en los últimos años al introducir más potencia de procesamiento en sus cámaras de red y dispositivos de audio basados en su chip ARTPEC. El más reciente sistema ARTPEC-7 System-on-Chip con soporte de hardware para redes neuronales hace que el análisis acústico basado en el aprendizaje automático sea aún más factible.

Con el aumento de la potencia de procesamiento disponible, tanto el análisis de vídeo como el de audio pueden funcionar en paralelo. También pueden combinarse para producir una calidad de detección aún mejor, preparando el camino para la futura integración de metadatos de audio y vídeo y el entrenamiento de redes neuronales profundas en el conjunto de datos combinados.

Inteligencia artificial - hoy y mañana


La Inteligencia Artificial está aquí para quedarse, y la tecnología madura cada día. Las herramientas de código abierto y los conjuntos de datos harán que la IA "básica" sea accesible para todos. La innovación de hardware como la de ARTPEC-7 se convertirá en algo común, permitiendo una IA aún más compleja. Con la amplia disponibilidad de herramientas y hardware, los diferenciadores clave para la próxima década no serán quién tiene los mejores componentes de IA, sino quién entiende mejor las necesidades de los clientes y quién tiene los conjuntos de datos de mejor calidad.

Las redes neuronales profundas de la Inteligencia Sólida se entrenan en entornos del mundo real y, como resultado, funcionan en entornos del mundo real. Trabajando estrechamente con Axis para mejorar continuamente nuestras respectivas soluciones de hardware y software, estamos satisfaciendo las necesidades de los clientes en una variedad de segmentos y entornos de la industria.

Mayor información: Maria Santafé, Marketing Specialist, Axis Communications