L’Intelligenza Artificiale che ti ascolta

Guardare e sentire vanno a braccetto con la consapevolezza di ciò che avviene intorno a noi. Nel campo della sicurezza, sembra dunque molto sensato che l’audio contribuisca, insieme al video, a garantire una rappresentazione più accurata di cosa sta succedendo in un determinato spazio.

In questo articolo, Michiel Salters, Direttore Tecnico e Dorp Schuitman, Scienziato Senior a Sound Intelligence approfondiscono l’importanza di essere capaci di identificare e localizzare eventi cruciali per la vostra sicurezza utilizzando le analitiche audio.

 

Non perdere niente di quel che succede

È impossibile essere fisicamente presenti in ogni posto allo stesso tempo. E come molte persone, utilizziamo la videosorveglianza per vedere e sentire cosa succede quando siamo lontani. È un’attività piuttosto semplice e può essere effettuata utilizzando solo poche telecamere, ma monitorare molti dispositivi contemporaneamente non è molto pratico. Quando tempo sarebbe necessario per scoprire un evento importante su una telecamere quando state guardando altrove? Cosa potreste perdere? Quali sarebbero le conseguenze?

Ecco perché i software di analisi edge-based (installati nel dispositivo) sono così importanti per riconoscere e categorizzare eventi e allertare un operatore quando avviene qualcosa di importante. Quando pensate alle analitiche edge-based presenti nella telecamera, probabilmente state immaginando software basati sul video o sull’immagine. Ma le analitiche audio possono essere altrettanto utili.

Per esempio, suoni come colpi di pistola, aggressioni fisiche o vetri infranti sarebbero difficili da identificare con analitiche basate sull’immagine, ma possono essere rilevati immediatamente con l’analisi dell’audio, anche se l’evento avviene al di fuori del campo visivo della telecamera. Un riconoscimento immediato di questo tipo di situazioni implica un più rapido intervento da parte del personale di sicurezza o delle forze di polizia per interrompere ciò che sta avvenendo e raggiungere in breve tempo le vittime, potenzialmente anche salvando la loro vita.

Ma come fanno le analitiche audio a distinguere un colpo di pistola da una porta che sbatte? Un gruppo di ragazzi rumorosi da persone che si divertono o che hanno una lite? Se il riconoscimento rapido di una situazione di questo tipo è importante, lo è anche la riduzione del numero di falsi allarmi.

 

Un miglior riconoscimento con il machine learning

I software di analisi audio e video sono due forme della pattern recognition (riconoscimento di schemi), una branca dell’Intelligenza Artificiale (IA). L’IA ha attraversato negli ultimi dieci anni una vera e propria rivoluzione spinta dagli avanzamenti nel machine learning. Non è più necessario programmare faticosamente in partenza ogni possibile circostanza nell’IA ma è ora possibile fornire il sistema di alcuni dati di esempio e spingere la piattaforma a riconoscere degli schemi a partire da quei dati. Non si tratta di un’idea nuova, ma è diventata praticamente solo recentemente grazie alla disponibilità di unità di processamento video (GPU) più evolute.

Sviluppate originariamente per i videogiochi, le GPU si sono rivelate molto più versatili di quanto immaginassero i loro creatori. Gli algoritmi centrali di machine learning sviluppati intorno all’inizio del secolo sono diventati rapidamente utilizzabili. Queste nuove tecniche si sono poi dimostrate molto flessibili: gli algoritmi di rete neurale per il riconoscimento delle immagini fisse possono essere facilmente trasferibili sui software di analisi video e audio.

In ogni caso, la chiave per applicare con successo queste tecniche è il sistema di dati con cui state lavorando. L’addestramento e il test di modelli di machine learning richiedono, per procedere correttamente, insiemi di dati ampi e sufficientemente diversificati per descrivere la varietà e i tipi di suono che siete interessati a classificare. A Sound Intelligence, disponiamo di dati audio provenienti da molti ambienti reali – dati raccolti nel corso degli ultimi trent’anni e catalogati da noi. Il fatto che siamo in grado di applicare machine learning di ultima generazione su una raccolta unica di dati audio ci rende la società leader nel settore del riconoscimento di suoni reali.

 

Innovazioni basate sulla community

Il rapido sviluppo dell’intelligenza artificiale non è stato solo questione di hardware e software. Questa crescita ha anche beneficiato dell’esistenza di una community aperta e della stretta cooperazione tra università e industria. Gli strumenti dell’IA sono oggi liberamente disponibili perché grandi società con ampi dipartimenti di ricerca in-house, come Facebook e Google, hanno riconosciuto che la collaborazione velocizza lo sviluppo e a lungo termine aiuta l’intera community. In effetti, molti forum online organizzano hackathon o competizioni online nelle quali i ricercatori sono invitati a mettere alla prova nuove idee e algoritmi su insieme di dati pubblici.

Uno di questi forum, nel quale siamo coinvolti anche noi di Sound Intelligence, è DCASE (Detection and Classification of Acoustic Scenes and Events) – un evento annuale in cui le IA sono sfidate specificamente per quanto riguarda le analitiche audio. Organizzato ogni anno dal 2016, combina contest online con una due giorni di workshop dove i vincitori presentano le proprie strategie di successo. Centinaia di scienziati di università di primo livello, istituti di ricerca e settori aziendali si riuniscono e discutono delle tecnologie all’avanguardia che possono essere utilizzate nelle soluzioni future.

Sound intelligence è co-sponsor di questo evento insieme a imprese come Amazon, Facebook, Google, IBM e Microsoft. Il crescente interesse da parte di questi grandi nomi mostra come il campo della classificazione e del rilevamento del suono sta ottenendo sempre più attenzione. Come azienda, lavoriamo anche come esperti di settore per la revisione e il giudizio delle partecipazioni al contest, premiando coloro che si sono distinti maggiormente nel nostro settore.

Le sfide lanciate da DCASE sono un modo molto efficiente per esplorare i confini di ciò che è teoricamente possibile – con minime limitazioni per quanto riguarda l’impegno e il tempo di processamento dei dati. I ricercatori che lavorano sui compiti lanciati da DCASE hanno solitamente molte GPU a propria disposizione per gestire algoritmi molto complessi; talvolta anche algoritmi multipli che agiscono in parallelo. Tuttavia, nel mondo reale, le applicazioni di sicurezza hanno una capacità di processamento limitata e la classificazione deve avvenire in tempo reale. Una grande sfida per Sound Intelligence e la community degli studiosi dell’IA in generale, è di applicare tecniche di machine learning all’ultimo grido in dispositivi autonomi e in situazioni reali.

 

Lo sviluppo di software di analisi avanzati insieme ad Axis

Per quanto riguarda l’applicazione pratica, le analitiche devono essere testate su piattaforme che lavorano in situazioni reali. Una di esse è la piattaforma edge-based AXIS Camera Application Platform (ACAP) che trasforma la telecamera in un dispositivo intelligenze. Axis ha compiuto grandi passi negli ultimi anni nell’introduzione di una maggior capacità di processamento delle informazioni nelle proprie telecamere di rete e nei dispositivi audio basati sul loro chip ARTPEC. Il più recente Sistema ARTPEC-7 System-on-Chip, dotato del supporto audio per le reti neurali, rende l’analisi acustica basata sul machine learning ancora più facilmente praticabile.

Con la crescita della potenza dei sistemi nel processamento delle informazioni, le analitiche video e audio possono attivarsi in parallelo. Possono anche essere combinate per ottenere una qualità del rilevamento ancora migliore, preparando la strada per una futura integrazione dei meta-dati audio e video e dei risultati dell’addestramento della rete neurale profonda nei sistemi di dati raccolti.

 

L’intelligenza artificiale – oggi e domani

L’Intelligenza Artificiale è una realtà, e la tecnologia continua a maturare giorno dopo giorno. Strumenti e database open-source renderanno l’accesso ad una forma basilare di IA a tutti. Le innovazioni hardware come quelle presenti in ARTPEC-7 diventeranno comuni, permettendo la nascita di Intelligenze Artificiali ancora più complesse. Con la diffusa disponibilità di strumenti e dispositive, ciò che farà la differenza nel prossimo decennio non sarà avere i migliori componenti, ma la capacità di riconoscere le esigenze dei clienti e i possesso dei sistemi di dati di maggior qualità.

Le rete neurali di Sound Intelligence sono progettate sulla base di ambienti reali e, proprio per questo, funzionano in ambienti reali. Lavorando fianco a fianco con Axis per continuare a migliorare gli hardware e le soluzioni software di ciascuno, stiamo rispondendo alle necessità dei clienti in un ampio novero di settori e ambienti industriali.

 

Scopri di più sui software di analisi audio in questo articolo:

Telecamere IP con orecchie intelligenti

 

 

Questo articolo è apparso originariamente in lingua inglese sul blog globale Secure Insights.