音声分析：インテリジェントな「耳」によるIPカメラの強化

By Guest authors | 02月 9日, 2024 08月 29日, 2019 | 業種特化のソリューション 0 comments

脅威を知覚するとき、我々の脳は危険性を評価するために我々が持つすべての能力に頼ります。それは車のバックファイヤーだったのか、それとも銃撃だったのか。窓が割れたのか、それとも誰かがグラスを落としただけだったのか。あの声は怒りで叫んだのか、それとも喜びのあまり叫んだのか。視覚的なコンテキストを追加すると、その違いを区別しやすくなります。しかし、多くの場合、私たちはその判断をほとんど瞬時に下す必要があります。

物理セキュリティの世界では、監視カメラは、カメラに搭載された分析機能を使用して、理性的に知覚データを測定し脅威が差し迫っているかどうかを結論づけるという人間が持つプロセスを模倣することで、その認識を増強しています。

映像監視の業界にいるほとんどの人は映像分析のことをよく知っていることと思います。これらのアプリケーションは視覚的な領域で動作します。つまり、見たものに対する状況認識を捉え、分析し、提示します。それらは、カメラが群衆の大きさを測定したり、誰かに迷惑をかけようとしている行為を警告したり、立ち入るべきでない場所に侵入した人を検知することを可能にしています。

一方、音声分析は音響の領域で動作します。つまり、カメラが反対方向を向いている場合でも、さまざまな音を検知・識別することができます。これらのアプリケーションは、口頭での攻撃や窓ガラスの割れ、さらには銃の発射など、特定の音を警備担当者に警告することができます。

音声分析の基本を理解する

音声検知ソフトウェアは、デシベルレベルからエネルギーまでのさまざまな周波数の特性の複雑な組み合わせを、時間の経過とともに「聴き取り」ます。これらのアプリケーションは交通や会話、音楽などのバックグラウンドノイズを無視するようにプログラムされ、非常に特定された音響パターンを聴き取ったときに警告を発します。これにより、電車のプラットホームや刑務所の独房棟のような困難な環境でも、誤検知（または未検知）のリスクを最小限に抑えることができます。

ビデオカメラの個別の音声ストリーミング機能とは異なり、音声分析ではサウンドを継続的に記録しません。プログラムはバッファモードでのみ動作し、セキュリティ担当者が音声を検証して、フォレンジック用の証拠として保存できるように、検知した時点の前後の数秒間を含めて記録します。

ネットワークカメラや、ネットワークドアステーション、ネットワークスピーカー、ネットワークオーディオブリッジなどのエッジデバイスに音声分析機能を組み込むことには、いくつかの利点があります。

音声処理はデバイスの内部で行われるため、音声処理用の中央サーバーが不要になります。
音声イベントによってトリガーされた場合にのみ映像ストリームがフィードされるため、映像ストリームによる帯域幅の占有量と保存用ストレージの必要量を削減します。
アラートによってセキュリティ担当者の注意を潜在的なインシデントに即座に向けさせることができるので、リアルタイムの監視が改善されます。

音声分析を使用して映像監視システムを強化することで、施設に対する保護がさらに強化されるだけでなく、アラートの即時性により、脅威の特定と対応においてもより積極的なセキュリティ対応を行うことができます。

正しい決断を下す：聞こえたことから、すべきことを知る

現代の機械学習テクノロジーの進化を考えると、分析ライブラリ内でカタログ化されるサウンドの潜在的な数はほぼ無限になる可能性があり、それはカメラの処理能力によってのみ制限されることになります。セキュリティの観点では、分析機能が耳にする最も一般的な音響パターンのいくつかには、攻撃行動、車両の警報、銃の発砲、ガラスの割れる音などがあります。

攻撃行動の検知は、攻撃行動に至る前に発せられる言葉による攻撃を識別します。分析ソフトウェアは、強迫観念、怒り、または恐れに関連する音のパターンを聴き取ります。非常に興味深いことに、アメリカ心理学会(American Psychological Association)では、すべての攻撃行動による事件の90パーセントで「怒り」が先行していることを発見しました。攻撃行動を検知する技術がこれらの特有な音響パターンのいずれかを認識すると、システムは自動的にアラームをトリガーし、リアルタイムの映像をコントロールルームまたはモバイル機器に配信します。早期の警告によって、敵意が物理的な行為に変わる前にセキュリティスタッフはすぐに事件に介入して処理することができます。カメラにアプリケーションを埋め込むことで、セキュリティスタッフは事象の展開を映像で監視し、対応要員が現場向かう途中でも追加情報を各要員に提供できるようになります。
車両の警報検知は、世間で最も一般的な車両警報システムによって作り出される特定の音のパターンを聴き取ります。分析ソフトウェアは、カメラ周辺のかなり大きな範囲で発せられる音のパターンを検知できるので、駐車場向けの用途として特に有用です。分析ソフトウェアは、位置情報を含むリアルタイムのアラートを送信することで、セキュリティスタッフがより迅速に事象に対応して盗難や破壊行為を防止するのに役立ちます。
銃声の検知は、さまざまな銃器、拳銃、散弾銃、ライフル銃、および自動火器の発砲音を認識します。武器が使用されたことをソフトウェアが検知するとセキュリティ担当者に即座に警告を発します。担当者はただちに音を再生して検証するとともにビデオカメラを使用して脅威をさらに詳しく評価して、迅速かつ安全に対応することができます。
ガラスの割れる音の検知は、窓ガラスが単層板、複層板、強化板、配線板のいずれであっても割れる音を認識します。ソフトウェアが音を検知すると、侵入の有無を調査するためにセキュリティ担当者に警告を送信します。分析機能をカメラ内に配置することで、すべての窓に衝撃センサーを設置する費用を節約できます。

これらや他のカスタム音声分析で映像監視ソリューションを強化することで、状況認識をまったく新しいレベルに引き上げることができます。見たり聞いたりしたことをインテリジェントに分析するシステムを装備することで、セキュリティ担当者は脅威の性質をすばやく確認し、適切に行動することができるようになります。

しかし、ひとつ明確にすると、もしこれが「リスニング、何を話しているかを分析する」ということになると話は違ってきます。音声分析は、実際に人が話す内容ではなく、特定の音響パターンの音声のみを検知・識別するからです。これは重要な違いです。それは、多くの国・州で、録音装置に対して厳しい規制があるからです。

製図板から実世界へ：2つのユーザーストーリー

ここまでテクノロジーについて抽象的な話をしてきましたが、それが実社会でどのように機能するかを見ることで、実際にどんな可能性があるかを知ることができます。ここからは、2つの異なる組織でどのように音声分析を映像監視ソリューションに統合しているかを見てみましょう。

ビレリカ(Billerica)警察：より安全な独房棟の作成

アメリカ・マサチューセッツ州にあるビレリカでは、音声分析が留置所の安全を維持する上で大きな役割を果たしています。同警察では各独房棟の天井にAxisビデオカメラを設置し、叫んでいる人の声などの敵対的な音響を検知するためにSound Intelligence社のAggression Detection分析ソフトウェアをカメラに組み込みました。分析ソフトウェアが特定の音響パターンを検知すると、警察署内の指令センターにあるAXIS Camera Stationと担当官の携帯電話にアラートが送信されします。アラート通知は、騒ぎが発生している独房棟のブロック番号を示すとともにカメラからの映像を配信し、発生している騒動の様子を担当官が視覚的に確認できるようにしています。

この技術の価値について尋ねられたときに、ビレリカ警察で公認技術マネージャーを務めているグレッグ・カッツ(Greg Katz)警部補は、次のように述べています。「音声分析の良いところは、担当官が積極的に対応できるようになったことです。何かが起こっていることを担当官に早く知らせることで、大きな損害が起こるよりも早く対応することができるようになりました。」

カッツ警部補はまた、IPベースのテクノロジーであるという点で、音声分析が他のネットワークベースのセキュリティテクノロジーと簡単に統合できることを意味しているとも述べました。同警察での次のステップは、警察署内の指令センターにAxisネットワークスピーカーを設置して騒動が検知されたことを知らせることです。たとえば、音声分析ソフトウェアが攻撃行動の音響を拾った場合、「独房2番で騒動発生。担当官は直ちに急行せよ」といった音声による警告をトリガーできるようになります。

ビレリカ警察署では、各独房に設置したAXIS Q8414-LVS Network CameraにSound Intelligence社のAggression Detection分析ソフトウェアを組み込みました。

ロックヒル学園(Rock Hill Schools)：けんかが実際に起こらないようにする

ロックヒル学園では、高等学校内にSound Intelligence社のAggression Detectionを導入して、施設担当者とスタッフが学生同士のけんかを抑制できるようにすることを決定しました。学校内に設置済みのAxisネットワークカメラにアプリケーションを組み込み、攻撃的な声を検知して管理者に警告を発するようにしました。

「高校生に関することと言えば、彼らが1分ぐらいの間は冗談を言ったり、間抜けになったりすることがあるということです。そして、ご存知の通り、ある子供が少し強く言い過ぎてしまうと、そこから本格的な口論に発展していきます」と、ロックヒル学園のリスクセキュリティ緊急管理部長のケヴィン・レン(Kevin Wren)氏は言っています。

以前は、管理者は誰かが校内にある非常ボタンを押して助けを求めることに頼らざるを得ませんでした。それは、対応を開始するまでの時間が2分以上遅れる可能性がありました。「今や音声分析によって、セキュリティ担当者をすぐに派遣するよう、管理者に自動的に通知しています」とレン氏は言います。「音声分析によって、対応開始までの時間が数分ではなく数秒にまで短縮されています。」

マイクロフォンはカメラに紐づけて設置されているため、管理者がアラートと音声クリップを受け取ると同時に、ライブ映像フィードも表示され、そのアラートが本物かどうかを判断することができます。

まだ導入から間もない段階ですが、レン氏は楽観的です。「この高校には2300人もの子供たちが在籍しています。けんかの件数を10パーセント以上削減できれば、それは大きな成功と言えるでしょう。」

インテリジェントな耳とインテリジェントな目を組み合わせるのはなぜか。

監視カメラは、揺籃期には単なる記録装置に過ぎませんでした。カメラの処理能力が長年にわたって強化されるにつれて、カメラは全体的に見てもずっとスマートな能力を得ました。今日、映像分析はカメラにインテリジェントな「目」を提供し、セキュリティ担当者がカメラから見えるものを解釈するのに役立っています。みなさんがカメラに音声分析を追加することで、今までみなさんが見逃していたかもしれなかった重要な事象を見つけ出す、インテリジェントな「耳」を持つことができるのです。

オーディオ分析をビデオ監視ソリューションに統合する方法の詳細については、2018年4月のセキュリティ業界協会誌、James Marcellaの “Listen Up”が参考になります。