Audio

Die Verwendung von Audiofunktionalität in Videoüberwachungssystemen ist zwar noch nicht weit verbreitet, kann aber die Fähigkeit eines Systems, Ereignisse zu erkennen und zu interpretieren, verbessern und die Audio-Kommunikation über ein IP-Netzwerk ermöglichen. Die Verwendung von Audio ist in manchen Ländern möglicherweise gesetzlich nicht zulässig. Es wird daher empfohlen, dies vor der Implementierung zu überprüfen.

Die Themen in diesem Kapitel umfassen Anwendungsszenarien, Audiogeräte, Audio-Modi, Audioerkennungsalarme, Audio-Komprimierung und Audio-/Video-Synchronisierung.

Audio-Anwendungen

Die Integration von Audiofunktionalität in ein Videoüberwachungssystem kann die Fähigkeit eines Systems, Ereignisse und Notfallsituationen zu erkennen und zu interpretieren, auf wertvolle Weise ergänzen. Dank der Fähigkeit von Audio, 360 Grad eines Bereichs abzudecken, kann ein Videoüberwachungssystem seinen Abdeckungsbereich über das Sichtfeld der Kamera hinaus erweitern. Es kann eine PTZ-Kamera oder PTZ-Dome-Kamera (oder den Bediener dieser Kameras) anweisen, bei einem Audioalarm eine visuelle Überprüfung vorzunehmen.

Audio kann außerdem verwendet werden, um einen Bereich abzuhören und um Besuchern oder Eindringlingen Anweisungen zu erteilen oder Fragen zu stellen. Wenn sich beispielsweise eine Person im Sichtfeld einer Kamera auffällig verhält, z. B. in der Nähe eines Geldautomaten herumlungert oder einen gesperrten Bereich betritt, kann ein entfernter Wachmann der Person eine verbale Warnung erteilen. Auch in Situationen, in denen eine Person verletzt wurde, kann es von Vorteil sein, mit der Person kommunizieren und ihr mitteilen zu können, dass Hilfe unterwegs ist. Ein weiterer Anwendungsbereich ist die Zugangskontrolle, z. B. ein ferngesteuerter „Türsteher“ an einer Eingangstür. Weitere Einsatzbereiche sind Remote-Helpdesks (z. B. in einem unbewachten Parkhaus) und Videokonferenzen. Ein audiovisuelles Überwachungssystem erhöht die Effektivität einer Sicherheits- oder Fernüberwachungslösung, indem ein nicht vor Ort befindlicher Benutzer die Möglichkeit erhält, Informationen zu empfangen und zu übermitteln.

Audio-Unterstützung und Geräte

Audio-Unterstützung lässt sich leichter in ein Netzwerk-Videosystem als in ein analoges CCTV-System implementieren. In einem analogen System müssen separate Audio- und Videokabel von einem Endpunkt zum anderen Endpunkt verlegt werden, also von der Kamera und dem Mikrofon zur Anzeige-/Aufzeichnungsstation. Wenn die Entfernung zwischen Mikrofon und Station zu groß ist, müssen Geräte zur symmetrischen Signalübertragung verwendet werden, wodurch der Implementierungsaufwand und die Installationskosten steigen. In einem Netzwerk-Videosystem verarbeitet eine Netzwerk-Kamera mit Audio-Unterstützung die Audiodaten und sendet sowohl die Audio- als auch die Videodaten über dasselbe Netzwerkkabel für die Überwachung und/oder Aufzeichnung. Dadurch ist kein zusätzlicher Verkabelungsaufwand erforderlich und die Synchronisierung von Audio und Video ist deutlich einfacher.

Ein Netzwerk-Videosystem mit integrierter Audio-Unterstützung. Audio- und Videoströme werden über dasselbe Netzwerkkabel übertragen.

Einige Video-Encoder sind mit Audiofunktionalität ausgestattet, sodass Audiodaten übertragen werden können, auch wenn in einer Installation analoge Kameras verwendet werden.

Eine Netzwerk-Kamera oder ein Video-Encoder mit integrierter Audiofunktionalität enthält oftmals ein integriertes Mikrofon und/oder einen Mikro-Eingang/Line-Eingang. Ist ein Mikro-Eingang/Line-Eingang vorhanden, haben Benutzer die Möglichkeit, ein anderes, ggf. hochwertigeres Mikrofon zu verwenden, was beispielsweise eine spezielle Richtcharakteristik oder Empfindlichkeit aufweist. Außerdem ist es möglich, mehrere Mikrofone an das Netzwerk-Videoprodukt anzuschließen oder das Mikrofon weiter von der Kamera entfernt aufzustellen. Das Mikrofon sollte immer so nah wie möglich an der Geräuschquelle aufgestellt werden, um das Rauschen zu reduzieren. Im Zweiwege-Modus (Vollduplex) sollte ein Mikrofon in einiger Entfernung vom Lautsprecher und von diesem wegzeigend aufgestellt werden, um eine Rückkopplung zu vermeiden.

Viele Netzwerk-Videoprodukte von Axis enthalten keine integrierten Lautsprecher. Ein aktiver Lautsprecher, d. h. ein Lautsprecher mit integriertem Verstärker, kann direkt an das Netzwerk-Videoprodukt mit Audio-Unterstützung angeschlossen werden. Wenn ein Lautsprecher keinen integrierten Verstärker hat, muss er an einen Verstärker angeschlossen werden, der dann mit der Netzwerk-Kamera/dem Video-Encoder verbunden wird.

Zur Minimierung von Störungen und Rauschen sollten immer abgeschirmte Audiokabel verwendet werden. Außerdem sollten Audiokabel nicht neben Stromkabeln und Kabeln, die hochfrequente Schaltsignale übertragen, verlegt werden. Audiokabel sollten so kurz wie möglich sein. Wenn ein langes Audiokabel benötigt wird, sollten Balanced-Audio-Geräte, d. h. ausbalancierte Kabel, Verstärker und Mikrofone verwendet werden, um das Rauschen zu reduzieren.

Audiomodi

Je nach Verwendungszweck besteht möglicherweise die Anforderung, Audiodaten nur in eine (Simplex) oder in beide Richtungen (Duplex) zu senden. Im Duplexmodus können Audiodaten entweder gleichzeitig in beide Richtungen (Vollduplex) oder immer nur in jeweils eine Richtung gesendet (Halbduplex) werden.

Simplex

Im Simplexmodus werden Audiodaten nur in eine Richtung übertragen. In diesem Fall werden die Audiodaten von der Kamera an den Bediener gesendet. Zu den Verwendungszwecken gehören die Fernüberwachung und die Videoüberwachung.

In diesem Beispiel für den Simplexmodus werden Audiodaten vom Bediener an die Kamera gesendet. Dieser Modus kann zum Beispiel verwendet werden, um einer von der Kamera erfassten Person mündliche Anweisungen zu erteilen oder einen potentiellen Autodieb von einem Parkplatz zu verscheuchen.

Halbduplex

Im Halbduplexmodus werden Audiodaten in beide Richtungen übertragen, die Übertragung ist jedoch immer nur in eine Richtung gleichzeitig möglich. Dies ist ähnlich wie bei der Kommunikation über ein Walkie-Talkie.

Full duplex

In full-duplex mode, audio is sent to and from the operator simultaneously. This mode of communication is similar to a telephone conversation. Full duplex requires that the client PC has a sound card with support for full-duplex audio.

Audioerkennungsalarm

Der Audioerkennungsalarm kann ergänzend zur Videobewegungserkennung verwendet werden, da er auf Ereignisse in völlig dunklen Bereichen reagieren kann, die von der Videobewegungserkennungsfunktion nicht mehr erfasst werden können. Er kann auch zum Erkennen von Aktivitäten in Bereichen außerhalb des Sichtfelds der Kamera verwendet werden.

Wenn Geräusche wie z. B. das Zerbrechen eines Fensters oder Stimmen in einem Raum erkannt werden, können bestimmte Reaktionen ausgelöst werden, beispielsweise das Senden und Aufzeichnen von Video- und Audiodaten, das Senden von E-Mail- oder anderen Benachrichtigungen und das Aktivieren von externen Geräten wie etwa Alarmsirenen. Gleichermaßen können alarmrelevante Ereignisse wie die Bewegungserkennung oder Türkontakte zum Auslösen von Video- und Audioaufzeichnungen verwendet werden. In einer PTZ-Kamera oder PTZ-Dome-Kamera kann der Audioerkennungsalarm veranlassen, dass die Kamera automatisch auf eine bestimmte Stelle ausgerichtet wird, z. B. ein Fenster.

Audiokomprimierung

Analoge Audiosignale müssen mittels eines Sampling-Prozesses in digitale Audiodaten konvertiert und dann komprimiert werden, um das Datenvolumen für eine effiziente Übertragung und Speicherung zu reduzieren. Die Konvertierung und Komprimierung wird mithilfe eines Audio-Codecs ausgeführt. Dies ist ein Algorithmus, der Audiodaten codiert und decodiert.

Sampling-Frequenz

Es gibt viele verschiedene Audio-Codecs, die unterschiedliche Sampling-Frequenzen und Komprimierstufen unterstützen. Die Sampling-Frequenz gibt an, wie viel Mal pro Sekunde das Sample eines analogen Audiosignals abgetastet wird. Sie wird in Hertz (Hz) angegeben. Generell gilt: Je höher die Sampling-Frequenz, desto besser ist die Audioqualität und desto mehr Bandbreite und Speicherplatz werden benötigt.

Bitrate

Die Bitrate ist bei der Audiofunktion eine wichtige Einstellung, da sie die Komprimierstufe und damit die Audioqualität festlegt. Generell gilt: Je höher die Komprimierstufe, desto niedriger die Bitrate und desto schlechter ist allerdings die Audioqualität. Die Unterschiede bei der Audioqualität von Codecs sind vor allem bei hohen Komprimierstufen (niedrigen Bitraten) bemerkbar, nicht jedoch bei niedrigen Komprimierstufen (hohen Bitraten). Höhere Komprimierstufen können auch eine höhere Latenz (Verzögerung) bewirken, allerdings ermöglichen sie auch größere Einsparungen bei der Bandbreite und dem Speicherplatz.

Die bei Audio-Codecs am häufigsten gewählten Bitraten liegen zwischen 32 kBit/s und 64 kBit/s. Audio-Bitraten sind wie Video-Bitraten ein wichtiger zu berücksichtigender Faktor, wenn es um die Berechnung der Bandbreiten- und Speicheranforderungen geht.

Audio-Codecs

Netzwerk-Videoprodukte von Axis unterstützen drei Audio-Codecs. Der erste ist AAC-LC (Advanced Audio Coding - Low Complexity), auch als MPEG-4 AAC bekannt. Für diesen Codec ist eine Lizenz erforderlich (siehe Abschnitt 7.2.2). AAC-LC wird besonders bei einer Sampling-Rate von 16 kHz oder höher und einer Bitrate von 64 kBit/s empfohlen, wenn die bestmögliche Audioqualität erforderlich ist. Die anderen beiden Codecs sind G.711 und G.726, für die keine Lizenzen erforderlich sind.

Audio- und Videosynchronisierung

Die Synchronisierung von Audio- und Videodaten erfolgt mittels eines Media Players (einem Softwareprogramm zum Abspielen von Multimedia-Daten) oder eines Multimedia-Frameworks wie Microsoft DirectX, einer Sammlung aus APIs (Application Programming Interface), die Multimedia-Daten verarbeiten.

Audio- und Videodaten werden in separaten Datenpaketströmen über ein Netzwerk gesendet. Damit ein Client oder Player die Audio- und Videoströme perfekt synchronisieren kann, müssen die Audio- und Videodatenpakete mit einem Zeitstempel versehen werden. Das Versehen von Videodatenpaketen mit Zeitstempeln mithilfe der Motion JPEG-Komprimierung wird nicht von allen Netzwerk-Kameras unterstützt. Wenn dies der Fall ist, Sie aber synchronisierte Video- und Audiodaten benötigen, muss MPEG-4 oder H.264 als Videoformat gewählt werden, da solche Videoströme zusammen mit den Audioströmen unter Verwendung von RTP (Real-time Transport Protocol) gesendet werden. Dieses Protokoll versieht die Video- und Audiopakete mit einem Zeitstempel. Es gibt aber auch viele Situationen, in denen eine Audiosynchronisierung nicht wichtig oder sogar unerwünscht ist (zum Beispiel, wenn der Ton überwacht, aber nicht aufgezeichnet werden soll).

Lesen Sie weiter: LAN und Ethernet