Искусственный интеллект в видеоаналитике. Заблуждения и реальные возможности

Аватар

Технология искусственного интеллекта в сфере аналитической обработки видеоизображений сегодня находится на ранней стадии активной популяризации, в так называемом периоде «завышенных ожиданий», в условиях информационного шума. На нее возлагается много надежд (впрочем, как и ответственности), однако ее реальные возможности осознают далеко не все. Благодаря машинному обучению и периферийной аналитике организации действительно смогут вывести свою систему безопасности на новый функциональный уровень – но, вероятно, не так, как они представляют себе это сейчас.

Искусственный интеллект – просто хорошая имитация

В общих чертах искусственый интеллект в видеоаналитике можно представить как алгоритм машинного обучения, который обрабатывает видеоизображения или фотографии и распознает объекты на них на основе существующей комбинации визуальных характеристик. Наверное, в этом и заключается львиная доля заблуждений: мы привыкли воспринимать «интеллект» в контексте общего человеческого интеллекта, основанного на сознании, мышлении, креативности – и стремимся неделить машину теми же качествами. К сожалению или к счастью, искусственный интеллект применительно к машине – это только имитация человеческого мышления, оно происходит не самостоятельно и свободно, а лишь с помощью тех цифровых алгоритмов, которым машину обучили. Или, в случае deep learning, – алгоритмы (нейросеть) создают новые знания на основе уже полученного и проанализированного материала.

Иными словами, научить машину обрабатывать изображения нетрудно, но заставить ее «мыслить как человек» и грамотно, безошибочно распознавать объекты – гораздо сложнее. Первая сложность заключается в создании большого объема релевантных данных. Пояснить это можно на простом примере. Допустим, мы загрузили изображение кошки и попросили машину воспринимать все похожие объекты как кошек. Но что будет, если машина увидит кошку со стороны хвоста, кошку в траве, бегущее животное или только его голову? Для точного распознавания всех кошек агоритму потребуется иметь как можно больше входных данных, вариаций одних и тех же обектов, а также наличия признаков, по которым можно отличить кошку, например, от собаки или лисы. Более того, если кошка на какой-то части выборки будет случайно маркирована как собака, система в рабочем режиме может повести себя неадекватно.

 

Программа обучения

Процесс разработки аналитического приложения на основе машинного обучения состоит из нескольких этапов. В первую очередь, необходимо четко определить цель создаваемого приложения: например, распознавание людей или животных, определенных транспортных средств и номерных знаков на них. Ведь даже для того, чтобы правильно считать номерной знак, система должна определить объект как транспортное средство (отличить, например, от человека, несущего табличку с цифрами) и найти на нем область, где этот знак располагается.

Один из самых трудоемких процессов – сбор большого объема данных, отдельных снимков и видеоматериалов, и их аннотирование. Как правило, при машинном обучении оперируют несколькими тысячами изображений, а при глубоком обучении – миллионами. Аннотирование представляет собой классификацию и маркировку объектов, с целью исключения ошибок оно производится в основном в ручном режиме. Далее эти аннотированные данные загружаются в модель, где происходит непосредственно обучение, итеративное изменение и оптимизация модели до тех пор, пока она не станет соответствовать поставленным задачам.

На определенных этапах обучения, а также по его окончании модель тестируется сперва в режиме лабораторного моделирования (в нее загружают ранее не использованные данные и наблюдают за реакцией), а потом и в условиях реальной нагрузки. Не исключены случаи, когда результат проверки оказывается неудовлетворительным и весь процесс, начиная со сбора обучающих данных, приходится начинать заново. Если же модель соответствует ожиданиям, начинается этап развертывания. В ходе него делаются выводы и прогнозы по поводу выполнения обученной моделью своих функций в рамках системы видеонаблюдения с соответствующей производительностью.

То, что мы не могли себе представить

Специалисты в области видеонаблюдения уже находят самые разнообразные сценарии применения аналитики на основе искусственного интеллекта. Типичный пример – более точное распознавание транспортных объектов в системах управления трафиком, идентификация грузовиков, автобусов, автомобилей и мотоциклов, сокращение количества ложных срабатываний тревожных сигналов. Аналитическая система также может зафиксировать движущийся объект на запрещенной для прохода территории, распознать в нем человека (а не животное) и выдать предупредительный сигнал.

Однако на этом наше изучение возможностей машинного обучения не завершается. Более того, это только начало. С развитием этой технологии, особенно на уровне deep learning, мы сможем добиться от системы видеонаблюдения еще более интересных вещей. Система способна в течение долгого времени накапливать, обрабатывать и анализировать огромный объем данных – их аналитику физически невозможно произвести вручную. Благодаря этому нам становится доступна информация о неких закономерностях и аномалиях в контролируемых процессах – то, о чем мы даже не могли предположить. Использовать их можно не только для охраны, но и для мониторинга условий труда, улучшения сервиса, анализа бизнес-процессов, прогнозирования инцидентов (например, задымлений).

К слову, в США медицинский алгоритм глубокого обучения Etemadi научился самостоятельно диагностировать рак легких гораздо точнее и на более ранних стадиях, чем если бы просто сопоставлял загруженные в модель снимки. Даже по этому примеру можно судить о том, насколько важны для общества исследования в области искусственного интеллекта, глубокого обучения, видеоаналитики, машинного зрения.

Ограничения и перспективы искусственного интеллекта

Очевидно, что какую бы задачу видеоаналитики для искусственного интеллекта мы ни рассматривали, обучение модели и ее работа должна основываться на данных хорошего качества. Упомянутая выше медицинская система оперирует снимками компьютерной томографии, сделанными в высочайшем разрешении. Обычно же нам приходится иметь дело с различными видеокамерами и различными сценариями, которые могут кардинально влиять на работу аналитической системы.

Качество изображения может зависеть от разрешения и светочувствительности камеры, условий освещения и наличия хорошей подсветки в ночное время, правильного расположения камеры, воздействия внешних факторов – таких, как падающие листья, дождь или снег. На точность аналитики влияют расстояние от камеры до объекта, скорость и направление движения объекта, а также настройка параметров записи. Известны случаи, когда камера обладала высоким разрешением, но всё равно упускала часть объектов из виду – просто потому, что система анализировала кадры, сделанные с низкой частотой. Возможно, для полноценной работы видеоаналитики камеру придется настроить на непрерывную съемку, без какой-либо фильтрации исходной записи. Разумеется, нельзя недооценивать и постоянное обслуживание устройств, так как обычная грязь или паутина (бывает и такое) на объективе делают работу камеры бесполезной.

Многое зависит от производительности системы и качества сети, которая должна быть способной без задержек и сбоев передать видеопоток. Сейчас, впрочем, мы больше говорим о периферийной аналитике, когда вычисления происходят на борту камеры, а на сервер отправляется уже результат этой аналитики – метаданные. Расположенные на борту камеры алгоритмы машинного обучения требуют от устройства больших вычислительных ресурсов. Нужная производительность достигается с помощью графических процессоров с особой архитектурой ядра и дополнительных специализированных модулей обработки данных с поддержкой технологий machine learning и deep learning.

Видеоаналитика с помощью технологий искусственного интеллекта и машинного обучения – это несомненное будущее отрасли видеонаблюдения. Она позволит расширить функциональность и область применения систем видеонаблюдения, автоматизировать и качественно улучшить широкий спектр бизнес-процессов. Особую роль в будущем будет играть периферийная аналитика – она позволит в условиях потребления всё большего объема данных оптимизировать системы хранения и снизить нагрузку на сетевую инфраструктуру.

 

Узнать бoльше