Нейросетевые алгоритмы обнаружения человека в кадре, применяемые в системах видеонаблюдения, можно обмануть с помощью картонного листа с распечатанным изображением, показали бельгийские исследователи. В основе метода лежит создание состязательных изображений, заставляющих сверточные нейросети «узнавать» объекты других классов.
Состязательные примеры представляют собой входные данные, которые лишь немного отличаются от нормальных для человека, но для нейросети выглядят как совершенно иные объекты. Эта уязвимость нейросетевых алгоритмов была обнаружена в 2013 году и с тех пор стала активно изучаться исследователями, потому что ее потенциально можно применять для атак на алгоритмы беспилотных автомобилей, систем видеонаблюдения и других устройств в сферах с высокой ответственностью. Изначально исследователи создавали состязательные примеры, меняя значения оригинальных пикселей на изображении. В 2017 году исследователи разработали более практичный метод для состязательных атак, подразумевающий создание специально сгенерированных изображений, которые, к примеру, можно наклеить на какой-либо реальный объект.
Исследователи из Лёвенского католического университета под руководством Туна Гёдеме (Toon Goedeme) применили этот метод для обмана алгоритмов обнаружения людей, используемых в системах видеонаблюдения. В своей работе авторы использовали популярный алгоритм YOLOv2, основанный на сверточной нейросети. В ответ на входное изображение он выдает кадр, на котором обнаруженные объекты обведены прямоугольником, а также указывает уровень уверенности в классификации каждого объекта.
За создание состязательного изображения отвечает алгоритм, разработанный исследователями. Процесс создания изображения устроен следующим образом. Сначала алгоритму для обнаружения объектов YOLOv2 дают серию изображений с людьми и он выделяет на них соответствующие области. Затем новый алгоритм, созданный исследователями в работе, накладывает на области с распознанными людьми созданное состязательное изображение и результат снова отдается алгоритму для обнаружения людей. После этого вероятности для каждого обнаруженного объекта отдаются алгоритму для создания состязательных примеров для доработки изображения и процесс повторяется снова. Благодаря такой схеме алгоритму удалось создать относительно универсальные изображения, которые позволяют обманывать алгоритмы обнаружения объектов с разными людьми в кадре и в разных условиях.