Состязательные атаки на глубокие нейронные сети

Наши глубокие нейронные сети - мощные машины, но то, чего мы не понимаем, может навредить нам. Какими бы изощренными они ни были, они очень уязвимы для небольших атак, которые могут радикально изменить их результаты. По мере того, как мы углубляемся в возможности наших сетей, мы должны изучить, как эти сети действительно работают, чтобы обеспечить более надежную безопасность.

На ODSC East 2019 Сихем Ромдхани из компании Veeva Systems рассказал о том, что эти сети по-прежнему очень уязвимы, несмотря на их мощность, и почему именно их загадочные операции делают создание более безопасных сетей настолько сложным. Мы не можем продолжать стремиться к более крупным и глубоким моделям без достаточной безопасности, иначе мы заплатим цену.

Что такое состязательная атака?

Люди отлично умеют фильтровать шум и возмущения. Однако глубокие нейронные сети чрезвычайно буквальны, и для того, чтобы обмануть обученную сеть, требуется очень мало шума. Хотя мы можем согласиться с тем, что на двух изображениях действительно изображены свиньи, небольшой шум, невидимый для нашего глаза, может заставить компьютер поверить в то, что на одном из них изображена свинья, а на другом - авиалайнер.

Самый распространенный тип нейронной сети - это сверточная нейронная сеть. Он использует связанные слои для создания классификации посредством обучения. Мы можем манипулировать изображениями, используя наши знания модели обучения и цели атаки. Например, целевая атака манипулирует входными изображениями для изменения классификатора. Входные данные можно использовать, чтобы заставить машину увидеть, что хочет злоумышленник. В некоторых случаях это можно сделать, изменив только один пиксель.

Эти атаки не шум. Шум - это случайные или неконтролируемые помехи. Хакеры могут контролировать возмущения, чтобы они не были обнаружены стандартными шумовыми фильтрами. Вот что делает эти атаки такими опасными.

[Статья по теме: Важность объяснимого ИИ]

3D-изображения также уязвимы

Некоторые утверждают, что это не проблема с распознаванием 3D-объектов, но можем ли мы действительно защитить модель? Нет, к сожалению. Недавний эксперимент показал, что даже черепаху, напечатанную на 3D-принтере, можно предсказать как винтовку, изменив лишь несколько вещей.

Большинство атак имели доступ к параметрам модели, может ли их скрытие сделать эти модели более безопасными? Опять же, нет.

Атаки черного ящика могут обмануть глубокие нейронные сети, даже если параметры обучающих данных скрыты. Наблюдая за выводом, вы все равно можете обмануть эти глубокие нейронные сети. Еще больше беспокоит то, что враждебные атаки часто могут передаваться между моделями, если эти модели обучены одному и тому же действию.

Техника замены модели является одним из примеров этого. Вы можете сгенерировать свои входные данные, запросить модель черного ящика и обучить замещающую модель. После того, как вы обучили замещающую модель, вы можете генерировать состязательные атаки, добавляя небольшие входные данные возмущения, потому что замещающая модель аппроксимирует границу принятия решения вашей неизвестной целевой модели черного ящика.

Другие состязательные атаки помимо графических данных

Голосовые и текстовые данные сложнее, но возможно. Например, при распознавании речи вы можете добавить небольшой шум, который приблизительно соответствует искажению данных изображения. Это приводит к неверному прогнозу или прогнозу, специально желаемому злоумышленником. Если у вас есть такое устройство, как Alexa, злоумышленник может получить полный доступ к вашей системе, просто слушая музыку у вас дома.

Понимание естественного языка также находится под угрозой. При анализе настроений можно изменить несколько символов, иногда даже один, и переключить тональность с положительной на отрицательную. Вы можете начать атаку на бизнес или организацию, просто изменив анализ сообщений.

[Статья по теме: Новаторы и регулирующие органы совместно работают над книгой, посвященной проблеме черного ящика ИИ]

Создание более надежных моделей

Так как же нам начать делать наши модели более устойчивыми в ответ на эти враждебные атаки? Вот некоторые из шагов, которые предлагает Ромдани, чтобы использовать всю мощь глубоких нейронных сетей, делая их более безопасными.

Модифицирующее обучение модели

Состязательное обучение дает многообещающие результаты для создания более надежной модели. На каждой итерации обучения вы используете состояние вашей модели для создания состязательного примера с исходными входными данными, чтобы изменить обучение модели. Это увеличивает надежность и снижает переоснащение.

Модификация сети

Сетевая дистилляция также может помочь сделать сеть более устойчивой. Он также предназначен для передачи знаний из сложных сетей в более мелкие сети, например те, которые используются в смартфонах. Вы используете знание самой модели для повышения безопасности. Сначала обучите свою модель, и метка будет представлена в виде горячего вектора. Перенесите вероятность для увеличения устойчивости. Используйте тот же ввод, но с сгенерированными вероятностями.

Добавление в сети

Сети исправления возмущений применяют реальные и синтетические возмущения изображения, чтобы переопределить способ обучения самих сетей. Изображение запроса проходит через систему, и детектор его проверяет. Если есть возмущение, используйте выходные данные PRN вместо фактического изображения для распознавания этикеток. Затем добавьте к входу дополнительные слои. Мы используем этот метод в основном для обнаружения универсальных возмущений.

Движение вперед с безопасностью

Нам нужно больше платформ с открытым исходным кодом, чтобы помочь оценить сети, в частности, на предмет состязательных атак. Нам также нужно больше данных для тестирования сетей на соответствие типам возмущений. Наконец, нам нужно понять, как работают эти сети. Пока они остаются черным ящиком, нам может быть трудно выявить слабые места. Если мы углубимся в то, как они работают, мы сможем понять, как эти атаки могут разрушить обучение изменению решений.

Это мощные сети, но мы должны сосредоточить наши усилия на безопасности и надежности, а не отвечать на вопросы. Заманчиво продолжать использовать магию глубоких нейронных сетей, чтобы раскрыть наши стремления к большему и лучшему ИИ, но если потратить время на понимание наших творений, это может помочь нам построить более безопасные системы.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.