Взгляд на слепое машинное обучение

Разработка цифровых продуктов поддерживается стратегиями данных и аналитики, которые стали неотъемлемой частью бизнеса, позволяя масштабировать свою деятельность и удовлетворять растущий спрос со стороны клиентов. В число этих растущих требований входит контроль конфиденциальности данных и способы управления данными клиентов. С другой стороны, эти организации, которые хранят все эти данные, находятся перед дилеммой, и вот как они могут использовать эти данные для дальнейшей разработки решений на основе данных в среде, где клиенты хотят ограничить использование своих данных.

Рост таких политик, как GDPR в Европе, Brexit в Великобритании и потенциальные изменения политики в Северной Америке, имитирующие GDPR, только затруднят организациям использование данных. Именно здесь зашифрованные данные выходят на первый план с миссией по решению множества проблем. Во-первых, зашифрованные данные отделяют организацию от ее данных посредством шифрования объекта клиента или любого другого элемента данных, который может связать необработанные данные с их клиентами (в определенных пределах). Во-вторых, машинное обучение становится все более популярной тенденцией в организациях, и его также можно использовать с зашифрованными данными.

Введите гомоморфное шифрование, которое дает организациям возможность использовать зашифрованные данные для выполнения с их помощью простого или более сложного аналитического моделирования. Есть две формы гомоморфного шифрования.

  1. Частичное гомоморфное шифрование (pHE)
  2. Полное гомоморфное шифрование (FHE)

FHE по-прежнему является своего рода эволюционной темой исследования, которая получает все больше и больше долларов на исследования от тематических компаний, таких как Microsoft и IBM, но в двух словах разница между pHE и FHE заключается в том, что с pHE вы можете выполнять вычисления умножения или сложения с зашифрованными данными. в то время как FHE включает оба. Однако инфраструктура и вычислительная мощность, необходимые для FHE, экспоненциально выше и, следовательно, дороже.

Другое распространенное заблуждение относительно зашифрованных данных состоит в том, что данные могут быть зашифрованы в базе данных, но не обязательно зашифрованы в том, как они хранятся. Например, если у нас есть запись:

Name : Jon Smith
Address: 1234 Road Ave, Cityville, Ontario, M10 2P2
Email: [email protected]

Эти данные могут храниться в базе данных в виде открытого текста, но сама база данных может быть зашифрована. Итак, чтобы получить доступ к этим данным, все, что нам нужно, - это разблокировать базу данных. Довольно прямолинейно. Однако это не тот вариант использования, который мы собираемся рассмотреть сегодня. Фактически, шифрование, которое мы собираемся рассмотреть, находится на рекордном уровне. Это означает, что в дополнение к шифрованию базы данных также используются следующие записи.

Name: *HUWEJKD@#
Address: *#&$*#(HDSNJDBHVJKSJF&@EU
Email: *UCIO#HNRESDIUSD

Опять же, это означает, что любые необработанные данные помимо этого, такие как транзакционные данные, не могут быть связаны с клиентом, потому что сами данные клиента на уровне записи данных зашифрованы.

Давайте рассмотрим базовую схему процесса шифрования и вычислений, как показано на изображении ниже. В этом примере клиент ABC хочет, чтобы компания XYZ провела некоторый анализ, но не хочет раскрывать какие-либо базовые данные компании XYZ. Они просто хотят, чтобы они использовали зашифрованные данные для анализа.

Клиент ABC зашифрует свою базу данных на уровне записи (как показано выше) и отправит этот файл компании XYZ. Компания ABC будет использовать так называемое асимметричное шифрование, когда у клиента есть закрытый ключ, и они будут шифровать данные с помощью открытого ключа. Эти зашифрованные данные называются зашифрованным текстом. Затем компания XYZ применила бы предварительно обученную или обучающую новую модель машинного обучения к зашифрованным данным. . Зашифрованный текст будет взаимодействовать с моделью машинного обучения и давать зашифрованный результат, который не может расшифровать даже компания XYZ, потому что у них нет закрытого ключа для расшифровки результатов. Зашифрованные результаты отправляются обратно клиенту ABC, если результаты расшифровываются с использованием их закрытого ключа. Этот метод транзакций между двумя организациями поможет сохранить конфиденциальность базовых данных, но также позволит аналитическим компаниям лучше использовать широко распространенные данные.

Поскольку конфиденциальность продолжает оставаться важной и растущей проблемой, такие области, как гомоморфное шифрование и машинное обучение, со временем будут только расти. Чтобы увидеть демонстрацию кода, показывающую, как это будет работать, просмотрите эту демонстрацию видео, а также код Python о том, как включить pHE с ограниченными данными.

Machine Learning with Encrypted Data | Homomorphic Encryptionhttps://www.youtube.com/watch?v=nlsd2LO-S50

Я надеюсь, что это помогло вам понять и оценить необходимость таких фреймворков, как HE, и их важность в мире, где требования к конфиденциальности данных будут становиться только более строгими.