Технологии повышения конфиденциальности (PET) для анализа данных и машинного обучения

Если ваша работа связана с машинным обучением или аналитикой, вы, вероятно, столкнетесь с серьезными проблемами с данными. Когда мы разговариваем с руководителями высшего звена, ответственными за соблюдение нормативных требований, специалистами по данным и даже с облачными архитекторами, наиболее часто возникают три основные темы, связанные с данными:

Доступ к данным
Подготовка данных
Предвзятость данных.

Кроме того, существует множество требований соответствия, которым они должны соответствовать.

Но что, если новые технологии повышения конфиденциальности (PET) смогут изменить форму и стать катализатором инноваций вашей организации, основанных на данных? PET предназначены для использования наиболее ценных частей ваших данных, чтобы полностью раскрыть их потенциал, не создавая рисков для конфиденциальности или безопасности. Но обычных ПЭТ, к сожалению, не всегда достаточно.

Эта статья поможет вам понять основные проблемы с данными, с которыми столкнутся специалисты в области здравоохранения и финансовых услуг в 2022 году, и познакомит вас с преимуществами и недостатками того, как каждый подход к обеспечению конфиденциальности решает эти проблемы.

3 самые большие проблемы для специалистов в области здравоохранения и финансовых услуг в 2022 году

Задача 1. Доступ к данным

Доступ к данным, который мы переводим на интероперабельность данных в здравоохранении, является узким местом номер один, которое не позволяет страховым компаниям, больничным системам и другим регулирующим органам предоставлять качественную аналитику.

Как правило, если вы работаете в чем-то вроде больничной системы, у вас будет несколько записей EHR. Каждое крыло отдела может использовать другую систему. Клиницисты могут использовать что-то вроде Epic для своих записей EHR или электронных медицинских карт, тогда как у вас может быть другое крыло, ориентированное на поведенческое здоровье, и они могут использовать совершенно другой инструмент для сбора анкет о поведенческом здоровье и информации обо всем этом.

Это приводит к тому, что организации используют массу различных систем EHR, которые не взаимодействуют друг с другом. Например, штату Калифорния требовалась система для обработки требований Medicare, Medicaid и Tricare, а затем для сбора всей этой информации в сторонней облачной среде. Этот тип консолидации требует много дополнительной работы и создает огромные узкие места в пространстве доступа к данным для учреждений здравоохранения.

Может быть, вы не такой гигантский конгломерат, как правительство Калифорнии, или крупная больничная страховая система. Но у вас может быть местный бизнес или местная больница, где у вас настроены разные облачные среды, или у вас могут быть настроены разные системы EHR, в которые данные поступают из нескольких источников.

Вы можете попытаться создать центральное место для размещения всех этих данных, но это дорогостоящий процесс, поэтому перемещение данных занимает львиную долю бюджета любой инициативы по работе с данными. Но что, если бы вам не нужно было перемещать данные оттуда, где они есть? Подробнее об этом позже.

Задание №2: подготовка данных

Подготовка данных — это в основном ручная ресурсоемкая задача, поэтому она требует большого количества квалифицированного труда. Вам нужен кто-то, кто хорошо разбирается в данных — как с ними работать, как их «искажать» и как эффективно масштабировать набор данных.

Работа с данными может быть очень сложной, потому что они имеют самые разные формы и структуры. Как только вы начинаете добавлять внешние объекты, как и другие предприятия, это становится действительно сложной задачей, и это убивает большинство проектов, прежде чем они даже стартуют.

Проблема № 3: предвзятость данных

Предвзятость данных — огромная проблема для всех, кто занимается аналитикой. Это также проблема, когда невероятно важно решать проблемы на ранней стадии. Небольшие проблемы на раннем этапе могут стать гораздо большими, а затраты на необъективный набор данных могут масштабироваться вместе с вашим бизнесом.

Это то, что вы увидите, когда будете работать с различными наборами данных, которые не были должным образом проверены. Если вы ограничены использованием только тех данных, которые у вас есть, или если вы используете один из многих часто используемых примеров наборов данных для обучения своих моделей (и специалист по данным не исключил проблемные столбцы), вы заканчиваются врожденными предубеждениями. Эти предубеждения могут вызвать проблемы, требующие все более серьезных исправлений в будущем.

3 основных варианта использования технологии повышения конфиденциальности

Технологии повышения конфиденциальности — это относительно новая концепция, и хотя многие из этих инструментов использовались в космосе с самого начала, их бизнес-приложения особенно новы. Gartner определила 3 основных варианта использования ПЭТ, которые рынок считает наиболее важными прямо сейчас.

Сценарий 1. Обучение модели искусственного интеллекта и обмен моделями с третьими лицами

Если вы обучаете модель ИИ, вы хотите получить доступ к самым лучшим данным, но у вас может еще не быть этого. Возможно, вам придется искать эти данные у третьих лиц. Вы также хотите, чтобы ваши данные были беспристрастными, потому что вы не хотите, чтобы модель стала предвзятой. Таким образом, вам нужно получить из нескольких мест.

На эти местоположения могут распространяться различные законы о данных, ограничения на проживание и конкурентное давление. И бизнес-причины могут помешать вам получить доступ к этим данным, поэтому технологии повышения конфиденциальности решают эту проблему.

Сценарий 2. Использование общедоступных облачных платформ в условиях ограничений на размещение данных

Когда мы думаем о передаче большего количества данных и информации в облако, многие ресурсы становятся общими. Это означает, что компании пытаются выяснить, как создать сценарии, в которых они могут использовать конфиденциальные данные с максимальной пользой, не добавляя риска и ответственности, связанной с раскрытием любой конфиденциальной информации.

Итак, некоторые технологии повышения конфиденциальности (мы вскоре рассмотрим их все) решают эту проблему: как мы храним данные в зашифрованном состоянии и фактически работаем с ними, не шифруя их, не расшифровывая и не перемещая? Как нам добавить доверия в своего рода «недоверяющую» или «полудоверенную» среду?

Сценарий 3. Внутренние, внешние и бизнес-аналитики

Это очень широкий термин, который в основном означает: совместное использование, использование данных, аналитика, получение информации из различных источников данных. Это затронет доступ к данным, подготовку и предвзятость (все три проблемы, о которых мы упоминали выше).

MITRE, которая управляет 42 научно-исследовательскими центрами, финансируемыми из федерального бюджета (и предоставляет большой опыт в области данных и безопасности), говорит

«Самые ценные выводы можно получить, применяя ценную аналитику к общим данным в нескольких организациях, что увеличивает риск раскрытия частной информации или алгоритмов. Эту трехстороннюю связь — уравновешивание индивидуальных потребностей в конфиденциальности, потребностей аналитика в получении информации и потребностей изобретателя в защите аналитики — было трудно сбалансировать…»

Итак, как нам лучше операционализировать данные внутри организации? Когда мы выявляем возможности для использования сторонних данных или использования наших первых данных с третьими сторонами для потенциальных партнерских отношений, дополнительного дохода или других возможностей?

С точки зрения аналитика, как мы генерируем понимание и какие проблемы связаны с этим? Конечно, это должно быть сбалансировано с индивидуальными потребностями в конфиденциальности, а также с защитой алгоритмов. Вот где ПЭТ вступает в игру.

Примечание. Компания MITRE провела независимую тщательную и исчерпывающую проверку технологии TripleBlind. Вы можете получить публичный отчет об этом на нашем веб-сайте.

7 основных типов технологий повышения конфиденциальности

У нас есть ресурсы об основных формах ПЭТ на нашей странице о Конкурирующих технологиях повышения конфиденциальности, которая включает определения и ссылки на полные объяснения каждой технологии. Если вы не знакомы с достоинствами и недостатками каждого из них, мы предлагаем прочитать это.

Дифференциальная конфиденциальность
Федеративное обучение
Гомоморфное шифрование
Безопасные анклавы
Безопасные многосторонние вычисления (SMPC)
Синтетические данные
Токенизация

Насколько полезен каждый тип ПЭТ для обычных случаев использования?

Каждый из этих PET предлагает что-то свое, поэтому некоторые из них лучше других подходят для решения основных вариантов использования, описанных Gartner. На приведенной здесь диаграмме вы можете увидеть, насколько хороша каждая технология в сравнении.

11 основных факторов, которые должна учитывать хорошая технология обеспечения конфиденциальности

Давайте более подробно рассмотрим, как складываются все эти ПЭТ, сравнив их по 11 наиболее важным факторам. На приведенной ниже диаграмме измеряется степень, в которой каждый PET соответствует ключевым критериям, а под диаграммой вы можете получить более подробную информацию о том, к чему относится каждый критерий.

Как вы можете видеть на диаграмме выше, TripleBlind имеет много зеленых флажков, но это потому, что TripleBlind разработан специально для этих нужд — чтобы заполнить пробелы и устранить красные круги, оставленные другими методами.

Вот почему мы называем себя наиболее полным и масштабируемым решением для технологий повышения конфиденциальности, потому что мы стремимся к комплексному подходу к решению этих проблем.

Давайте кратко рассмотрим каждый из этих факторов, чтобы вы поняли, насколько хорошо каждый PET подходит для вариантов использования вашей организации:

Степень конфиденциальности: некоторые из соображений здесь: «Есть ли ключ описания, перемещаются ли данные и сколько необработанных данных видит конечный пользователь?»
Возможность работать в масштабе означает, «насколько легко масштабировать горизонтально для решения различных бизнес-задач, а также реально масштабировать вертикально внутри организации?»
Типы данных: мы хотим работать не только с табличными данными. Это действительно важно. Мы хотим работать с данными изображений, геномикой, большими файлами, голосовыми данными и всем остальным. Мы хотим иметь возможность хранить все свои данные в секрете и использовать их для вычислений.
Скорость действительно важна. Во многих местах срок действия данных истекает очень быстро, поэтому чем быстрее мы сможем их использовать и чем меньше нагрузки мы добавим в процесс, тем лучше.
Поддержка обучения новых моделей искусственного интеллекта и машинного обучения: не каждое решение предлагает эту возможность, поскольку она довольно уникальна. Мы действительно хотели предоставить возможность использовать данные из разных мест для обучения модели ИИ.
Цифровые права также являются уникальным аспектом нашего решения, потому что мы можем разрешить нашим клиентам разрешать, как и почему используются их данные и как часто.
Алгоритм шифрования: все чаще в некоторые модели и алгоритмы, разрабатываемые людьми, входит интеллектуальная собственность. Мы хотим на самом деле защитить алгоритмы и их использование.
Соблюдение таких законов, как GDPR и HIPAA, является базовым требованием для любого ПЭТ.
Откажитесь от маскирования, искусственного хеширования данных и снижения точности, чтобы сохранить полную достоверность данных и избавиться от необходимости идти на компромисс между полезностью и конфиденциальностью. Мы стремимся максимизировать для обоих.
Зависимости оборудования действительно замедляют использование данных, когда все виртуализируется. Почему мы должны разрабатывать решение, требующее специального оборудования?
Взаимодействие с третьими сторонами. Как мы уже говорили, мы хотим, чтобы это масштабировалось как внутри организации, так и за ее пределами. Насколько легко вашим партнерам по работе с данными начать работу?

Тройное слепое решение

В TripleBlind мы используем термины «полный» и «масштабируемый». Это означает, что мы решаем эти проблемы с разных точек зрения и предлагаем лучшее решение для обеспечения конфиденциальности для любого сценария. Мы делаем это, используя некоторые из новых достижений, которые криптографы и инженеры TripleBlind сделали поверх существующих решений.

Большую часть времени компании будут перемещать данные и проводить аналитику. Но это дорого, трудоемко и сопряжено с проблемами доступа к данным. Вместо этого мы односторонне шифруем данные и запускаем ИИ или аналитику, используя ресурсы только в брандмауэрах доверенных сторон. Таким образом, вам не нужно беспокоиться о передаче данных куда-либо, и вы избавляетесь от всей этой сантехники и беспорядка мощеных систем. И это действительно основная ценность того, что делает TripleBlind.

Короче говоря, TripleBlind позволяет вам совместно работать с данными в частном порядке за вашим брандмауэром, прямо там, где они создаются. Одним из преимуществ решения TripleBlind является то, что вы можете проводить исследования на этих данных и обучать модели на этих данных, не перемещая их из источника.