Совместное использование и анализ данных необходимы для решения сложных задач, таких как лечение заболеваний или защита окружающей среды. Однако конфиденциальная информация (к примеру, медицинские записи пациентов или финансовые транзакции), должны храниться в тайне и быть надлежащим образом защищены. Новые технологии делают обмен и использование таких данных более безопасным, создавая реалистичные обезличенные версии, не содержащие персональной информации, по которой человека (либо его действия) можно отследить. Эти методы, называемые синтезированием и шифрованием, уже помогают исследователям изучать болезни, выявлять признаки мошеннических схем и готовиться к таким редким событиям, как стихийные бедствия. Несмотря на сохраняющиеся проблемы с повышением точности и сокращением энергозатрат, необходимых для их создания, эти методы могут открыть более безопасные и быстрые способы обработки больших массивов, чтобы учёным, исследователям и разработчикам по всему миру было легче сотрудничать.
Каждый день нас буквально окружают информационные потоки современной цифровой среды, которые включают в себя факты и новости, числа, финансы, измерения и изображения, которые помогают людям познавать окружающую действительность, трудиться, контактировать, пользоваться различными удобными сервисами и т.п. Цифровой формат проникает во все сферы жизни, от медицинских карт до спутниковых снимков, помогая человеку понимать, что происходит вокруг, решать проблемы и делать открытия. Например, учёные используют обезличенные сводные цифры статистики для изучения распространения болезней, прогнозирования погоды или стихийных бедствий, маркетинга и совершенствования технологий. Разновидность компьютерных технологий, дисциплины которой собирательно назвали искусственным интеллектом (ИИ), ускоряет и повышает эффективность этих открытий, анализируя на высокопроизводительных серверах в дата-центрах огромные объёмы несортированных данных и выявляя закономерности, которые люди могут упустить.
Чтобы эти интеллектуальные инновационные технологии работали, им нужен доступ к большому количеству данных, но с обменом некоторыми типами данных возникают большие проблемы. Некоторая информация, например, сколько солнечных дней в году выпадает в определённой локации, может быть доступна в свободном доступе без каких-либо проблем. А вот другая, связанная с персоналиями, их действиями, адресами, банковскими проводками, покупками, медицинскими сведениями и т.п., считается конфиденциальной. Такие материалы требуют особых условий хранения, предполагающих безопасное использование только ограниченным кругом людей (конкретного человека).
Конфиденциальность означает защиту личной информации, чтобы она не передавалась другим лицам без разрешения. Например, истории болезни, банковские реквизиты, правительственные документы или коммерческие секреты, должны быть надёжно защищены от хакеров или других угроз. Даже сведения о том, как люди совершают покупки в Интернете или используют социальные сети, что они покупают или какие видео смотрят, могут быть конфиденциальными, поскольку их можно использовать не по назначению, чтобы манипулировать человеком. Чиновники правительственных институций и учёные также работают с конфиденциальной информацией, например, с картами запретных зон или мест обитания исчезающих животных, которые необходимо хранить в безопасности для защиты национальной безопасности или окружающей среды.
Еще одной проблемой является суверенитет данных, что означает обеспечение того, чтобы данные оставались под контролем их законного владельца, будь то физическое лицо, компания или страна, даже если они передаются трансгранично. Например, законы о конфиденциальности в одной стране могут препятствовать передаче медицинских данных исследователям в другой стране, даже если исследования могут спасти жизни. Эти правила важны для защиты людей и организаций, но они могут затруднить совместную работу учёных над решением сложных проблем. Существует ли способ обмениваться конфиденциальными данными или обучать системы искусственного интеллекта без риска для конфиденциальности, безопасности или суверенитета?
Да. Для таких случаев люди придумали «синтетические данные», созданные компьютерами для имитации реальных, которые могут безопасно использоваться в исследовательских целях без раскрытия конфиденциальной информации. Кроме того были разработаны и другие технологии, повышающие секретность, для безопасного обмена информацией. Эти меры прокладывают путь для новых открытий, изменяя сам подход к тому, как учёное мировое сообщество и бизнес могут работать вместе, помогая решать некоторые из самых больших проблем человечества.
Чтобы понять принцип работы синтетических данных, представьте их как реалистичную «копию» реальных, но важная секретная информация в которых не совпадает с оригиналом, хотя имитируют его закономерности и тенденции. Давайте представим большой массив отобранных сведений из медицинских карт, показывающих, как пациенты выздоравливают после определённой болезни. Синтетические данные будут отражать реальные закономерности динамики течения процесса лечения, среднее время, необходимое пациентам для выздоровления, но не будут включать в себя какие-либо личные сведения (либо эти сведения будут искажены). Таким образом, синтезирование становится безопасной методикой для анализа исследователями, не подвергая риску чью-либо конфиденциальность.
Синтетические данные создаются с использованием искусственного интеллекта, который называется генеративно-состязательными сетями (GAN — generative adversarial networks). Это подраздел искусственного интеллекта, который использует две компьютерные системы — одна учится на реальных данных, а другая генерирует синтетические, которые соответствуют шаблонам в реальных. Они похожи на цифровые изображения, генерируемые ChatGPT — учатся на реальных изображениях художников и текстовых описаниях объектов, ландшафта и других свойствах, а потом используют эти знания для создания новых искусственных «картин», которые выглядят реалистично (не всегда). Например, GAN, обученный работе с изображениями лиц, может создавать совершенно новые, реалистичные лица, которые не принадлежат ни одному реальному человеку. Эта комбинаторика систем работает в два этапа. Сначала массивы из реального мира используются для «обучения» системы искусственного интеллекта. После этого процесса обучения система ИИ работает с системой синтеза для создания аналогий. Эти синтетические наборы данных затем можно использовать, не опасаясь, что конфиденциальность кого-либо окажется под угрозой.
Другая ключевая технология называется гомоморфным шифрованием. Этот метод не создаёт новую версию/копию — вместо этого он преобразует исходник в своего рода «секретный зашифрованный код», который всё ещё может быть проанализирован без раскрытия исходной информации. Основное различие между синтетическими данными и гомоморфным шифрованием заключается в том, как они обрабатывают исходники. При синтезировании, система заменяет в копиях исходную информацию совершенно новым, искусственным набором, который следует тем же шаблонам. Гомоморфное шифрование сохраняет исходную информацию, но «запирает» её, так что только те, у кого есть ключ, могут получить к ним прямой доступ, в то же время позволяя использовать их в вычислениях. Для наглядности можно представить «синтетику», как реалистичную копию музейного экспоната — они выглядят так же, но не являются оригиналом. Гомоморфное шифрование похоже на запирание реального артефакта в музейное хранилище, что позволяет специалистам, имеющим доступ, выполнять с ним определённые действия — например, вычислять его массу — даже не открывая хранилище и не заходя туда, чтобы взять артефакт и взвесить его на реальных весах.
Технологии уже помогают учёным и компаниям решать проблемы креативными способами. Банкиры и экономисты могут использовать такой формат представления информации для изучения и моделирования крупных потрясений фондового рынка – ведь крах может повлиять на широкий круг инвесторов. Зашифрованные спутниковые данные могут отслеживать изменения окружающей среды, одновременно защищая национальную безопасность. В здравоохранении, где правила конфиденциальности часто ограничивают исследователей от использования реальных медицинских записей, синтетические данные позволяют исследователям изучать заболевания и методы лечения (например, как различные группы заболевших реагируют на определённое лекарство), сохраняя при этом конфиденциальную информацию пациентов в безопасности. Изучая эти закономерности, исследователи могли бы обнаружить, что лечение лучше работает для людей с определёнными генами или состояниями здоровья. Это могло бы привести к более персонализированному и эффективному лечению.
С помощью этих методов и новых технологий можно обучить нейросеть искусственного интеллекта обнаруживать необычные модели расходов, которые могут быть признаком мошенничества, или предсказывать, когда клиенты могут захотеть к своей основной покупке дополнительно приобрести другой вид продукции (система рекомендаций). Это помогает компаниям делать более обоснованные предложения, не рискуя реальной информацией о потребителях. Наконец, синтетические данные могут быть менее дорогим вариантом для исследователей, поскольку в здравоохранении данных часто не хватает, а сбор реальных данных требует времени и усилий.
Гомоморфное шифрование полезно, когда реальные сведения должны оставаться защищёнными, но все же нуждаются в анализе. Например, правительства могут использовать зашифрованные спутниковые снимки для отслеживания вырубки лесов или таяния ледников. Эти изображения могут содержать конфиденциальные детали, такие как точное расположение природных ресурсов или районов, имеющих решающее значение для национальной безопасности, поэтому шифрование позволяет исследователям изучать закономерности, без риска неправильного/неконтролируемого использования.
Наконец, эти технологии могут помочь исследователям подготовиться к редким событиям, таким как экономические кризисы или стихийные бедствия, путём имитации этих необычных ситуаций, предоставляя исследователям безопасный способ проверить свои идеи до того, как произойдут реальные события.
Однако этим технологиям все ещё предстоит преодолеть некоторые проблемы. Синтетические данные не всегда идеальны. Если исходные данные неточны, то и синтетические также не будут точными — «мусор на входе, мусор на выходе», как говорят специалисты. Кроме того, если синтезированные наборы чрезмерно упрощают или неверно интерпретируют реальные, они также могут быть неточными. Гомоморфное шифрование очень безопасно, но его создание может занять много времени и требует больших затрат энергии, что затрудняет его использование в крупных проектах. Ещё одна проблема — доверие. Чтобы эти методы были успешными, люди должны понимать их и верить в их безопасность. Учёные, врачи и руководители правительств должны работать вместе, чтобы создать чёткие протоколы использования, правила и информировать общественность о том, как работают эти технологии.