Исследователи из Бельгийского католического университета Лувен и Имперского колледжа Лондона выяснили, что практически любой набор данных можно деанонимизировать. Результаты исследования ставят под удар дальнейшее использование анонимизированных данных граждан в статистике. Кроме того, исследователи указывают на вытекающие отсюда проблемы с безопасностью данных, которые можно персонализировать с помощью информации из открытых источников, сообщает The Guardian.
Предполагается, что в анонимизированном наборе данных была удалена вся информация, позволяющая установить личность, которая предоставила информацию. При этом в таких данных должны быть сохранена основная полезная информация, позволяющая производить статистические исследования. Однако исследователи из Бельгийского католического университета Лувен и Имперского колледжа Лондона доказали, что практически любой набор сложных данных не поддается полной анонимизации.
В качестве примера исследователи приводят случаи с деанонимизацией набора данных интернет-канала Netflix о рейтингах фильмов, откуда стало возможным извлечь данные о пользователях канала путем сравнения рейтингов с публичными оценками на сайте IMDb и демонстрируют, как домашние адреса нью-йоркских таксистов могут быть вычленены из анонимного набора данных об отдельных поездках по городу.
По словам исследователей, чем больше данных включается в набор, тем легче их деанонимизировать. К примеру, по словам ученых, набор данных с 15-тью демографическими атрибутами «сделает возможным деанонимизацию 99,98% жителей штата Массачусетс». Для небольших же групп населения идентификация отдельных личностей становится ещё проще и для этого требуется ещё меньше данных.
Но, несмотря на это, указывают ученые, компании, работающие на рынке статистической информации, продают наборы данных, содержащие гораздо больше атрибутов на человека. Глава исследовательской группы, Люк Роше, утверждает, что их результаты доказывают — текущих средств для анонимизации данных недостаточно даже ля того, чтобы исполнять требования законов, таких как европейский GDPR (Общий регламент по защите данных) или американский CCPA (Калифорнийский закон о защите прав потребителей).
«Наши результаты опровергают утверждения о том, что, во-первых, повторная идентификация анонимизированных данных практически не представляет риска, а во-вторых, выборка или публикация неполных наборов данных обеспечивают правдоподобное сокрытие персональных данных», — пишет Роше.
Исследователи указывают на то, что существуют и другие подходы к работе с крупномасштабными наборами данных, которые больше соответствуют современным требованиям к анонимности пользователей. Такие, как, к примеру, дифференциальная конфиденциальность, используемая компаниями Apple и Uber. Этот метод преднамеренно размывает каждую отдельный атрибут способом, который усредняется по всему набору данных, предотвращая деанонимизацию, поскольку сообщает технически неверную информацию для каждого отдельного человека.
Также ученые предлагают использовать синтетические наборы данных. Такой метод включает в себя машинное обучение ИИ на базе реальных наборов идентифицируемой информации, а затем использование его для создания новых, искусственных данных, которые статистически идентичны реальным, но не относятся к какому-либо конкретному человеку.
Аналогичные зарубежным процессы происходят и в России. Ранее Inc. уже писал о том, что согласно новым поправкам к закону «Об информации», компаниям хотят предоставить право использовать собранные государством аналитические данные для личных и коммерческих целей, при условии, что персональные данные в них будут анонимизированы.
Также раньше Фонд развития интернет-инициатив предлагал ввести понятие «деперсонализированные данные» и разрешить гражданам продавать свои персональные сведения бизнесу при условии их анонимизации. Если российские законодатели примут к сведению исследование бельгийских учёных, это будет означать, что в законопроект придется вносить изменения.
Подписывайтесь на наш канал в Telegram: @incnews