2025-07-21T04:00:00Z
Минниханов присудил Арбузовскую премию венгерскому исследователю Кеглевичу
2025-07-21T03:30:23Z
В крупнейшем вузе Камчатки создали кластер туристических программ
2025-07-21T02:38:00Z
Илон Маск анонсировал Baby Grok
2025-07-21T00:30:00Z
Ученые нашли новый источник вспышек в звездных «зародышах»
2025-07-21T00:13:00Z
9 предметов, которые вы зря не стираете в стиральной машине
2025-07-20T22:47:00Z
Близнецы смогут добиться желаемого, Девам стоит мыслить рационально, а Рыбам будет многое под силу
2025-07-20T22:40:00Z
Иностранные ученые будут руководить рядом передовых исследований в городах России
2025-07-20T21:01:00Z
«Российские центры примут иностранных ученых мирового уровня»
2025-07-20T20:39:00Z
Квантовый прорыв: спустя 20 лет теории учёные впервые очистили магические состояния на логических кубитах
2025-07-20T19:56:00Z
Redmi Turbo 5 станет мощнее хитового Redmi Turbo 4. Раскрыта платформа смартфона
2025-07-20T19:55:00Z
Южная Корея включается в лунную гонку: страна объявила о планах создания базы на Луне к 2045 году
2025-07-20T19:23:00Z
NASA тестирует двухступенчатую систему охлаждения, которая стабилизирует температуру топлива в космосе
2025-07-20T18:12:42Z
Провидцы предрекли: человечество скоро получит ответ на важный вопрос
2025-07-20T18:09:00Z
Meta* отказалась подписать Кодекс поведения ЕС для ИИ, назвав его «чрезмерным и угрожающим инновациям»
2025-07-20T17:57:17Z
Доцент Балынин рассказал о влиянии ИИ на рынок труда
2025-07-20T11:06:00Z
Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).
Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).
Набор DataComp CommonPool, созданный как продолжение набора данных LAION-5B (использованного для обучения таких моделей, как Stable Diffusion и Midjourney), собирал данные путём веб-скрейпинга в период с 2014 по 2022 год. Хотя создатели CommonPool заявляли о его предназначении для академических исследований, лицензия не запрещала коммерческое использование. Учитывая, что набор данных был скачан более 2 миллионов раз за последние два года, и что источники данных CommonPool и LAION-5B схожи, вероятно, что аналогичная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.
Авторы исследования отмечают, что автоматическое размытие лиц, применённое создателями CommonPool, оказалось неэффективным: алгоритм пропустил более 800 лиц в исследуемой выборке, что указывает на пропуск около 102 миллионов лиц во всём наборе данных. Кроме того, не применялись фильтры для распознавания текстовых строк PII, таких как адреса электронной почты или номера социального страхования. Хотя платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, это требует, чтобы люди знали о существовании своих данных в наборе.
Проблема усугубляется тем, что даже удаление данных из набора не гарантирует полной защиты конфиденциальности, если модель уже обучена на этих данных. Авторы исследования призывают сообщество специалистов по машинному обучению переосмыслить распространённую практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также на ограничения возможностей этих законов в защите конфиденциальности. В частности, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.
2025-07-09T08:44:00Z
2025-07-12T19:58:00Z
2025-07-11T14:31:00Z
2025-06-27T06:54:00Z
2025-07-04T17:37:00Z