Теневая сторона ИИ: в гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных

Все новости — Наука и технологии

2025-07-21T04:00:00Z

Минниханов присудил Арбузовскую премию венгерскому исследователю Кеглевичу

2025-07-21T03:30:23Z

В крупнейшем вузе Камчатки создали кластер туристических программ

2025-07-21T02:38:00Z

Илон Маск анонсировал Baby Grok

2025-07-21T00:30:00Z

Ученые нашли новый источник вспышек в звездных «зародышах»

2025-07-21T00:13:00Z

9 предметов, которые вы зря не стираете в стиральной машине

2025-07-20T22:47:00Z

Близнецы смогут добиться желаемого, Девам стоит мыслить рационально, а Рыбам будет многое под силу

2025-07-20T22:40:00Z

Иностранные ученые будут руководить рядом передовых исследований в городах России

2025-07-20T21:01:00Z

«Российские центры примут иностранных ученых мирового уровня»

2025-07-20T20:39:00Z

Квантовый прорыв: спустя 20 лет теории учёные впервые очистили магические состояния на логических кубитах

2025-07-20T19:56:00Z

Redmi Turbo 5 станет мощнее хитового Redmi Turbo 4. Раскрыта платформа смартфона

2025-07-20T19:55:00Z

Южная Корея включается в лунную гонку: страна объявила о планах создания базы на Луне к 2045 году

2025-07-20T19:23:00Z

NASA тестирует двухступенчатую систему охлаждения, которая стабилизирует температуру топлива в космосе

2025-07-20T18:12:42Z

Провидцы предрекли: человечество скоро получит ответ на важный вопрос

2025-07-20T18:09:00Z

Meta* отказалась подписать Кодекс поведения ЕС для ИИ, назвав его «чрезмерным и угрожающим инновациям»

2025-07-20T17:57:17Z

Доцент Балынин рассказал о влиянии ИИ на рынок труда

Теневая сторона ИИ: в гигантской базе CommonPool для обучения популярных ИИ-генераторов изображений содержатся миллиарды образцов персональных данных

2025-07-20T11:06:00Z


Новое исследование выявило серьёзную проблему конфиденциальности в одном из крупнейших открытых наборов данных для обучения моделей генерации изображений — DataComp CommonPool. В этом наборе, содержащем на 2023 год 12,8 миллиардов образцов данных, обнаружены миллионы изображений паспортов, кредитных карт, свидетельств о рождении и других документов, содержащих персональную информацию (PII).

Исследование сосредоточилось на небольшой части (0,1%) данных. Даже в этой выборке были найдены тысячи изображений, включая распознаваемые лица и документы, удостоверяющие личность. Исходя из этого, учёные оценили общее количество изображений с PII в сотнях миллионов. В частности, было обнаружено более 800 подтверждённых документов о трудоустройстве (резюме и сопроводительные письма), многие из которых содержали конфиденциальную информацию, такую как данные о состоянии здоровья, результаты проверок биографических данных, даты рождения и места рождения иждивенцев. Связывание резюме с онлайн-профилями людей позволило исследователям получить доступ к контактной информации, государственным идентификаторам, социодемографическим данным, фотографиям лиц, домашним адресам и контактной информации других людей (например, рекомендателей).

Набор DataComp CommonPool, созданный как продолжение набора данных LAION-5B (использованного для обучения таких моделей, как Stable Diffusion и Midjourney), собирал данные путём веб-скрейпинга в период с 2014 по 2022 год. Хотя создатели CommonPool заявляли о его предназначении для академических исследований, лицензия не запрещала коммерческое использование. Учитывая, что набор данных был скачан более 2 миллионов раз за последние два года, и что источники данных CommonPool и LAION-5B схожи, вероятно, что аналогичная информация присутствует и в LAION-5B, а также в других моделях, обученных на тех же данных.

Авторы исследования отмечают, что автоматическое размытие лиц, применённое создателями CommonPool, оказалось неэффективным: алгоритм пропустил более 800 лиц в исследуемой выборке, что указывает на пропуск около 102 миллионов лиц во всём наборе данных. Кроме того, не применялись фильтры для распознавания текстовых строк PII, таких как адреса электронной почты или номера социального страхования. Хотя платформа Hugging Face, распространяющая CommonPool, предоставляет инструмент для удаления личной информации, это требует, чтобы люди знали о существовании своих данных в наборе.

Проблема усугубляется тем, что даже удаление данных из набора не гарантирует полной защиты конфиденциальности, если модель уже обучена на этих данных. Авторы исследования призывают сообщество специалистов по машинному обучению переосмыслить распространённую практику неконтролируемого веб-скрейпинга и указать на возможные нарушения действующих законов о защите данных, а также на ограничения возможностей этих законов в защите конфиденциальности. В частности, действующие законы о защите данных в Европе и Калифорнии не всегда распространяются на исследователей, создающих и курирующих такие наборы данных, а также содержат исключения для «общедоступной» информации.

Читайте также:

2025-07-09T08:44:00Z

Создана нейросеть с «человеческим» зрением, превосходящая стандартные модели по энергоэффективности

2025-07-12T19:58:00Z

Лёгкие эмбеддинги вместо тяжёлых снимков: ИИ-архитектура стартапа Lgnd позволит анализировать спутниковые данные моментально

2025-07-11T14:31:00Z

Фотонная нейросеть превзошла цифровые аналоги в точности распознавания

2025-06-27T06:54:00Z

Google DeepMind обучила ИИ читать ДНК точнее, чем лучшие биоинформатики

2025-07-04T17:37:00Z

Google DeepMind и Принстон обучили ИИ-модель понимать мышление человека