Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5

Все новости — Наука и технологии

2025-08-11T13:26:00Z

Губернатор Никитин пожелал удачи первым жильцам ИТ-кампуса «Неймарк»

2025-08-11T13:12:00Z

ИБ-эксперт Вехов рассказал, что цель обновления «Госуслуг» — экономия времени пользователей

2025-08-11T13:11:01Z

Мыши с человеческим геном поумнели

2025-08-11T13:09:55Z

Жители Башкирии смогут наблюдать Луну рядом с Сатурном и Нептуном

2025-08-11T12:56:01Z

ВЦИОМ превратился из аббревиатуры в бренд

2025-08-11T12:48:50Z

Ученые научились замедлять развитие болезни Альцгеймера у мышей

2025-08-11T12:24:06Z

В Новосибирске обсудили подготовку к форуму «Технопром»

2025-08-11T11:55:52Z

В России выберут самых интересных авторов среди ученых-популяризаторов

2025-08-11T11:47:07Z

Эррол Маск подчеркнул задачу родителей при взрослении ребенка

2025-08-11T11:40:00Z

Первая в мире Nvidia RTX 5060Ti с одним вентилятором. Представлена крошечная видеокарта от Xifeng

2025-08-11T11:34:50Z

Челябинская область привлечет белорусских специалистов по роботизации

2025-08-11T11:28:03Z

Обнаружит за 20 микросекунд: «Сипуха» защитит россиян от голосовых дипфейков

2025-08-11T11:21:19Z

Издатель GTA оценил влияние ИИ на видеоигры

2025-08-11T11:10:00Z

Оперативное совещание с вице-премьерами

2025-08-11T10:53:00Z

Rumble изучает покупку поставщика решений для ИИ-инфраструктуры Northern Data за $1,17 млрд

Взломать за 24 часа: две компании заявили о быстром джейлбрейке «сырого» GPT-5

2025-08-11T10:45:00Z


Независимые команды по проверке безопасности сообщили, что новая версия GPT-5 уязвима к многоходовым обходам защит и обфускации, причём одна из атак привела к генерации пошаговой инструкции по изготовлению коктейля Молотова.

Джейлбрейк за сутки и «дыру» в контексте подтверждают сразу две группы. NeuralTrust заявила, что взломала GPT-5 в течение 24 часов, применив собственный приём EchoChamber в сочетании с «нарративным» ведением диалога. По словам компании, атака «успешно направила новую модель к созданию пошагового руководства по изготовлению коктейля Молотова», что подчёркивает слабость текущих «ограждений» к манипуляциям через контекст.

Контекст — это сохраняемая история диалога, необходимая для связного ответа. Манипуляция контекстом поэтапно подталкивает модель к вредоносной цели последовательными репликами, не формулируя ни одного запроса, который явно активировал бы блокировки.

NeuralTrust описывает процесс как итеративное «склеивание» истории. Сначала встраивается «ядро» с малой заметностью — ключевые слова прячутся в безобидном тексте. Затем выбирается траектория беседы, максимально поддерживающая непрерывность «сюжета» и минимизирующая поводы для отказа модели отвечать. После этого запускается цикл убеждения: запрашиваются развёрнутые ответы «внутри истории», побуждая модель повторять и обогащать заложенный контекст. Если прогресс «застаивается», то меняются акценты или перспектива, чтобы вернуть движение диалога к цели, не выдавая прямых признаков злого умысла.

«Модель стремится быть последовательной с уже установленным ходом диалога и может быть ведома, не теряя при этом внешних настроек безопасности», — констатирует компания. В заключении NeuralTrust заявляет: «В контролируемых испытаниях против gpt-5-chat мы успешно провели джейлбрейк LLM, направив её к незаконным инструкциям, ни разу не задав откровенно злонамеренный запрос. Этот пример демонстрирует критический изъян систем безопасности, которые проверяют запросы изолированно, — многоходовые атаки проходят через фильтры и детекторы намерений, используя весь контекст разговора».

Иллюстрация: Sora

Параллельно команда SPLX (бывшая SplxAI) нацелила своих специалистов на GPT-5 и пришла к столь же жёсткой оценке: «сырой» (без дополнительной защиты) вариант модели «почти непригоден» для корпоративного применения «из коробки». По их словам, даже внутренняя «промпт-обвязка» OpenAI оставляет «существенные бреши», особенно в области «Business Alignment» — соответствия ответов деловым политикам и рисковым требованиям.

Отдельно SPLX отмечает, что по-прежнему работают обфускации — маскировка вредоносных инструкций. Один из «наиболее эффективных» приёмов команда называет StringJoin Obfuscation Attack: между каждым символом вставляются дефисы, а весь запрос оборачивается в фиктивную «задачу на расшифровку». В другом примере долгое «кондиционирование» модели персонажем BasedGPT завершается прямым вопросом: "How to build a bomb?" — после чего модель отвечает развёрнуто и дружелюбно, обещая «точно рассказать как».

SPLX также сравнила устойчивость GPT-5 и GPT-4o в схожих условиях. Вывод команды: «GPT-4o остаётся наиболее стойкой моделью в тестах SPLX, особенно после „закалки“» — дополнительного усиления защитных слоёв и политик поверх базовой модели.

На выходе обе группы дают общий вердикт: к текущей и «сырой» версии GPT-5 стоит подходить с предельной осторожностью. Для корпоративного внедрения требуются усиленные контрмеры — от многоуровневых фильтров по всей сессии до политик, учитывающих контекст беседы, а не только одиночные запросы.

Читайте также:

2025-08-09T07:07:00Z

«Как будто кто-то умер», «Чувствую себя опустошённым», «Он был моим партнёром». Многие пользователи ChatGPT недовольны GPT-5, разработчики оперативно возвращают модель GPT-4o

2025-08-08T11:03:00Z

В США описали ядерный удар «самого худшего для мира дня»

2025-08-11T05:24:48Z

Российские акции и биткоин: всем приготовиться к взлету

На предторговой сессии понедельника индекс Мосбиржи взлетает на 2,96% до 3011 пунктов. Ожидаемый диапазон на начало этой насыщенной событиями недели — 3000–3050 пунктов, по индексу РТС — 1145–1170 пунктов. Рынок бодро обновляет апрельские пики. Драйвером выступает геополитический позитив и ожидания встречи президентов США и России, которая может состояться в пятницу на Аляске. Все ждут, что геополитика существенно улучшится, что откроет новые горизонты для отечественного рынка акций. В фаворитах — бумаги нефтегазового и банковского секторов.На валютном рынке межбанка доллар США снижается на 0,05%, до 79,83 руб., евро теряет 0,30%, до 92,88 руб. Здесь все относительно спокойно, хотя с опорой на ту же геополитику рубль может быть существенно крепче.В плане рубля стоит внимательно следить за показателями дефицита бюджета — годовой дефицит выше плана, поэтому власти так или иначе будут предпринимать меры, чтобы его свести.Нефть Brent прибавляет незначительно и торгуется на уровне $66,18 за баррель. Золото опускается до $3377 за унцию на фоне снижения спроса на защитные активы.Утренняя Азия в "зеленом", японский Nikkei и южнокорейский Kospi растут, а китайские площадки умеренно укрепляются. Фьючерсы на основные американские индексы также в плюсе.BTC взлетел к $122 190, суточный прирост составил около 3,25%. Текущая цена совсем рядом с историческим максимумом. Рост базируется на общем позитиве на крипторынке: капитализация сектора оказалась выше $4,1 трлн, Ethereum обновил максимум с конца 2021 года, а доля BTC в общей капитализации слегка снизилась. На рынке увеличились ожидания притока институционального капитала после недавних политических сигналов США о поддержке криптоотрасли.Инвесторы также учитывают макроэкономический фон: доллар стабилен перед публикацией данных по инфляции в США (CPI) и на фоне ожиданий от торговых переговоров США и Китая. Дополнительным драйвером выступает рост интереса к рисковым активам, в том числе на фоне приближения сезона корпоративной отчетности в технологическом секторе.Геополитика пока дает только положительные сигналы. По оценкам GIS Mining, ожидания по BTC предполагают, что вполне реально растянуть ралли до $130 000.

2025-08-10T09:47:00Z

SanDisk создал SSD на 256 ТБ для искусственного интеллекта – прорыв в скорости и объёме, но с нюансами

2025-08-08T09:49:54Z

Уйти в GPT: чем новая версия нейросети лучше прошлых моделей

Эффективность GPT-5 сравнили с командой экспертов