Рынок ИИ-опенсорса в России: переиспользуемость и внедрения против побед на бенчмарках

Все новости — Наука и технологии

2025-07-13T02:55:00Z

Столкновение с Тейей могло поспособствовать зарождению жизни на Земле

2025-07-13T02:35:00Z

Что не так с биологией и техникой в сериале «Последние из нас»

2025-07-13T01:02:18Z

Компания Маска SpaceX инвестирует $2 млрд в разработчика чат-бота Grok

2025-07-12T21:02:00Z

Жених не айти: россиянки рассказали, представителей каких профессий предпочитают в мужья

2025-07-12T21:00:01Z

Экранопланов громадье: как КНР доводит до ума наши разработки

2025-07-12T20:05:00Z

Китайские учёные открыли новый вид гигантского динозавра-зауропода

2025-07-12T20:02:00Z

Китайские ученые создали пчёл-киборгов

2025-07-12T19:58:00Z

Лёгкие эмбеддинги вместо тяжёлых снимков: ИИ-архитектура стартапа Lgnd позволит анализировать спутниковые данные моментально

2025-07-12T19:54:00Z

Чтобы стать лучшим конкурентом для Nvidia компания Huawei будет подстраиваться под Nvidia. ИИ-процессоры Ascend получат поддержку CUDA через промежуточное ПО

2025-07-12T18:44:00Z

NASA выбрало три прибора для исследования Луны в рамках программы Artemis

2025-07-12T18:06:00Z

Космический телескоп «Джеймс Уэбб» отпраздновал трёхлетие научной работы захватывающим снимком туманности Кошачья Лапа

2025-07-12T17:56:00Z

Уникальный лунный базальт переворачивает представления о тепловой эволюции Луны

2025-07-12T17:43:00Z

Учёные «приручили» жидкое зеркало толщиной в миллиметр для гигантских космических телескопов

2025-07-12T17:14:00Z

Складной iPhone тоже появится на рынке

2025-07-12T17:06:50Z

xAI Илона Маска может быть оценена в $200 млрд в рамках нового раунда финансирования

Рынок ИИ-опенсорса в России: переиспользуемость и внедрения против побед на бенчмарках

Рынок ИИ-опенсорса в России: переиспользуемость и внедрения против побед на бенчмарках

2025-07-04T05:00:22Z — В России бум развития опенсорс-решений в области ИИ - моделей, которые разработчики выкладывают в открытый доступ. Несмотря на то, что становление отечественного рынка ИИ-опенсорса началось сравнительно недавно, его рост впечатляет. Только январе 2025 года появилось столько открытых ИИ-решений, сколько было опубликовано за весь 2020 год. И их становится все больше.


Крупные компании всё чаще выкладывают свои модели в открытый доступ, сокращая технологический разрыв и способствуя развитию малого и среднего бизнеса, стартапов, университетов, научных лабораторий. Эксперты отмечают, что такой подход помогает выравнивать возможности игроков на рынке и способствует более быстрому распространению передовых технологий. Согласно прогнозам, к 2026 году около 92% российских компаний будут использовать решения, основанные на открытых моделях, тем самым ускоряя внедрение ИИ в различные процессы.

"Очень правильно, что сегодня и российские разработчики больших моделей пошли в эту открытость, которая на мировом рынке уже давно популярна - среди Llama и DeepSeek, например", - говорит Ярослав Кузьминов, научный руководитель НИУ ВШЭ и один из основателей университета. - "Чем больше крупных игроков вовлечено в процесс, тем больше обратной связи есть для разработчиков моделей, появляются новые кейсы и эталонные размеченные данные для ее дообучения".

Однако по мере появления новых решений внутри сообщества формируются все больше потребностей и требований к компаниям, которые вкладываются в опенсорс. Это вносит изменения в процесс развития рынка открытых ИИ-моделей в России.

Универсальных моделей, которые могли бы походить всем без исключения, по мнению экспертов, не существует. Для продуктивной работы с языковыми моделями необходимо иметь доступ к разным версиям моделей: тем, которые доообучают под конкретные задачи (pretrain), и тем, которые готовы к внедрению в проект без доработок (instruct).

Наличие одной модели в двух версиях эксперты считают признаком зрелого подхода к разработке, основой нового вектора опенсорс-стратегии. Это позволяет обеспечить и научную достоверность (возможность анализа и кастомизации архитектур), и практическую ценность (мгновенную интеграцию в прикладные сценарии).

"Подобный подход помогает решать две разные задачи. С одной стороны, привлечь тех, кому не нужна предварительно обученная модель - они обучают её с нуля на собственных данных. С другой - дать уже готовую предварительно обученную модель тем, кто в ней нуждается, так как не имеет собственных ресурсов на дообучение", - считает Ярослав Кузьминов.

Александр Диденко, руководитель Лаборатории искусственного интеллекта Школы управления Сколково, подтверждает важность подобного подхода: "Наличие двух версий одной модели - с поведенческими фильтрами и без - бесценная возможность для множеств экспериментов, в том числе в области культурной ориентации LLM (способность учитывать культурные особенности, например, при обучении иностранному языку, ― прим.), которые мы проводим у себя в Сколково. Наличие только instruct-версии снижает прозрачность и доверие, а наличие только pretrain повышает порог входа". Иными словами, если предоставляется только одна из версий, разработчики теряют гибкость, а исследователи - возможности для изучения. При этом совместное существование pretrain и instruct обеспечивает условия для экспериментов, настройки, тестирования фильтров, проверки устойчивости.

Азамат Жилоков, директор Института искусственного интеллекта МФТИ, подчёркивает: "Если задачи, которые планируется поручить модели, решаются её instruct-версией "из коробки", то всё хорошо. Если же нет, и задачи очень специфические (для отрасли или для конкретной компании), но решать их необходимо, то нужно выделить ресурсы (и человеческие, и вычислительные), чтобы подготовить размеченный набор данных и дообучить на нём pretrain-модель".

В России таких моделей пока несколько. Например, в 2025 году Яндекс представил сначала pretrain-версию с ограниченной лицензией, а позднее отреагировав на запрос сообщества разработчиков, опубликовала instruct-версию с обновленной лицензией, которая позволяет использовать модель в том числе и в коммерческих целях, если объём выходных токенов не превышает 10 млн в месяц.

"Мы стараемся учитывать разносторонние запросы сообщества. В феврале мы выложили в опенсорс модель YandexGPT 5 Lite Pretrain, которую можно дообучить под свои специфические задачи. Но среди разработчиков и исследователей был также запрос на решение, которое сразу готово к внедрению в проект. Для них мы выложили в опенсорс Instruct-версию", - рассказывает Андрей Бут, руководитель направления YandexGPT Alignment.

В бесконечной гонке нейросетей, когда новые модели появляются едва ли не каждый месяц, эксперты задаются вопросом критериев их успешности. Сейчас среди сообщества разработчиков приняты так называемые бенчмарки, когда модели тренируют решать конкретные задачи. Например, математические или логические задачи, писать код и т.д. Фактически это итоги теста, насколько нейросеть его прошла.

Эксперты опасаются, что фокус только на бенчмарки и достижение высоких показателей может в конечном итоге привести к тому, что разработчики могут сосредоточатся лишь на достижении формальных метрик в ущерб реальной полезности и надежности ИИ.

Подтверждает это и Ярослав Кузьминов. По его словам, бенчмарки - лишь верхушка айсберга, оценивающая способность решать узкие задачи. "Это просто оценка. Как за экзамен. Это имеет не всегда полную корреляцию с возможностями и границами реального применения моделей. Поэтому соревнование бенчмарков - это не более, чем соревнование двух школ в том, сколько отличников она выпустит в этом году. Интересно за этим наблюдать, но не всегда понятно, как это использовать в рабочем процессе и в каких-то конкретных пайплайнах", - говорит эксперт.

"Когда сообщают только успешные результаты экспериментов, это смещает представление о феномене. Как гласит закон Гудхарта: когда метрика становится целью, она перестает быть хорошей метрикой. Раньше технологическую продвинутость измеряли количеством патентов и статей в журналах, а сейчас значимым сигналом для инвесторов и сообщества разработчиков стало сколько модель выбивает на бенчах в сравнении с SOTA (лучшие модели на рынке ― прим.). В результате поведение моделей начинают сходиться, между ними исчезает разница. Кто-то сказал: "однажды все автопроизводители мира придумают одинаковый автомобиль". Сейчас происходит тот самый случай", - считает руководитель Лаборатории искусственного интеллекта Школы управления Сколково Александр Диденко.

Согласен с мнениями коллег и директор Института искусственного интеллекта МФТИ Азамат Жилоков: "Ориентироваться на одни лишь бенчмарки не стоит - как мы не ориентируемся исключительно на результаты выпускных экзаменов при подборе кандидатов и найме сотрудников. Результаты моделей на публичных бенчмарках являются важными показателями, по которым мы можем сопоставлять и сравнивать различные модели между собой. Важными, но не единственными".

Учитывая широкое разнообразие сценариев использования нейросетей, индивидуальный контекст запросов, специфику отраслей применения, оценка тестирования становится шире, чем заложено в стандартных параметрах. Ключевыми критериями выбора нейросетей становятся бизнес-применимость и реальная польза, то есть влияние на эффективность или даже результативность.

"В реальном использовании LLM сталкиваются с многошаговыми диалогами, неоднозначными запросами, необходимостью уточнения, то есть тем, чего нет в статических бенчмарках. Если модель хороша в олимпиадной математике, то вовсе не факт, что она будет хороша "под капотом" корпоративного бота, отвечающего за онбординг сотрудников", - считает Александр Диденко.

Ярослав Кузьминов считает, что всегда надо тестировать модель в реальном секторе и видеть "клиентский путь" её использования. "Стоит ориентироваться и на решение моделью конкретных задач, и на соотношение качества решения задач к потребляемым вычислительным ресурсам, и на особенности лицензирования, и на поддержку интеграции с другими информационными системами компании, и на мнение сообщества", - подтверждает Азамат Жилов.

Помимо бизнес-применения еще одним важным критерием зрелости опенсорс-решений является переиспользуемость. Если модель выложена в открытый доступ, ее можно использовать для дообучения, а потом сделать открытой для следующей итерации доработки другими разработчиками. Фактически, такие модели со временем (с каждым разом) начнут дообучать друг друга. Поэтому если модель активно дообучают, модифицируют, включают в свои продукты другие разработчики - это и есть реальное доказательство её ценности. Настоящий опенсорс - это не сам факт публикации модели в открытом доступе или ее победа на бенчмарках, а участие в совместной эволюции, считают эксперты.

"Для нас главный показатель - это применимость моделей в конечных пользовательских продуктах, их польза для решения прикладных задач клиентов и сотрудников, а также частота использования наших открытых моделей в ИТ-сообществе. Например, на основе последней pretrain-модели Яндекса появились десятки дообученных версий от независимых разработчиков", - рассказывает Андрей Бут.

Читайте также:

2025-06-25T09:07:00Z

Объем российского рынка ИИ в медицине к 2030 году может достигнуть порядка 78 млрд рублей

2025-07-01T15:23:24Z

К 2030 году заметно вырастет потребность в специалистах по ИИ

Искусственный интеллект (ИИ) проник почти во все сферы, поэтому потребность в людях, специализирующихся на этой технологии, растет. Еще в апреле минцифры и Аналитический центр завершили конкурсный отбор вузов, которые будут готовить высококвалифицированные кадры в ИИ. "Российская газета" поговорила с экспертами о востребованности таких работников и их месте на рынке.

2025-06-25T08:03:47Z

Глава OpenAI: текущее железо не потянет искусственный интеллект нового поколения

Глава OpenAI Альтман: современные компьютеры создавались для мира без ИИ

2025-06-25T04:32:06Z

Эксперт рассказал о влиянии ИИ на развитие рынка кибербезопасности

Наличие кибервойн и развитие искусственного интеллекта являются факторами, которые определят развитие российского рынка кибербезопасности - многое зависит от их "эскалации", рассказал в интервью РИА Новости на полях ПМЭФ-2025 сооснователь Positive Technologies и фонда результативной кибербезопасности "Сайберус" Юрий Максимов.

2025-06-27T03:03:33Z

Исследование показало, что ИИ может увеличить ВВП России на 14,8 трлн рублей

Таких результатов можно добиться к 2030 году, благодаря синергии искусственного интеллекта и технологии Task Mining, сообщили в компании "Инфомаксимум"