Индустрия на пороге 2026: как агенты и новые методы оценки меняют AI-разработку

В рамках конференции AI Dev 25 состоялась панельная дискуссия, объединившая ведущих экспертов из инфраструктурных компаний, опенсорс-сообществ и академической среды. Участники обсудили трансформацию стека разработки в 2025 году, переход от «голых» языковых моделей к автономным агентам и способы оценки качества систем, которые меняются быстрее, чем пишутся учебники.

🤖 Эпоха агентов: что ждет индустрию в 2025–2026 годах 1:46

Модератор дискуссии отметил, что «агент» (agent) стал главным словом начала 2025 года . Участники дискуссии сошлись во мнении, что этот тренд — не краткосрочный хайп, а фундаментальный сдвиг в архитектуре приложений.

По мнению Романа (Nebios), индустрия переходит от стадии исследований и пре-трейнинга к массовому этапу инференса (вывода), который драйвят именно агентские системы . Это меняет требования к «железу»: инфраструктура становится более сложной, требуя продвинутых уровней оркестрации и софта, а не просто физических серверов . Он также предсказал изменение парадигмы API и облачной инфраструктуры под нужды «нового поколения разработчиков» — агентов, которые будут писать основную массу кода .

Перси Лян (Stanford / Together AI) выделил три ключевых аспекта развития агентов:

Использование инструментов: способность LLM реально взаимодействовать с внешней средой .
Время на размышление: переход от мгновенных ответов к задачам, требующим часов или дней вычислений (reasoning) .
Самосовершенствование (RL): использование обучения с подкреплением, чтобы агенты становились умнее в процессе работы, подобно пре-трейнингу в классических LLM .

Никколо Катаста (Replit) выразил уверенность, что 2026 год также пройдет под знаком агентов . Он сравнил текущий уровень их развития с автопилотами автомобилей: сейчас мы находимся на уровне L2.5–L3, и до полной автономности (L5) предстоит пройти долгий путь .

🛠 От простых библиотек к обучению масс 7:40

Томас Вольф (Hugging Face) подчеркнул, что фокус смещается с релиза самих моделей на релиз конкретных продуктов и SDK . В качестве примера он привел запуск библиотеки smolagents (всего около 1000 строк кода), которая доказывает, что для создания агентского фреймворка не нужны миллионы строк кода, так как современные LLM сами отлично пишут код .

По словам Вольфа, интерес сообщества к обучению колоссален: курс по агентам от Hugging Face собрал почти 100 000 заявок всего за неделю после запуска . Это свидетельствует о том, что разработчики стремятся не просто «делать ИИ», а создавать законченные продукты с его помощью .

✅ Галлюцинации и качество: как доверять агентам? 10:18

Одной из главных проблем остается надежность. Поскольку агенты строятся на базе LLM, им свойственны галлюцинации.

Перси Лян предложил разделять задачи по возможности верификации :

В задачах, где есть формальный верификатор (например, генерация кода, который можно запустить и проверить тестами), ошибки допустимы — агент может пробовать до победного .
В высокорискованных задачах, где нет возможности автоматической проверки и дается только «одна попытка», доверять агентам пока не стоит .

Никколо Катаста добавил, что разработчикам нужно «принять факт ошибок», как мы принимаем ошибки разработчиков-людей . Решение заключается в создании инфраструктуры, минимизирующей «радиус поражения» (blast radius): возможности быстрого отката версий и автоматического дебаггинга .

📊 Кризис бенчмарков: все они врут, но они необходимы 18:06

Дискуссия коснулась обесценивания стандартных тестов производительности моделей. Перси Лян сделал провокационное заявление: «Все бенчмарки неверны, потому что измеряют не то» . Тем не менее, он считает их полезными суррогатами для понимания прогресса .

Основные тезисы по оценке моделей:

Системный подход: Нужно оценивать не отдельные компоненты (LLM), а финальный результат работы всей системы .
Специфичность: Бизнес будет переходить к собственным, узкоспециализированным метрикам вместо общих тестов вроде MMLU .
Будущее за агентами: Hugging Face постепенно отказывается от старых лидербордов в пользу тех, где модели должны выполнять действия в интернете (например, бенчмарк Gaia) .

Никколо Катаста призвал разработчиков и PhD не только пользоваться чужими тестами, но и выпускать собственные «эвалы» (evals), основанные на реальных кейсах провалов моделей . Галлюцинация или ошибка — это ценная точка данных, которую стоит публиковать в репозиториях для общего блага .

💡 Советы на будущее: как не сойти с ума от скорости перемен 25:24

В финале панельной дискуссии спикеры дали советы, как выживать в условиях «информационного хлыста» (whiplash), когда новости меняются ежедневно.

Модератор: Игнорируйте «фермеров вовлеченности» в соцсетях, которые кричат, что программирование мертво . Инвестируйте время в глубокое образование и курсы .
Томас Вольф: Следите за робототехникой и AI для науки (создание белков, новых материалов) — это следующие большие темы после текста .
Никколо Катаста: «Стройте публично» (build in public). Только работая руками, можно почувствовать интуицию модели .
Перси Лян: Не смотрите только на метрики, смотрите на данные. Поймите, что именно делает модель, когда ошибается .
Роман (Nebios): Сохраняйте устойчивость. Даже если кажется, что вы опоздали ко всем трендам, реальное внедрение ИИ в бизнес находится на зачаточном уровне .

Главным капиталом в 2025 году, по мнению экспертов, остается экспертиза в конкретной области (медицина, право, кодинг). Автоматизация лишь увеличивает ценность тех, кто может правильно направить ИИ, используя свои глубокие профессиональные знания .