Индустрия на пороге 2026: как агенты и новые методы оценки меняют AI-разработку

DeepLearningAI 2,3 тыс. 31 мин 4 мин 27.03.2025
Главное

В рамках конференции AI Dev 25 состоялась панельная дискуссия, объединившая ведущих экспертов из инфраструктурных компаний, опенсорс-сообществ и академической среды. Участники обсудили трансформацию стека разработки в 2025 году, переход от «голых» языковых моделей к автономным агентам и способы оценки качества систем, которые меняются быстрее, чем пишутся учебники.

🤖 Эпоха агентов: что ждет индустрию в 2025–2026 годах 1:46

Модератор дискуссии отметил, что «агент» (agent) стал главным словом начала 2025 года . Участники дискуссии сошлись во мнении, что этот тренд — не краткосрочный хайп, а фундаментальный сдвиг в архитектуре приложений.

По мнению Романа (Nebios), индустрия переходит от стадии исследований и пре-трейнинга к массовому этапу инференса (вывода), который драйвят именно агентские системы . Это меняет требования к «железу»: инфраструктура становится более сложной, требуя продвинутых уровней оркестрации и софта, а не просто физических серверов . Он также предсказал изменение парадигмы API и облачной инфраструктуры под нужды «нового поколения разработчиков» — агентов, которые будут писать основную массу кода .

Перси Лян (Stanford / Together AI) выделил три ключевых аспекта развития агентов:

  1. Использование инструментов: способность LLM реально взаимодействовать с внешней средой .
  2. Время на размышление: переход от мгновенных ответов к задачам, требующим часов или дней вычислений (reasoning) .
  3. Самосовершенствование (RL): использование обучения с подкреплением, чтобы агенты становились умнее в процессе работы, подобно пре-трейнингу в классических LLM .

Никколо Катаста (Replit) выразил уверенность, что 2026 год также пройдет под знаком агентов . Он сравнил текущий уровень их развития с автопилотами автомобилей: сейчас мы находимся на уровне L2.5–L3, и до полной автономности (L5) предстоит пройти долгий путь .

🛠 От простых библиотек к обучению масс 7:40

Томас Вольф (Hugging Face) подчеркнул, что фокус смещается с релиза самих моделей на релиз конкретных продуктов и SDK . В качестве примера он привел запуск библиотеки smolagents (всего около 1000 строк кода), которая доказывает, что для создания агентского фреймворка не нужны миллионы строк кода, так как современные LLM сами отлично пишут код .

По словам Вольфа, интерес сообщества к обучению колоссален: курс по агентам от Hugging Face собрал почти 100 000 заявок всего за неделю после запуска . Это свидетельствует о том, что разработчики стремятся не просто «делать ИИ», а создавать законченные продукты с его помощью .

✅ Галлюцинации и качество: как доверять агентам? 10:18

Одной из главных проблем остается надежность. Поскольку агенты строятся на базе LLM, им свойственны галлюцинации.

Перси Лян предложил разделять задачи по возможности верификации :

Никколо Катаста добавил, что разработчикам нужно «принять факт ошибок», как мы принимаем ошибки разработчиков-людей . Решение заключается в создании инфраструктуры, минимизирующей «радиус поражения» (blast radius): возможности быстрого отката версий и автоматического дебаггинга .

📊 Кризис бенчмарков: все они врут, но они необходимы 18:06

Дискуссия коснулась обесценивания стандартных тестов производительности моделей. Перси Лян сделал провокационное заявление: «Все бенчмарки неверны, потому что измеряют не то» . Тем не менее, он считает их полезными суррогатами для понимания прогресса .

Основные тезисы по оценке моделей:

Никколо Катаста призвал разработчиков и PhD не только пользоваться чужими тестами, но и выпускать собственные «эвалы» (evals), основанные на реальных кейсах провалов моделей . Галлюцинация или ошибка — это ценная точка данных, которую стоит публиковать в репозиториях для общего блага .

💡 Советы на будущее: как не сойти с ума от скорости перемен 25:24

В финале панельной дискуссии спикеры дали советы, как выживать в условиях «информационного хлыста» (whiplash), когда новости меняются ежедневно.

Главным капиталом в 2025 году, по мнению экспертов, остается экспертиза в конкретной области (медицина, право, кодинг). Автоматизация лишь увеличивает ценность тех, кто может правильно направить ИИ, используя свои глубокие профессиональные знания .

💬 Цитаты

«Проще говоря, все бенчмарки неверны: каждый из них измеряет совсем не то, что нужно в реальности.»

Перси Лян 19:55

«Мы переходим от фокусировки на LLM к фокусировке на продуктах, агентах и фреймворках.»

Томас Вольф 09:00

«Игнорируйте людей в LinkedIn и Twitter, которые занимаются фермерством вовлеченности, заявляя, что кодинг мертв.»

👥 Спикеры
🔗 Упомянутые сайты и проекты
📖 Термины
Агент (Agent)
ИИ-система, способная не просто генерировать текст, но и выполнять действия: запускать код, искать информацию в сети и использовать инструменты.
Инференс (Inference)
Процесс использования уже обученной модели для получения предсказаний или ответов.
Reasoning
Способность модели «рассуждать» и тратить дополнительное время вычислений на решение сложных логических задач.
RL (Reinforcement Learning)
Обучение с подкреплением, метод обучения ИИ через систему наград и штрафов.
Hallucination (Галлюцинация)
Уверенная генерация моделью фактологически неверной или бессмысленной информации.
📊 Цифры
🗓 Хронология
  1. 31 декабря 2024 Выпуск библиотеки smolagents от Hugging Face.
  2. Январь 2025 Запуск курса по агентам на Hugging Face и достижение 100 тысяч регистраций.
  3. Начало 2025 Остановка поддержки старых лидербордов LLM в пользу агентских бенчмарков.
⚖️ Другая сторона
Искусственный интеллект Hugging Face Nebios Replit AI agents benchmarking