# Индустрия на пороге 2026: как агенты и новые методы оценки меняют AI-разработку

Источник: https://www.youtube.com/watch?v=IHtN03NZOYI
Канал: DeepLearningAI
Опубликовано: 27.03.2025

---

В рамках конференции AI Dev 25 состоялась панельная дискуссия, объединившая ведущих экспертов из инфраструктурных компаний, опенсорс-сообществ и академической среды. Участники обсудили трансформацию стека разработки в 2025 году, переход от «голых» языковых моделей к автономным агентам и способы оценки качества систем, которые меняются быстрее, чем пишутся учебники.

## 🤖 Эпоха агентов: что ждет индустрию в 2025–2026 годах
[[JUMP:01:46]]

Модератор дискуссии отметил, что «агент» (agent) стал главным словом начала 2025 года [01:58]. Участники дискуссии сошлись во мнении, что этот тренд — не краткосрочный хайп, а фундаментальный сдвиг в архитектуре приложений.

По мнению Романа (Nebios), индустрия переходит от стадии исследований и пре-трейнинга к массовому этапу инференса (вывода), который драйвят именно агентские системы [02:38]. Это меняет требования к «железу»: инфраструктура становится более сложной, требуя продвинутых уровней оркестрации и софта, а не просто физических серверов [03:03]. Он также предсказал изменение парадигмы API и облачной инфраструктуры под нужды «нового поколения разработчиков» — агентов, которые будут писать основную массу кода [03:47].

Перси Лян (Stanford / Together AI) выделил три ключевых аспекта развития агентов:

1.  **Использование инструментов:** способность LLM реально взаимодействовать с внешней средой [04:27].
2.  **Время на размышление:** переход от мгновенных ответов к задачам, требующим часов или дней вычислений (reasoning) [05:06].
3.  **Самосовершенствование (RL):** использование обучения с подкреплением, чтобы агенты становились умнее в процессе работы, подобно пре-трейнингу в классических LLM [05:31].

Никколо Катаста (Replit) выразил уверенность, что 2026 год также пройдет под знаком агентов [06:22]. Он сравнил текущий уровень их развития с автопилотами автомобилей: сейчас мы находимся на уровне L2.5–L3, и до полной автономности (L5) предстоит пройти долгий путь [07:00].

## 🛠 От простых библиотек к обучению масс
[[JUMP:07:40]]

Томас Вольф (Hugging Face) подчеркнул, что фокус смещается с релиза самих моделей на релиз конкретных продуктов и SDK [09:00]. В качестве примера он привел запуск библиотеки `smolagents` (всего около 1000 строк кода), которая доказывает, что для создания агентского фреймворка не нужны миллионы строк кода, так как современные LLM сами отлично пишут код [08:08].

По словам Вольфа, интерес сообщества к обучению колоссален: курс по агентам от Hugging Face собрал почти 100 000 заявок всего за неделю после запуска [08:21]. Это свидетельствует о том, что разработчики стремятся не просто «делать ИИ», а создавать законченные продукты с его помощью [09:52].

## ✅ Галлюцинации и качество: как доверять агентам?
[[JUMP:10:18]]

Одной из главных проблем остается надежность. Поскольку агенты строятся на базе LLM, им свойственны галлюцинации.

Перси Лян предложил разделять задачи по возможности верификации [11:12]:

*   В задачах, где есть формальный верификатор (например, генерация кода, который можно запустить и проверить тестами), ошибки допустимы — агент может пробовать до победного [12:35].
*   В высокорискованных задачах, где нет возможности автоматической проверки и дается только «одна попытка», доверять агентам пока не стоит [11:27].

Никколо Катаста добавил, что разработчикам нужно «принять факт ошибок», как мы принимаем ошибки разработчиков-людей [14:47]. Решение заключается в создании инфраструктуры, минимизирующей «радиус поражения» (blast radius): возможности быстрого отката версий и автоматического дебаггинга [15:15].

## 📊 Кризис бенчмарков: все они врут, но они необходимы
[[JUMP:18:06]]

Дискуссия коснулась обесценивания стандартных тестов производительности моделей. Перси Лян сделал провокационное заявление: «Все бенчмарки неверны, потому что измеряют не то» [19:55]. Тем не менее, он считает их полезными суррогатами для понимания прогресса [20:20].

Основные тезисы по оценке моделей:

*   **Системный подход:** Нужно оценивать не отдельные компоненты (LLM), а финальный результат работы всей системы [18:44].
*   **Специфичность:** Бизнес будет переходить к собственным, узкоспециализированным метрикам вместо общих тестов вроде MMLU [19:40].
*   **Будущее за агентами:** Hugging Face постепенно отказывается от старых лидербордов в пользу тех, где модели должны выполнять действия в интернете (например, бенчмарк Gaia) [23:53].

Никколо Катаста призвал разработчиков и PhD не только пользоваться чужими тестами, но и выпускать собственные «эвалы» (evals), основанные на реальных кейсах провалов моделей [25:15]. Галлюцинация или ошибка — это ценная точка данных, которую стоит публиковать в репозиториях для общего блага [24:48].

## 💡 Советы на будущее: как не сойти с ума от скорости перемен
[[JUMP:25:24]]

В финале панельной дискуссии спикеры дали советы, как выживать в условиях «информационного хлыста» (whiplash), когда новости меняются ежедневно.

*   **Модератор:** Игнорируйте «фермеров вовлеченности» в соцсетях, которые кричат, что программирование мертво [25:37]. Инвестируйте время в глубокое образование и курсы [26:03].
*   **Томас Вольф:** Следите за робототехникой и AI для науки (создание белков, новых материалов) — это следующие большие темы после текста [26:40].
*   **Никколо Катаста:** «Стройте публично» (build in public). Только работая руками, можно почувствовать интуицию модели [27:19].
*   **Перси Лян:** Не смотрите только на метрики, смотрите на **данные**. Поймите, что именно делает модель, когда ошибается [28:10].
*   **Роман (Nebios):** Сохраняйте устойчивость. Даже если кажется, что вы опоздали ко всем трендам, реальное внедрение ИИ в бизнес находится на зачаточном уровне [29:42].

Главным капиталом в 2025 году, по мнению экспертов, остается экспертиза в конкретной области (медицина, право, кодинг). Автоматизация лишь увеличивает ценность тех, кто может правильно направить ИИ, используя свои глубокие профессиональные знания [30:47].