В мире разработки искусственного интеллекта долгое время существовала «догма» высокого порога входа: для создания качественной специализированной модели требовались тысячи тщательно размеченных примеров данных, ручной труд экспертов и колоссальные вычислительные мощности. Однако в свежем выпуске подкаста Eye on AI Джонатан Франкл, главный научный специалист компании Databricks, представляет технологию TAO (Test-time Adaptive Optimization), которая позволяет обучать модели без идеальных «эталонных» ответов, делая процесс дешевле, быстрее и эффективнее.
🧠 Путь от MosaicML до Databricks: Демократизация ИИ 2:24
Джонатан Франкл присоединился к команде Databricks после того, как полтора года назад его стартап MosaicML был приобретен этим гигантом индустрии данных . История Франкла — это путь от исследователя в MIT, изучавшего эффективность обучения нейросетей, до архитектора систем, которыми пользуются крупнейшие предприятия мира. Главной миссией своей работы он называет контроль и доступность технологии: Франкл сравнивает нынешний этап развития ИИ с эпохой раннего интернета, когда возможность каждого создать свой сайт привела к взрыву креативности и появлению таких немыслимых ранее проектов, как Википедия .
В Databricks Франкл связывает мир академических исследований с практическими нуждами клиентов. Databricks исторически развивала концепцию Data Lakehouse — платформы, объединяющей гибкость «озер данных» с управляемостью баз данных. Франкл утверждает, что ИИ и данные неразрывно связаны: данные бесполезны, если их нельзя понять, а современные методы «интеллектуального анализа данных» позволяют пользователям общаться со своей информацией напрямую, не обладая навыками программирования на Python или SQL .
🛠 Проблема «грязных» данных и рождение TAO 8:37
Одной из самых больших проблем для бизнеса остается тонкая настройка (fine-tuning) моделей. Чтобы заставить нейросеть отвечать в стиле конкретной компании, традиционно требовался набор данных из пар «вопрос-ответ». Франкл отмечает, что в природе таких идеальных данных не существует: у компаний есть горы документов, логи чатов и инструкции, но нет 10 000 примеров того, как именно ИИ должен ответить клиенту .
Технология TAO (Test-time Adaptive Optimization) призвана устранить это препятствие:
- Отказ от меток: Для обучения по методу TAO не нужны правильные ответы, достаточно только набора «входящих» запросов (промптов) .
- Легкость сбора: Компании могут собрать нужные данные, просто дав сотрудникам или бета-тестерам в течение часа пообщаться с базовой моделью (например, Llama), не заботясь о том, насколько качественные ответы она дает на первом этапе .
- Использование RL: Вместо учителя, знающего правильный ответ, система использует методы обучения с подкреплением (Reinforcement Learning), ориентируясь на «лучшее» и «худшее» .
⚖️ Магия вознаграждения: Модель DBRM 15:29
Сердцем технологии является DBRM (Databricks Reward Model). Это специальная «модель-судья», которая оценивает, какой из двух вариантов ответа нейросети выглядит предпочтительнее для человека. Франкл признает, что идея не нова с научной точки зрения, но её реализация для корпоративных задач стала прорывом .
Ключевые особенности DBRM:
- Универсальность: Модель обучалась на специфических для бизнеса задачах — работе с документами, структурировании данных и генерации SQL-запросов .
- Сравнение вместо эталона: DBRM не знает «правильного» ответа, но обладает интуицией, позволяющей направлять модель к более качественным результатам .
- Превосходство над классикой: В экспериментах Databricks метод TAO показал лучшие результаты, чем традиционное обучение на размеченных данных. По мнению Франкла, это происходит потому, что даже академические наборы данных содержат ошибки в разметке, в то время как одна мощная модель-вознаграждение (Reward Model) обеспечивает более стабильный сигнал .
🔄 Непрерывное обучение против «памяти» модели 20:32
Франкл объясняет принципиальное различие между TAO и популярными сейчас моделями с «рассуждениями во время вывода» (как OpenAI o1 или DeepSeek R1). В случае с o1 модель тратит дополнительную энергию и время («compute») каждый раз, когда вы задаете вопрос, но после завершения сессии она не «умнеет» сама по себе .
Подход TAO переносит эти затраты на этап обучения:
- Вы тратите ресурсы один раз, чтобы сгенерировать синтетические данные и обучить модель.
- В результате получается стандартная, компактная модель, которая работает быстро и дешево при эксплуатации (inference), но уже обладает новыми навыками .
- Процесс можно зациклить: собирать новые запросы от пользователей в продакшене, проводить на них дообучение через TAO и периодически обновлять модель .
На вопрос о проблеме катастрофического забывания (когда модель теряет старые знания, обучаясь новым) Франкл отвечает честно: TAO не является панацеей . Однако современные архитектуры стали настолько велики, что «забывание» стало менее критичным. Кроме того, использование метода LoRA (Low-Rank Adaptation) позволяет модели «меньше учиться, но и меньше забывать», выступая своего рода регулятором баланса знаний .
🚀 Будущее: ИИ-агенты и прозрачность рассуждений 48:08
Следующим шагом для Databricks станет развитие способностей моделей к сложным рассуждениям (reasoning) для широкого круга пользователей. Франкл хочет, чтобы модели не просто выдавали результат, но и могли объяснить логику своего решения .
Он подчеркивает, что TAO — это способ дать компаниям «шанс на игру». Вместо того чтобы соревноваться с OpenAI в создании «модели всего», бизнес может с минимальными затратами превратить открытую модель типа Llama в узкоспециализированного эксперта, который в своей нише будет работать не хуже закрытых коммерческих систем . По утверждению Франкла, создание ИИ должно быть таким же простым, как создание сайта, чтобы люди могли сосредоточиться на решении реальных проблем, а не на технической рутине разметки данных .