Как технология TAO от Databricks превращает обычные нейросети в экспертов без участия человека

В мире разработки искусственного интеллекта долгое время существовала «догма» высокого порога входа: для создания качественной специализированной модели требовались тысячи тщательно размеченных примеров данных, ручной труд экспертов и колоссальные вычислительные мощности. Однако в свежем выпуске подкаста Eye on AI Джонатан Франкл, главный научный специалист компании Databricks, представляет технологию TAO (Test-time Adaptive Optimization), которая позволяет обучать модели без идеальных «эталонных» ответов, делая процесс дешевле, быстрее и эффективнее.

🧠 Путь от MosaicML до Databricks: Демократизация ИИ 2:24

Джонатан Франкл присоединился к команде Databricks после того, как полтора года назад его стартап MosaicML был приобретен этим гигантом индустрии данных . История Франкла — это путь от исследователя в MIT, изучавшего эффективность обучения нейросетей, до архитектора систем, которыми пользуются крупнейшие предприятия мира. Главной миссией своей работы он называет контроль и доступность технологии: Франкл сравнивает нынешний этап развития ИИ с эпохой раннего интернета, когда возможность каждого создать свой сайт привела к взрыву креативности и появлению таких немыслимых ранее проектов, как Википедия .

В Databricks Франкл связывает мир академических исследований с практическими нуждами клиентов. Databricks исторически развивала концепцию Data Lakehouse — платформы, объединяющей гибкость «озер данных» с управляемостью баз данных. Франкл утверждает, что ИИ и данные неразрывно связаны: данные бесполезны, если их нельзя понять, а современные методы «интеллектуального анализа данных» позволяют пользователям общаться со своей информацией напрямую, не обладая навыками программирования на Python или SQL .

🛠 Проблема «грязных» данных и рождение TAO 8:37

Одной из самых больших проблем для бизнеса остается тонкая настройка (fine-tuning) моделей. Чтобы заставить нейросеть отвечать в стиле конкретной компании, традиционно требовался набор данных из пар «вопрос-ответ». Франкл отмечает, что в природе таких идеальных данных не существует: у компаний есть горы документов, логи чатов и инструкции, но нет 10 000 примеров того, как именно ИИ должен ответить клиенту .

Технология TAO (Test-time Adaptive Optimization) призвана устранить это препятствие:

Отказ от меток: Для обучения по методу TAO не нужны правильные ответы, достаточно только набора «входящих» запросов (промптов) .
Легкость сбора: Компании могут собрать нужные данные, просто дав сотрудникам или бета-тестерам в течение часа пообщаться с базовой моделью (например, Llama), не заботясь о том, насколько качественные ответы она дает на первом этапе .
Использование RL: Вместо учителя, знающего правильный ответ, система использует методы обучения с подкреплением (Reinforcement Learning), ориентируясь на «лучшее» и «худшее» .

⚖️ Магия вознаграждения: Модель DBRM 15:29

Сердцем технологии является DBRM (Databricks Reward Model). Это специальная «модель-судья», которая оценивает, какой из двух вариантов ответа нейросети выглядит предпочтительнее для человека. Франкл признает, что идея не нова с научной точки зрения, но её реализация для корпоративных задач стала прорывом .

Ключевые особенности DBRM:

Универсальность: Модель обучалась на специфических для бизнеса задачах — работе с документами, структурировании данных и генерации SQL-запросов .
Сравнение вместо эталона: DBRM не знает «правильного» ответа, но обладает интуицией, позволяющей направлять модель к более качественным результатам .
Превосходство над классикой: В экспериментах Databricks метод TAO показал лучшие результаты, чем традиционное обучение на размеченных данных. По мнению Франкла, это происходит потому, что даже академические наборы данных содержат ошибки в разметке, в то время как одна мощная модель-вознаграждение (Reward Model) обеспечивает более стабильный сигнал .

🔄 Непрерывное обучение против «памяти» модели 20:32

Франкл объясняет принципиальное различие между TAO и популярными сейчас моделями с «рассуждениями во время вывода» (как OpenAI o1 или DeepSeek R1). В случае с o1 модель тратит дополнительную энергию и время («compute») каждый раз, когда вы задаете вопрос, но после завершения сессии она не «умнеет» сама по себе .

Подход TAO переносит эти затраты на этап обучения:

Вы тратите ресурсы один раз, чтобы сгенерировать синтетические данные и обучить модель.
В результате получается стандартная, компактная модель, которая работает быстро и дешево при эксплуатации (inference), но уже обладает новыми навыками .
Процесс можно зациклить: собирать новые запросы от пользователей в продакшене, проводить на них дообучение через TAO и периодически обновлять модель .

На вопрос о проблеме катастрофического забывания (когда модель теряет старые знания, обучаясь новым) Франкл отвечает честно: TAO не является панацеей . Однако современные архитектуры стали настолько велики, что «забывание» стало менее критичным. Кроме того, использование метода LoRA (Low-Rank Adaptation) позволяет модели «меньше учиться, но и меньше забывать», выступая своего рода регулятором баланса знаний .

🚀 Будущее: ИИ-агенты и прозрачность рассуждений 48:08

Следующим шагом для Databricks станет развитие способностей моделей к сложным рассуждениям (reasoning) для широкого круга пользователей. Франкл хочет, чтобы модели не просто выдавали результат, но и могли объяснить логику своего решения .

Он подчеркивает, что TAO — это способ дать компаниям «шанс на игру». Вместо того чтобы соревноваться с OpenAI в создании «модели всего», бизнес может с минимальными затратами превратить открытую модель типа Llama в узкоспециализированного эксперта, который в своей нише будет работать не хуже закрытых коммерческих систем . По утверждению Франкла, создание ИИ должно быть таким же простым, как создание сайта, чтобы люди могли сосредоточиться на решении реальных проблем, а не на технической рутине разметки данных .