# Как технология TAO от Databricks превращает обычные нейросети в экспертов без участия человека

Источник: https://www.youtube.com/watch?v=-n16GyxooQU
Канал: Eye on AI
Опубликовано: 12.06.2025

---

В мире разработки искусственного интеллекта долгое время существовала «догма» высокого порога входа: для создания качественной специализированной модели требовались тысячи тщательно размеченных примеров данных, ручной труд экспертов и колоссальные вычислительные мощности. Однако в свежем выпуске подкаста **Eye on AI** Джонатан Франкл, главный научный специалист компании **Databricks**, представляет технологию **TAO** (Test-time Adaptive Optimization), которая позволяет обучать модели без идеальных «эталонных» ответов, делая процесс дешевле, быстрее и эффективнее.

## 🧠 Путь от MosaicML до Databricks: Демократизация ИИ
[[JUMP:02:24]]

Джонатан Франкл присоединился к команде Databricks после того, как полтора года назад его стартап **MosaicML** был приобретен этим гигантом индустрии данных [02:38]. История Франкла — это путь от исследователя в MIT, изучавшего эффективность обучения нейросетей, до архитектора систем, которыми пользуются крупнейшие предприятия мира. Главной миссией своей работы он называет контроль и доступность технологии: Франкл сравнивает нынешний этап развития ИИ с эпохой раннего интернета, когда возможность каждого создать свой сайт привела к взрыву креативности и появлению таких немыслимых ранее проектов, как Википедия [03:19].

В Databricks Франкл связывает мир академических исследований с практическими нуждами клиентов. Databricks исторически развивала концепцию **Data Lakehouse** — платформы, объединяющей гибкость «озер данных» с управляемостью баз данных. Франкл утверждает, что ИИ и данные неразрывно связаны: данные бесполезны, если их нельзя понять, а современные методы «интеллектуального анализа данных» позволяют пользователям общаться со своей информацией напрямую, не обладая навыками программирования на Python или SQL [05:29].

## 🛠 Проблема «грязных» данных и рождение TAO
[[JUMP:08:37]]

Одной из самых больших проблем для бизнеса остается тонкая настройка (fine-tuning) моделей. Чтобы заставить нейросеть отвечать в стиле конкретной компании, традиционно требовался набор данных из пар «вопрос-ответ». Франкл отмечает, что в природе таких идеальных данных не существует: у компаний есть горы документов, логи чатов и инструкции, но нет 10 000 примеров того, как именно ИИ должен ответить клиенту [10:46].

Технология **TAO (Test-time Adaptive Optimization)** призвана устранить это препятствие:

*   **Отказ от меток:** Для обучения по методу TAO не нужны правильные ответы, достаточно только набора «входящих» запросов (промптов) [11:50].
*   **Легкость сбора:** Компании могут собрать нужные данные, просто дав сотрудникам или бета-тестерам в течение часа пообщаться с базовой моделью (например, Llama), не заботясь о том, насколько качественные ответы она дает на первом этапе [14:10].
*   **Использование RL:** Вместо учителя, знающего правильный ответ, система использует методы обучения с подкреплением (Reinforcement Learning), ориентируясь на «лучшее» и «худшее» [14:49].

## ⚖️ Магия вознаграждения: Модель DBRM
[[JUMP:15:29]]

Сердцем технологии является **DBRM (Databricks Reward Model)**. Это специальная «модель-судья», которая оценивает, какой из двух вариантов ответа нейросети выглядит предпочтительнее для человека. Франкл признает, что идея не нова с научной точки зрения, но её реализация для корпоративных задач стала прорывом [18:44].

Ключевые особенности DBRM:

1.  **Универсальность:** Модель обучалась на специфических для бизнеса задачах — работе с документами, структурировании данных и генерации SQL-запросов [34:37].
2.  **Сравнение вместо эталона:** DBRM не знает «правильного» ответа, но обладает интуицией, позволяющей направлять модель к более качественным результатам [17:41].
3.  **Превосходство над классикой:** В экспериментах Databricks метод TAO показал лучшие результаты, чем традиционное обучение на размеченных данных. По мнению Франкла, это происходит потому, что даже академические наборы данных содержат ошибки в разметке, в то время как одна мощная модель-вознаграждение (Reward Model) обеспечивает более стабильный сигнал [38:09].

## 🔄 Непрерывное обучение против «памяти» модели
[[JUMP:20:32]]

Франкл объясняет принципиальное различие между TAO и популярными сейчас моделями с «рассуждениями во время вывода» (как OpenAI o1 или DeepSeek R1). В случае с o1 модель тратит дополнительную энергию и время («compute») каждый раз, когда вы задаете вопрос, но после завершения сессии она не «умнеет» сама по себе [20:19].

Подход TAO переносит эти затраты на этап обучения:

*   Вы тратите ресурсы один раз, чтобы сгенерировать синтетические данные и обучить модель.
*   В результате получается стандартная, компактная модель, которая работает быстро и дешево при эксплуатации (inference), но уже обладает новыми навыками [22:31].
*   Процесс можно зациклить: собирать новые запросы от пользователей в продакшене, проводить на них дообучение через TAO и периодически обновлять модель [43:50].

На вопрос о проблеме **катастрофического забывания** (когда модель теряет старые знания, обучаясь новым) Франкл отвечает честно: TAO не является панацеей [26:32]. Однако современные архитектуры стали настолько велики, что «забывание» стало менее критичным. Кроме того, использование метода **LoRA** (Low-Rank Adaptation) позволяет модели «меньше учиться, но и меньше забывать», выступая своего рода регулятором баланса знаний [27:37].

## 🚀 Будущее: ИИ-агенты и прозрачность рассуждений
[[JUMP:48:08]]

Следующим шагом для Databricks станет развитие способностей моделей к сложным рассуждениям (reasoning) для широкого круга пользователей. Франкл хочет, чтобы модели не просто выдавали результат, но и могли объяснить логику своего решения [48:33].

Он подчеркивает, что TAO — это способ дать компаниям «шанс на игру». Вместо того чтобы соревноваться с OpenAI в создании «модели всего», бизнес может с минимальными затратами превратить открытую модель типа Llama в узкоспециализированного эксперта, который в своей нише будет работать не хуже закрытых коммерческих систем [39:45]. По утверждению Франкла, создание ИИ должно быть таким же простым, как создание сайта, чтобы люди могли сосредоточиться на решении реальных проблем, а не на технической рутине разметки данных [49:37].