Абхишек Тхакур: «В будущем инженеры машинного обучения будут писать гораздо меньше кода»

The TWIML AI Podcast 863 40 мин 5 мин 16.04.2021
Главное

В мире машинного обучения имя Абхишека Тхакура ассоциируется с исключительной практической экспертизой: он стал первым в мире четырехкратным грандмастером Kaggle. В интервью Сэму Чаррингтону на подкасте TWIML AI Абхишек, ныне инженер в Hugging Face, рассказывает о своем пути от обработки медицинских изображений до автоматизации сложнейших задач NLP и объясняет, почему будущее индустрии принадлежит инструментам, которые пишут код за человека.

🏆 Путь четырехкратного грандмастера: от Matlab к вершинам Kaggle 0:29

Карьера Абхишека Тхакура началась в 2010–2011 годах с интернатуры в Университете Уорика, где он работал над анализом патологических изображений . На тот момент он был студентом факультета электроники и использовал Matlab, а о машинном обучении знал лишь понаслышке, впервые столкнувшись с упоминанием алгоритма Random Forest . Позже, во время магистратуры в Боннском университете, интерес коллег к Data Science подтолкнул его к регистрации на платформе Kaggle .

Первым соревнованием Тхакура стала задача по распознаванию эмоций на лицах в 2013 году . По воспоминаниям гостя, тогда в состязании участвовало всего 50–60 человек, так как глубокое обучение (Deep Learning) только зарождалось, а видеокарты были крайне дорогими . Победители использовали нейросети, в то время как Абхишек пытался решить задачу методами классической обработки изображений в Matlab. Этот опыт стал переломным: осознав преимущество Python и доступность бесплатных библиотек, он полностью переключился на этот язык .

За свою карьеру Тхакур принял участие более чем в 200 соревнованиях . Он выделяет несколько ключевых уроков, которые дала ему платформа:

Несмотря на критику Kaggle за «стерильность» данных, Абхишек считает, что навыки моделирования, полученные там, полностью применимы в индустрии, хотя в реальных проектах 70–80% времени уходит не на обучение, а на сбор и очистку данных .

🤖 Auto NLP: Автоматизация «высшего пилотажа» в обработке текста 11:37

Перейдя в компанию Hugging Face, Абхишек Тхакур инициировал проект Auto NLP, целью которого стало упрощение работы с современными языковыми моделями . Идея родилась из его опыта участия в воркшопах по AutoML (Automatic Machine Learning) на конференциях вроде ICML, где он выигрывал свои первые GPU .

Главная концепция Auto NLP заключается в том, чтобы избавить пользователя от необходимости вручную настраивать архитектуру . Процесс максимально упрощен:

  1. Пользователь загружает CSV-файл с текстом и метками классов .
  2. Система автоматически перебирает state-of-the-art модели (BERT, RoBERTa и др.) .
  3. Auto NLP берет на себя токенизацию, подбор размера батча, скорости обучения (learning rate) и длины последовательности .
  4. На выходе пользователь получает лидерборд моделей, ранжированных по метрикам (точность, F1, precision, recall, AUC) и скорости предсказания .

Тхакур подчеркивает важное отличие продукта Hugging Face от конкурентов: в то время как многие вендоры предоставляют лишь API-эндпоинт, Auto NLP отдает пользователю полные веса модели и токенизатор . Это позволяет инженерам использовать автоматизированный результат как базовую линию (baseline) для дальнейшей тонкой ручной настройки .

На момент интервью проект поддерживает бинарную и многоклассовую классификацию, регрессию, распознавание именованных сущностей (NER) и суммаризацию . В ближайших планах команды — добавление функционала для перевода и ответов на вопросы (QA) .

🛠 Технический стек и «фишки» оптимизации 18:23

Команда проекта удивительно мала: над основной логикой работают всего два человека — сам Абхишек и Саймон, а также точечную помощь оказывают специалисты по инфраструктуре и фронтенду . Вся система развернута на Kubernetes, что позволяет параллельно обучать десятки моделей и проводить масштабный поиск гиперпараметров .

Говоря о методах оптимизации, Тхакур признается, что использует комбинацию сеточного (grid search) и байесовского подходов . Он делится важным эвристическим правилом: опытный инженер знает взаимосвязи параметров. Например, если увеличивается глубина дерева (в градиентном бустинге), часто стоит снизить скорость обучения . В Auto NLP эти знания о «пространстве поиска» зашиты в алгоритмы, что позволяет находить оптимальные конфигурации быстрее, чем при случайном переборе .

Абхишек также дает советы тем, кто работает с NLP вручную:

🔮 Будущее без кода: Мнение о перспективах профессии 36:41

Абхишек Тхакур придерживается смелого и для многих спорного мнения: в ближайшем будущем прикладным специалистам по данным придется писать гораздо меньше кода . По его словам, машинное обучение достигло стадии, когда автоматизация может закрыть большинство стандартных задач индустрии.

Ведущий Сэм Чаррингтон выразил опасение, что такой подход может привести к «локальному оптимуму», когда алгоритм AutoML упустит нетривиальное решение, которое мог бы найти человек . Тхакур частично согласен с этим риском: «Компьютеры ошибаются постоянно» . Однако он возражает, что современные инженеры часто совершают другую ошибку — сразу бросаются применять трансформеры даже там, где сработал бы логистический регресс . Инструменты автоматизации, по мнению гостя, как раз позволяют быстро протестировать множество подходов, включая упрощенные, которые человек мог проигнорировать из-за «хайпа».

Главный совет Абхишека начинающим — не зацикливаться на теории, а практиковаться. Свой подход он резюмирует в предисловии к собственной книге «Approaching (Almost) Any Machine Learning Problem»: «Если ты не писал код — ты не учился» .

💬 Цитаты

«Если ты не писал код — ты не учился.»

Абхишек Тхакур 33:34

«Машинное обучение достигает стадии, когда, вероятно, вам не придется много кодить в будущем.»

Абхишек Тхакур 37:11

«Компьютеры ошибаются постоянно, верно?»

Абхишек Тхакур 39:23
👥 Спикеры
📚 Упомянутые книги
🔗 Упомянутые сайты и проекты
📖 Термины
AutoML
Автоматизированное машинное обучение — процесс автоматизации выбора модели, настройки гиперпараметров и обучения.
Kaggle Grandmaster
Высший титул на платформе Kaggle, присуждаемый за выдающиеся результаты в соревнованиях и вклад в сообщество.
Latency
Задержка или время, необходимое модели для выдачи предсказания после получения входных данных.
BERT / RoBERTa
Популярные архитектуры нейросетей-трансформеров для решения задач обработки естественного языка.
📊 Цифры
🗓 Хронология
  1. 2010-2011 Абхишек начинает путь в анализе данных с интернатуры по медицинским изображениям.
  2. 2013 Участие в первом соревновании на Kaggle по распознаванию эмоций.
  3. Декабрь 2020 Начало активной разработки проекта Auto NLP в Hugging Face.
  4. Март 2021 Публичный релиз Auto NLP.
  5. 2021 Выход книги Абхишека Тхакура об упрощенном подходе к задачам ML.
⚖️ Другая сторона
Искусственный интеллект Abhishek Thakur Hugging Face Kaggle AutoML NLP