Как лаборатория YerevaNN создает ИИ мирового уровня в условиях «видеокарточного голода»

Eye on AI 3,1 тыс. 1 ч 1 мин 10 мин 09.01.2024
Главное

Развитие искусственного интеллекта требует колоссальных вычислительных мощностей, что ставит небольшие исследовательские центры в жесткие рамки выживания. Основатель ереванской лаборатории машинного обучения YerevaNN Грант Хачатрян в интервью Крейгу Смиту из проекта Eye on AI рассказывает, как его команде удается проводить исследования мирового уровня, имея в распоряжении всего несколько видеокарт. В центре дискуссии — стратегии преодоления инфраструктурного дефицита, смена научных приоритетов под давлением технологических гигантов и будущее ИИ-сообщества Армении.

🇦🇲 Как зародился YerevaNN: от одной видеокарты на съемной квартире до признания 4:42

История лаборатории YerevaNN началась в конце 2015 года . Грант Хачатрян, получивший докторскую степень (PhD) в области теории графов в Ереванском государственном университете (ЕГУ) , совмещал академическую деятельность с работой в индустрии. Он возглавлял команду компьютерного зрения в компании IntelinAir — американском стартапе с армянскими корнями, занимающемся анализом аэроснимков для сельского хозяйства. В какой-то момент совмещать науку и бизнес стало невозможно, и Хачатрян сделал выбор в пользу академического пути .

В то время в Армении практически не было квалифицированных научных руководителей в сфере машинного обучения . Чтобы исправить это, Грант вместе с единомышленниками основал некоммерческую исследовательскую лабораторию YerevaNN. Название содержит игру слов: столица Армении (Yerevan) и аббревиатура нейронных сетей (NN — Neural Network) .

Начальный этап развития проекта характеризовался следующими деталями:

🔌 Горький урок Ричарда Саттона и «GPU-голод» в Армении 14:18

Ограниченность ресурсов долгое время определяла стратегию YerevaNN. По словам Хачатряна, изначально лаборатория сознательно позиционировала себя как центр «маловычислительных» (less compute-intensive) исследований в области ИИ . Руководство намеренно отсекало проекты, требовавшие больших мощностей .

Однако ситуация изменилась с приходом эпохи больших языковых моделей. Хачатрян вспоминает знаменитое эссе канадского ученого Ричарда Саттона «Горький урок» (The Bitter Lesson), ключевой тезис которого заключается в том, что в долгосрочной перспективе методы, полагающиеся на масштабирование вычислений, всегда побеждают подходы, основанные на заложенных человеком знаниях .

Грант признается:

«Когда статья Саттона только вышла, я был категорически против нее. Я думал: "Нет, это неправда, мы докажем на своем примере, что можно делать отличную науку без гигантских вычислений". Но когда OpenAI анонсировала GPT-3 и я прочитал их технический документ, во мне зародились глубокие сомнения» [15:23, 15:52].

Сегодня Хачатрян констатирует, что делать актуальные исследования без доступа к современным чипам становится практически невозможно . Это ставит локальные сообщества перед жестким выбором: либо превращаться в простых пользователей технологий OpenAI и Google, либо искать ресурсы для создания конкурентоспособных моделей на собственном оборудовании .

Масштабы инфраструктурного кризиса в Армении спикер иллюстрирует конкретными цифрами:

На момент интервью в распоряжении YerevaNN благодаря государственным грантам и поддержке ЕГУ находились 8 видеокарт A100, и еще 8 аналогичных ускорителей ожидались к поставке [26:08, 26:34]. Для решения этой проблемы руководство лаборатории ведет активный диалог с правительством Армении . По мнению Хачатряна, инвестиции в вычислительную инфраструктуру сегодня критически важны для того, чтобы через 2–3 года в стране появились команды, способные создавать коммерчески успешные ИИ-продукты .

🧪 Языковые модели для биологии: синтез молекул и поиск лекарств 27:57

Необходимость смены научной траектории обострилась после того, как в начале 2023 года компания Meta представила модель Segment Anything (SAM) . Этот мощный инструмент для сегментации изображений продемонстрировал превосходство масштабных вычислений над академическими подходами. Хачатрян признает, что большая часть исследований по полуавтоматическому обнаружению объектов, которую YerevaNN вел совместно с коллегами из USC, в один миг потеряла актуальность .

Это заставило лабораторию радикально пересмотреть приоритеты и сфокусироваться на двух стратегических нишах. Первой из них стала разработка языковых моделей для фармацевтики и поиска новых лекарств (drug discovery) .

В рамках этого направления команда решает следующие задачи:

  1. Кодирование молекул: малые молекулы представляются в виде текстовых последовательностей, что позволяет применять к ним стандартную архитектуру трансформеров .
  2. Фильтрация данных: ученые работают с публичными базами данных о химических соединениях. Биологи часто относятся к этой информации со скепсисом из-за ее неточности, однако команда YerevaNN уверена, что современные архитектуры способны извлечь из этих данных полезные скрытые закономерности [28:26, 28:39].
  3. Решение проблемы синтеза: Хачатрян указывает на частый разрыв между теорией и практикой. Алгоритмы могут сгенерировать красивую формулу на компьютере, но при попытке физического синтеза профессиональные химики заявляют, что создать такое вещество в лаборатории невозможно или бессмысленно . YerevaNN планирует использовать потенциал больших моделей для прогнозирования реальной синтезируемости соединений .

В качестве отправной точки армянские исследователи используют открытые модели от Meta, в частности Galactica, обученную на научных текстах . В проекте задействовано около 7 сотрудников лаборатории .

🛸 Автономная навигация БПЛА и перенос «мировых знаний» в робототехнику 31:06

Вторым ключевым приоритетом лаборатории стала разработка легковесных мультимодальных моделей для автономной навигации беспилотных летательных аппаратов (БПЛА) . Цель проекта — создать интеллектуального агента, способного ориентироваться в пространстве в условиях жестких ограничений по энергопотреблению и массе бортового компьютера .

Основные технические особенности этой разработки:

Хачатрян проводит аналогию с моделью Robotic Transformer 2 (RT-2), представленной подразделением Google DeepMind летом 2023 года . RT-2 продемонстрировала поразительный эффект переноса общих знаний о мире в физические действия . Например, если перед роборукой разложить флаги разных стран и дать текстовую команду «пододвинь бутылку к Германии», модель успешно справляется с задачей . Это происходит потому, что на этапе предобучения на текстах всего интернета сеть «узнала», как выглядит флаг Германии, и смогла сопоставить это знание с физическим пространством перед камерой [34:05, 34:19].

Поскольку коммерческие модели масштаба 500 миллиардов параметров физически невозможно запустить на имеющемся в Армении оборудовании, YerevaNN пытается повторить аналогичные механики на компактных моделях . Обучение и тонкая настройка (fine-tuning) проводятся как на открытых датасетах робототехнических движений, так и на собственных данных, которые планируется собирать с помощью реальных операторов дронов [36:22, 37:15]. Перспективной сферой применения таких систем Грант считает точечное сельское хозяйство (например, автономный поиск больных деревьев в садах и их локальное опрыскивание) .

С технической точки зрения управление роботом реализуется через токенизацию команд [39:32, 39:46]. Любое действие кодируется как вызов функции с числовыми аргументами, представленными в виде текстовой строки . В случае 6-осевого промышленного манипулятора модель напрямую генерирует последовательность из шести чисел . Хачатрян скептически относится к избыточно сложным методам токенизации чисел, утверждая, что при достаточном масштабе трансформеры легко осваивают базовую математику без дополнительных ухищрений . Однако для сверхмалых моделей, оптимизируемых под низкое энергопотребление БПЛА, подобные математические трюки все еще могут быть полезны .

🌐 Как оставаться частью мирового сообщества, живя в Ереване 42:34

Несмотря на географическое положение и ограниченность ресурсов, Грант Хачатрян не чувствует себя изолированным от глобальной науки . По его мнению, современное ИИ-сообщество беспрецедентно открыто, однако интеграция требует постоянных осознанных усилий со стороны руководства лаборатории .

Для этого в YerevaNN внедрены жесткие стандарты работы:

Хачатрян подчеркивает, что лаборатория переросла этап простой координации разрозненных студенческих проектов . Сейчас YerevaNN формирует собственную долгосрочную исследовательскую повестку. Выбор химии и навигации дронов в качестве ключевых тем обусловлен трезвой оценкой конкурентной среды: конкурировать с гигантами в области классического NLP (создание универсальных чат-ботов) без десятков тысяч GPU бессмысленно [19:31, 49:14]. Биотехнологии же, по мнению спикера, станут главным источником добавленной стоимости, которую ИИ принесет мировой экономике в ближайшие десятилетия .

🧠 Философия ИИ: почему предобучение важнее RLHF и как понять скрытые знания моделей 51:05

В завершение беседы Грант Хачатрян поделился своим видением фундаментальных проблем ИИ. Ведущий Крейг Смит поинтересовался, почему бы лаборатории в условиях нехватки видеокарт не переключиться на альтернативные подходы, не требующие гигантских вычислений — например, на концепцию обучения с подкреплением (RL) Ричарда Саттона или архитектуры JEPA Яна Лекуна [51:05, 52:03].

Хачатрян признался, что скептически относится к обучению с подкреплением на основе обратной связи от человека (RLHF), которое сейчас активно применяется для настройки диалоговых систем . По его мнению:

«Чистое предобучение языковых моделей — это невероятно элегантный, красивый и мощный процесс. А часть, связанная с RLHF, часто кажется мне грубым хаком, призванным сделать модели чуть более дружелюбными для конечного пользователя, чтобы люди меньше жаловались» [52:57, 53:13].

Спикер убежден, что все реальные знания и способности модели формируются исключительно на этапе предварительного обучения (pre-training) . Ключевой вызов для современных исследователей заключается в том, что обученные трансформеры уже содержат в себе колоссальный объем скрытой информации о мире, но человечество пока не умеет эффективно и правильно ее извлекать .

Этот тезис Хачатрян подкрепляет ссылкой на авторитетное мнение сооснователя OpenAI Ильи Суцкевера:

«Я помню одно из интервью Ильи Суцкевера. На вопрос о том, сколько времени они тратят на генерацию новых идей, а сколько — на их реализацию, он ответил, что 90% времени уходит просто на то, чтобы понять, на что уже способны созданные ими модели. Когда я это услышал, я понял, что мы в YerevaNN занимаемся ровно тем же самым» [57:01, 57:15].

Именно на анализе скрытых возможностей нейросетей сфокусирована значительная часть «нетребовательных к железу» проектов YerevaNN. В качестве примера Хачатрян приводит их недавнюю работу, представленную на престижной конференции по компьютерному зрению CVPR . Исследование было посвящено детальному изучению сценариев отказов (failure modes) моделей при изменении распределения данных (domain generalization) . Ученые обнаружили, что за одинаково плохими итоговыми метриками точности на измененных тестовых выборках скрываются совершенно разные математические механизмы сбоя нейросети [57:55, 58:07]. Понимание этих тонких внутренних процессов, по мнению руководителя YerevaNN, открывает путь к созданию ИИ следующего поколения без необходимости бездумного наращивания вычислительных мощностей.

💬 Цитаты

«Когда статья Саттона только вышла, я был категорически против нее. Я думал: "Нет, это неправда, мы докажем на своем примере, что можно делать отличную науку без гигантских вычислений". Но когда OpenAI анонсировала GPT-3 и я прочитал их технический документ, во мне зародились глубокие сомнения»

Грант Хачатрян 15:52

«Чистое предобучение языковых моделей — это невероятно элегантный, красивый и мощный процесс. А часть, связанная с RLHF, часто кажется мне грубым хаком, призванным сделать модели чуть более дружелюбными для конечного пользователя, чтобы люди меньше жаловались»

Грант Хачатрян 52:57
👥 Спикеры
📖 Термины
Segment Anything (SAM)
Нейросетевая модель от Meta, способная с высокой точностью вырезать и сегментировать любые объекты на изображениях без предварительной настройки.
RLHF
Метод обучения модели с подкреплением на основе отзывов и оценок, выставленных людьми-разметчиками.
Open Flamingo
Открытая мультимодальная альтернатива закрытой модели Flamingo от DeepMind, умеющая сопоставлять текст и изображения.
Robotic Transformer 2 (RT-2)
Модель от Google DeepMind класса vision-language-action, преобразующая визуальные и текстовые инструкции напрямую в физические действия роборуки.
Galactica
Большая языковая модель от Meta, специально обученная на миллионах научных статей, формул и энциклопедических данных.
📊 Цифры
🗓 Хронология
  1. Конец 2015 года Грант Хачатрян с единомышленниками основывает независимую исследовательскую группу YerevaNN.
  2. 2016 год Официальная регистрация лаборатории YerevaNN как некоммерческой организации.
  3. 2017–2018 годы В Ереванском государственном университете запускаются первые специализированные магистерские программы по анализу данных и ИИ.
  4. Начало 2023 года Релиз модели Segment Anything (SAM) от Meta вынуждает команду YerevaNN закрыть старые проекты по компьютерному зрению и полностью сменить научную повестку.
⚖️ Другая сторона
Искусственный интеллект YerevaNN Грант Хачатрян дефицит GPU DeepMind RT2 Data Fest Yerevan