# Как лаборатория YerevaNN создает ИИ мирового уровня в условиях «видеокарточного голода»

Источник: https://www.youtube.com/watch?v=eTzhu0wEF3o
Канал: Eye on AI
Опубликовано: 09.01.2024

---

Развитие искусственного интеллекта требует колоссальных вычислительных мощностей, что ставит небольшие исследовательские центры в жесткие рамки выживания. Основатель ереванской лаборатории машинного обучения YerevaNN Грант Хачатрян в интервью Крейгу Смиту из проекта Eye on AI рассказывает, как его команде удается проводить исследования мирового уровня, имея в распоряжении всего несколько видеокарт. В центре дискуссии — стратегии преодоления инфраструктурного дефицита, смена научных приоритетов под давлением технологических гигантов и будущее ИИ-сообщества Армении.

## 🇦🇲 Как зародился YerevaNN: от одной видеокарты на съемной квартире до признания
[[JUMP:04:42]]

История лаборатории YerevaNN началась в конце 2015 года [6:04]. Грант Хачатрян, получивший докторскую степень (PhD) в области теории графов в Ереванском государственном университете (ЕГУ) [4:42], совмещал академическую деятельность с работой в индустрии. Он возглавлял команду компьютерного зрения в компании *IntelinAir* [5:08] — американском стартапе с армянскими корнями, занимающемся анализом аэроснимков для сельского хозяйства. В какой-то момент совмещать науку и бизнес стало невозможно, и Хачатрян сделал выбор в пользу академического пути [5:37].

В то время в Армении практически не было квалифицированных научных руководителей в сфере машинного обучения [6:21]. Чтобы исправить это, Грант вместе с единомышленниками основал некоммерческую исследовательскую лабораторию YerevaNN. Название содержит игру слов: столица Армении (Yerevan) и аббревиатура нейронных сетей (NN — Neural Network) [6:04]. 

Начальный этап развития проекта характеризовался следующими деталями:

*   **Инфраструктурный старт:** команда арендовала обычную квартиру в Ереване и купила на собственные средства одну видеокарту для экспериментов [6:35, 9:24].
*   **Первое финансирование:** проект существовал на личные пожертвования основателей и их друзей из ИТ-индустрии [7:04]. В дальнейшем ключевую роль сыграл Арам Галстян, директор по исследованиям в Институте информационных наук Университета Южной Калифорнии (USC ISI) [7:18]. Он стал консультировать команду, подключать их к проектам своего института и помогать с получением субподрядов [7:43].
*   **Эволюция технологий:** официально лаборатория открылась в 2016 году — незадолго до начала эпохи трансформеров [8:37]. Их первые исследования в области обработки естественного языка (NLP), связанные с извлечением знаний из биомедицинской литературы, строились исключительно на базе архитектур LSTM [8:53].
*   **Кадровый приток:** изначально в квартире работало всего пять человек [9:24]. Постепенно YerevaNN доказал, что наука в Армении может быть полноценной карьерой. Через два года после запуска лаборатории произошел знаковый случай: перспективный специалист ушел из высокооплачиваемой коммерческой ИТ-индустрии, чтобы профессионально заниматься исследованиями в YerevaNN [9:38].

## 🔌 Горький урок Ричарда Саттона и «GPU-голод» в Армении
[[JUMP:14:18]]

Ограниченность ресурсов долгое время определяла стратегию YerevaNN. По словам Хачатряна, изначально лаборатория сознательно позиционировала себя как центр «маловычислительных» (less compute-intensive) исследований в области ИИ [14:58]. Руководство намеренно отсекало проекты, требовавшие больших мощностей [15:23].

Однако ситуация изменилась с приходом эпохи больших языковых моделей. Хачатрян вспоминает знаменитое эссе канадского ученого Ричарда Саттона «Горький урок» (*The Bitter Lesson*), ключевой тезис которого заключается в том, что в долгосрочной перспективе методы, полагающиеся на масштабирование вычислений, всегда побеждают подходы, основанные на заложенных человеком знаниях [15:23]. 

Грант признается:

> «Когда статья Саттона только вышла, я был категорически против нее. Я думал: "Нет, это неправда, мы докажем на своем примере, что можно делать отличную науку без гигантских вычислений". Но когда OpenAI анонсировала GPT-3 и я прочитал их технический документ, во мне зародились глубокие сомнения» [15:23, 15:52].

Сегодня Хачатрян констатирует, что делать актуальные исследования без доступа к современным чипам становится практически невозможно [16:20]. Это ставит локальные сообщества перед жестким выбором: либо превращаться в простых пользователей технологий OpenAI и Google, либо искать ресурсы для создания конкурентоспособных моделей на собственном оборудовании [19:05].

Масштабы инфраструктурного кризиса в Армении спикер иллюстрирует конкретными цифрами:

*   В стране сформировалось сильное профессиональное сообщество: ежегодная техническая конференция *Data Fest Yerevan* собирает более 600 участников [16:33, 17:12].
*   При этом Хачатрян полагает, что абсолютное большинство местных разработчиков никогда физически не работали с суперкомпьютерами или крупными вычислительными кластерами [17:12].
*   Для нужд академических исследований и университетов на всю Армению доступно менее 20 видеокарт класса Nvidia A100 [23:52, 24:04]. Примерно столько же чипов находится в распоряжении частных компаний, таких как *Picsart* [24:19].
*   Офис Nvidia в Армении сфокусирован преимущественно на компьютерной графике, поэтому местные ученые не имеют прямого доступа к их ИИ-кластерам для обучения больших моделей [25:39].

На момент интервью в распоряжении YerevaNN благодаря государственным грантам и поддержке ЕГУ находились 8 видеокарт A100, и еще 8 аналогичных ускорителей ожидались к поставке [26:08, 26:34]. Для решения этой проблемы руководство лаборатории ведет активный диалог с правительством Армении [21:37]. По мнению Хачатряна, инвестиции в вычислительную инфраструктуру сегодня критически важны для того, чтобы через 2–3 года в стране появились команды, способные создавать коммерчески успешные ИИ-продукты [21:06].

## 🧪 Языковые модели для биологии: синтез молекул и поиск лекарств
[[JUMP:27:57]]

Необходимость смены научной траектории обострилась после того, как в начале 2023 года компания Meta представила модель *Segment Anything* (SAM) [27:30]. Этот мощный инструмент для сегментации изображений продемонстрировал превосходство масштабных вычислений над академическими подходами. Хачатрян признает, что большая часть исследований по полуавтоматическому обнаружению объектов, которую YerevaNN вел совместно с коллегами из USC, в один миг потеряла актуальность [27:30]. 

Это заставило лабораторию радикально пересмотреть приоритеты и сфокусироваться на двух стратегических нишах. Первой из них стала разработка языковых моделей для фармацевтики и поиска новых лекарств (*drug discovery*) [28:11].

В рамках этого направления команда решает следующие задачи:

1.  **Кодирование молекул:** малые молекулы представляются в виде текстовых последовательностей, что позволяет применять к ним стандартную архитектуру трансформеров [28:39].
2.  **Фильтрация данных:** ученые работают с публичными базами данных о химических соединениях. Биологи часто относятся к этой информации со скепсисом из-за ее неточности, однако команда YerevaNN уверена, что современные архитектуры способны извлечь из этих данных полезные скрытые закономерности [28:26, 28:39].
3.  **Решение проблемы синтеза:** Хачатрян указывает на частый разрыв между теорией и практикой. Алгоритмы могут сгенерировать красивую формулу на компьютере, но при попытке физического синтеза профессиональные химики заявляют, что создать такое вещество в лаборатории невозможно или бессмысленно [29:32]. YerevaNN планирует использовать потенциал больших моделей для прогнозирования реальной синтезируемости соединений [29:58].

В качестве отправной точки армянские исследователи используют открытые модели от Meta, в частности *Galactica*, обученную на научных текстах [30:26]. В проекте задействовано около 7 сотрудников лаборатории [30:11].

## 🛸 Автономная навигация БПЛА и перенос «мировых знаний» в робототехнику
[[JUMP:31:06]]

Вторым ключевым приоритетом лаборатории стала разработка легковесных мультимодальных моделей для автономной навигации беспилотных летательных аппаратов (БПЛА) [31:06]. Цель проекта — создать интеллектуального агента, способного ориентироваться в пространстве в условиях жестких ограничений по энергопотреблению и массе бортового компьютера [31:06].

Основные технические особенности этой разработки:

*   **Мультимодальность:** модель должна обрабатывать не только стандартный RGB-видеопоток, но и инфракрасные изображения, а также радиометрические данные радаров [31:47].
*   **Высокоуровневое управление:** ИИ-система не вмешивается в микроконтроль двигателей (скорость вращения лопастей), а берет на себя роль «виртуального пилота» [32:02]. Она принимает решения стратегического уровня (например, «повернуть налево», «обойти препятствие», «снизить высоту»), эквивалентные командам оператора с джойстиком [32:02, 32:28].
*   **Использование открытых аналогов:** из-за недоступности закрытых коммерческих систем YerevaNN строит свои эксперименты на базе архитектуры *Open Flamingo* — открытой репликации мультимодальной модели *Flamingo* от DeepMind, созданной учеными из Вашингтонского университета [35:41, 35:55].

Хачатрян проводит аналогию с моделью Robotic Transformer 2 (RT-2), представленной подразделением Google DeepMind летом 2023 года [32:43]. RT-2 продемонстрировала поразительный эффект переноса общих знаний о мире в физические действия [34:19]. Например, если перед роборукой разложить флаги разных стран и дать текстовую команду «пододвинь бутылку к Германии», модель успешно справляется с задачей [34:05]. Это происходит потому, что на этапе предобучения на текстах всего интернета сеть «узнала», как выглядит флаг Германии, и смогла сопоставить это знание с физическим пространством перед камерой [34:05, 34:19].

Поскольку коммерческие модели масштаба 500 миллиардов параметров физически невозможно запустить на имеющемся в Армении оборудовании, YerevaNN пытается повторить аналогичные механики на компактных моделях [35:00]. Обучение и тонкая настройка (*fine-tuning*) проводятся как на открытых датасетах робототехнических движений, так и на собственных данных, которые планируется собирать с помощью реальных операторов дронов [36:22, 37:15]. Перспективной сферой применения таких систем Грант считает точечное сельское хозяйство (например, автономный поиск больных деревьев в садах и их локальное опрыскивание) [37:15].

С технической точки зрения управление роботом реализуется через токенизацию команд [39:32, 39:46]. Любое действие кодируется как вызов функции с числовыми аргументами, представленными в виде текстовой строки [39:46]. В случае 6-осевого промышленного манипулятора модель напрямую генерирует последовательность из шести чисел [40:28]. Хачатрян скептически относится к избыточно сложным методам токенизации чисел, утверждая, что при достаточном масштабе трансформеры легко осваивают базовую математику без дополнительных ухищрений [41:38]. Однако для сверхмалых моделей, оптимизируемых под низкое энергопотребление БПЛА, подобные математические трюки все еще могут быть полезны [41:54].

## 🌐 Как оставаться частью мирового сообщества, живя в Ереване
[[JUMP:42:34]]

Несмотря на географическое положение и ограниченность ресурсов, Грант Хачатрян не чувствует себя изолированным от глобальной науки [43:58]. По его мнению, современное ИИ-сообщество беспрецедентно открыто, однако интеграция требует постоянных осознанных усилий со стороны руководства лаборатории [43:58].

Для этого в YerevaNN внедрены жесткие стандарты работы:

*   Каждый ключевой сотрудник лаборатории обязан как минимум раз в год лично посещать крупную международную конференцию (такую как ICML, CVPR или NeurIPS), независимо от того, насколько далеко она проводится [44:25].
*   Любая завершенная научная работа признается успешной только в том случае, если она опубликована в рецензируемом издании уровня Google Scholar Top-20 и ее код выложен на GitHub [45:34, 45:59]. Список целевых журналов и конференций физически висит на стене офиса YerevaNN как ежедневное напоминание для студентов [45:59].
*   Лаборатория активно задействует потенциал армянской научной диаспоры [46:25]. Ученые армянского происхождения, работающие в Meta и Google, регулярно выступают соавторами и менторами проектов. В частности, благодаря сотрудничеству с исследователем Ареном Харатяном из Meta AI, команда YerevaNN подготовила четыре совместные научные публикации [46:52, 47:07].

Хачатрян подчеркивает, что лаборатория переросла этап простой координации разрозненных студенческих проектов [48:06]. Сейчас YerevaNN формирует собственную долгосрочную исследовательскую повестку. Выбор химии и навигации дронов в качестве ключевых тем обусловлен трезвой оценкой конкурентной среды: конкурировать с гигантами в области классического NLP (создание универсальных чат-ботов) без десятков тысяч GPU бессмысленно [19:31, 49:14]. Биотехнологии же, по мнению спикера, станут главным источником добавленной стоимости, которую ИИ принесет мировой экономике в ближайшие десятилетия [50:10].

## 🧠 Философия ИИ: почему предобучение важнее RLHF и как понять скрытые знания моделей
[[JUMP:51:05]]

В завершение беседы Грант Хачатрян поделился своим видением фундаментальных проблем ИИ. Ведущий Крейг Смит поинтересовался, почему бы лаборатории в условиях нехватки видеокарт не переключиться на альтернативные подходы, не требующие гигантских вычислений — например, на концепцию обучения с подкреплением (RL) Ричарда Саттона или архитектуры JEPA Яна Лекуна [51:05, 52:03].

Хачатрян признался, что скептически относится к обучению с подкреплением на основе обратной связи от человека (RLHF), которое сейчас активно применяется для настройки диалоговых систем [52:43]. По его мнению:

> «Чистое предобучение языковых моделей — это невероятно элегантный, красивый и мощный процесс. А часть, связанная с RLHF, часто кажется мне грубым хаком, призванным сделать модели чуть более дружелюбными для конечного пользователя, чтобы люди меньше жаловались» [52:57, 53:13].

Спикер убежден, что все реальные знания и способности модели формируются исключительно на этапе предварительного обучения (*pre-training*) [53:40]. Ключевой вызов для современных исследователей заключается в том, что обученные трансформеры уже содержат в себе колоссальный объем скрытой информации о мире, но человечество пока не умеет эффективно и правильно ее извлекать [53:55]. 

Этот тезис Хачатрян подкрепляет ссылкой на авторитетное мнение сооснователя OpenAI Ильи Суцкевера:

> «Я помню одно из интервью Ильи Суцкевера. На вопрос о том, сколько времени они тратят на генерацию новых идей, а сколько — на их реализацию, он ответил, что 90% времени уходит просто на то, чтобы понять, на что уже способны созданные ими модели. Когда я это услышал, я понял, что мы в YerevaNN занимаемся ровно тем же самым» [57:01, 57:15].

Именно на анализе скрытых возможностей нейросетей сфокусирована значительная часть «нетребовательных к железу» проектов YerevaNN. В качестве примера Хачатрян приводит их недавнюю работу, представленную на престижной конференции по компьютерному зрению CVPR [57:41]. Исследование было посвящено детальному изучению сценариев отказов (*failure modes*) моделей при изменении распределения данных (*domain generalization*) [57:41]. Ученые обнаружили, что за одинаково плохими итоговыми метриками точности на измененных тестовых выборках скрываются совершенно разные математические механизмы сбоя нейросети [57:55, 58:07]. Понимание этих тонких внутренних процессов, по мнению руководителя YerevaNN, открывает путь к созданию ИИ следующего поколения без необходимости бездумного наращивания вычислительных мощностей.