Как лаборатория YerevaNN создает ИИ мирового уровня в условиях «видеокарточного голода»

Развитие искусственного интеллекта требует колоссальных вычислительных мощностей, что ставит небольшие исследовательские центры в жесткие рамки выживания. Основатель ереванской лаборатории машинного обучения YerevaNN Грант Хачатрян в интервью Крейгу Смиту из проекта Eye on AI рассказывает, как его команде удается проводить исследования мирового уровня, имея в распоряжении всего несколько видеокарт. В центре дискуссии — стратегии преодоления инфраструктурного дефицита, смена научных приоритетов под давлением технологических гигантов и будущее ИИ-сообщества Армении.

🇦🇲 Как зародился YerevaNN: от одной видеокарты на съемной квартире до признания 4:42

История лаборатории YerevaNN началась в конце 2015 года . Грант Хачатрян, получивший докторскую степень (PhD) в области теории графов в Ереванском государственном университете (ЕГУ) , совмещал академическую деятельность с работой в индустрии. Он возглавлял команду компьютерного зрения в компании IntelinAir — американском стартапе с армянскими корнями, занимающемся анализом аэроснимков для сельского хозяйства. В какой-то момент совмещать науку и бизнес стало невозможно, и Хачатрян сделал выбор в пользу академического пути .

В то время в Армении практически не было квалифицированных научных руководителей в сфере машинного обучения . Чтобы исправить это, Грант вместе с единомышленниками основал некоммерческую исследовательскую лабораторию YerevaNN. Название содержит игру слов: столица Армении (Yerevan) и аббревиатура нейронных сетей (NN — Neural Network) .

Начальный этап развития проекта характеризовался следующими деталями:

Инфраструктурный старт: команда арендовала обычную квартиру в Ереване и купила на собственные средства одну видеокарту для экспериментов [6:35, 9:24].
Первое финансирование: проект существовал на личные пожертвования основателей и их друзей из ИТ-индустрии . В дальнейшем ключевую роль сыграл Арам Галстян, директор по исследованиям в Институте информационных наук Университета Южной Калифорнии (USC ISI) . Он стал консультировать команду, подключать их к проектам своего института и помогать с получением субподрядов .
Эволюция технологий: официально лаборатория открылась в 2016 году — незадолго до начала эпохи трансформеров . Их первые исследования в области обработки естественного языка (NLP), связанные с извлечением знаний из биомедицинской литературы, строились исключительно на базе архитектур LSTM .
Кадровый приток: изначально в квартире работало всего пять человек . Постепенно YerevaNN доказал, что наука в Армении может быть полноценной карьерой. Через два года после запуска лаборатории произошел знаковый случай: перспективный специалист ушел из высокооплачиваемой коммерческой ИТ-индустрии, чтобы профессионально заниматься исследованиями в YerevaNN .

🔌 Горький урок Ричарда Саттона и «GPU-голод» в Армении 14:18

Ограниченность ресурсов долгое время определяла стратегию YerevaNN. По словам Хачатряна, изначально лаборатория сознательно позиционировала себя как центр «маловычислительных» (less compute-intensive) исследований в области ИИ . Руководство намеренно отсекало проекты, требовавшие больших мощностей .

Однако ситуация изменилась с приходом эпохи больших языковых моделей. Хачатрян вспоминает знаменитое эссе канадского ученого Ричарда Саттона «Горький урок» (The Bitter Lesson), ключевой тезис которого заключается в том, что в долгосрочной перспективе методы, полагающиеся на масштабирование вычислений, всегда побеждают подходы, основанные на заложенных человеком знаниях .

Грант признается:

«Когда статья Саттона только вышла, я был категорически против нее. Я думал: "Нет, это неправда, мы докажем на своем примере, что можно делать отличную науку без гигантских вычислений". Но когда OpenAI анонсировала GPT-3 и я прочитал их технический документ, во мне зародились глубокие сомнения» [15:23, 15:52].

Сегодня Хачатрян констатирует, что делать актуальные исследования без доступа к современным чипам становится практически невозможно . Это ставит локальные сообщества перед жестким выбором: либо превращаться в простых пользователей технологий OpenAI и Google, либо искать ресурсы для создания конкурентоспособных моделей на собственном оборудовании .

Масштабы инфраструктурного кризиса в Армении спикер иллюстрирует конкретными цифрами:

В стране сформировалось сильное профессиональное сообщество: ежегодная техническая конференция Data Fest Yerevan собирает более 600 участников [16:33, 17:12].
При этом Хачатрян полагает, что абсолютное большинство местных разработчиков никогда физически не работали с суперкомпьютерами или крупными вычислительными кластерами .
Для нужд академических исследований и университетов на всю Армению доступно менее 20 видеокарт класса Nvidia A100 [23:52, 24:04]. Примерно столько же чипов находится в распоряжении частных компаний, таких как Picsart .
Офис Nvidia в Армении сфокусирован преимущественно на компьютерной графике, поэтому местные ученые не имеют прямого доступа к их ИИ-кластерам для обучения больших моделей .

На момент интервью в распоряжении YerevaNN благодаря государственным грантам и поддержке ЕГУ находились 8 видеокарт A100, и еще 8 аналогичных ускорителей ожидались к поставке [26:08, 26:34]. Для решения этой проблемы руководство лаборатории ведет активный диалог с правительством Армении . По мнению Хачатряна, инвестиции в вычислительную инфраструктуру сегодня критически важны для того, чтобы через 2–3 года в стране появились команды, способные создавать коммерчески успешные ИИ-продукты .

🧪 Языковые модели для биологии: синтез молекул и поиск лекарств 27:57

Необходимость смены научной траектории обострилась после того, как в начале 2023 года компания Meta представила модель Segment Anything (SAM) . Этот мощный инструмент для сегментации изображений продемонстрировал превосходство масштабных вычислений над академическими подходами. Хачатрян признает, что большая часть исследований по полуавтоматическому обнаружению объектов, которую YerevaNN вел совместно с коллегами из USC, в один миг потеряла актуальность .

Это заставило лабораторию радикально пересмотреть приоритеты и сфокусироваться на двух стратегических нишах. Первой из них стала разработка языковых моделей для фармацевтики и поиска новых лекарств (drug discovery) .

В рамках этого направления команда решает следующие задачи:

Кодирование молекул: малые молекулы представляются в виде текстовых последовательностей, что позволяет применять к ним стандартную архитектуру трансформеров .
Фильтрация данных: ученые работают с публичными базами данных о химических соединениях. Биологи часто относятся к этой информации со скепсисом из-за ее неточности, однако команда YerevaNN уверена, что современные архитектуры способны извлечь из этих данных полезные скрытые закономерности [28:26, 28:39].
Решение проблемы синтеза: Хачатрян указывает на частый разрыв между теорией и практикой. Алгоритмы могут сгенерировать красивую формулу на компьютере, но при попытке физического синтеза профессиональные химики заявляют, что создать такое вещество в лаборатории невозможно или бессмысленно . YerevaNN планирует использовать потенциал больших моделей для прогнозирования реальной синтезируемости соединений .

В качестве отправной точки армянские исследователи используют открытые модели от Meta, в частности Galactica, обученную на научных текстах . В проекте задействовано около 7 сотрудников лаборатории .

🛸 Автономная навигация БПЛА и перенос «мировых знаний» в робототехнику 31:06

Вторым ключевым приоритетом лаборатории стала разработка легковесных мультимодальных моделей для автономной навигации беспилотных летательных аппаратов (БПЛА) . Цель проекта — создать интеллектуального агента, способного ориентироваться в пространстве в условиях жестких ограничений по энергопотреблению и массе бортового компьютера .

Основные технические особенности этой разработки:

Мультимодальность: модель должна обрабатывать не только стандартный RGB-видеопоток, но и инфракрасные изображения, а также радиометрические данные радаров .
Высокоуровневое управление: ИИ-система не вмешивается в микроконтроль двигателей (скорость вращения лопастей), а берет на себя роль «виртуального пилота» . Она принимает решения стратегического уровня (например, «повернуть налево», «обойти препятствие», «снизить высоту»), эквивалентные командам оператора с джойстиком [32:02, 32:28].
Использование открытых аналогов: из-за недоступности закрытых коммерческих систем YerevaNN строит свои эксперименты на базе архитектуры Open Flamingo — открытой репликации мультимодальной модели Flamingo от DeepMind, созданной учеными из Вашингтонского университета [35:41, 35:55].

Хачатрян проводит аналогию с моделью Robotic Transformer 2 (RT-2), представленной подразделением Google DeepMind летом 2023 года . RT-2 продемонстрировала поразительный эффект переноса общих знаний о мире в физические действия . Например, если перед роборукой разложить флаги разных стран и дать текстовую команду «пододвинь бутылку к Германии», модель успешно справляется с задачей . Это происходит потому, что на этапе предобучения на текстах всего интернета сеть «узнала», как выглядит флаг Германии, и смогла сопоставить это знание с физическим пространством перед камерой [34:05, 34:19].

Поскольку коммерческие модели масштаба 500 миллиардов параметров физически невозможно запустить на имеющемся в Армении оборудовании, YerevaNN пытается повторить аналогичные механики на компактных моделях . Обучение и тонкая настройка (fine-tuning) проводятся как на открытых датасетах робототехнических движений, так и на собственных данных, которые планируется собирать с помощью реальных операторов дронов [36:22, 37:15]. Перспективной сферой применения таких систем Грант считает точечное сельское хозяйство (например, автономный поиск больных деревьев в садах и их локальное опрыскивание) .

С технической точки зрения управление роботом реализуется через токенизацию команд [39:32, 39:46]. Любое действие кодируется как вызов функции с числовыми аргументами, представленными в виде текстовой строки . В случае 6-осевого промышленного манипулятора модель напрямую генерирует последовательность из шести чисел . Хачатрян скептически относится к избыточно сложным методам токенизации чисел, утверждая, что при достаточном масштабе трансформеры легко осваивают базовую математику без дополнительных ухищрений . Однако для сверхмалых моделей, оптимизируемых под низкое энергопотребление БПЛА, подобные математические трюки все еще могут быть полезны .

🌐 Как оставаться частью мирового сообщества, живя в Ереване 42:34

Несмотря на географическое положение и ограниченность ресурсов, Грант Хачатрян не чувствует себя изолированным от глобальной науки . По его мнению, современное ИИ-сообщество беспрецедентно открыто, однако интеграция требует постоянных осознанных усилий со стороны руководства лаборатории .

Для этого в YerevaNN внедрены жесткие стандарты работы:

Каждый ключевой сотрудник лаборатории обязан как минимум раз в год лично посещать крупную международную конференцию (такую как ICML, CVPR или NeurIPS), независимо от того, насколько далеко она проводится .
Любая завершенная научная работа признается успешной только в том случае, если она опубликована в рецензируемом издании уровня Google Scholar Top-20 и ее код выложен на GitHub [45:34, 45:59]. Список целевых журналов и конференций физически висит на стене офиса YerevaNN как ежедневное напоминание для студентов .
Лаборатория активно задействует потенциал армянской научной диаспоры . Ученые армянского происхождения, работающие в Meta и Google, регулярно выступают соавторами и менторами проектов. В частности, благодаря сотрудничеству с исследователем Ареном Харатяном из Meta AI, команда YerevaNN подготовила четыре совместные научные публикации [46:52, 47:07].

Хачатрян подчеркивает, что лаборатория переросла этап простой координации разрозненных студенческих проектов . Сейчас YerevaNN формирует собственную долгосрочную исследовательскую повестку. Выбор химии и навигации дронов в качестве ключевых тем обусловлен трезвой оценкой конкурентной среды: конкурировать с гигантами в области классического NLP (создание универсальных чат-ботов) без десятков тысяч GPU бессмысленно [19:31, 49:14]. Биотехнологии же, по мнению спикера, станут главным источником добавленной стоимости, которую ИИ принесет мировой экономике в ближайшие десятилетия .

🧠 Философия ИИ: почему предобучение важнее RLHF и как понять скрытые знания моделей 51:05

В завершение беседы Грант Хачатрян поделился своим видением фундаментальных проблем ИИ. Ведущий Крейг Смит поинтересовался, почему бы лаборатории в условиях нехватки видеокарт не переключиться на альтернативные подходы, не требующие гигантских вычислений — например, на концепцию обучения с подкреплением (RL) Ричарда Саттона или архитектуры JEPA Яна Лекуна [51:05, 52:03].

Хачатрян признался, что скептически относится к обучению с подкреплением на основе обратной связи от человека (RLHF), которое сейчас активно применяется для настройки диалоговых систем . По его мнению:

«Чистое предобучение языковых моделей — это невероятно элегантный, красивый и мощный процесс. А часть, связанная с RLHF, часто кажется мне грубым хаком, призванным сделать модели чуть более дружелюбными для конечного пользователя, чтобы люди меньше жаловались» [52:57, 53:13].

Спикер убежден, что все реальные знания и способности модели формируются исключительно на этапе предварительного обучения (pre-training) . Ключевой вызов для современных исследователей заключается в том, что обученные трансформеры уже содержат в себе колоссальный объем скрытой информации о мире, но человечество пока не умеет эффективно и правильно ее извлекать .

Этот тезис Хачатрян подкрепляет ссылкой на авторитетное мнение сооснователя OpenAI Ильи Суцкевера:

«Я помню одно из интервью Ильи Суцкевера. На вопрос о том, сколько времени они тратят на генерацию новых идей, а сколько — на их реализацию, он ответил, что 90% времени уходит просто на то, чтобы понять, на что уже способны созданные ими модели. Когда я это услышал, я понял, что мы в YerevaNN занимаемся ровно тем же самым» [57:01, 57:15].

Именно на анализе скрытых возможностей нейросетей сфокусирована значительная часть «нетребовательных к железу» проектов YerevaNN. В качестве примера Хачатрян приводит их недавнюю работу, представленную на престижной конференции по компьютерному зрению CVPR . Исследование было посвящено детальному изучению сценариев отказов (failure modes) моделей при изменении распределения данных (domain generalization) . Ученые обнаружили, что за одинаково плохими итоговыми метриками точности на измененных тестовых выборках скрываются совершенно разные математические механизмы сбоя нейросети [57:55, 58:07]. Понимание этих тонких внутренних процессов, по мнению руководителя YerevaNN, открывает путь к созданию ИИ следующего поколения без необходимости бездумного наращивания вычислительных мощностей.