DeepSeek V3: революция доступности в мире ИИ 0:35
Появление DeepSeek V3 стало знаковым событием, которое, по мнению ведущего Уэса Рота, ставит под сомнение устоявшиеся представления о ресурсозатратности создания передовых языковых моделей. Эта китайская разработка демонстрирует возможности, сопоставимые с лучшими мировыми аналогами, при значительно меньших затратах на обучение и инфраструктуру.
🚀 Технологический прорыв и эффективность обучения 0:52
Согласно посту Андрея Карпатого (Andre Karpathy), модель DeepSeek V3 была обучена на 2048 графических процессорах (GPU) в течение двух месяцев, что обошлось в 6 миллионов долларов. Для сравнения, обучение моделей уровня Llama 3 (405 млрд параметров) требует гораздо более масштабных кластеров и десятков миллионов часов работы GPU.
Ключевые технические особенности DeepSeek V3:
- Архитектура Mixture of Experts (MoE): Вместо единой массивной модели используется набор «экспертов», что позволяет активировать только необходимые компоненты для конкретного запроса.
- Оптимизация процессов: Разработчики заявляют о «кодизайне» алгоритмов, фреймворков и оборудования, что позволило устранить узкие места при передаче данных между узлами обучения.
- Стабильность: В отличие от слухов о частых сбоях при обучении GPT-4, процесс тренировки DeepSeek V3 прошел без критических потерь данных или откатов (rollbacks).
⚖️ Конкуренция с гигантами индустрии 3:49
DeepSeek V3 показывает выдающиеся результаты в бенчмарках, зачастую превосходя открытые модели, такие как Llama 3.1, и конкурируя с закрытыми системами вроде GPT-4o и Claude 3.5 Sonnet.
Основные показатели эффективности:
- Математика и код: Модель демонстрирует впечатляющие результаты в тестах Math и Codeforces, значительно опережая большинство существующих LLM.
- Поиск информации (Needle in a Haystack): DeepSeek V3 успешно справляется с извлечением специфических данных из длинных документов при контекстном окне до 128 000 токенов.
- Пост-тренинг: Разработчики использовали метод «дистилляции знаний» из своей модели DeepSeek R1 (которая обладает продвинутыми навыками «цепочки рассуждений» или Chain of Thought) для улучшения V3.
🛠 Практическое тестирование и разработка 17:16
В ходе серии экспериментов Рот проверил возможности модели в написании кода и логических задачах.
- Разработка игр: Модель с первого раза написала работающий код игры Space Invaders на HTML и JavaScript. Она успешно справилась с итеративными доработками: добавлением управления, препятствий и системы бонусов.
- Логические задачи: В специфических тестах на «здравый смысл» модель проявила себя неоднозначно. Например, она не справилась с задачей про бегунов, отвлекшихся на разные действия, купившись на «ловушки» в вопросе. При этом она показала отличные результаты в анализе медицинских кейсов, продемонстрировав глубокое понимание контекста.
💰 Экономический аспект и будущее открытого ИИ 28:55
Одним из самых впечатляющих факторов является стоимость использования API. Рот отмечает, что цены DeepSeek V3 в 10 раз ниже, чем у конкурентов от OpenAI или Anthropic.
По мнению Уэса Рота, ситуация с DeepSeek V3 доказывает, что:
- Экспортные ограничения на чипы не смогли полностью остановить прогресс в создании моделей Frontier-класса в Китае.
- Открытый исходный код (open source) в ИИ стал мощным инструментом, который невозможно остановить, обеспечивая доступ к передовым технологиям широкому кругу разработчиков.
- Снижение затрат на обучение до уровня в 6 миллионов долларов может привести к появлению огромного количества новых игроков на рынке, что, вероятно, изменит стратегию таких компаний, как NVIDIA.