DeepSeek V3: шокирующая эффективность и конец «дорогих» нейросетей

Wes Roth 136 тыс. 31 мин 2 мин 27.12.2024
Главное

DeepSeek V3: революция доступности в мире ИИ 0:35

Появление DeepSeek V3 стало знаковым событием, которое, по мнению ведущего Уэса Рота, ставит под сомнение устоявшиеся представления о ресурсозатратности создания передовых языковых моделей. Эта китайская разработка демонстрирует возможности, сопоставимые с лучшими мировыми аналогами, при значительно меньших затратах на обучение и инфраструктуру.

🚀 Технологический прорыв и эффективность обучения 0:52

Согласно посту Андрея Карпатого (Andre Karpathy), модель DeepSeek V3 была обучена на 2048 графических процессорах (GPU) в течение двух месяцев, что обошлось в 6 миллионов долларов. Для сравнения, обучение моделей уровня Llama 3 (405 млрд параметров) требует гораздо более масштабных кластеров и десятков миллионов часов работы GPU.

Ключевые технические особенности DeepSeek V3:

⚖️ Конкуренция с гигантами индустрии 3:49

DeepSeek V3 показывает выдающиеся результаты в бенчмарках, зачастую превосходя открытые модели, такие как Llama 3.1, и конкурируя с закрытыми системами вроде GPT-4o и Claude 3.5 Sonnet.

Основные показатели эффективности:

  1. Математика и код: Модель демонстрирует впечатляющие результаты в тестах Math и Codeforces, значительно опережая большинство существующих LLM.
  2. Поиск информации (Needle in a Haystack): DeepSeek V3 успешно справляется с извлечением специфических данных из длинных документов при контекстном окне до 128 000 токенов.
  3. Пост-тренинг: Разработчики использовали метод «дистилляции знаний» из своей модели DeepSeek R1 (которая обладает продвинутыми навыками «цепочки рассуждений» или Chain of Thought) для улучшения V3.

🛠 Практическое тестирование и разработка 17:16

В ходе серии экспериментов Рот проверил возможности модели в написании кода и логических задачах.

💰 Экономический аспект и будущее открытого ИИ 28:55

Одним из самых впечатляющих факторов является стоимость использования API. Рот отмечает, что цены DeepSeek V3 в 10 раз ниже, чем у конкурентов от OpenAI или Anthropic.

По мнению Уэса Рота, ситуация с DeepSeek V3 доказывает, что:

💬 Цитаты

«DeepSeek, китайская ИИ-компания, делает это легким с выпуском frontier-модели на фоне «шуточного» бюджета.»

«Нам нужно перестать думать, что создание умнейшей модели требует 16 000 GPU.»

👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Mixture of Experts (MoE)
Архитектура нейросети, где модель состоит из множества специализированных подсетей («экспертов»), активирующихся только при необходимости.
Chain of Thought
Метод обучения, при котором модель учится «рассуждать» пошагово перед выдачей финального ответа.
Needle in a Haystack
Тест на способность модели находить конкретный факт среди большого объема посторонней информации.
Дистилляция
Процесс обучения меньшей модели на ответах более мощной, чтобы передать ей способности к логике.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepSeek V3 DeepSeek LLM ИИ-модели Open Source