Computerphile: как DeepSeek разрушает монополию технологических гигантов

Computerphile 1,5 млн 19 мин 3 мин 28.01.2025
Главное

Революция в мире ИИ: как DeepSeek меняет правила игры 0:00

В последние годы развитие больших языковых моделей (LLM) напоминало гонку вооружений: технологические гиганты соревновались в том, кто создаст самую массивную модель на самом огромном датасете. Однако появление DeepSeek и его новейшей версии DeepSeek-R1 стало поворотным моментом, угрожающим монополии закрытых систем. В этом видео автор канала Computerphile подробно анализирует, почему эти разработки стали настоящим «геймчейнджером», позволяющим достигать выдающихся результатов с использованием гораздо более скромных ресурсов.

🧠 Что такое большие языковые модели 0:38

По своей сути, большая языковая модель — это масштабная нейронная сеть на базе архитектуры Transformer, которая специализируется на прогнозировании следующего слова.

Основные принципы работы:

Автор отмечает, что традиционный подход к обучению требует сотен тысяч графических процессоров (GPU) и миллиардов долларов инвестиций. Компании вроде OpenAI держат параметры моделей и данные для обучения в секрете, предоставляя доступ лишь через API. В противовес этому, Meta выпускает модели линейки Llama в открытом доступе, что, по мнению автора, является правильным шагом для научного прогресса.

💡 Эффективность архитектуры: DeepSeek-V3 и смесь экспертов 4:30

Модель DeepSeek-V3 демонстрирует, что для получения высокой производительности не всегда нужны баснословные суммы. Разработчики утверждают, что обучение этой модели обошлось примерно в $5 млн, в то время как затраты на аналогичные передовые модели могут достигать сотен миллионов или даже миллиарда долларов.

Ключевой технологией, повышающей эффективность, является «смесь экспертов» (Mixture of Experts):

Кроме того, автор упоминает процесс дистилляции, когда гигантские модели используются для обучения компактных, 8-миллиардных моделей. Такие модели уже можно запускать на обычном домашнем оборудовании, например, на видеокарте GeForce RTX 4090, сохраняя при этом достаточно высокую точность.

🧩 Chain of Thought: Искусство рассуждения 11:17

Модель DeepSeek-R1 внедряет технологию Chain of Thought (Цепочка мыслей). Это позволяет модели не просто выдавать мгновенный ответ, а «размышлять» над задачей, разбивая её на логические шаги — аналогично тому, как человек записывает вычисления при решении сложной задачи.

Преимущества и особенности:

Автор подчеркивает, что этот метод кардинально упрощает процесс обучения: не нужно искать редкие датасеты с готовыми пошаговыми инструкциями — достаточно иметь вопросы и ответы, а цепочку рассуждений модель выстраивает сама в процессе.

📉 Влияние на рынок и будущее ИИ 17:46

По мнению автора видео, успехи DeepSeek вызвали настоящий переполох в Кремниевой долине. Если бизнес-модель компании строится на «секретном соусе» закрытых моделей, то доступность и открытость DeepSeek ставят её под угрозу.

Также автор отмечает возможный удар по позициям компании Nvidia:

Автор полагает, что мы можем стать свидетелями заката эры закрытого исходного кода (Closed Source AI), так как эффективные методы обучения становятся доступными для исследовательских организаций и небольших компаний.

💬 Цитаты

«Открытость — это хорошо.»

Автор видео 03:51

«Это уровень, который значительно упрощает жизнь таким, как я.»

Автор видео 16:43
👥 Спикер
🔗 Упомянутые сайты и проекты
📖 Термины
Трансформер (Transformer)
Архитектура нейронных сетей, лежащая в основе большинства современных больших языковых моделей.
Смесь экспертов (Mixture of Experts)
Техника обучения, при которой в модели активируются только определенные части («эксперты»), отвечающие за конкретные типы задач.
Chain of Thought (Цепочка мыслей)
Метод, при котором модель перед выдачей ответа генерирует последовательность логических шагов для его получения.
Дистилляция
Процесс обучения компактной модели на ответах более крупной, «учительской» модели.
📊 Цифры
⚖️ Другая сторона
Искусственный интеллект DeepSeek DeepSeek-R1 Large Language Models Mixture of Experts Chain of Thought