Революция в мире ИИ: как DeepSeek меняет правила игры 0:00
В последние годы развитие больших языковых моделей (LLM) напоминало гонку вооружений: технологические гиганты соревновались в том, кто создаст самую массивную модель на самом огромном датасете. Однако появление DeepSeek и его новейшей версии DeepSeek-R1 стало поворотным моментом, угрожающим монополии закрытых систем. В этом видео автор канала Computerphile подробно анализирует, почему эти разработки стали настоящим «геймчейнджером», позволяющим достигать выдающихся результатов с использованием гораздо более скромных ресурсов.
🧠 Что такое большие языковые модели 0:38
По своей сути, большая языковая модель — это масштабная нейронная сеть на базе архитектуры Transformer, которая специализируется на прогнозировании следующего слова.
Основные принципы работы:
- Нейронные сети: стандарт для машинного обучения, где сверточные сети популярны в компьютерном зрении.
- Трансформеры: с 2017 года стали основой генеративного ИИ.
- Генерация текста: современные модели не обладают собственным пониманием концепций, а обучаются путем перебора огромных объемов текста из интернета до тех пор, пока не научатся блестяще предсказывать следующее слово.
Автор отмечает, что традиционный подход к обучению требует сотен тысяч графических процессоров (GPU) и миллиардов долларов инвестиций. Компании вроде OpenAI держат параметры моделей и данные для обучения в секрете, предоставляя доступ лишь через API. В противовес этому, Meta выпускает модели линейки Llama в открытом доступе, что, по мнению автора, является правильным шагом для научного прогресса.
💡 Эффективность архитектуры: DeepSeek-V3 и смесь экспертов 4:30
Модель DeepSeek-V3 демонстрирует, что для получения высокой производительности не всегда нужны баснословные суммы. Разработчики утверждают, что обучение этой модели обошлось примерно в $5 млн, в то время как затраты на аналогичные передовые модели могут достигать сотен миллионов или даже миллиарда долларов.
Ключевой технологией, повышающей эффективность, является «смесь экспертов» (Mixture of Experts):
- Проблема монолитности: в обычных моделях при каждом запросе активируется вся гигантская нейросеть (например, с 670 млрд параметров), что крайне энергозатратно и медленно.
- Принцип MoE: сеть разделена на узкоспециализированные части. При поступлении запроса система направляет его только к нужным «экспертам», активируя лишь малую долю параметров (например, 30 млрд вместо 670 млрд).
- Результат: это позволяет экономить вычислительные мощности, так как часть сети может оставаться «спящей», если не востребована для текущей задачи.
Кроме того, автор упоминает процесс дистилляции, когда гигантские модели используются для обучения компактных, 8-миллиардных моделей. Такие модели уже можно запускать на обычном домашнем оборудовании, например, на видеокарте GeForce RTX 4090, сохраняя при этом достаточно высокую точность.
🧩 Chain of Thought: Искусство рассуждения 11:17
Модель DeepSeek-R1 внедряет технологию Chain of Thought (Цепочка мыслей). Это позволяет модели не просто выдавать мгновенный ответ, а «размышлять» над задачей, разбивая её на логические шаги — аналогично тому, как человек записывает вычисления при решении сложной задачи.
Преимущества и особенности:
- Логические задачи: для сложных вопросов, требующих многоходовых рассуждений, такой подход дает значительно более точный результат.
- Открытость: в отличие от закрытых моделей, где внутренний монолог скрыт (как у GPT-o1), DeepSeek-R1 предоставляет полный доступ к коду и процессу «размышлений» модели.
- Обучение через подкрепление: разработчики не просто учили модель готовым цепочкам рассуждений, а использовали обучение с подкреплением (Reinforcement Learning). Модель получала «награду» за правильный ответ и за структурированный монолог, со временем самостоятельно вырабатывая навыки логического мышления.
Автор подчеркивает, что этот метод кардинально упрощает процесс обучения: не нужно искать редкие датасеты с готовыми пошаговыми инструкциями — достаточно иметь вопросы и ответы, а цепочку рассуждений модель выстраивает сама в процессе.
📉 Влияние на рынок и будущее ИИ 17:46
По мнению автора видео, успехи DeepSeek вызвали настоящий переполох в Кремниевой долине. Если бизнес-модель компании строится на «секретном соусе» закрытых моделей, то доступность и открытость DeepSeek ставят её под угрозу.
Также автор отмечает возможный удар по позициям компании Nvidia:
- Смена парадигмы: стоимость акций Nvidia во многом держится на спросе со стороны гигантов, скупающих сотни тысяч дорогих GPU.
- Демократизация: если аналогичную производительность можно получить на ограниченном количестве оборудования или даже на потребительском железе, спрос на бесконечное масштабирование может измениться.
Автор полагает, что мы можем стать свидетелями заката эры закрытого исходного кода (Closed Source AI), так как эффективные методы обучения становятся доступными для исследовательских организаций и небольших компаний.