IBM Technology разложили по полочкам AI, ML и Deep Learning

Искусственный интеллект, машинное обучение и глубокое обучение — термины, заполонившие современное технологическое пространство, однако их точное соотношение часто вызывает путаницу. В новом видео ведущий канала IBM Technology детально разбирает структуру этих понятий, раскладывая их по полочкам в виде единой системы. Главный акцент сделан на недавнем феномене генеративного ИИ и фундаментальных моделях, которые перевернули привычную кривую адаптации технологий и вывели индустрию на траекторию взрывного роста.

🧠 Что такое ИИ: от университетских лабораторий к экспертным системам 1:22

В самом широком смысле искусственный интеллект (ИИ) — это попытка смоделировать с помощью компьютера систему, которая способна соответствовать человеческому интеллекту или превосходить его. Под интеллектом в данном контексте автор видео предлагает понимать базовые когнитивные способности: умение учиться, делать выводы и логически рассуждать.

История ИИ развивалась волнообразно. В самом начале своего пути технология оставалась исключительно академическим исследовательским проектом, о котором обыватели даже не слышали. Ведущий делится личным воспоминанием из своих студенческих лет: в то время они уже занимались разработками в области ИИ, используя такие языки программирования, как Lisp и Prolog. Шутя о том, что тогда ему приходилось «ездить на учебу верхом на динозавре», автор отмечает, что те ранние наработки стали прямыми предшественниками так называемых экспертных систем.

Полноценная популяризация экспертных систем и достижение ими критической массы на рынке пришлись на период 1980-х и 1990-х годов. Все эти технологии активно развивались задолго до того, как индустрия перешла к следующему важнейшему этапу — машинному обучению.

📊 Машинное обучение: поиск закономерностей и защита от киберугроз 2:53

Машинное обучение (ML) представляет собой внутренний слой в общей экосистеме ИИ. Главное отличие от классического программирования заложено в самом названии: машина учиться самостоятельно. Разработчику больше не нужно жестко прописывать каждую строчку кода и алгоритм действий — вместо этого системе скармливают огромные массивы информации, на основе которых она проводит самостоятельные наблюдения.

Принцип работы алгоритмов машинного обучения ведущий наглядно объясняет на примере карточек с геометрическими фигурами. Если показать системе ограниченный набор данных, предсказать следующий элемент будет трудно. Однако по мере накопления обучающей выборки точность прогнозов растет, пока алгоритм не выявит устойчивую закономерность. Впрочем, реальные данные всегда могут подкинуть «крученый мяч» — неожиданное изменение последовательности, которое заставит модель перестраивать логику.

Способность машинного обучения находить скрытые паттерны и, что не менее важно, фиксировать аномалии (выбросы из общего ряда данных) нашла критически важное применение на практике. Автор видео, опираясь на свой профессиональный опыт в сфере кибербезопасности, утверждает, что именно ML-модели сегодня эффективно выявляют подозрительную активность пользователей, маргинализируя и подсвечивая действия, которые выходят за рамки их стандартного поведения в системе. В общественном сознании эта технология закрепилась и стала массовой относительно недавно — в районе 2010-х годов.

🕸️ Глубокое обучение и загадка «черного ящика» 4:49

Следующим, еще более глубоким слоем диаграммы Венна является глубокое обучение (Deep Learning, DL). В основе этого технологического направления лежит использование искусственных нейронных сетей. По словам ведущего, такие сети призваны имитировать и воспроизводить архитектуру работы человеческого мозга — по крайней мере в той степени, в которой современная наука вообще понимает его устройство.

Слово «глубокое» в названии указывает на то, что компьютерная симуляция состоит из множества последовательных слоев нейросетей. Однако у такого усложнения есть обратная сторона. Человеческий мозг бывает непредсказуем: на один и тот же входящий стимул на выходе можно получить разные результаты. Как подчеркивает автор, глубокое обучение унаследовало эту черту: из-за колоссального количества внутренних слоев разработчики порой не способны до конца расшифровать и понять, почему именно нейросеть выдала конкретный результат. Этот феномен усложняет декомпозицию процессов, но не мешает глубокому обучению, популяризировавшемуся в 2010-х годах, оставаться базисом для новейших ИИ-прорывов.

🚀 Генеративный ИИ: Т9 на стероидах и музыкальная аналогия 5:43

Самый свежий и обсуждаемый виток эволюции технологий — это генеративный ИИ (Generative AI), находящийся в самом центре современной ИИ-структуры. Его появление неразрывно связано с внедрением фундаментальных моделей (Foundation Models), частным случаем которых выступают большие языковые модели (LLM). На базе этих моделей строятся текстовые роботы и чат-боты.

В качестве упрощения ведущий предлагает сравнить принцип работы больших языковых моделей с функцией автозаполнения (Т9) в обычном смартфоне. Разница лишь в масштабе: если телефон пытается угадать следующее слово, то LLM предсказывает следующее предложение, следующий абзац или даже целый документ целиком. Это обеспечивает колоссальный экспоненциальный скачок в возможностях систем.

В индустрии существует авторитетное мнение, согласно которому генеративный ИИ на самом деле ничего не генерирует, а лишь бездумно транслирует и пережевывает уже существующую человеческую информацию, меняя ее формат. Ведущий категорически не согласен с такой оценкой и приводит красивую музыкальную аналогию:

Абсолютно все музыкальные ноты уже давно изобретены человеком.
Любая новая песня — это всего лишь рекомбинация и новая перестановка уже существующих нот.
Несмотря на это, никто не утверждает, будто новой музыки не существует, а композиторы занимаются лишь плагиатом.

По мнению автора, генеративный ИИ работает аналогичным образом: на основе старых данных он способен создавать принципиально новые, уникальные произведения и смыслы.

🎭 Дипфейки и чат-боты: польза против злоупотреблений 7:45

Возможности генеративных моделей не ограничиваются текстом — они активно распространяются на аудио- и видеоконтент, что породило феномен дипфейков. С помощью нейросетей можно с высокой точностью скопировать и воссоздать голос конкретного человека, заставив его произносить фразы, которые он никогда не говорил в реальности.

Технология дипфейков имеет огромный позитивный потенциал в легальных сферах:

Индустрия развлечений, кино и создание пародий.
Медицинская помощь людям, которые теряют или уже полностью потеряли свой биологический голос из-за болезней (ИИ позволяет им общаться с миром с помощью кастомизированной озвучки напечатанного текста).

Тем не менее, автор видео предупреждает о серьезных рисках злоупотреблений, когда эти инструменты используются для мошенничества и дезинформации. Чат-боты и дипфейки, будучи частью фундаментальных моделей, заставили весь мир сфокусировать внимание на ИИ благодаря умению генерировать уникальный контент или емко резюмировать огромные массивы информации.

📈 Изменение кривой адаптации: полет на Луну 9:03

В ранние десятилетия темпы внедрения искусственного интеллекта оставались крайне низкими. Большинство людей не подозревали об этой технологии, а экспертам казалось, что полноценный рабочий ИИ — это то, что «всегда будет создано через 5–10 лет». Появление машинного и глубокого обучения в 2010-х годах сдвинуло дело с мертвой точки, запустив первые заметные процессы коммерческого внедрения.

Однако настоящий переломный момент наступил с выходом на сцену фундаментальных моделей и генеративного ИИ. По оценке автора, график адаптации технологии в этот момент устремился «прямо на Луну». Фундаментальные модели навсегда изменили кривую восприятия инноваций бизнесом и обществом. Сегодня ИИ стремительно внедряется во все сферы жизни, и ключевая задача человечества — четко понимать структуру этих инструментов, чтобы извлечь из технологической революции максимальную пользу.