Эссе о разработке игр, мышлении и книгах

Заметки об ИИ в 2024: Текущее состояние en ru

Продолжаю заметки об ИИ на конец 2024 года.

В прошлых постах мы обсудили два тезиса:

  • Анализируя решения крупных разработчиков ИИ, таких как OpenAI или Google, мы можем делать достаточно точные предположения о состоянии этой области знаний.
  • Весь текущий прогресс стоит на одной конкретной базовой технологии — генеративных базах знаний, которые есть большие вероятностные модели.

Опираясь на эти тезисы, давайте посмотрим на текущее состояние индустрии.

Рекогносцировка через призму поколений моделей

Первым делом посмотрим, как эволюционировали топовые релизации универсальных LLM моделей — главное достижение последних лет.

Идеальным примером станет серия моделей от OpenAI: каждая новая модель буквально соответствует этапу развития технологий, как я их вижу:

  1. Юность — GPT-3 — до предела улучшаем модели с помощью масштабирования данных и железа.
  2. Становление — GPT-4 — когда исчерпаны возможности экстенсивного развития, мы переходим на интенсивный путь максимальной адаптации архитектуры. Этот этап логично закончился мультимодальностью — поддержкой разных типов данных: текста, изображений, звука.
  3. Зрелось — о1 — когда мы больше не можем радикально улучшать архитектуру целевой системы, мы начинаем строить надсистему, в которой оригинальная система является одним из компонентов. Шаблон Chain-of-Thought, на который натренирована o1, как раз и является первой такой надсистемой, пусть и очень простой. Его можно воспринимать как последовательное применение модели к чёрной доске. Следующим шагом, например, может быть мультиакторность и специализация моделей.
  4. Старость (?) — GPT-5 — когда все возможности для радикального улучшения технологии исчерпаны, мы берём в руки напильник и начинаем долгий процесс её оптимизации. Улучшать технологию можно ещё долго и, накопительно, сделать её на порядки лучше, но взрывной рост закончен. Поэтому в интернетах упорно ходят слухи, что ждать большого рывка от GPT-5 не стоит.

Обращу ваше внимание на то, что изменение базовой модели — крайне дорогая операция. Модели не меняют по желанию левой пятки. Их стремятся менять ровно тогда, когда выжимать что-то новое из старого подхода становится экономически нецелесообразно по сравнению с вложением средств в новый подход. Иными словами, когда достигнут предел быстрого развития.

В какой-то момент стало нецелесообразно вкладывать основные ресурсы в масштабирование данных и утилизацию железа, поэтому переключились на оптимизацию архитектуры. Когда архитектуру дотюнили, перенаправили финансовые потоки на эксперименты по созданию надсистемы.

Поэтому мы можем выдвинуть следующие предположения

  • Осталось мало возможностей для взрывного экстенсивного развития через масштабирование данных и железа. Если бы этот ресурс (данные и железо) не был исчерпан, продолжали бы выпускать GPT-3.X модели, их бы масштабировали для работы на 2, 5, 10, 100500 видюхах одновременно, NVidia выпускала бы сверхоптимизированное железо для запуска сверхпростых, но гигантских нейронок, etc.
  • Осталось мало возможностей для взрывного развития архитектуры. OpenAI, как и все остальные, не смогли за длительное время изобрести или купить технологию, которая позволила бы продолжать модернизировать архитектуру. Иначе вместо o1 OpenAI тренировала бы GPT-4.5 или GPT-5, заметно превосходящие GPT-4 по качеству.
  • Мы сейчас на этапе построения надсистем над генеративными базами знаний, поскольку именно подготовке таких моделей сейчас отдаётся предпочтение.

Рекогносцировка через призму вероятностных моделей

Улучшать вероятностные модели можно несколькими путями:

  1. Усложнять подготовку модели: больше данных, дольше обучение — лучше результаты.
  2. Усложнять саму модель — изменять архитектуру.
  3. Специализировать модель — увеличивать точность, ограничивая область поиска решений.
  4. Масштабировать модель горизонтально — корректировать ошибки, создавая множество вариантов ответа. Самый простой вариант: если в двух из трёх запусков модель говорит А, а в одном — Б, то скорее всего правильный ответ — А. Чуть сложнее: запуск нескольких специализированных моделей, каждая из которых решает часть задачи.

Пути 1, 2, 3 определяют конечную форму модели, поэтому они — прерогатива разработчиков моделей.

Вариант 4 не изменяет форму самой модели, но позволяет управлять точностью её ответов, поэтому он больше подходит для пользователей моделей.

Держа в уме поколения моделей, мы можем предположить, что от вариантов 1 и 2 уже не ждут радикальных прорывов.

Идеальным примером третьего пути будет Suno — сервис для генерации музыки и песен, значительно превосходящий по качеству работу универсальных моделей. Работать над подобными специализациями разработчикам универсальных моделей не выгодно: чтобы собрать данные и натренировать, условно, 100-1000 специализированных моделей (и упаковать их в универсальную мета-модель), нужно 100-1000 команд уровня Suno. Если же вспомнить, что Suno — стартап-лидер — один из многих (погибших в безвестности), то оценка необходимых ресурсов должна вырасти ещё раз в 100.

Вариант 4 не даёт качественного скачка. Если в какой-то области модель ошибается немного, то горизонтальное масштабирование уберёт эту ошибку и ответы станут немного лучше (раз ошибка была небольшой). Если у модели слепое пятно в какой-то области, то это же слепое пятно, скорее всего, останется и после масштабирования.

В этом плане, модель o1 выглядит как попытка «задёшево» двинуть универсальные LLM одновременно по путям 3 и 4. Получилось лучше, чем GPT-4, но не на порядок. Например, я всё ещё пользуюсь своими кастомными GPT-шками вместо o1 для некоторых задач.

Соответственно, мы можем продолжить выдвигать гипотезы

  • Возможности генеративных баз более-менее определены — скорее всего они будут оставаться на уровне GPT-4 плюс-минус. Само собой, они будут становиться быстрее, меньше, немного точнее и т.п.
  • Разговоры про возможность продолжения быстрого прогресса через масштабирование вычислений на этапе эксплуатации (вариант 4), вместо этапа обучения, скорее всего, маркетинговый булшит ход для поддержания хайпа и потока инвестиций. Про это я ещё скажу в следующем эссе про будущее.

Рекогносцировка через изменения на рынках

  • ChatGPT 3 вышла летом 2020 — 4 года назад.
  • ChatGPT 4 вышла весной 2023 — 1.5 года назад.

На мой взгляд, прошло достаточно времени чтобы делать первые выводы о перспективах технологии: в каких местах она меняет правила игры, в каких делает лучше, а в каких не меняет ничего.

Обратите внимание

  • Всё выше написанное — это моё личное субъективное мнение.
  • Всё написанное ниже — это моё ещё более личное и более субъективное мнение. Это не результат исследования, а продукт моего опыта и наблюдений за новостями.

Подрываемые рынки

Прямо сейчас идут большие изменения в следующих областях:

  • Персональные ассистенты — LLM чаты на порядки улучшают функциональность всего, что было до них: от вордовской скрепки до умных колонок, меняя правила взаимодействия пользователей с ними.
  • Профессиональный софтIDE, CAD, графические редакторы — весь профессиональный софт, который хоть как-то формализровал свою область — а это весь крупный профессиональный софт. Профессиональные области становятся на порядок доступнее новичкам, а профессионалы становятся на порядок эффективнее. При этом меняется концепция работы с профессиональным софтом: от директивного к диалоговому. Пока не понятно, где остановятся изменения: будет ли это просто отдельный режим или вся разработка перейдёт в диалоги, но прежними редакторы точно не останутся.
  • Поиск — пока широко не заметно, но большинство людей пользующихся ChatGPT или аналогами отмечают, что обращаются к классическому поиску значительно реже. На мой взгляд, незаметность обусловлена сочетанием огромной пользовательской базы поисковиков и пока ещё малой распространнённостью чатов. Было бы интересно посмотреть на график количество запросов в Google от среза пользователей вроде «ИТ-шники из Флориды».
  • Музыка — ряд стартапов, например, Suno продемонстрировал что генерировать музыку и песни по формализованному заданию значительно проще, чем изображение и видео. Стулья под охранителями интеллектуальных прав шатаются, но те пока держатся. Скрестим пальчики за будущее. Кстати, если задуматься, генерацию музыки можно отнести к профессиональному софту: ноты и разметка текстов — это типичные DSL.

Улучшаемые рынки

В некоторых областях всё становится просто лучше, например:

  • Croudsourcing платформы вроде Талаки переориентируются с людей на ИИ, но не меняют свою суть.
  • Сервисы модерации, анализа настроений, фильтрации контента тоже становятся лучше, не меняясь концептуально.
  • No-code платформы. Для меня странно записывать их сюда, но де-факто ничего революционного в них я не видел, хотя AI явно увеличивает их возможности.
  • Обработка текста: перевод, «техническая журналистика». Определённо становится удобнее, но ту же автоматизацию написания технических заметок о спортивных матчах, судах и событиях на бирже я не готов считать за подрыв чего-то.
  • Обучение — LLM находят своё применение, но пока не меняют ничего радикально. Например, нет примеров платформ или школ, в которых ИИ заменил бы учителя.

Рынки, на которых все ждут изменений, а их всё нет

В некоторых областях быстрого прорыва не случилось, хотя многие ждали:

  • Робототехинка — штучные гуманоидные роботы вроде появились, но они занимают всё те же ниши развлечений для богатых и вычурного маркетинга.
  • Игры — не вышло ни одной крупной игры с next-gen NPC или next-gen процедурной генерацией. Нет даже ничего, что сравнилось бы с известными прецендентами из before-deep-learning эпохи, вроде Creatures, Black and White, etc. Последнее очень подозрительно, свидетельствует либо об очень долгих циклах адаптации технологий в геймдеве, либо о концептуальных недостатках технологии, либо о превращении геймдева в болото. Ставлю на болото.
  • Профессиональная генерация ready-to-view художественного контента — генерировать контент по точной детальной спецификации всё ещё нельзя и даже близко не заметно когда станет возможным. Работа профессиональных художников, операторов и всех причастных всё ещё нужна и ценна.
  • Профессиональная генерацией ready-to-read художественного контента. Аналогичная ситуация.
  • Скорость внедрения самоходных повозок радикально не изменилась.
  • Медицина — прорывных прорывов пока не заметно, доступность медицины «для бедных» не улучшается.
  • Науказа AlphaFold дали Нобелевку, но я пока не встречал новостей в духе «учёные с помощью AlpaFold сделали что-то революционное» (про это же и Nature пишет). AlphaFold, на мой взгляд, находится ближе к области профессионального софта, чем базовой штуки, подрывающей науку. Также, я периодически встречаю статьи про автоматизацию исследований с помощью LLM, но пока не слышал об их практическом применении. Почему его нет и, скорее всего не будет, расскажу в следующем посте.
  • Бюрократия — пока не было примеров крупной автомтизации работы с бумажками в государственном аппарате.

Основываясь на этих наблюдениях, добавим ещё несколько гипотез

  • ИИ изменяет нашу жизнь к лучшему, но не делает это радикально: улучшения не происходят везде, не происходят быстро, самые сильные изменения сильно локализованы в области профессионального софта и развлечений, тем самым не затрагивая напрямую и значительно жизнь большинства людей.
  • Существует ряд областей, которые «стоят в очереди» за дарами ИИ и могут рвануть, но это возможность скорее гипотетическая, чем реальная.