Эссе о разработке игр, мышлении и книгах

Reasoning LLMs are Wandering Solution Explorers

Иллюстрация проблемы (с) ChatGPT

Иллюстрация проблемы (с) ChatGPT

На arXiv появилась интересная статья в пользу того, что современные Reasoning LLM занимаются скорее «случайным блужданием в пространстве решений», чем «систематическим поиском решений».

Основной текст статьи — около 10 страниц довольно простого текста, рекомендую почитать.

Что сделали авторы:

  1. Формализовали понятия «систематического исследования пространства решений» и «случайного блуждания в пространстве решений».
  2. Построили очень простую и показательную модель как эти штуки работают.
  3. На основе этой модели показали, что случайное блуждание можно легко перепутать с систематическим исследованием, если у вас много вычислительных мощностей.
  4. Также показали, что эффективность случайного блуждания очень быстро деградирует, если сложность задачи выходит за рамки доступных ресурсов.
  5. Формализовали проблемы из реального мира в строго определённые задачи со структурированной областью решений.
  6. Протестировали на этих задачах современные LLM и показали, что их поведение скорее напоминает случайное блуждание.

Я скорее согласен с идеей авторов, но не могу утверждать, что статья безупречна. Есть вероятность, что LLM они используют не совсем корректно и задачи формализованы неудобным для них образом.

Однако основная ценность статьи не в финальных выводах, а в отличной формализации процесса поиска решений, концепциях «случайного блуждания» и «систематического поиска», и особенно в упрощённой модели их поведения.

Если вам интересен вопрос «мыслит ли LLM» (и шире — методики поиска решений), рекомендую изучить подход этой статьи, как перспективный угол атаки на проблему.

Взгляд на управление: Инженерия — это наука — это инженерия

Наглядная иллюстрация инженерного и научного подходов.

Наглядная иллюстрация инженерного и научного подходов.

В предыдущем посте мы обсудили, что инженерия — это творческая деятельность, которая не сводится к исполнению инструкций. Поэтому для управления инженерными коллективами необходимо использовать практики, созданные для творческих коллективов.

А что может быть более творческим, чем вокально-инструментальный ансамбль наука?

Поэтому в этом посте я попытаюсь показать, что инженерия концептуально значительно ближе к науке, чем может показаться на первый взгляд. А также, что в современном мире эти дисциплины всё больше сближаются. Я бы даже поставил на то, что граница между ними сотрётся.

Далее

Взгляд на управление: Нет инструкций для инженерии

«Инженер Сидящий» © ChatGPT + [Врубель](https://ru.wikipedia.org/wiki/Врубель,_Михаил_Александрович)

«Инженер Сидящий» © ChatGPT + Врубель

Лет 5 хотел написать этот пост и всё ещё не до конца понимаю, почему его надо писать — на мой взгляд эти вещи очевидны.

Но я также не понимаю некоторых явлений из рабочей практики и теории, например.

Почему все большинство теорий о менеджменте выводится из опыта физического регламентированного производства, а не из опыта инженерных и научных коллективов? Регламентированного — в смысле, что работа заключается в следовании инструкциям.

Конечно, написано много книг с наборами конкретных практик в духе «Как я был Engineering Manager» или «Как мы в Google делаем менеджмент», но это не теории — это наборы практик для частных случаев — для разумного применения этих практик надо иметь в голове соответствующую теорию.

Почему в управление творческими коллективами постоянно протекают практики из управления регламентированными коллективами? От попыток зафиксировать норму выработки до использования velocity команды как KPI. От попыток загрузить 100% времени инженера, до (неявного) требования подписываться кровью под каждой эстимацией. Не говоря уже об отказе в самостоятельном принятии решений, навязывании жёсткого расписания и работы в офисе.

Оба вопроса, конечно, риторические.

Ответ на первый вопрос: «так исторически сложилось» — до 1980-х годов действительно имело смысл выводить менеджмент, утрируя, из управления ручным трудом на фабриках. И то не всегда: хорошо, что в той же NASA пошли другим путём. Но это было полвека назад; сейчас мы живём буквально в будущем по отношению к тому времени, но продолжаем опираться на его концепции — и это ответ на второй вопрос.

Между тем, причинно-следственные связи никто не отменял: какой бы крутой ни была ваша команда, какую бы замечательную идею вы ни имели, если это всё пропускается через не предназначенный для этого механизм — чуждые концепции, чуждые процессы —, то на выходе вы получите плохой продукт и страдающих людей.

Поэтому в этом и паре следующих постов я хочу обсудить роль творчества в инженерной работе: почему оно критически важно и где искать вдохновение для управления творческими коллективами.

Далее

Взгляд на управление: Что почитать, когда и почему

Книги из поста.

Книги из поста.

На моей последней работе мне периодически было сложно доносить свои гениальные управленческие идеи до коллег. Порефлексировав, я пришёл к выводу, что незаметно отдрейфовал в слишком узкое и специфическое понятийное поле, из-за чего мне часто приходилось на ходу заниматься переводом концепций из своих внутренних представлений в какие-то более-менее общепринятые понятия. Мало того, что это сложно, так ещё и смотрят на тебя при этом не всегда как на умного человека :-D

Поэтому я решил синхронизироваться с последними достижениями человеческой мысли и примерно год назад затарил 9 топовых книг по менеджменту. Дабы обозреть ситуацию с высоты птичьего полёта, подбить словарик и набрать удобоваримых аргументов на будущее.

Весь прошлый год я эти книги читал, но, вопреки обычаю, рецензии не писал:

  • С моей скоростью подготовки публикаций обзор 9 книг занял бы целый месяц.
  • Все книги топовые — много читателей, большие рейтинги, куча обзоров в интернете — нет смысла повторяться.
  • Книги имеют формат учебников и/или агиток. Писать рецензии на заведомо хорошие учебники смысла нет.

Вместо отдельных рецензий я решил подготовить обзорный пост с кратким описанием каждой книги, рекомендациями, когда её читать, и парой заметок. Вы читаете его прямо сейчас.

Оговорка

Комментарии к книгам местами весьма предвзятые — моё личное мнение.

Итак, приступим.

Далее

Саммари презентации GPT-5 без маркетинговой мишуры

«Случайно» увеличили один из столбцов на графике в два раза. «Случайно» уменьшили один из столбцов на графике раза в три.

Кто считает, что это случайность, пусть первым бросит в меня камень.

Если что, в том же научном сообществе разбирательство по поводу таких графиков может дойти вплоть до остракизма авторов. Но это ж бизнес, маркетинг — все так делают, правда?

  1. Сеть стала, в среднем, немного (на проценты) умнее.
  2. В некоторых аспектах сеть стала значительно умнее (на десятки процентов).
  3. В некоторых аспектах сеть стала немного глупее(!).
  4. API стало дешевле, или нет, — смотря как вы его используете.
  5. OpenAI сознательно вводят людей в заблуждение по поводу способностей новой модели — смотрите скрины.

=> Мировой лидер в LLM начал вязнуть в болоте, скорее всего за ним последуют все остальные.

Когда у вас всё хорошо и вы совершаете очередной прорыв, вы не мухлюете с картинками.

Это не значит, что прогресс закончился, но это значит что развитие технологий переходит из взрывной фазы «открытия нового» в более-менее линейную фазу «оптимизации технологий в 100500 направлениях, когда рук хватает для только 100».

Близится фаза «разочарования» из цикла хайпа.

В связи с этим напомню о своём прогнозе о будущем ИИ — пока сбывается.

Добавлю вот ещё что.

Далее