Как мы пришили LLM «спинной мозг»: архитектура рефлексов для ИИ-агентов в 60 FPS
Привет, Хабр!
Интеграция современных LLM в геймдев, виртуальных ассистентов и робототехнику сейчас напоминает попытку прикрутить двигатель от космического шаттла к телеге. У вас есть невероятно умная модель, которая понимает тончайший контекст, но её inference latency (задержка вывода) убивает любой пользовательский опыт.
Пока ваш ИИ-NPC парсит входящий аудиопоток, отправляет запрос по API, ждет генерации ответа и распаковывает JSON в анимацию, проходит от 1 до 3 секунд. В динамичной среде — это вечность.
Недавно мы выкатили визуальный прототип нашего движка на одной развлекательной площадке. В ответ мы получили классическое: "Рано демонстрировать 'честные 60 FPS'. У вас там просто калейдоскоп беспорядочных кадров, мыло и кривые пальцы".
Ребята смотрели на дебаг-вывод и оценивали "обертку", совершенно не заметив "мотор". Визуализация была лишь сырым тестом инференса. В этой статье я расскажу, как мы построили Dual-Process Architecture (Система 1 + Система 2), которая позволяет ИИ реагировать на события за миллисекунды, менять личность на лету и обучаться в реальном времени.
Читать далее