Почему «голая» GPT не тянет юриспруденцию: разбираем архитектуру китайской LabourLawLLM
Любой, кто пытался прикрутить LLM к реальному продакшену в узком домене (медицина, право, инженерия), проходил стадию отрицания: "Да ладно, сейчас промпт подкручу, RAG прикручу — и полетит".
Не полетит. ????
На этой неделе (январь 2026 г.) вышел любопытный китайский препринт "Chinese Labor Law Large Language Model Benchmark". Авторы сделали то, до чего у большинства стартапов не доходят руки: вместо написания очередной обертки над OpenAI API, они построили жесткий бенчмарк и доказали, что General-purpose модели сливают специализированным SFT-моделям, как только дело доходит до специфической логики и расчетов. Ниже — разбор статьи с проекцией на мой опыт разработки neshemyaka.ru (Legal AI для оценки исков). Спойлер: китайцы математически подтвердили то, что пришлось выяснять через боль и сжигание токенов.
Суть проблемы: Generalist vs Specialist
Основная гипотеза авторов: большие модели страдают от "размытия" контекста. Когда модель знает всё обо всём, она начинает галлюцинировать в задачах, требующих строгой импликации (если А, то Б, но только при условии В). Для проверки они собрали LabourLawBench - датасет из 12 типов задач по трудовому праву. И это не просто "вопрос-ответ".
Архитектура бенчмарка (можно сказать, feature map для разработчика)
Если вы пилите LegalTech, забирайте этот список как готовое ТЗ. Авторы выделили 12 задач:
Читать далее