Gate News Noticias, el 9 de marzo, un equipo de investigación de la ETH Zurich probó la capacidad de consenso bizantino de los agentes LLM en su artículo “¿Pueden los agentes de IA estar de acuerdo?”. El contexto del estudio es que alcanzar un acuerdo en condiciones donde algunos participantes puedan actuar de manera maliciosa es un desafío central para todos los sistemas descentralizados; los diversos mecanismos de consenso en blockchain en esencia abordan diferentes variantes del problema de tolerancia bizantina.
El equipo utilizó los modelos Qwen3-8B y Qwen3-14B, realizando cientos de simulaciones con diferentes tamaños de grupo (4, 8, 16 agentes) y proporciones de nodos maliciosos. En las pruebas, múltiples agentes transmitían propuestas y votaban repetidamente a través de una red totalmente conectada sincronizada, con algunos agentes actuando como nodos bizantinos maliciosos que buscaban sabotear.
Los resultados mostraron que, incluso sin nodos maliciosos, la tasa de consenso efectiva era solo del 41.6% (67.4% para Qwen3-14B y solo 15.8% para Qwen3-8B). Cuantos más nodos, más difícil era alcanzar un acuerdo, con la tasa de éxito bajando del 46.6% en grupos de 4 agentes a solo 33.3% en grupos de 16. Tras añadir nodos maliciosos, el consenso se deterioraba aún más, con fallos principalmente por tiempo de espera y estancamiento en la convergencia (pérdida de actividad), en lugar de alteraciones en los valores. Solo mencionar en las instrucciones que “pueden existir nodos maliciosos” reducía la tasa de éxito de Qwen3-14B del 75.4% al 59.1%, incluso cuando en realidad no había nodos maliciosos.
La conclusión del estudio es que el consenso confiable aún no es una capacidad emergente confiable de los agentes LLM actuales, y se debe actuar con cautela respecto a despliegues descentralizados que dependan de una coordinación robusta.