Los laboratorios de Stanford y Berkeley en colaboración con Nvidia propusieron LLM-as-a-Verifier, mediante el análisis de la distribución de probabilidad de puntuación y múltiples evaluaciones, logrando mejorar con éxito la precisión en la selección de soluciones del agente de programación AI. Los experimentos muestran que, en comparación con los jueces tradicionales, Verifier tiene un rendimiento de evaluación superior, con una tasa de éxito significativamente mayor, y el marco ya ha sido de código abierto.

MeNews

2026-05-01 12:27:18

Generación de resúmenes en curso

ME News Noticias, 14 de abril (UTC+8), según la monitorización de 1M AI News, cuando los agentes de programación de IA manejan una tarea individual varias veces, a menudo obtienen diferentes soluciones, algunas correctas y otras incorrectas. Si se pudiera seleccionar automáticamente la mejor, la tasa de éxito general superaría a la de una sola ejecución. La cuestión es cómo hacerlo: que otro modelo actúe como juez para puntuar (es decir, LLM-as-a-Judge) es la práctica principal en la actualidad, pero la granularidad de la puntuación es demasiado gruesa, y a menudo da la misma puntuación a soluciones diferentes, sin poder distinguir cuál es mejor.
El Laboratorio de IA de Stanford y el Laboratorio de Computación Sky de Berkeley, en colaboración con NVIDIA, propusieron LLM-as-a-Verifier, que mejora este proceso de selección. Ya no solo se mira la puntuación final dada por el juez, sino que se lee la distribución de probabilidad del modelo en cada nivel de puntuación, calculando un valor de recompensa continuo a partir de ella. Además, se hace que el juez repita la evaluación varias veces y promedie los resultados para eliminar sesgos aleatorios, y se divide la evaluación global en tres dimensiones independientes (si cumple con los requisitos de la tarea, si el formato de salida es correcto, si hay señales de error) que se verifican por separado.
En los experimentos, se utilizó Gemini 2.5 Flash como verificador, con una precisión de verificación de 74.7% en una sola prueba, mientras que el juez tradicional solo alcanzó 57.0%; tras repetir 16 veces, el Verificador alcanzó 77.4%, y el juez solo 70.2%. El juez tradicional tiene un 26.5% de empates en comparación, mientras que el Verificador en todas las configuraciones presenta una tasa de empate del 0%.
Efectividad práctica: en Terminal-Bench 2, hacer que GPT-5.4 ejecute la misma tarea 5 veces, la tasa de éxito de seleccionar uno aleatoriamente es del 81.8%, y tras usar el Verificador para escoger, aumenta a 86.4%. En SWE-Bench Verified, tomando una solución de Claude Opus 4.5, Claude Opus 4.6 y Gemini 3 Flash (un total de 3 soluciones), la tasa de éxito aumenta del 76.1% al 77.8%. Hasta el 9 de abril, ambas soluciones estaban en la cima de la lista. El marco ya está abierto al público. (Fuente: BlockBeats)

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
440.13K Popularidad
#
USSeeksStrategicBitcoinReserve
58.68M Popularidad
#
IsraelStrikesIranBTCPlunges
37.22K Popularidad
#
BitcoinETFOptionLimitQuadruples
979.69K Popularidad
#
#FedHoldsRateButDividesDeepen
30.42K Popularidad

Anclado

Stanford y Berkeley proponen LLM-as-a-Verifier, al mismo tiempo que alcanzan la primera posición en Terminal-Bench y SWE-Bench

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado