V4-Pro logra una tasa de aprobación de codificación del 67% en pruebas internas de dogfooding, acercándose al rendimiento de Opus 4.5

Mensaje de Gate News, 24 de abril — V4 ha divulgado públicamente datos internos de dogfooding de su modelo V4-Pro. La empresa recopiló aproximadamente 200 tareas de ingeniería del mundo real de más de 50 ingenieros, que abarcan el desarrollo de funciones, correcciones de errores, refactorización y diagnósticos en pilas tecnológicas que incluyen PyTorch, CUDA, Rust y C++. Tras un riguroso filtrado, se conservaron 30 tareas para la evaluación del benchmark.

V4-Pro-Max logró una tasa de aprobación de codificación del 67%, superando significativamente a Sonnet 4.5 con un 47% y acercándose a Opus 4.5 con un 70%. Sin embargo, queda por detrás de Opus 4.5 Thinking (73%) y Opus 4.6 Thinking (80%), mientras que supera sustancialmente a Haiku 4.5 con un 13%.

En una encuesta interna con 85 encuestados, todos los participantes informaron usar V4-Pro para codificación orientada a agentes en flujos de trabajo diarios. El 52% respaldó V4-Pro como su modelo principal predeterminado de codificación, el 39% se inclinó por la aprobación y menos del 9% expresó desaprobación. Los problemas informados incluyeron errores de bajo nivel, la mala interpretación de indicaciones ambiguas y un comportamiento ocasional de sobrepensamiento.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

El gobierno de Trump anuncia un plan para combatir la extracción y el refinado de IA, acusando a las empresas chinas de robar de forma sistemática la capacidad de los modelos

La Oficina de Políticas Tecnológicas de la Casa Blanca (OSTP), el asistente del presidente Michael J. Kratsios, emitió el 23 de abril un comunicado oficial en el que indicó que la administración de Trump tiene información que muestra que entidades extranjeras (principalmente ubicadas en China) están llevando a cabo deliberadamente ataques contra grandes empresas estadounidenses de inteligencia artificial mediante la extracción sistemática de las capacidades de los modelos de IA de Estados Unidos a través de “decenas de miles de cuentas de agentes” y sistemas de tecnología de jailbreak, y que también publicó cuatro medidas de respuesta.

MarketWhisperHace7m

DeepSeek lanza una versión preliminar de código abierto V4, puntuación técnica 3206 superando a GPT-5.4

DeepSeek 推estamente lanzó oficialmente la serie de vista previa V4 el 24 de abril, con licencia MIT y código abierto, y los pesos del modelo ya se han publicado en Hugging Face y ModelScope. Según el informe técnico de DeepSeek V4, V4-Pro-Max (modo de máxima fuerza de inferencia) obtuvo 3206 puntos en el benchmark de Codeforces, superando a GPT-5.4.

MarketWhisperHace23m

Cambricon Completa la Adaptación del Día 0 de DeepSeek-V4, Marcando un Hito para el Ecosistema de Chips de IA de China

Mensaje de Gate News, 24 de abril — Cambricon anunció hoy que ha completado la adaptación del Día 0 de DeepSeek-V4, el último modelo de lenguaje grande de DeepSeek, utilizando su ecosistema propietario de software NeuWare y el framework vLLM. El código de adaptación se ha publicado simultáneamente como código abierto, marcando el

GateNewsHace39m

Tencent lanza en código abierto Hy3, versión preliminar; las pruebas de referencia del código mejoran un 40% con respecto a la generación anterior

Tencent el 23 de abril lanzó oficialmente como código abierto el modelo de lenguaje grande Hy3 en versión preliminar en las plataformas GitHub, Hugging Face y ModelScope, y también ofrece servicios de API de pago a través de Tencent Cloud. Según informó Decrypt el 24 de abril, la versión preliminar de Hy3 inició el entrenamiento a finales de enero y, para la fecha de publicación, habían transcurrido menos de tres meses.

MarketWhisperHace46m

Inversiones de cartera de FTX por valor de 158 billones de won si no hubiera quebrado

FTX, el exchange centralizado de criptomonedas que se acogió al Capítulo 11 de protección por bancarrota en noviembre de 2022 debido a la falta de liquidez y a la salida de capitales, habría mantenido inversiones valoradas en aproximadamente 158.796 billones de wones si no hubiera colapsado, según un análisis citado por Park

CryptoFrontierHace49m

Xiaomi Revela Detalles del Entrenamiento de MiMo-V2-Pro: Parámetros de Modelo 1T, Miles de GPUs Desplegadas

Mensaje de Gate News, 24 de abril: la jefa del equipo de modelos de lenguaje de Xiaomi, Luo Fuli, reveló en una entrevista en profundidad que el modelo MiMo-V2-Pro cuenta con un total de 1 billón de parámetros y que requirió miles de GPUs para el entrenamiento. Señaló que la escala de 1T representa el umbral mínimo para lograr

GateNewshace1h
Comentar
0/400
Sin comentarios