Mensaje de Gate News, 22 de abril: el estudiante de doctorado de Princeton, Yifan Zhang, divulgó en X las especificaciones técnicas completas de DeepSeek V4, después de un adelanto el 19 de abril. V4 cuenta con 1.6 billones de parámetros totales y una variante liviana, V4-Lite, con 285 mil millones de parámetros.

El modelo emplea el mecanismo de atención DSA2, que combina la (DeepSeek Sparse Attention) previa de DeepSeek del V3.2 y la (Native Sparse Attention) NSA con embeddings de cabeza de 512 dimensiones, junto con (Sparse Multi-Query Attention)MQA( y )Sliding Window Attention(SWA). La capa MoE (Mixture of Experts) contiene 384 expertos con 6 activados por cada pase hacia adelante, utilizando el Fused MoE Mega-Kernel. Las conexiones residuales emplean la arquitectura Hyper-Connections.

Los detalles de entrenamiento revelados por primera vez incluyen el uso del optimizador Muon (applying Newton-Schulz orthogonalization to momentum updates), una ventana de contexto de preentrenamiento de 32K tokens y GRPO Group Relative Policy Optimization con corrección de divergencia KL durante el aprendizaje por refuerzo. La ventana de contexto final se extiende hasta 1 millón de tokens. El modelo es solo texto.

Zhang no está empleado por DeepSeek, y la empresa no ha comentado oficialmente la información divulgada.

Ver fuente

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

OpenClaw, Hermes y SillyTavern confirmados como proyectos con soporte en el GLM Coding Plan

Noticias de la industria de la IA

El product manager de Zhipu AI, Li, anuncia OpenClaw, Hermes y SillyTavern como proyectos compatibles bajo el GLM Coding Plan; otras herramientas se evaluarán caso por caso. No compartas credenciales ni uses suscripciones como acceso a la API; contacta con soporte para el error 1313. El product manager de Zhipu AI, Li, anunció que OpenClaw, Hermes y SillyTavern cuentan oficialmente con soporte bajo el GLM Coding Plan, y que el resto de herramientas se evalúan caso por caso. La nota advierte sobre no compartir credenciales ni usar suscripciones como acceso a la API y dirige a los usuarios con el error 1313 a contactar con soporte.

GateNewsHace19m

CEO de Google Cloud: Gemini impulsará el lanzamiento de la Siri personalizada de Apple en 2026

Noticias de la industria de la IA

Resumen: Gemini impulsará una Siri personalizada de Apple en 2026, construida sobre los Foundation Models de Apple y la colaboración con Gemini; Apple prueba una Siri con aspecto de chat en iOS 27/macOS 27, prevista para el WWDC 2026. Resumen: Google Cloud's Gemini está listo para impulsar una Siri personalizada de Apple para 2026, combinando Gemini con los Foundation Models de Apple bajo una colaboración de aproximadamente $1 billion. Apple está probando una Siri rediseñada, con aspecto de chat, en iOS 27/macOS 27, con una interfaz de Dynamic Island y nuevas funciones, antes del anuncio en el WWDC 2026 el 8 de junio.

GateNewsHace51m

El acuerdo de SpaceX $60B Cursor Impulsa la Campaña de Indulto de SBF, ya que la $200K Participación de FTX ahora vale $3B

Acciones de ejecución Noticias de la industria de la IA Herramientas y apps de IA

Mensaje de Gate News, 22 de abril — SpaceX anunció hoy una importante asociación con la startup de codificación con IA Cursor, con una opción para adquirir la empresa por $60 mil millones. El acuerdo ha dado nuevo impulso a Sam Bankman-Fried (SBF), que actualmente está encarcelado y está presionando por un indulto presidencial, ya que demuestra el posible valor que la recuperación que él ha sostenido durante mucho tiempo que FTX podría haber logrado. En abril de 2022, Alameda Research, la firma de trading fundada por SBF, invirtió $200,000 en la empresa matriz de Cursor, Anysphere, adquiriendo aproximadamente el 5% de la participación. Cuando FTX colapsó en noviembre de 2022, el tribunal de bancarrotas tomó el control de la empresa. En abril de 2023, la herencia de quiebra de FTX vendió esa misma participación del 5% por $200,000, la misma cantidad que había invertido Alameda. Con base en la valoración de mil millones anunciada hoy por SpaceX, esa participación del 5% ahora valdría aproximadamente mil millones, lo que representa un retorno de 15.000x. SBF ha sostenido durante mucho tiempo que FTX no era realmente insolvente y que los abogados de quiebras destruyeron valor al liquidar activos de forma prematura. En febrero de 2026, compartió proyecciones que sugieren que FTX podría haber alcanzado un valor neto de mil millones después de la recuperación de activos. Sus padres también han estado activos buscando un indulto: aparecieron en CNN en marzo para argumentar que los clientes de FTX recibieron el reembolso completo. Sin embargo, los acreedores señalaron que las compensaciones se basaron en valoraciones de 2022, no en precios actuales de mercado. El presidente Trump ha dicho que no indultará a SBF, y los mercados de predicción actualmente estiman que la probabilidad de un indulto en 2026 es solo del 5%.

GateNewsHace58m

Las acciones de Chegg caen 99% mientras la IA altera el mercado de tecnología educativa

Acciones Noticias de la industria de la IA

Resumen: Chegg se disparó durante la demanda de la educación en línea; luego, las herramientas de IA interrumpieron su modelo, lo que provocó despidos masivos y una caída por debajo de $2, con cambios más amplios impulsados por la IA que golpearon a los mineros de cripto y a las firmas de tecnología financiera. Resumen: Este artículo examina el auge de Chegg como la favorita de edtech en la era de la pandemia y su consiguiente declive en medio de la rápida adopción de la IA generativa, que ofrece respuestas rápidas y debilita la propuesta de valor de Chegg. Documenta los despidos de 2025 y la caída de la acción hacia la exclusión de cotización, y enmarca la experiencia de Chegg dentro de una disrupción más amplia impulsada por la IA que está reconfigurando la tecnología y el cripto: los mineros de Bitcoin se reconvierten hacia operaciones de IA, y las estrategias nativas de IA redefinen la competitividad en fintech y más allá.

CryptoFrontierhace1h

OpenAI lanza un modelo de Filtro de Privacidad de código abierto para la detección y anonimización de PII

Noticias de la industria de la IA

Resumen: El Filtro de Privacidad de OpenAI es un modelo de código abierto, ejecutable localmente, que detecta y anonimiza datos de información personal (PII) en texto. Admite contextos extensos, identifica muchas categorías de PII y está pensado para flujos de trabajo que preservan la privacidad, como la preparación de datos, la indexación, el registro (logging) y la moderación. El Filtro de Privacidad de OpenAI es un modelo de código abierto y ejecutado localmente (128k-token context) que detecta y anonimiza PII en texto, cubriendo datos de contacto, financieros y de credenciales para flujos de trabajo de privacidad.

GateNewshace1h

OpenAI planea desplegar 30GW de potencia informática para 2030

Noticias de la industria de la IA

OpenAI aspira a contar con 30GW de capacidad informática para 2030 para satisfacer la creciente demanda de IA, con 8GW ya completados de un objetivo de 10GW para 2025. La expansión señala una estrategia para ampliar la infraestructura para el desarrollo y despliegue de la IA de próxima generación. OpenAI pretende alcanzar 30GW de potencia informática para 2030 para atender la creciente demanda de IA, habiendo ya completado 8GW de un objetivo de 10GW para 2025. La medida refleja una expansión estratégica de la infraestructura para respaldar el desarrollo y despliegue de la IA de próxima generación.

GateNewshace1h

Comentar

0/400

Sin comentarios