Mensaje de Gate News, 29 de abril — La investigadora de IA Aran Komatsuzaki realizó un análisis comparativo de la eficiencia de tokenización en seis modelos principales de IA traduciendo el influyente artículo de Rich Sutton “The Bitter Lesson” a nueve idiomas y procesándolos mediante los tokenizadores de OpenAI, Gemini, Qwen, DeepSeek, Kimi y Claude. Usando el recuento de tokens de la versión en inglés en OpenAI como línea de base (1x), el estudio reveló disparidades significativas: procesar el mismo contenido en chino requería 1.65x tokens en Claude, en comparación con solo 1.15x en OpenAI. El hindi mostró un resultado aún más extremo en Claude, superando la línea de base en más de 3x. Anthropic ocupó el puesto más bajo entre los seis modelos probados.
Críticamente, cuando el texto chino idéntico se procesó en diferentes modelos—todos medidos frente a la misma línea de base en inglés—los resultados divergieron de forma drástica: Kimi consumió solo 0.81x tokens (incluso menos que el inglés), Qwen 0.85x, mientras que Claude requirió 1.65x. Esta brecha revela un problema puro de eficiencia de tokenización, no un problema inherente del idioma. Los modelos de chino demostraron una eficiencia superior al procesar chino, lo que sugiere que la disparidad se debe a la optimización del tokenizador más que al propio idioma.
Las implicaciones prácticas para los usuarios son sustanciales: el aumento del consumo de tokens incrementa directamente los costos de la API, alarga la latencia de respuesta del modelo y agota más rápidamente las ventanas de contexto. La eficiencia de tokenización depende de la composición lingüística de los datos de entrenamiento de un modelo—los modelos entrenados predominantemente en inglés comprimen el texto en inglés con más eficiencia, mientras que los idiomas con menor representación en los datos se tokenizan en fragmentos más pequeños y menos eficientes.
La conclusión de Komatsuzaki recalca un principio fundamental: el tamaño del mercado determina la eficiencia de tokenización. Los mercados más grandes reciben una mejor optimización, mientras que los idiomas con menor representación enfrentan costos de token significativamente más altos.
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el
Aviso legal.
Artículos relacionados
DeepSeek Lanza Función de Reconocimiento de Imágenes en Pruebas Beta
Según PANews, DeepSeek lanzó hoy su función de reconocimiento de imágenes (April 29), actualmente en pruebas beta. Se puede seleccionar tanto a los usuarios de la versión web como de la aplicación móvil para el despliegue en fase beta.
GateNewsHace28m
Anthropic Lanza 8 Conectores de Herramientas Creativas para Claude, Incluyendo Blender, Adobe, Autodesk
Anthropic ha anunciado una serie de conectores de herramientas creativas que permiten que Claude controle directamente software profesional utilizado por diseñadores y músicos. Los ocho conectores iniciales abarcan modelado 3D, diseño visual, producción musical y presentaciones en vivo, con socios que incluyen Blender, Adobe,
GateNewsHace28m
La Casa Blanca elude la evaluación de riesgos del Pentágono para implementar el modelo Mythos de Anthropic el 29 de abril
Según Whale Factor, la Casa Blanca está eludiendo la evaluación de riesgos del Pentágono para implementar el modelo Mythos de Anthropic en agencias federales el 29 de abril. La medida busca acelerar las capacidades de IA a nivel federal y emparejar el ritmo de las redes de IA descentralizadas. Esto representa un cambio significativo
GateNewsHace34m
Cognizant para adquirir Astreya por $600M para ampliar el negocio de infraestructura de IA
Según Reuters, el 29 de abril, Cognizant acordó adquirir Astreya por aproximadamente $600 millones, ya que amplía su negocio de infraestructura de IA. Astreya es un proveedor de servicios de TI especializado en infraestructura de IA y servicios de centros de datos. Se espera que el acuerdo se cierre en el segundo trimestre
GateNewsHace44m
30 plugins maliciosos en ClawHub disfrazados de herramientas de IA, descargados más de 9.800 veces
Según el investigador de Manifold, Ax Sharma, 30 plugins en ClawHub disfrazados como herramientas de IA legítimas se han descargado más de 9.800 veces mientras, en secreto, convertían los asistentes de IA de los usuarios en trabajadores de criptomonedas. Los plugins, publicados bajo la cuenta imaflytok, aparecen como planificadores de tareas y herramientas de supervisión habituales, pero contienen instrucciones ocultas que ejecutan operaciones no autorizadas a
GateNewsHace52m
Parallel de Parag Agrawal recauda $100M Serie B para infraestructura de búsqueda para agentes de IA
Según Beating, Parallel Web Systems, fundada por el ex CEO de Twitter Parag Agrawal, completó una ronda de $100 millones de la Serie B liderada por Sequoia Capital, valorando a la empresa en $2 mil millones. Kleiner Perkins, Index Ventures y Khosla Ventures también participaron. La financiación llega seis meses después de que la empresa recaudara millones en la Serie A con una valoración de millones, casi triplicando su valoración.
GateNewshace1h