Lightbits, innovación en eficiencia de inferencia de IA para reducir los costos en la nube

robot
Generación de resúmenes en curso

El avance en la industria tecnológica está siendo acelerado por innovaciones en el campo de la inteligencia artificial (IA). Lightbits Labs ha lanzado recientemente una nueva arquitectura diseñada para resolver el cuello de botella de memoria en inferencias de IA a gran escala. Esta arquitectura, desarrollada en colaboración con ScaleFlux y FarmGPU, combina almacenamiento rápido de memoria no volátil, infraestructura de GPU para inferencias y el software de Lightbits, ayudando a los sistemas de IA a gestionar de manera más eficiente los datos en caché generados durante la inferencia.

En un contexto donde los operadores en la nube enfrentan presiones de costos al procesar tareas de inferencia, este lanzamiento se espera que sea una buena noticia. Los altos costos de las GPU se han convertido en una de las principales partidas de gasto operativo. Para mejorar esta situación, Lightbits ha establecido como objetivo optimizar la utilización de las GPU.

La nueva plataforma de Lightbits aumenta la cantidad de solicitudes que una sola GPU puede manejar, mejorando la eficiencia de la inferencia. Esto se traduce directamente en una reducción significativa en el costo por procesamiento. Según los resultados de pruebas de Lightbits, al triplicar la cantidad de solicitudes en la misma GPU, también lograron reducir en un 65% los costos de energía e infraestructura.

La clave de esta solución es el “KV cache”. Esta caché almacena vectores intermedios generados durante la inferencia, reutilizando resultados previos para evitar cálculos innecesarios. Sin embargo, a medida que los modelos crecen en tamaño, la capacidad de la caché también aumenta rápidamente. La demanda de memoria se duplica cada año, lo que requiere esfuerzos conjuntos a largo plazo para resolver este problema. Para ello, Lightbits ha introducido un método innovador que predice el movimiento de datos y proporciona la información necesaria a la GPU de antemano.

El sistema LightInferra puede gestionar y acelerar la transferencia de datos entre niveles de memoria, asegurando que la GPU no tenga que esperar por los datos. Este sistema garantiza un flujo de inferencia fluido sin superar la capacidad de memoria de la GPU. Los proveedores de servicios en la nube pueden aprovechar esta arquitectura para optimizar el uso de GPU o aumentar la capacidad de procesamiento en su infraestructura existente. Actualmente, esta arquitectura está en colaboración con NeoCloud y se planea poner en producción a partir de julio.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Gate Fun en tendencia

    Ver más
  • Cap.M.:$2.42KHolders:1
    0.00%
  • Cap.M.:$0.1Holders:1
    0.00%
  • Cap.M.:$0.1Holders:0
    0.00%
  • Cap.M.:$0.1Holders:1
    0.00%
  • Cap.M.:$2.47KHolders:2
    0.19%
  • Anclado