Lightbits, инновационные решения для повышения эффективности AI-вычислений снижают облачные расходы

robot
Генерация тезисов в процессе

Технологический прогресс ускоряется благодаря инновациям в области искусственного интеллекта (AI). Lightbits Labs недавно представила новую архитектуру, предназначенную для решения проблемы памяти при масштабных AI-вычислениях. Эта архитектура, разработанная в сотрудничестве с ScaleFlux и FarmGPU, объединяет быстрое хранение на базе энергонезависимой памяти, инфраструктуру для GPU-выводов и программное обеспечение Lightbits, что помогает системам AI более эффективно управлять кешами данных, создаваемых в процессе вывода.

На фоне растущих затрат у облачных провайдеров при обработке задач вывода, это объявление станет хорошей новостью. Высокая стоимость GPU уже занимает значительную часть операционных расходов, и для улучшения ситуации Lightbits поставила цель повысить эффективность использования GPU.

Новая платформа Lightbits увеличивает количество запросов, которые может обработать один GPU, что напрямую снижает стоимость обработки одного запроса. Согласно тестам Lightbits, при увеличении количества запросов в три раза на том же GPU удалось снизить затраты на электроэнергию и инфраструктуру на 65%.

Ключевым элементом этого решения является “KV-кеш”. Этот кеш хранит промежуточные векторы, созданные в процессе вывода, и повторно использует ранее вычисленные результаты, избегая ненужных расчетов. Однако с ростом масштабов моделей объем кеша резко увеличивается. Требования к памяти ежегодно удваиваются и требуют совместных усилий для решения этой проблемы. В связи с этим Lightbits внедрила инновационный метод предсказания перемещения данных и предварительной подачи необходимой информации GPU.

Система LightInferra управляет и ускоряет перемещение данных между уровнями памяти, обеспечивая работу GPU без ожидания данных. Она позволяет поддерживать бесперебойный процесс вывода, не превышая объем памяти GPU. Облачные провайдеры могут использовать это решение для оптимизации использования GPU или повышения общей производительности существующей инфраструктуры. В сотрудничестве с NeoCloud эта архитектура планируется запустить в промышленную эксплуатацию с июля.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить