Dans le secteur du développement des modèles d’IA, l’entraînement des grands modèles de langage a longtemps nécessité du matériel onéreux et des ressources cloud, concentrant ainsi la technologie entre quelques grandes institutions.
(Source : Tether)
Le lancement du QVAC Fabric par Tether introduit un nouveau cadre de fine-tuning LoRA, conçu pour BitNet (un grand modèle de langage 1-bit). Cette avancée réduit fortement les besoins en calcul et en mémoire, permettant aux utilisateurs ordinaires de participer à l’entraînement de modèles d’IA.
QVAC Fabric offre une compatibilité matérielle étendue. Ce cadre fonctionne sur de nombreux appareils, notamment :
Ordinateurs portables
GPU grand public (Intel, AMD, Apple Silicon)
Smartphones (y compris divers GPU mobiles)
Ainsi, les modèles d’IA ne sont plus limités aux centres de données ou à du matériel spécialisé : ils peuvent être entraînés et exécutés directement sur des appareils du quotidien.
Cette technologie se distingue par sa capacité à affiner des modèles sur des appareils mobiles.
Par exemple :
Sur un Samsung S25 (GPU Adreno), un modèle de 125 millions de paramètres peut être affiné en environ 10 minutes
Sur le même appareil, un modèle de 1 milliard de paramètres nécessite environ 1 heure et 18 minutes
Sur un iPhone 16, un modèle de 1 milliard de paramètres requiert environ 1 heure et 45 minutes
L’équipe a même réussi à exécuter des modèles jusqu’à 13 milliards de paramètres sur un smartphone, illustrant la montée en puissance de l’IA sur le matériel mobile.
L’architecture BitNet offre des avantages évidents en termes de performance et d’efficacité des ressources par rapport aux modèles classiques :
Les vitesses d’inférence des GPU mobiles sont de 2 à 11 fois supérieures à celles des CPU
Capable de traiter des charges de travail auparavant réservées aux centres de données
Réduit l’utilisation de la VRAM jusqu’à environ 77,8 % par rapport aux modèles 16-bit
Offre une capacité opérationnelle supérieure, prenant en charge des modèles plus grands et des applications personnalisées
Ces avancées facilitent le déploiement d’applications d’IA sur des appareils périphériques.
L’entraînement des modèles d’IA dépendait fortement du matériel NVIDIA et des services cloud. QVAC Fabric rompt cette dépendance en permettant le fine-tuning LoRA de modèles LLM 1-bit sur du matériel non-NVIDIA — AMD, Intel, Apple Silicon, et des GPU mobiles comme Adreno et Mali. Ce changement réduit les coûts et favorise un développement de l’IA plus décentralisé.
QVAC Fabric offre également des avantages en matière de confidentialité des données et d’apprentissage distribué :
L’entraînement des modèles peut s’effectuer localement, évitant la transmission de données sensibles
Facilite l’apprentissage fédéré
Réduit la dépendance à l’infrastructure centralisée
Ces fonctionnalités ouvrent la voie à un écosystème IA plus sûr et plus évolutif.
Paolo Ardoino affirme que l’IA jouera un rôle central dans la société future, et que son évolution ne doit pas être monopolisée par une minorité de détenteurs de ressources. Il souligne que la dépendance excessive aux architectures centralisées pour l’entraînement de l’IA freine l’innovation et menace la stabilité globale de l’écosystème. Permettre à l’IA de fonctionner sur des appareils personnels constitue une étape essentielle vers une adoption plus large.
QVAC Fabric de Tether n’est pas seulement une innovation technologique, mais aussi une transformation potentielle du modèle de développement de l’IA. En abaissant les barrières matérielles et en renforçant les capacités multiplateformes, les grands modèles de langage quittent progressivement les centres de données pour s’installer sur des appareils du quotidien. À mesure que ces technologies évoluent, l’IA s’apprête à passer d’une gestion centralisée des ressources à un avenir plus ouvert, décentralisé et accessible à tous.





