Le nouveau modèle d'Anthropic a doublé Opus 4.6 sur un benchmark. Aperçu de Claude Mythos — invitation uniquement, pas d'API publique. Les chiffres de leur System Card :


- SWE-bench Verified : 93,9 % contre 80,8 % (Opus) contre 79,6 % (Sonnet)
- SWE-bench Pro : 77,8 % contre 53,4 %
- Terminal-Bench 2.0 : 82,0 % contre 65,4 %
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler