D’après Beating, le chercheur en post-entraînement d’OpenAI, Paul Garnier, a démontré que Codex 5,5 peut générer un code de contrôle interprétable, surpassant des références d’apprentissage par renforcement profond (deep reinforcement learning) dans des applications de mécanique des fluides. Plutôt que d’entraîner des réseaux de neurones, Garnier a utilisé le modèle pour affiner itérativement des scripts Python en analysant des simulations de physique, obtenant de meilleures performances dans plus de la moitié des scénarios testés.
Les règles de contrôle générées par l’IA étaient interprétables physiquement, par exemple « retarder l’injection de jet lorsque la courbure locale dépasse un seuil ». Contrairement aux boîtes noires de réseaux de neurones, l’approche basée sur du code s’est révélée robuste lors de changements de distribution ; lorsque la durée des tests a été prolongée par quatre, les modèles DRL traditionnels se sont effondrés tandis que le code informé par la physique est resté stable. La mise en œuvre de la stratégie de contrôle complète a nécessité 21,25 millions de tokens, pour un total inférieur à 14 $.