Il y a quelque temps, Google DeepMind a proposé une nouvelle méthode de « Step-Backing », qui a directement ouvert le cerveau de la technologie.
Pour le dire simplement, il s’agit de laisser le grand modèle de langage abstraire le problème par lui-même, d’obtenir un concept ou un principe de dimension supérieure, puis d’utiliser la connaissance abstraite comme un outil pour raisonner et dériver la réponse au problème.
Adresse:
Les résultats ont également été très bons, car ils ont expérimenté le modèle PaLM-2L et ont prouvé que cette nouvelle technique fonctionnait très bien dans la gestion de certaines tâches et problèmes.
Par exemple, MMLU a une amélioration de 7 % des performances physiques et chimiques, une amélioration de 27 % de TimeQA et une amélioration de 7 % de MuSiQue.
Parmi eux, MMLU est un ensemble de données de test de compréhension du langage multitâche à grande échelle, TimeOA est un ensemble de données de test de questions sensibles au temps et MusiQue est un ensemble de questions et réponses multi-sauts contenant 25 000 questions de 2 à 4 sauts.
Parmi eux, un problème multi-sauts fait référence à une question à laquelle on ne peut répondre qu’en utilisant un chemin d’inférence multi-sauts formé de plusieurs triplets.
Ci-dessous, jetons un coup d’œil à la façon dont cette technologie est mise en œuvre.
Reculer!
Après avoir lu l’introduction au début, les lecteurs ne la comprendront peut-être pas trop. Qu’est-ce que cela signifie pour les LLM d’abstraire le problème eux-mêmes et d’obtenir un concept ou un principe de dimension supérieure ?
Prenons un exemple précis.
Par exemple, si l’utilisateur souhaite poser une question liée à la « force » en physique, le LLM peut revenir au niveau de la définition de base et du principe de force lorsqu’il répond à une telle question, ce qui peut être utilisé comme base pour un raisonnement ultérieur sur la réponse.
Sur la base de cette idée, lorsque l’utilisateur entre pour la première fois, c’est à peu près comme ceci :
Vous êtes maintenant un expert en connaissance du monde, apte à réfléchir attentivement et à répondre aux questions étape par étape avec une stratégie de questionnement à rebours.
Prendre du recul est une stratégie de réflexion permettant de comprendre et d’analyser un problème ou une situation particulière d’un point de vue plus macro et fondamental. Répondant ainsi mieux à la question initiale.
Bien sûr, l’exemple de physique donné ci-dessus n’illustre qu’un seul cas. Dans certains cas, la stratégie de recul peut permettre au LLM d’essayer d’identifier l’étendue et le contexte du problème. Certains problèmes reculent un peu plus, et d’autres tombent moins.
Thèse
Tout d’abord, les chercheurs soulignent que le domaine du traitement du langage naturel (NLP) a inauguré une révolution révolutionnaire avec les LLM basés sur Transformer.
L’expansion de la taille du modèle et l’augmentation du corpus pré-entraîné ont apporté des améliorations significatives dans les capacités du modèle et l’efficacité de l’échantillonnage, ainsi que des capacités émergentes telles que l’inférence en plusieurs étapes et le suivi d’instructions.
La figure ci-dessus montre la puissance du raisonnement à rebours, et la méthode de « raisonnement abstrait » proposée dans cet article a apporté des améliorations significatives dans une variété de tâches difficiles qui nécessitent un raisonnement complexe, telles que la science, la technologie, l’ingénierie et les mathématiques, et le raisonnement multi-sauts.
Certaines tâches étaient très difficiles, et au début, PaLM-2L et GPT-4 n’étaient précis qu’à 40 % sur TimeQA et MuSiQue. Après l’application d’un raisonnement à rebours, les performances du PaLM-2L se sont améliorées dans tous les domaines. Il s’est amélioré de 7 % et 11 % en physique et chimie MMLU, de 27 % en TimeQA et de 7 % en MuSiQue.
Non seulement cela, mais les chercheurs ont également effectué une analyse des erreurs, et ils ont constaté que la plupart des erreurs qui se produisent lors de l’application du raisonnement à rebours sont dues aux limites inhérentes à la capacité d’inférence des LLM et ne sont pas liées aux nouvelles technologies.
L’abstraction est plus facile à apprendre pour les LLM, elle ouvre donc la voie au développement ultérieur du raisonnement à rebours.
Bien que des progrès aient été réalisés, il peut être difficile d’adopter un raisonnement complexe en plusieurs étapes. Cela est vrai même pour les LLM les plus avancés.
Cet article montre que la supervision du processus avec une fonction de vérification étape par étape est un remède efficace pour améliorer la justesse des étapes de raisonnement intermédiaires.
Ils ont introduit des techniques telles que les invites de chaîne de pensée pour générer une série cohérente d’étapes d’inférence intermédiaires, augmentant ainsi le taux de réussite du suivi du chemin de décodage correct.
En parlant de l’origine de cette technologie PROMP, les chercheurs ont souligné que face à des tâches difficiles, les êtres humains ont tendance à prendre du recul et à faire abstraction, afin d’en déduire des concepts et des principes de haut niveau pour guider le processus de raisonnement.
Dans la partie supérieure de la figure ci-dessus, en prenant l’exemple de la physique au lycée de MMLU, par abstraction à rebours, LLM obtient le premier principe de la loi des gaz parfaits.
Dans la seconde moitié, il y a un exemple de TimeQA, où le concept de haut niveau de l’histoire de l’éducation est le résultat de l’abstraction du LLM basée sur cette stratégie.
Sur le côté gauche de l’ensemble du diagramme, nous pouvons voir que PaLM-2L n’a pas réussi à répondre à la question initiale. La chaîne de pensée indique qu’au milieu de l’étape de raisonnement, le LLM a fait une erreur (surlignée en rouge).
Et à droite, le PaLM-2L, avec l’application de la technologie à rebours, a répondu avec succès à la question.
Parmi les nombreuses compétences cognitives, la pensée abstraite est omniprésente pour la capacité humaine à traiter de grandes quantités d’informations et à en déduire des règles et des principes généraux.
Pour n’en nommer que quelques-uns, Kepler a distillé des milliers de mesures dans les trois lois du mouvement planétaire de Kepler, qui décrivent avec précision les orbites des planètes autour du soleil.
Ou, dans la prise de décision critique, les humains trouvent également l’abstraction utile parce qu’elle fournit une vision plus large de l’environnement.
L’objectif de cet article est de savoir comment les LLM peuvent gérer des tâches complexes impliquant de nombreux détails de bas niveau grâce à une approche en deux étapes d’abstraction et de raisonnement.
La première étape consiste à apprendre aux LLM à prendre du recul et à dériver des concepts abstraits de haut niveau à partir d’exemples concrets, tels que des concepts fondamentaux et des principes de base dans un domaine.
La deuxième étape consiste à utiliser des capacités de raisonnement pour baser la solution sur des concepts de haut niveau et des principes de base.
Les chercheurs ont utilisé un petit nombre d’exemples sur les LLM pour effectuer une inférence à rebours. Ils ont expérimenté une série de tâches impliquant un raisonnement spécifique à un domaine, une résolution de problèmes à forte intensité de connaissances, un raisonnement de bon sens à plusieurs sauts qui nécessitaient des connaissances factuelles.
Les résultats montrent que les performances de PaLM-2L sont significativement améliorées (jusqu’à 27%), ce qui prouve que l’inférence à rebours est très efficace pour traiter des tâches complexes.
Au cours des expériences, les chercheurs ont expérimenté les différents types de tâches suivants :
(1)TIGE
(2) Assurance qualité des connaissances
(3) Raisonnement multi-sauts
Les chercheurs ont évalué l’application dans des tâches STEM pour mesurer l’efficacité de la nouvelle approche dans le raisonnement dans des domaines hautement spécialisés. (Cet article ne couvrira que ces questions)
De toute évidence, le problème du benchmark MMLU nécessite un raisonnement plus approfondi de la part du LLM. De plus, ils nécessitent la compréhension et l’application de formules, qui sont souvent des principes et des concepts physiques et chimiques.
Dans ce cas, le chercheur enseigne d’abord au modèle à abstraire sous forme de concepts et de principes premiers, tels que la première loi du mouvement de Newton, l’effet Doppler et l’énergie libre de Gibbs. La question implicite du pas en arrière est la suivante : « Quels sont les principes et concepts physiques ou chimiques impliqués dans la résolution de cette tâche ? »
L’équipe a fourni des démonstrations qui ont appris au modèle à mémoriser les principes de la résolution de tâches à partir de leurs propres connaissances.
Le tableau ci-dessus montre les performances du modèle à l’aide de la technique d’inférence à rebours, et le LLM avec la nouvelle technologie a bien fonctionné dans les tâches STEM, atteignant le niveau le plus avancé au-delà de GPT-4.
Le tableau ci-dessus est un exemple d’un petit nombre d’échantillons et démontre des performances robustes avec des tailles d’échantillon variables.
Tout d’abord, comme nous pouvons le voir sur le graphique ci-dessus, l’inférence à rebours est très robuste pour un petit nombre d’exemples utilisés comme démonstrations.
En plus d’un exemple, il en sera de même pour l’ajout d’autres exemples.
Cela suggère que la tâche consistant à récupérer les principes et les concepts pertinents est relativement facile à apprendre, et qu’un exemple de démonstration est suffisant.
Bien sûr, au cours de l’expérience, il y aura encore quelques problèmes.
Les cinq types d’erreurs qui se produisent dans tous les articles, à l’exception des erreurs de principe, se produisent à l’étape de raisonnement du LLM, tandis que les erreurs de principe indiquent l’échec de l’étape d’abstraction.
Comme vous pouvez le voir sur le côté droit de la figure ci-dessous, les erreurs de principe ne représentent en fait qu’une petite fraction des erreurs du modèle, avec plus de 90 % des erreurs qui se produisent à l’étape d’inférence. Parmi les quatre types d’erreurs dans le processus de raisonnement, les erreurs de raisonnement et les erreurs mathématiques sont les principaux endroits où les erreurs sont localisées.
Cela est conforme aux résultats des études sur l’ablation, à savoir que seuls quelques exemples sont nécessaires pour enseigner aux LLM comment faire des résumés. L’étape d’inférence est toujours un goulot d’étranglement pour l’inférence en amont afin d’effectuer des tâches qui nécessitent une inférence complexe, telles que MMLU.
Cela est particulièrement vrai pour la physique MMLU, où le raisonnement et les compétences en mathématiques sont essentiels à la résolution réussie de problèmes. Cela signifie que même si le LLM récupère correctement les premiers principes, il doit encore passer par un processus de raisonnement typique en plusieurs étapes pour arriver à la bonne réponse finale, ce qui nécessite que le LLM ait un raisonnement profond et des compétences mathématiques.
Les chercheurs ont ensuite évalué le modèle sur l’ensemble de test de TimeQA.
Comme le montre la figure ci-dessous, les modèles de base de GPT-4 et PaLM-2L ont atteint respectivement 45,6 % et 41,5 %, ce qui souligne la difficulté de la tâche.
Le CoT ou le TDB n’a été appliqué qu’une seule fois (et une fois) sur le modèle de référence sans aucune amélioration.
En revanche, la précision du modèle de référence améliorée par l’augmentation régulière de la récupération (RAG) a augmenté à 57,4 %, ce qui souligne la nature factuelle de la tâche.
Les résultats de Step-Back + RAG montrent que le LLM retour à l’étape des concepts avancés est très efficace dans l’inférence en amont, ce qui rend le lien de récupération LLM plus fiable, et nous pouvons voir que TimeQA a une précision étonnante de 68,7%.
Ensuite, les chercheurs ont divisé TimeQA en deux niveaux de difficulté : facile et difficile fourni dans l’ensemble de données d’origine.
Il n’est pas surprenant que les LLM obtiennent tous de mauvais résultats au niveau difficile. Alors que le RAG a été en mesure d’augmenter la précision de 42,6 % à 67,8 % au niveau facile, l’amélioration a été beaucoup plus faible pour le niveau difficile, les données ne montrant qu’une augmentation de 40,4 % à 46,8 %.
Et c’est là qu’intervient la technique du raisonnement à rebours, car elle récupère des faits sur des concepts de niveau supérieur et jette les bases d’un raisonnement final.
Le raisonnement à rebours et le RAG ont encore amélioré la précision à 62,3 %, dépassant les 42,6 % de GPT-4.
Bien sûr, il y a encore quelques problèmes avec cette technologie en ce qui concerne TimeQA.
La figure ci-dessous montre la précision du LLM dans cette partie de l’expérience, et la probabilité d’erreur se produisant à droite.
Ressources:
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
La précision du LLM s’envole de 27 % ! Google DeepMind propose une nouvelle technologie d’incitation au « pas en arrière »
Source d’origine : New Zhiyuan
Il y a quelque temps, Google DeepMind a proposé une nouvelle méthode de « Step-Backing », qui a directement ouvert le cerveau de la technologie.
Pour le dire simplement, il s’agit de laisser le grand modèle de langage abstraire le problème par lui-même, d’obtenir un concept ou un principe de dimension supérieure, puis d’utiliser la connaissance abstraite comme un outil pour raisonner et dériver la réponse au problème.
Les résultats ont également été très bons, car ils ont expérimenté le modèle PaLM-2L et ont prouvé que cette nouvelle technique fonctionnait très bien dans la gestion de certaines tâches et problèmes.
Par exemple, MMLU a une amélioration de 7 % des performances physiques et chimiques, une amélioration de 27 % de TimeQA et une amélioration de 7 % de MuSiQue.
Parmi eux, MMLU est un ensemble de données de test de compréhension du langage multitâche à grande échelle, TimeOA est un ensemble de données de test de questions sensibles au temps et MusiQue est un ensemble de questions et réponses multi-sauts contenant 25 000 questions de 2 à 4 sauts.
Parmi eux, un problème multi-sauts fait référence à une question à laquelle on ne peut répondre qu’en utilisant un chemin d’inférence multi-sauts formé de plusieurs triplets.
Ci-dessous, jetons un coup d’œil à la façon dont cette technologie est mise en œuvre.
Reculer!
Après avoir lu l’introduction au début, les lecteurs ne la comprendront peut-être pas trop. Qu’est-ce que cela signifie pour les LLM d’abstraire le problème eux-mêmes et d’obtenir un concept ou un principe de dimension supérieure ?
Prenons un exemple précis.
Par exemple, si l’utilisateur souhaite poser une question liée à la « force » en physique, le LLM peut revenir au niveau de la définition de base et du principe de force lorsqu’il répond à une telle question, ce qui peut être utilisé comme base pour un raisonnement ultérieur sur la réponse.
Sur la base de cette idée, lorsque l’utilisateur entre pour la première fois, c’est à peu près comme ceci :
Vous êtes maintenant un expert en connaissance du monde, apte à réfléchir attentivement et à répondre aux questions étape par étape avec une stratégie de questionnement à rebours.
Prendre du recul est une stratégie de réflexion permettant de comprendre et d’analyser un problème ou une situation particulière d’un point de vue plus macro et fondamental. Répondant ainsi mieux à la question initiale.
Bien sûr, l’exemple de physique donné ci-dessus n’illustre qu’un seul cas. Dans certains cas, la stratégie de recul peut permettre au LLM d’essayer d’identifier l’étendue et le contexte du problème. Certains problèmes reculent un peu plus, et d’autres tombent moins.
Thèse
Tout d’abord, les chercheurs soulignent que le domaine du traitement du langage naturel (NLP) a inauguré une révolution révolutionnaire avec les LLM basés sur Transformer.
L’expansion de la taille du modèle et l’augmentation du corpus pré-entraîné ont apporté des améliorations significatives dans les capacités du modèle et l’efficacité de l’échantillonnage, ainsi que des capacités émergentes telles que l’inférence en plusieurs étapes et le suivi d’instructions.
Certaines tâches étaient très difficiles, et au début, PaLM-2L et GPT-4 n’étaient précis qu’à 40 % sur TimeQA et MuSiQue. Après l’application d’un raisonnement à rebours, les performances du PaLM-2L se sont améliorées dans tous les domaines. Il s’est amélioré de 7 % et 11 % en physique et chimie MMLU, de 27 % en TimeQA et de 7 % en MuSiQue.
Non seulement cela, mais les chercheurs ont également effectué une analyse des erreurs, et ils ont constaté que la plupart des erreurs qui se produisent lors de l’application du raisonnement à rebours sont dues aux limites inhérentes à la capacité d’inférence des LLM et ne sont pas liées aux nouvelles technologies.
L’abstraction est plus facile à apprendre pour les LLM, elle ouvre donc la voie au développement ultérieur du raisonnement à rebours.
Bien que des progrès aient été réalisés, il peut être difficile d’adopter un raisonnement complexe en plusieurs étapes. Cela est vrai même pour les LLM les plus avancés.
Cet article montre que la supervision du processus avec une fonction de vérification étape par étape est un remède efficace pour améliorer la justesse des étapes de raisonnement intermédiaires.
Ils ont introduit des techniques telles que les invites de chaîne de pensée pour générer une série cohérente d’étapes d’inférence intermédiaires, augmentant ainsi le taux de réussite du suivi du chemin de décodage correct.
En parlant de l’origine de cette technologie PROMP, les chercheurs ont souligné que face à des tâches difficiles, les êtres humains ont tendance à prendre du recul et à faire abstraction, afin d’en déduire des concepts et des principes de haut niveau pour guider le processus de raisonnement.
Dans la seconde moitié, il y a un exemple de TimeQA, où le concept de haut niveau de l’histoire de l’éducation est le résultat de l’abstraction du LLM basée sur cette stratégie.
Sur le côté gauche de l’ensemble du diagramme, nous pouvons voir que PaLM-2L n’a pas réussi à répondre à la question initiale. La chaîne de pensée indique qu’au milieu de l’étape de raisonnement, le LLM a fait une erreur (surlignée en rouge).
Et à droite, le PaLM-2L, avec l’application de la technologie à rebours, a répondu avec succès à la question.
Parmi les nombreuses compétences cognitives, la pensée abstraite est omniprésente pour la capacité humaine à traiter de grandes quantités d’informations et à en déduire des règles et des principes généraux.
Pour n’en nommer que quelques-uns, Kepler a distillé des milliers de mesures dans les trois lois du mouvement planétaire de Kepler, qui décrivent avec précision les orbites des planètes autour du soleil.
Ou, dans la prise de décision critique, les humains trouvent également l’abstraction utile parce qu’elle fournit une vision plus large de l’environnement.
L’objectif de cet article est de savoir comment les LLM peuvent gérer des tâches complexes impliquant de nombreux détails de bas niveau grâce à une approche en deux étapes d’abstraction et de raisonnement.
La première étape consiste à apprendre aux LLM à prendre du recul et à dériver des concepts abstraits de haut niveau à partir d’exemples concrets, tels que des concepts fondamentaux et des principes de base dans un domaine.
La deuxième étape consiste à utiliser des capacités de raisonnement pour baser la solution sur des concepts de haut niveau et des principes de base.
Les chercheurs ont utilisé un petit nombre d’exemples sur les LLM pour effectuer une inférence à rebours. Ils ont expérimenté une série de tâches impliquant un raisonnement spécifique à un domaine, une résolution de problèmes à forte intensité de connaissances, un raisonnement de bon sens à plusieurs sauts qui nécessitaient des connaissances factuelles.
Les résultats montrent que les performances de PaLM-2L sont significativement améliorées (jusqu’à 27%), ce qui prouve que l’inférence à rebours est très efficace pour traiter des tâches complexes.
Au cours des expériences, les chercheurs ont expérimenté les différents types de tâches suivants :
(1)TIGE
(2) Assurance qualité des connaissances
(3) Raisonnement multi-sauts
Les chercheurs ont évalué l’application dans des tâches STEM pour mesurer l’efficacité de la nouvelle approche dans le raisonnement dans des domaines hautement spécialisés. (Cet article ne couvrira que ces questions)
De toute évidence, le problème du benchmark MMLU nécessite un raisonnement plus approfondi de la part du LLM. De plus, ils nécessitent la compréhension et l’application de formules, qui sont souvent des principes et des concepts physiques et chimiques.
Dans ce cas, le chercheur enseigne d’abord au modèle à abstraire sous forme de concepts et de principes premiers, tels que la première loi du mouvement de Newton, l’effet Doppler et l’énergie libre de Gibbs. La question implicite du pas en arrière est la suivante : « Quels sont les principes et concepts physiques ou chimiques impliqués dans la résolution de cette tâche ? »
L’équipe a fourni des démonstrations qui ont appris au modèle à mémoriser les principes de la résolution de tâches à partir de leurs propres connaissances.
Tout d’abord, comme nous pouvons le voir sur le graphique ci-dessus, l’inférence à rebours est très robuste pour un petit nombre d’exemples utilisés comme démonstrations.
En plus d’un exemple, il en sera de même pour l’ajout d’autres exemples.
Cela suggère que la tâche consistant à récupérer les principes et les concepts pertinents est relativement facile à apprendre, et qu’un exemple de démonstration est suffisant.
Bien sûr, au cours de l’expérience, il y aura encore quelques problèmes.
Les cinq types d’erreurs qui se produisent dans tous les articles, à l’exception des erreurs de principe, se produisent à l’étape de raisonnement du LLM, tandis que les erreurs de principe indiquent l’échec de l’étape d’abstraction.
Comme vous pouvez le voir sur le côté droit de la figure ci-dessous, les erreurs de principe ne représentent en fait qu’une petite fraction des erreurs du modèle, avec plus de 90 % des erreurs qui se produisent à l’étape d’inférence. Parmi les quatre types d’erreurs dans le processus de raisonnement, les erreurs de raisonnement et les erreurs mathématiques sont les principaux endroits où les erreurs sont localisées.
Cela est conforme aux résultats des études sur l’ablation, à savoir que seuls quelques exemples sont nécessaires pour enseigner aux LLM comment faire des résumés. L’étape d’inférence est toujours un goulot d’étranglement pour l’inférence en amont afin d’effectuer des tâches qui nécessitent une inférence complexe, telles que MMLU.
Cela est particulièrement vrai pour la physique MMLU, où le raisonnement et les compétences en mathématiques sont essentiels à la résolution réussie de problèmes. Cela signifie que même si le LLM récupère correctement les premiers principes, il doit encore passer par un processus de raisonnement typique en plusieurs étapes pour arriver à la bonne réponse finale, ce qui nécessite que le LLM ait un raisonnement profond et des compétences mathématiques.
Comme le montre la figure ci-dessous, les modèles de base de GPT-4 et PaLM-2L ont atteint respectivement 45,6 % et 41,5 %, ce qui souligne la difficulté de la tâche.
Le CoT ou le TDB n’a été appliqué qu’une seule fois (et une fois) sur le modèle de référence sans aucune amélioration.
En revanche, la précision du modèle de référence améliorée par l’augmentation régulière de la récupération (RAG) a augmenté à 57,4 %, ce qui souligne la nature factuelle de la tâche.
Les résultats de Step-Back + RAG montrent que le LLM retour à l’étape des concepts avancés est très efficace dans l’inférence en amont, ce qui rend le lien de récupération LLM plus fiable, et nous pouvons voir que TimeQA a une précision étonnante de 68,7%.
Ensuite, les chercheurs ont divisé TimeQA en deux niveaux de difficulté : facile et difficile fourni dans l’ensemble de données d’origine.
Il n’est pas surprenant que les LLM obtiennent tous de mauvais résultats au niveau difficile. Alors que le RAG a été en mesure d’augmenter la précision de 42,6 % à 67,8 % au niveau facile, l’amélioration a été beaucoup plus faible pour le niveau difficile, les données ne montrant qu’une augmentation de 40,4 % à 46,8 %.
Et c’est là qu’intervient la technique du raisonnement à rebours, car elle récupère des faits sur des concepts de niveau supérieur et jette les bases d’un raisonnement final.
Le raisonnement à rebours et le RAG ont encore amélioré la précision à 62,3 %, dépassant les 42,6 % de GPT-4.
La figure ci-dessous montre la précision du LLM dans cette partie de l’expérience, et la probabilité d’erreur se produisant à droite.