مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
منذ بعض الوقت ، اقترح Google DeepMind طريقة “Step-Backing” جديدة ، والتي جعلت التكنولوجيا تفتح الدماغ بشكل مباشر.
ببساطة ، هو السماح لنموذج اللغة الكبيرة بتجريد المشكلة بنفسه ، والحصول على مفهوم أو مبدأ ذي أبعاد أعلى ، ثم استخدام المعرفة المجردة كأداة للتفكير واشتقاق الإجابة على المشكلة.
عنوان:
كانت النتائج جيدة جدا أيضا ، حيث جربوا نموذج PaLM-2L وأثبتوا أن هذه التقنية الجديدة تعمل بشكل جيد للغاية في التعامل مع بعض المهام والمشكلات.
على سبيل المثال ، تتمتع MMLU بتحسن بنسبة 7٪ في الأداء الفيزيائي والكيميائي ، وتحسن بنسبة 27٪ في TimeQA ، وتحسن بنسبة 7٪ في MuSiQue.
من بينها ، MMLU عبارة عن مجموعة بيانات اختبار فهم اللغة متعددة المهام على نطاق واسع ، و TimeOA عبارة عن مجموعة بيانات اختبار أسئلة حساسة للوقت ، و MusiQue عبارة عن مجموعة بيانات أسئلة وأجوبة متعددة القفزات تحتوي على 25000 سؤال من 2 إلى 4 قفزات.
من بينها ، تشير مشكلة القفزات المتعددة إلى سؤال لا يمكن الإجابة عليه إلا باستخدام مسار استدلال متعدد القفزات يتكون من ثلاثة أضعاف متعددة.
أدناه ، دعنا نلقي نظرة على كيفية تنفيذ هذه التكنولوجيا.
تراجع!
بعد قراءة المقدمة في البداية ، قد لا يفهمها القراء كثيرا. ماذا يعني أن تقوم LLMs بتجريد المشكلة بنفسها والحصول على مفهوم أو مبدأ أعلى بعدا؟
لنأخذ مثالا محددا.
على سبيل المثال ، إذا أراد المستخدم طرح سؤال يتعلق ب “القوة” في الفيزياء ، فيمكن ل LLM التراجع إلى مستوى التعريف الأساسي ومبدأ القوة عند الإجابة على مثل هذا السؤال ، والذي يمكن استخدامه كأساس لمزيد من التفكير حول الإجابة.
بناء على هذه الفكرة ، عندما يدخل المستخدم لأول مرة ، يكون الأمر كما يلي تقريبا:
أنت الآن خبير في معرفة العالم ، بارع في التفكير بعناية والإجابة على الأسئلة خطوة بخطوة مع استراتيجية استجواب متخلفة.
التراجع هو استراتيجية تفكير لفهم وتحليل مشكلة أو موقف معين من منظور أساسي أكثر كلية. وبالتالي الإجابة بشكل أفضل على السؤال الأصلي.
بالطبع ، يوضح مثال الفيزياء المذكور أعلاه حالة واحدة فقط. في بعض الحالات ، قد تسمح استراتيجية التراجع ل LLM بمحاولة تحديد نطاق المشكلة وسياقها. بعض المشاكل تتراجع أكثر قليلا ، وبعضها يقع أقل.
اطروحه
أولا ، يشير الباحثون إلى أن مجال معالجة اللغة الطبيعية (NLP) قد بشر بثورة اختراق مع LLMs القائمة على المحولات.
أدى التوسع في حجم النموذج وزيادة مجموعة المدربين مسبقا إلى تحسينات كبيرة في قدرات النموذج وكفاءة أخذ العينات ، فضلا عن القدرات الناشئة مثل الاستدلال متعدد الخطوات واتباع التعليمات.
يوضح الشكل أعلاه قوة التفكير العكسي ، وقد أدخلت طريقة “التفكير المجرد” المقترحة في هذه الورقة تحسينات كبيرة في مجموعة متنوعة من المهام الصعبة التي تتطلب تفكيرا معقدا ، مثل العلوم والتكنولوجيا والهندسة والرياضيات والتفكير متعدد القفزات.
كانت بعض المهام صعبة للغاية ، وفي البداية ، كانت PaLM-2L و GPT-4 دقيقة بنسبة 40٪ فقط على TimeQA و MuSiQue. بعد تطبيق المنطق العكسي ، تحسن أداء PaLM-2L في جميع المجالات. تحسنت بنسبة 7 ٪ و 11 ٪ في الفيزياء والكيمياء MMLU ، و 27 ٪ في TimeQA ، و 7 ٪ في MuSiQue.
ليس ذلك فحسب ، بل أجرى الباحثون أيضا تحليلا للأخطاء ، ووجدوا أن معظم الأخطاء التي تحدث عند تطبيق التفكير العكسي ترجع إلى القيود المتأصلة في قدرة الاستدلال على LLMs ، ولا تتعلق بالتقنيات الجديدة.
التجريد أسهل على LLMs للتعلم ، لذلك يشير إلى الطريق إلى مزيد من التطوير للتفكير المتخلف.
على الرغم من إحراز تقدم ، إلا أن التفكير المعقد متعدد الخطوات يمكن أن يكون صعبا. هذا صحيح حتى بالنسبة ل LLMs الأكثر تقدما.
توضح هذه الورقة أن الإشراف على العملية مع وظيفة التحقق خطوة بخطوة هو علاج فعال لتحسين صحة خطوات التفكير الوسيطة.
لقد قدموا تقنيات مثل مطالبات سلسلة الفكر لإنشاء سلسلة متماسكة من خطوات الاستدلال الوسيطة ، مما يزيد من معدل نجاح اتباع مسار فك التشفير الصحيح.
عند الحديث عن أصل تقنية PROMP هذه ، أشار الباحثون إلى أنه عند مواجهة المهام الصعبة ، يميل البشر إلى التراجع خطوة إلى الوراء وتجريدها ، وذلك لاستنباط مفاهيم ومبادئ عالية المستوى لتوجيه عملية التفكير.
في الجزء العلوي من الشكل أعلاه ، مع أخذ فيزياء المدرسة الثانوية في MMLU كمثال ، من خلال التجريد العكسي ، يحصل LLM على المبدأ الأول لقانون الغاز المثالي.
في النصف الثاني ، هناك مثال من TimeQA ، حيث المفهوم رفيع المستوى لتاريخ التعليم هو نتيجة تجريد LLM بناء على هذه الاستراتيجية.
من الجانب الأيسر من الشكل بأكمله ، يمكننا ملاحظة أن PaLM-2L لم ينجح في الإجابة عن السؤال الأصلي. تشير سلسلة الأفكار إلى أنه في منتصف خطوة التفكير ، ارتكب LLM خطأ (مظلل باللون الأحمر).
وعلى اليمين ، أجاب PaLM-2L ، مع تطبيق التكنولوجيا الخلفية ، بنجاح على السؤال.
من بين العديد من المهارات المعرفية ، التفكير المجرد موجود في كل مكان لقدرة الإنسان على معالجة كميات كبيرة من المعلومات واستنباط القواعد والمبادئ العامة.
على سبيل المثال لا الحصر ، قام كبلر بتقطير آلاف القياسات في قوانين كبلر الثلاثة لحركة الكواكب ، والتي تصف بدقة مدارات الكواكب حول الشمس.
أو ، في صنع القرار الحاسم ، يجد البشر أيضا التجريد مفيدا لأنه يوفر رؤية أوسع للبيئة.
تركز هذه الورقة على كيفية تعامل LLMs مع المهام المعقدة التي تنطوي على العديد من التفاصيل منخفضة المستوى من خلال نهج من خطوتين من التجريد والتفكير.
الخطوة الأولى هي تعليم LLMs لاتخاذ خطوة إلى الوراء واشتقاق مفاهيم مجردة عالية المستوى من أمثلة ملموسة ، مثل المفاهيم الأساسية والمبادئ الأولى داخل المجال.
الخطوة الثانية هي استخدام مهارات التفكير لتأسيس الحل على مفاهيم عالية المستوى والمبادئ الأولى.
استخدم الباحثون عددا صغيرا من الأمثلة على LLMs لأداء الاستدلال العكسي. لقد جربوا في سلسلة من المهام التي تنطوي على التفكير الخاص بالمجال ، وحل المشكلات كثيفة المعرفة ، والتفكير المنطقي متعدد القفزات الذي يتطلب معرفة واقعية.
تظهر النتائج أن أداء PaLM-2L قد تحسن بشكل ملحوظ (حتى 27٪) ، مما يثبت أن الاستدلال العكسي فعال للغاية في التعامل مع المهام المعقدة.
خلال التجارب ، جرب الباحثون الأنواع المختلفة التالية من المهام:
(1) العلوم والتكنولوجيا والهندسة والرياضيات
(2) ضمان الجودة المعرفة
(3) التفكير متعدد القفزات
قام الباحثون بتقييم التطبيق في مهام العلوم والتكنولوجيا والهندسة والرياضيات لقياس فعالية النهج الجديد في التفكير في المجالات عالية التخصص. (ستغطي هذه المقالة مثل هذه الأسئلة فقط)
من الواضح أن المشكلة في معيار MMLU تتطلب تفكيرا أعمق من جانب LLM. بالإضافة إلى ذلك ، فهي تتطلب فهم وتطبيق الصيغ ، والتي غالبا ما تكون مبادئ ومفاهيم فيزيائية وكيميائية.
في هذه الحالة ، يقوم الباحث أولا بتدريس النموذج ليتم تجريده في شكل مفاهيم ومبادئ أولى ، مثل قانون نيوتن الأول للحركة ، وتأثير دوبلر ، وطاقة جيبس الحرة. السؤال الضمني هنا هو ، “ما هي المبادئ والمفاهيم الفيزيائية أو الكيميائية التي ينطوي عليها حل هذه المهمة؟”
قدم الفريق عروضا توضيحية علمت النموذج حفظ مبادئ حل المهام من معرفتهم الخاصة.
يوضح الجدول أعلاه أداء النموذج باستخدام تقنية الاستدلال العكسي ، وكان أداء LLM مع التكنولوجيا الجديدة جيدا في مهام STEM ، حيث وصل إلى المستوى الأكثر تقدما بعد GPT-4.
الجدول أعلاه هو مثال على عدد صغير من العينات ويوضح الأداء القوي بأحجام عينات مختلفة.
أولا، كما نرى من التمثيل البياني السابق، الاستدلال العكسي قوي جدا لعدد قليل من الأمثلة المستخدمة كعروض توضيحية.
بالإضافة إلى مثال واحد ، ينطبق الشيء نفسه على إضافة المزيد من الأمثلة.
هذا يشير إلى أن مهمة استرجاع المبادئ والمفاهيم ذات الصلة سهلة التعلم نسبيا ، ويكفي مثال توضيحي.
بالطبع ، في سياق التجربة ، ستظل هناك بعض المشاكل.
تحدث الأنواع الخمسة من الأخطاء التي تحدث في جميع الأوراق ، باستثناء الأخطاء المبدئية ، في خطوة التفكير في LLM ، بينما تشير الأخطاء الأساسية إلى فشل خطوة التجريد.
كما ترون على الجانب الأيمن من الشكل أدناه ، فإن الأخطاء الأساسية لا تمثل في الواقع سوى جزء صغير من أخطاء النموذج ، مع حدوث أكثر من 90٪ من الأخطاء في خطوة الاستدلال. من بين الأنواع الأربعة للأخطاء في عملية التفكير ، فإن أخطاء التفكير والأخطاء الرياضية هي الأماكن الرئيسية التي توجد فيها الأخطاء.
وهذا يتماشى مع النتائج التي توصلت إليها دراسات الاجتثاث والتي لا تحتاج إلا إلى أمثلة قليلة لتعليم LLMs كيفية التجريد. لا تزال خطوة الاستدلال عنق الزجاجة للاستدلال العكسي لإكمال المهام التي تتطلب استدلالا معقدا ، مثل MMLU.
هذا ينطبق بشكل خاص على MMLU Physics ، حيث تعد مهارات التفكير والرياضيات هي مفتاح حل المشكلات بنجاح. هذا يعني أنه حتى لو استعاد LLM المبادئ الأولى بشكل صحيح ، فلا يزال يتعين عليه المرور بعملية تفكير نموذجية متعددة الخطوات للوصول إلى الإجابة النهائية الصحيحة ، الأمر الذي يتطلب من LLM أن يكون لديه تفكير عميق ومهارات رياضية.
ثم قام الباحثون بتقييم النموذج على مجموعة اختبار TimeQA.
كما هو موضح في الشكل أدناه ، وصلت نماذج خط الأساس ل GPT-4 و PaLM-2L إلى 45.6٪ و 41.5٪ على التوالي ، مما يسلط الضوء على صعوبة المهمة.
تم تطبيق CoT أو TDB صفر مرة (ومرة واحدة) على نموذج خط الأساس دون أي تحسين.
في المقابل ، زادت دقة نموذج خط الأساس المعزز بالزيادة المنتظمة للاسترجاع (RAG) إلى 57.4٪ ، مما يسلط الضوء على الطبيعة الكثيفة للحقائق للمهمة.
تظهر نتائج Step-Back + RAG أن عودة LLM إلى خطوة المفاهيم المتقدمة فعالة جدا في الاستدلال العكسي ، مما يجعل ارتباط استرجاع LLM أكثر موثوقية ، ويمكننا أن نرى أن TimeQA لديه دقة مذهلة بنسبة 68.7٪.
بعد ذلك ، قسم الباحثون TimeQA إلى مستويين من الصعوبة: سهل وصعب تم توفيره في مجموعة البيانات الأصلية.
ليس من المستغرب أن يكون أداء جميع LLMs ضعيفا على المستوى الصعب. وفي حين تمكنت RAG من زيادة الدقة من ٪42,6 إلى ٪67,8 على المستوى السهل، كان التحسن أقل بكثير بالنسبة للمستوى الصعب، حيث أظهرت البيانات زيادة فقط من 40,4٪ إلى 46,8٪.
وهنا يأتي دور تقنية التفكير المتخلف ، حيث تسترجع الحقائق حول المفاهيم ذات المستوى الأعلى وتضع الأساس للتفكير النهائي.
أدى التفكير العكسي بالإضافة إلى RAG إلى تحسين الدقة إلى 62.3٪ ، متجاوزا GPT-4 بنسبة 42.6٪.
بالطبع ، لا تزال هناك بعض المشاكل مع هذه التكنولوجيا عندما يتعلق الأمر ب TimeQA.
يوضح الشكل أدناه دقة LLM في هذا الجزء من التجربة ، واحتمال حدوث خطأ على اليمين.
موارد:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
دقة LLM ترتفع بنسبة 27٪! جوجل ديب مايند يقترح تقنية جديدة "خطوة إلى الوراء"
المصدر الأصلي: نيو تشييوان
منذ بعض الوقت ، اقترح Google DeepMind طريقة “Step-Backing” جديدة ، والتي جعلت التكنولوجيا تفتح الدماغ بشكل مباشر.
ببساطة ، هو السماح لنموذج اللغة الكبيرة بتجريد المشكلة بنفسه ، والحصول على مفهوم أو مبدأ ذي أبعاد أعلى ، ثم استخدام المعرفة المجردة كأداة للتفكير واشتقاق الإجابة على المشكلة.
كانت النتائج جيدة جدا أيضا ، حيث جربوا نموذج PaLM-2L وأثبتوا أن هذه التقنية الجديدة تعمل بشكل جيد للغاية في التعامل مع بعض المهام والمشكلات.
على سبيل المثال ، تتمتع MMLU بتحسن بنسبة 7٪ في الأداء الفيزيائي والكيميائي ، وتحسن بنسبة 27٪ في TimeQA ، وتحسن بنسبة 7٪ في MuSiQue.
من بينها ، MMLU عبارة عن مجموعة بيانات اختبار فهم اللغة متعددة المهام على نطاق واسع ، و TimeOA عبارة عن مجموعة بيانات اختبار أسئلة حساسة للوقت ، و MusiQue عبارة عن مجموعة بيانات أسئلة وأجوبة متعددة القفزات تحتوي على 25000 سؤال من 2 إلى 4 قفزات.
من بينها ، تشير مشكلة القفزات المتعددة إلى سؤال لا يمكن الإجابة عليه إلا باستخدام مسار استدلال متعدد القفزات يتكون من ثلاثة أضعاف متعددة.
أدناه ، دعنا نلقي نظرة على كيفية تنفيذ هذه التكنولوجيا.
تراجع!
بعد قراءة المقدمة في البداية ، قد لا يفهمها القراء كثيرا. ماذا يعني أن تقوم LLMs بتجريد المشكلة بنفسها والحصول على مفهوم أو مبدأ أعلى بعدا؟
لنأخذ مثالا محددا.
على سبيل المثال ، إذا أراد المستخدم طرح سؤال يتعلق ب “القوة” في الفيزياء ، فيمكن ل LLM التراجع إلى مستوى التعريف الأساسي ومبدأ القوة عند الإجابة على مثل هذا السؤال ، والذي يمكن استخدامه كأساس لمزيد من التفكير حول الإجابة.
بناء على هذه الفكرة ، عندما يدخل المستخدم لأول مرة ، يكون الأمر كما يلي تقريبا:
أنت الآن خبير في معرفة العالم ، بارع في التفكير بعناية والإجابة على الأسئلة خطوة بخطوة مع استراتيجية استجواب متخلفة.
التراجع هو استراتيجية تفكير لفهم وتحليل مشكلة أو موقف معين من منظور أساسي أكثر كلية. وبالتالي الإجابة بشكل أفضل على السؤال الأصلي.
بالطبع ، يوضح مثال الفيزياء المذكور أعلاه حالة واحدة فقط. في بعض الحالات ، قد تسمح استراتيجية التراجع ل LLM بمحاولة تحديد نطاق المشكلة وسياقها. بعض المشاكل تتراجع أكثر قليلا ، وبعضها يقع أقل.
اطروحه
أولا ، يشير الباحثون إلى أن مجال معالجة اللغة الطبيعية (NLP) قد بشر بثورة اختراق مع LLMs القائمة على المحولات.
أدى التوسع في حجم النموذج وزيادة مجموعة المدربين مسبقا إلى تحسينات كبيرة في قدرات النموذج وكفاءة أخذ العينات ، فضلا عن القدرات الناشئة مثل الاستدلال متعدد الخطوات واتباع التعليمات.
كانت بعض المهام صعبة للغاية ، وفي البداية ، كانت PaLM-2L و GPT-4 دقيقة بنسبة 40٪ فقط على TimeQA و MuSiQue. بعد تطبيق المنطق العكسي ، تحسن أداء PaLM-2L في جميع المجالات. تحسنت بنسبة 7 ٪ و 11 ٪ في الفيزياء والكيمياء MMLU ، و 27 ٪ في TimeQA ، و 7 ٪ في MuSiQue.
ليس ذلك فحسب ، بل أجرى الباحثون أيضا تحليلا للأخطاء ، ووجدوا أن معظم الأخطاء التي تحدث عند تطبيق التفكير العكسي ترجع إلى القيود المتأصلة في قدرة الاستدلال على LLMs ، ولا تتعلق بالتقنيات الجديدة.
التجريد أسهل على LLMs للتعلم ، لذلك يشير إلى الطريق إلى مزيد من التطوير للتفكير المتخلف.
على الرغم من إحراز تقدم ، إلا أن التفكير المعقد متعدد الخطوات يمكن أن يكون صعبا. هذا صحيح حتى بالنسبة ل LLMs الأكثر تقدما.
توضح هذه الورقة أن الإشراف على العملية مع وظيفة التحقق خطوة بخطوة هو علاج فعال لتحسين صحة خطوات التفكير الوسيطة.
لقد قدموا تقنيات مثل مطالبات سلسلة الفكر لإنشاء سلسلة متماسكة من خطوات الاستدلال الوسيطة ، مما يزيد من معدل نجاح اتباع مسار فك التشفير الصحيح.
عند الحديث عن أصل تقنية PROMP هذه ، أشار الباحثون إلى أنه عند مواجهة المهام الصعبة ، يميل البشر إلى التراجع خطوة إلى الوراء وتجريدها ، وذلك لاستنباط مفاهيم ومبادئ عالية المستوى لتوجيه عملية التفكير.
في النصف الثاني ، هناك مثال من TimeQA ، حيث المفهوم رفيع المستوى لتاريخ التعليم هو نتيجة تجريد LLM بناء على هذه الاستراتيجية.
من الجانب الأيسر من الشكل بأكمله ، يمكننا ملاحظة أن PaLM-2L لم ينجح في الإجابة عن السؤال الأصلي. تشير سلسلة الأفكار إلى أنه في منتصف خطوة التفكير ، ارتكب LLM خطأ (مظلل باللون الأحمر).
وعلى اليمين ، أجاب PaLM-2L ، مع تطبيق التكنولوجيا الخلفية ، بنجاح على السؤال.
من بين العديد من المهارات المعرفية ، التفكير المجرد موجود في كل مكان لقدرة الإنسان على معالجة كميات كبيرة من المعلومات واستنباط القواعد والمبادئ العامة.
على سبيل المثال لا الحصر ، قام كبلر بتقطير آلاف القياسات في قوانين كبلر الثلاثة لحركة الكواكب ، والتي تصف بدقة مدارات الكواكب حول الشمس.
أو ، في صنع القرار الحاسم ، يجد البشر أيضا التجريد مفيدا لأنه يوفر رؤية أوسع للبيئة.
تركز هذه الورقة على كيفية تعامل LLMs مع المهام المعقدة التي تنطوي على العديد من التفاصيل منخفضة المستوى من خلال نهج من خطوتين من التجريد والتفكير.
الخطوة الأولى هي تعليم LLMs لاتخاذ خطوة إلى الوراء واشتقاق مفاهيم مجردة عالية المستوى من أمثلة ملموسة ، مثل المفاهيم الأساسية والمبادئ الأولى داخل المجال.
الخطوة الثانية هي استخدام مهارات التفكير لتأسيس الحل على مفاهيم عالية المستوى والمبادئ الأولى.
استخدم الباحثون عددا صغيرا من الأمثلة على LLMs لأداء الاستدلال العكسي. لقد جربوا في سلسلة من المهام التي تنطوي على التفكير الخاص بالمجال ، وحل المشكلات كثيفة المعرفة ، والتفكير المنطقي متعدد القفزات الذي يتطلب معرفة واقعية.
تظهر النتائج أن أداء PaLM-2L قد تحسن بشكل ملحوظ (حتى 27٪) ، مما يثبت أن الاستدلال العكسي فعال للغاية في التعامل مع المهام المعقدة.
خلال التجارب ، جرب الباحثون الأنواع المختلفة التالية من المهام:
(1) العلوم والتكنولوجيا والهندسة والرياضيات
(2) ضمان الجودة المعرفة
(3) التفكير متعدد القفزات
قام الباحثون بتقييم التطبيق في مهام العلوم والتكنولوجيا والهندسة والرياضيات لقياس فعالية النهج الجديد في التفكير في المجالات عالية التخصص. (ستغطي هذه المقالة مثل هذه الأسئلة فقط)
من الواضح أن المشكلة في معيار MMLU تتطلب تفكيرا أعمق من جانب LLM. بالإضافة إلى ذلك ، فهي تتطلب فهم وتطبيق الصيغ ، والتي غالبا ما تكون مبادئ ومفاهيم فيزيائية وكيميائية.
في هذه الحالة ، يقوم الباحث أولا بتدريس النموذج ليتم تجريده في شكل مفاهيم ومبادئ أولى ، مثل قانون نيوتن الأول للحركة ، وتأثير دوبلر ، وطاقة جيبس الحرة. السؤال الضمني هنا هو ، “ما هي المبادئ والمفاهيم الفيزيائية أو الكيميائية التي ينطوي عليها حل هذه المهمة؟”
قدم الفريق عروضا توضيحية علمت النموذج حفظ مبادئ حل المهام من معرفتهم الخاصة.
أولا، كما نرى من التمثيل البياني السابق، الاستدلال العكسي قوي جدا لعدد قليل من الأمثلة المستخدمة كعروض توضيحية.
بالإضافة إلى مثال واحد ، ينطبق الشيء نفسه على إضافة المزيد من الأمثلة.
هذا يشير إلى أن مهمة استرجاع المبادئ والمفاهيم ذات الصلة سهلة التعلم نسبيا ، ويكفي مثال توضيحي.
بالطبع ، في سياق التجربة ، ستظل هناك بعض المشاكل.
تحدث الأنواع الخمسة من الأخطاء التي تحدث في جميع الأوراق ، باستثناء الأخطاء المبدئية ، في خطوة التفكير في LLM ، بينما تشير الأخطاء الأساسية إلى فشل خطوة التجريد.
كما ترون على الجانب الأيمن من الشكل أدناه ، فإن الأخطاء الأساسية لا تمثل في الواقع سوى جزء صغير من أخطاء النموذج ، مع حدوث أكثر من 90٪ من الأخطاء في خطوة الاستدلال. من بين الأنواع الأربعة للأخطاء في عملية التفكير ، فإن أخطاء التفكير والأخطاء الرياضية هي الأماكن الرئيسية التي توجد فيها الأخطاء.
وهذا يتماشى مع النتائج التي توصلت إليها دراسات الاجتثاث والتي لا تحتاج إلا إلى أمثلة قليلة لتعليم LLMs كيفية التجريد. لا تزال خطوة الاستدلال عنق الزجاجة للاستدلال العكسي لإكمال المهام التي تتطلب استدلالا معقدا ، مثل MMLU.
هذا ينطبق بشكل خاص على MMLU Physics ، حيث تعد مهارات التفكير والرياضيات هي مفتاح حل المشكلات بنجاح. هذا يعني أنه حتى لو استعاد LLM المبادئ الأولى بشكل صحيح ، فلا يزال يتعين عليه المرور بعملية تفكير نموذجية متعددة الخطوات للوصول إلى الإجابة النهائية الصحيحة ، الأمر الذي يتطلب من LLM أن يكون لديه تفكير عميق ومهارات رياضية.
كما هو موضح في الشكل أدناه ، وصلت نماذج خط الأساس ل GPT-4 و PaLM-2L إلى 45.6٪ و 41.5٪ على التوالي ، مما يسلط الضوء على صعوبة المهمة.
تم تطبيق CoT أو TDB صفر مرة (ومرة واحدة) على نموذج خط الأساس دون أي تحسين.
في المقابل ، زادت دقة نموذج خط الأساس المعزز بالزيادة المنتظمة للاسترجاع (RAG) إلى 57.4٪ ، مما يسلط الضوء على الطبيعة الكثيفة للحقائق للمهمة.
تظهر نتائج Step-Back + RAG أن عودة LLM إلى خطوة المفاهيم المتقدمة فعالة جدا في الاستدلال العكسي ، مما يجعل ارتباط استرجاع LLM أكثر موثوقية ، ويمكننا أن نرى أن TimeQA لديه دقة مذهلة بنسبة 68.7٪.
بعد ذلك ، قسم الباحثون TimeQA إلى مستويين من الصعوبة: سهل وصعب تم توفيره في مجموعة البيانات الأصلية.
ليس من المستغرب أن يكون أداء جميع LLMs ضعيفا على المستوى الصعب. وفي حين تمكنت RAG من زيادة الدقة من ٪42,6 إلى ٪67,8 على المستوى السهل، كان التحسن أقل بكثير بالنسبة للمستوى الصعب، حيث أظهرت البيانات زيادة فقط من 40,4٪ إلى 46,8٪.
وهنا يأتي دور تقنية التفكير المتخلف ، حيث تسترجع الحقائق حول المفاهيم ذات المستوى الأعلى وتضع الأساس للتفكير النهائي.
أدى التفكير العكسي بالإضافة إلى RAG إلى تحسين الدقة إلى 62.3٪ ، متجاوزا GPT-4 بنسبة 42.6٪.
يوضح الشكل أدناه دقة LLM في هذا الجزء من التجربة ، واحتمال حدوث خطأ على اليمين.