مشهد قوة الحوسبة اللامركزية ضخم ، لكن أين التحديات؟
** بقلم: إيان شو ، Foresight Ventures **
نحن نناقش تطبيق قوة الحوسبة الموزعة في التدريب ، ونركز بشكل عام على تدريب نماذج اللغة الكبيرة. والسبب الرئيسي هو أن تدريب النماذج الصغيرة لا يتطلب الكثير من قوة الحوسبة. من أجل القيام بخصوصية البيانات الموزعة ومجموعة من المشاريع المشكلة ليست فعالة من حيث التكلفة ، فمن الأفضل حلها بشكل مباشر ومركزي. نموذج اللغة الكبير لديه طلب كبير على قوة الحوسبة ، وهو الآن في المرحلة الأولى من الانفجار. من عام 2012 إلى عام 2018 ، سيتضاعف طلب الحوسبة على الذكاء الاصطناعي كل 4 أشهر تقريبًا. بالحكم على أن السنوات الخمس إلى الثماني القادمة سوف لا يزال طلبًا متزايدًا ضخمًا.
في حين أن هناك فرصًا ضخمة ، يجب أيضًا رؤية المشاكل بوضوح. يعلم الجميع أن المشهد ضخم ، ولكن أين التحديات المحددة؟ من يمكنه استهداف هذه المشكلات بدلاً من الدخول بشكل أعمى في اللعبة هو جوهر الحكم على المشاريع الممتازة لهذا المسار.
*
(إطار عمل NVIDIA NeMo Megatron) *
خذ على سبيل المثال تدريب نموذج كبير مع 175 مليار معلمة. نظرًا للحجم الهائل للنموذج ، يجب تدريبه بشكل متوازٍ على العديد من أجهزة GPU. لنفترض أن هناك غرفة كمبيوتر مركزية بها 100 وحدة معالجة رسومات (GPU) وكل جهاز به ذاكرة تبلغ 32 جيجابايت.
تتضمن هذه العملية قدرًا كبيرًا من نقل البيانات ومزامنتها ، والتي قد تصبح عنق الزجاجة لكفاءة التدريب. لذلك ، يعد تحسين عرض النطاق الترددي للشبكة ووقت الاستجابة واستخدام استراتيجيات التوازي والمزامنة الفعالة أمرًا مهمًا للغاية للتدريب على النماذج واسعة النطاق.
وتجدر الإشارة إلى أن عنق الزجاجة في الاتصال هو أيضًا السبب في أن شبكة طاقة الحوسبة الموزعة الحالية لا يمكنها إجراء تدريب كبير على نموذج اللغة.
تحتاج كل عقدة إلى تبادل المعلومات بشكل متكرر للعمل معًا ، مما يؤدي إلى زيادة تكلفة الاتصال. بالنسبة لنماذج اللغات الكبيرة ، تكون هذه المشكلة خطيرة بشكل خاص بسبب العدد الكبير من معلمات النموذج. يتم تقسيم النفقات العامة للاتصالات إلى هذه الجوانب:
على الرغم من وجود بعض الطرق لتقليل نفقات الاتصال ، مثل ضغط المعلمات والتدرجات ، والاستراتيجيات الموازية الفعالة ، وما إلى ذلك ، فقد تؤدي هذه الأساليب إلى زيادة العبء الحسابي أو التأثير سلبًا على تأثير التدريب للنموذج. أيضًا ، لا يمكن لهذه الطرق أن تحل مشكلة الاتصال العلوية تمامًا ، خاصة في حالة ظروف الشبكة السيئة أو المسافات الكبيرة بين عقد الحوسبة.
كمثال:
** شبكة طاقة الحوسبة الموزعة اللامركزية **
يحتوي نموذج GPT-3 على 175 مليار معلمة ، وإذا قمنا بتمثيل هذه المعلمات باستخدام أرقام فاصلة عائمة أحادية الدقة (4 بايت لكل معلمة) ، فإن تخزين هذه المعلمات يتطلب حوالي 700 جيجابايت من الذاكرة. في التدريب الموزع ، يجب نقل هذه المعلمات وتحديثها بشكل متكرر بين عقد الحوسبة.
بافتراض وجود 100 عقدة حسابية ، تحتاج كل عقدة إلى تحديث جميع المعلمات في كل خطوة ، ثم تحتاج كل خطوة إلى نقل حوالي 70 تيرابايت (700 جيجابايت \ * 100) من البيانات. إذا افترضنا أن الخطوة تستغرق ثانية واحدة (افتراض متفائل جدًا) ، فيجب نقل 70 تيرابايت من البيانات كل ثانية. هذا الطلب على النطاق الترددي يفوق بكثير بالفعل طلب معظم الشبكات وهو أيضًا مسألة جدوى.
في الواقع ، بسبب تأخيرات الاتصال وازدحام الشبكة ، قد يكون وقت نقل البيانات أطول بكثير من 1 ثانية. هذا يعني أن عقد الحوسبة قد تحتاج إلى قضاء الكثير من الوقت في انتظار نقل البيانات بدلاً من إجراء حسابات فعلية. سيؤدي هذا إلى تقليل كفاءة التدريب بشكل كبير ، ولا يمكن حل هذا الانخفاض في الكفاءة بالانتظار ، ولكن الفرق بين ممكن وغير ممكن ، مما سيجعل عملية التدريب بأكملها غير قابلة للتنفيذ.
** غرفة كمبيوتر مركزية **
حتى في بيئة غرفة الكمبيوتر المركزية ، لا يزال تدريب النماذج الكبيرة يتطلب تحسينًا كثيفًا للاتصالات.
في بيئة غرفة الكمبيوتر المركزية ، تُستخدم أجهزة الحوسبة عالية الأداء كمجموعة ، متصلة عبر شبكة عالية السرعة لمشاركة مهام الحوسبة. ومع ذلك ، حتى عند تدريب نموذج مع عدد كبير جدًا من المعلمات في بيئة شبكة عالية السرعة ، لا تزال عبء الاتصال يمثل عنق الزجاجة ، لأن معلمات وتدرجات النموذج تحتاج إلى النقل والتحديث بشكل متكرر بين أجهزة الحوسبة المختلفة .
كما ذكرنا في البداية ، افترض أن هناك 100 عقدة حوسبة ، كل خادم لديه نطاق ترددي للشبكة يبلغ 25 جيجابت في الثانية. إذا احتاج كل خادم إلى تحديث جميع المعلمات في كل خطوة تدريب ، فإن كل خطوة تدريب تحتاج إلى نقل حوالي 700 جيجابايت من البيانات وتستغرق حوالي 224 ثانية. من خلال الاستفادة من غرفة الكمبيوتر المركزية ، يمكن للمطورين تحسين طوبولوجيا الشبكة داخل مركز البيانات واستخدام تقنيات مثل نموذج التوازي لتقليل هذا الوقت بشكل كبير.
في المقابل ، إذا تم إجراء نفس التدريب في بيئة موزعة ، بافتراض أنه لا يزال هناك 100 عقدة حوسبة موزعة في جميع أنحاء العالم ، فإن متوسط عرض النطاق الترددي للشبكة لكل عقدة هو 1 جيجابت في الثانية فقط. في هذه الحالة ، يستغرق الأمر حوالي 5600 ثانية لنقل نفس 700 جيجابايت من البيانات ، وهو أطول بكثير مما هو عليه في غرفة الكمبيوتر المركزية. أيضًا ، نظرًا لتأخيرات الشبكة وازدحامها ، فقد يكون الوقت الفعلي المطلوب أطول.
ومع ذلك ، مقارنةً بالموقف في شبكة طاقة الحوسبة الموزعة ، فمن السهل نسبيًا تحسين عبء الاتصال في بيئة غرفة كمبيوتر مركزية. لأنه في بيئة غرفة الكمبيوتر المركزية ، عادةً ما تكون أجهزة الحوسبة متصلة بنفس الشبكة عالية السرعة ، ويكون عرض النطاق الترددي وتأخير الشبكة جيدًا نسبيًا. في شبكة طاقة الحوسبة الموزعة ، قد يتم توزيع عقد الحوسبة في جميع أنحاء العالم ، وقد تكون ظروف الشبكة رديئة نسبيًا ، مما يجعل مشكلة الاتصال الزائد أكثر خطورة.
في عملية تدريب GPT-3 ، يستخدم OpenAI إطار عمل موازٍ نموذجي يسمى Megatron لحل مشكلة الاتصال الزائد. يقسم Megatron معلمات النموذج ويعالجها بالتوازي بين وحدات معالجة رسومات متعددة ، وكل جهاز مسؤول فقط عن تخزين وتحديث جزء من المعلمات ، وبالتالي تقليل كمية المعلمات التي يحتاجها كل جهاز للمعالجة وتقليل عبء الاتصال. في الوقت نفسه ، تُستخدم أيضًا شبكة ربط عالي السرعة أثناء التدريب ، ويتم تقليل طول مسار الاتصال عن طريق تحسين هيكل الشبكة.
*
(البيانات المستخدمة لتدريب نماذج LLM) *
يمكن القيام بذلك ، ولكن بالمقارنة مع غرفة الكمبيوتر المركزية ، فإن تأثير هذه التحسينات محدود للغاية.
قد تؤثر جميع الروابط التي تتضمن معالجة البيانات ونقلها تقريبًا على أمان البيانات وخصوصيتها:
** ما الحلول المتاحة لمخاوف خصوصية البيانات؟ **
ملخص
كل من الطرق المذكورة أعلاه لها سيناريوهات وقيود قابلة للتطبيق ، ولا يمكن لأي من الطرق أن تحل تمامًا مشكلة خصوصية البيانات في تدريب النموذج الكبير لشبكة طاقة الحوسبة الموزعة.
من الناحية النظرية ، يمكن استخدام ZKP لضمان خصوصية البيانات في الحوسبة الموزعة ، مما يسمح للعقدة بإثبات أنها أجرت حسابات وفقًا للوائح ، ولكنها لا تحتاج إلى الكشف عن بيانات الإدخال والإخراج الفعلية.
ولكن في الواقع ، تواجه الاختناقات التالية في سيناريو استخدام ZKP لنماذج كبيرة لتدريب شبكة الطاقة الحاسوبية الموزعة على نطاق واسع:
ملخص
لاستخدام ZKP لشبكات الحوسبة الموزعة على نطاق واسع لتدريب النماذج الكبيرة ، سوف يستغرق الأمر عدة سنوات من البحث والتطوير ، كما سيتطلب المزيد من الطاقة والموارد من المجتمع الأكاديمي في هذا الاتجاه.
سيناريو آخر كبير نسبيًا لقوة الحوسبة الموزعة هو الاستدلال النموذجي.وفقًا لحكمنا على مسار تطوير النماذج الكبيرة ، فإن الطلب على تدريب النموذج سوف يتباطأ تدريجياً مع نضوج النماذج الكبيرة بعد اجتياز نقطة عالية. ستزداد متطلبات الاستدلال بالمقابل بشكل كبير مع نضج النماذج الكبيرة و AIGC.
بالمقارنة مع مهام التدريب ، عادةً ما يكون لمهام الاستدلال تعقيد حسابي أقل وتفاعل بيانات أضعف ، وتكون أكثر ملاءمة للبيئات الموزعة.
*
(استدلال Power LLM مع NVIDIA Triton) *
** تأخير الاتصال **:
في بيئة موزعة ، يعد الاتصال بين العقد أمرًا ضروريًا. في شبكة طاقة الحوسبة الموزعة اللامركزية ، قد تنتشر العقد في جميع أنحاء العالم ، لذلك يمكن أن يمثل زمن انتقال الشبكة مشكلة ، خاصةً في المهام المنطقية التي تتطلب استجابة في الوقت الفعلي.
** نشر النموذج وتحديثه **:
يجب نشر النموذج على كل عقدة. إذا تم تحديث النموذج ، فستحتاج كل عقدة إلى تحديث نموذجها ، مما يستهلك الكثير من عرض النطاق الترددي للشبكة والوقت.
خصوصية البيانات:
على الرغم من أن مهام الاستدلال تتطلب عادةً بيانات ونماذج إدخال فقط ، ولا تحتاج إلى إرجاع كمية كبيرة من البيانات والمعلمات الوسيطة ، فقد تظل بيانات الإدخال تحتوي على معلومات حساسة ، مثل المعلومات الشخصية للمستخدمين.
** نموذج الأمان **:
في الشبكة اللامركزية ، يجب نشر النموذج على عقد غير موثوق بها ، مما سيؤدي إلى تسرب النموذج ويؤدي إلى مشكلة حقوق الملكية النموذجية وإساءة الاستخدام. يمكن أن يثير هذا أيضًا مخاوف تتعلق بالأمان والخصوصية ، إذا تم استخدام نموذج لمعالجة البيانات الحساسة ، يمكن للعقد استنتاج معلومات حساسة من خلال تحليل سلوك النموذج.
** مراقبة الجودة **:
قد يكون لكل عقدة في شبكة طاقة الحوسبة الموزعة اللامركزية قدرات وموارد حوسبة مختلفة ، مما قد يجعل من الصعب ضمان أداء وجودة مهام الاستدلال.
التعقيد الحسابي:
في مرحلة التدريب ، يحتاج النموذج إلى التكرار بشكل متكرر. أثناء عملية التدريب ، من الضروري حساب الانتشار الأمامي والانتشار الخلفي لكل طبقة ، بما في ذلك حساب وظيفة التنشيط ، وحساب وظيفة الخسارة ، وحساب التدرج وتحديث الوزن. لذلك ، فإن التعقيد الحسابي لتدريب النموذج مرتفع.
في مرحلة الاستدلال ، يلزم مرور أمامي واحد فقط لحساب التنبؤ. على سبيل المثال ، في GPT-3 ، يجب تحويل نص الإدخال إلى متجه ، ثم إعادة توجيهه عبر كل طبقة من النموذج (عادةً طبقة المحولات) ، وأخيراً يتم الحصول على توزيع احتمالية الإخراج ، ويتم إنشاء الكلمة التالية وفقًا لهذا التوزيع. في شبكات GAN ، يحتاج النموذج إلى إنشاء صورة من متجه ضوضاء الإدخال. تتضمن هذه العمليات فقط الانتشار الأمامي للنموذج ، ولا تحتاج إلى حساب التدرجات أو تحديث المعلمات ، ولديها تعقيد حسابي منخفض.
** تفاعل البيانات **:
أثناء مرحلة الاستدلال ، يعالج النموذج عادةً إدخالًا واحدًا بدلاً من مجموعة كبيرة من البيانات أثناء التدريب. تعتمد نتيجة كل استنتاج فقط على المدخلات الحالية ، وليس على مدخلات أو مخرجات أخرى ، لذلك ليست هناك حاجة لقدر كبير من تفاعل البيانات ، وضغط الاتصال أقل.
بأخذ نموذج الصورة التوليدية كمثال ، بافتراض أننا نستخدم شبكات GAN لتوليد الصور ، نحتاج فقط إلى إدخال ناقل ضوضاء في النموذج ، ومن ثم سيقوم النموذج بإنشاء صورة مقابلة. في هذه العملية ، سيولد كل إدخال ناتجًا واحدًا فقط ، ولا توجد تبعية بين المخرجات ، لذلك ليست هناك حاجة لتفاعل البيانات.
إذا أخذنا GPT-3 كمثال ، فإن كل جيل من الكلمة التالية يتطلب فقط إدخال النص الحالي وحالة النموذج ، ولا يحتاج إلى التفاعل مع المدخلات أو المخرجات الأخرى ، وبالتالي فإن متطلبات تفاعل البيانات ضعيفة أيضًا.
ملخص
بغض النظر عما إذا كان نموذجًا للغة كبيرة أو نموذجًا للصورة التوليدية ، فإن التعقيد الحسابي وتفاعل البيانات لمهام التفكير منخفض نسبيًا ، وهو أكثر ملاءمة لشبكات طاقة الحوسبة الموزعة اللامركزية ، وهذا هو السبب في أن معظم المشاريع نراها الآن في اتجاه واحد القوة.
إن العتبة التقنية والعرض التقني لشبكة طاقة الحوسبة اللامركزية الموزعة عالية جدًا ، وتتطلب أيضًا دعم موارد الأجهزة ، لذلك لم نشهد الكثير من المحاولات الآن. خذ معًا و Gensyn.ai كأمثلة:
*
(RedPajama من Together) *
Together هي شركة تركز على المصدر المفتوح للنماذج الكبيرة وتلتزم بالحلول اللامركزية لطاقة الحوسبة AI ، وتأمل أن يتمكن أي شخص من الوصول إلى الذكاء الاصطناعي واستخدامه في أي مكان. معًا أغلقوا للتو جولة أولية بقيمة 20 مليون دولار أمريكي بقيادة شركة Lux Capital.
شارك كل من كريس وبيرسي وسي. .
من وجهة نظري ، فإن خطة ريادة الأعمال الأكثر منطقية لقوة الحوسبة الموزعة هي:
** الخطوة الأولى. نموذج مفتوح المصدر **
لتنفيذ الاستدلال النموذجي في شبكة طاقة الحوسبة الموزعة اللامركزية ، فإن الشرط الأساسي هو أن العقد يجب أن تكون قادرة على الحصول على النموذج بتكلفة منخفضة ، أي أن النموذج الذي يستخدم شبكة طاقة الحوسبة اللامركزية يجب أن يكون مفتوح المصدر (إذا كان النموذج يحتاج إلى ترخيص في المقابل إذا تم استخدامه أدناه ، فإنه سيزيد من تعقيد وتكلفة التنفيذ). على سبيل المثال ، لا يعد chatgpt ، كنموذج غير مفتوح المصدر ، مناسبًا للتنفيذ على شبكة طاقة حوسبة لامركزية.
لذلك ، يمكن التكهن بأن الحاجز غير المرئي للشركة التي توفر شبكة طاقة حوسبة لامركزية يحتاج إلى تطوير نماذج قوية واسعة النطاق وقدرات الصيانة. يمكن لنموذج أساسي قوي تم تطويره ذاتيًا ومفتوح المصدر أن يتخلص من الاعتماد على نموذج مفتوح المصدر لجهة خارجية إلى حد معين ، ويحل المشكلات الأساسية لشبكة طاقة الحوسبة اللامركزية. في الوقت نفسه ، من الأفضل إثبات أن شبكة طاقة الحوسبة يمكنها بشكل فعال تنفيذ تدريب واستدلال النماذج الكبيرة.
وفعلت معا الشيء نفسه. تم إطلاق RedPajama المستندة إلى LLaMA التي تم إصدارها مؤخرًا بالاشتراك مع Together و Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research ، بهدف تطوير سلسلة من نماذج اللغات الكبيرة مفتوحة المصدر بالكامل.
** الخطوة الثانية. قوة الحوسبة الموزعة تستند إلى منطق النموذج **
كما هو مذكور في القسمين أعلاه ، مقارنةً بتدريب النموذج ، فإن الاستدلال النموذجي له تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئة الموزعة اللامركزية.
على أساس نموذج المصدر المفتوح ، قام فريق البحث والتطوير في Together’s R&D بإجراء سلسلة من التحديثات على طراز RedPajama-INCITE-3B ، مثل استخدام LoRA لتحقيق ضبط دقيق منخفض التكلفة ، وجعل النموذج يعمل على وحدة المعالجة المركزية (خاصة MacBook) Pro مع معالج M2 Pro) يعمل على الطراز الأكثر نعومة. في الوقت نفسه ، على الرغم من أن حجم هذا النموذج صغير ، إلا أن قدرته تفوق النماذج الأخرى من نفس الحجم ، وقد تم تطبيقه عمليًا في السيناريوهات القانونية والاجتماعية وغيرها.
** الخطوة الثالثة. استقرت قدرة الحوسبة الموزعة على تدريب النموذج **
على المدى المتوسط والطويل ، على الرغم من مواجهة تحديات كبيرة واختناقات فنية ، يجب أن تكون الأكثر جاذبية لتلبية الطلب على قوة الحوسبة لتدريب نموذج كبير على الذكاء الاصطناعي. بدأنا معًا في تحديد كيفية التغلب على اختناق الاتصال في التدريب اللامركزي في بداية إنشائه. كما قاموا بنشر ورقة ذات صلة حول NeurIPS 2022: * التغلب على اختناقات الاتصال للتدريب اللامركزي *. يمكننا تلخيص الاتجاهات التالية بشكل أساسي:
** جدولة التحسين **
عند التدريب في بيئة لامركزية ، من المهم تعيين مهام اتصالات ثقيلة للأجهزة ذات الاتصالات الأسرع لأن الاتصالات بين العقد لها فترات انتقال وعرض نطاق مختلفة. معًا يبني نموذجًا لوصف تكلفة استراتيجية جدولة محددة ، ويحسن استراتيجية الجدولة بشكل أفضل لتقليل تكاليف الاتصال وتعظيم إنتاجية التدريب. وجد فريق Together أيضًا أنه حتى مع وجود شبكة أبطأ 100 مرة ، كان معدل نقل التدريب من طرف إلى طرف أبطأ من 1.7 إلى 2.3 مرة فقط. لذلك ، من المثير للاهتمام اللحاق بالفجوة بين الشبكات الموزعة والمجموعات المركزية من خلال جدولة التحسين.
** تحسين ضغط الاتصال **
يقترح معًا ضغط الاتصال لعمليات التنشيط الأمامية والتدرجات العكسية ، ويقدم خوارزمية AQ-SGD ، والتي توفر ضمانات صارمة لتقارب نزول التدرج العشوائي. AQ-SGD قادر على ضبط النماذج الأساسية الكبيرة على الشبكات البطيئة (على سبيل المثال 500 ميجابت في الثانية) مع أداء تدريبي أبطأ بنسبة 31٪ فقط على الشبكات المركزية (على سبيل المثال 10 جيجابت في الثانية) دون ضغط. بالإضافة إلى ذلك ، يمكن دمج AQ-SGD مع أحدث تقنيات ضغط التدرج مثل QuantizedAdam لتحقيق تسريع من طرف إلى طرف بنسبة 10٪.
ملخص المشروع
يعد تكوين الفريق معًا شاملاً للغاية ، ويتمتع الأعضاء بخلفية أكاديمية قوية جدًا ، بدءًا من تطوير النماذج الكبيرة ، ويتم دعم الحوسبة السحابية إلى تحسين الأجهزة من قبل خبراء الصناعة. أظهرنا معًا وضعًا طويل الأمد وصحيًا للمريض في تخطيط المسار ، من تطوير نماذج كبيرة مفتوحة المصدر إلى اختبار قوة الحوسبة الخاملة (مثل mac) في شبكة طاقة الحوسبة الموزعة باستخدام تفكير النموذج ، ثم قوة الحوسبة الموزعة في تخطيط كبير على تدريب نموذجي. - يوجد هذا النوع من التراكم وشعور الشعر الخفيف :)
ومع ذلك ، في الوقت الحالي ، لم نر الكثير من نتائج البحث الخاصة بـ Together في طبقة الحوافز. أعتقد أن هذا مهم مثل البحث والتطوير التكنولوجي ، وهو عامل رئيسي لضمان تطوير شبكة طاقة حوسبة لامركزية.
*
(Review.ai) *
من المسار التقني لـ Together ، يمكننا أن نفهم تقريبًا عملية تنفيذ شبكة طاقة الحوسبة اللامركزية في التدريب النموذجي والاستدلال ، بالإضافة إلى أولويات البحث والتطوير المقابلة.
هناك نقطة مهمة أخرى لا يمكن تجاهلها وهي تصميم طبقة الحوافز / خوارزمية الإجماع لشبكة الطاقة الحاسوبية. على سبيل المثال ، تحتاج الشبكة الممتازة إلى:
……
** انظر كيف يفعل Gensyn.ai: **
بادئ ذي بدء ، يتنافس المحللون في شبكة الطاقة الحاسوبية على الحق في معالجة المهام المقدمة من المستخدمين من خلال العطاءات ، ووفقًا لحجم المهمة وخطر اكتشاف الغش ، يحتاج المحلل إلى رهن مبلغ معين.
ينشئ Solver نقاط تحقق متعددة أثناء تحديث المعلمات (لضمان الشفافية وإمكانية تتبع العمل) ، ويقوم بشكل دوري بإنشاء أدلة استدلال التشفير (إثبات تقدم العمل) حول المهام ؛
عندما يكمل Solver العمل وينشئ جزءًا من نتائج الحساب ، سيحدد البروتوكول أداة تحقق ، وسوف يتعهد المدقق أيضًا بمبلغ معين (لضمان قيام المدقق بالتحقق بأمانة) ، وتحديد أي جزء من الحساب يجب التحقق من النتائج وفقًا للأدلة المقدمة أعلاه.
من خلال بنية البيانات المستندة إلى شجرة Merkle ، يتم تحديد الموقع الدقيق الذي تختلف فيه نتائج الحساب. ستكون عملية التحقق بأكملها على السلسلة ، وسيتم خصم الغشاشين من المبلغ المرهون به.
ملخص المشروع
إن تصميم خوارزمية التحفيز والتحقق يجعل Gensyn.ai لا يحتاج إلى إعادة عرض جميع نتائج مهمة الحوسبة بأكملها أثناء عملية التحقق ، ولكنه يحتاج فقط إلى نسخ جزء من النتائج والتحقق منه وفقًا للإثبات المقدم ، مما يحسن بشكل كبير كفاءة التحقق. في الوقت نفسه ، تحتاج العقد فقط إلى تخزين جزء من نتائج الحساب ، مما يقلل أيضًا من استهلاك مساحة التخزين وموارد الحوسبة. بالإضافة إلى ذلك ، لا يمكن لعقد الغش المحتملة أن تتنبأ بالأجزاء التي سيتم اختيارها للتحقق منها ، وبالتالي فإن هذا يقلل أيضًا من مخاطر الغش ؛
يمكن أيضًا لهذه الطريقة في التحقق من الاختلافات واكتشاف الغشاشين العثور بسرعة على أخطاء في عملية الحساب دون مقارنة نتائج الحساب بالكامل (بدءًا من العقدة الجذرية لشجرة Merkle والانتقال إلى أسفل خطوة بخطوة). فعالة جدًا لمهام الحوسبة واسعة النطاق.
باختصار ، هدف تصميم طبقة التحفيز / التحقق الخاصة بـ Gensyn.ai هو: بسيط وفعال. ومع ذلك ، فهو يقتصر حاليًا على المستوى النظري ، وقد يواجه التنفيذ المحدد التحديات التالية:
لم يتم التحقق من مسألة من يحتاج إلى شبكة طاقة حوسبة لامركزية. من الواضح أن تطبيق قوة الحوسبة الخاملة على تدريب النموذج واسع النطاق الذي يتطلب موارد طاقة حوسبة ضخمة هو الأكثر منطقية والأكثر إبداعًا. ولكن في الواقع ، يجب أن تدفعنا الاختناقات مثل الاتصال والخصوصية إلى إعادة التفكير:
هل هناك أمل حقًا في التدريب اللامركزي للنماذج الكبيرة؟
إذا قفزت من هذا الإجماع ، فإن “سيناريو الهبوط الأكثر منطقية” ، ما إذا كان سيتم تطبيق قوة الحوسبة اللامركزية لتدريب نماذج الذكاء الاصطناعي الصغيرة هو أيضًا سيناريو كبير. من وجهة نظر فنية ، تم حل العوامل المحددة الحالية نظرًا لحجم النموذج وبنيته. وفي الوقت نفسه ، من وجهة نظر السوق ، شعرنا دائمًا أن تدريب النماذج الكبيرة سيكون ضخمًا من الآن في المستقبل ، لكن سوق نماذج الذكاء الاصطناعي الصغيرة لم يعد جذابًا بعد الآن؟
أنا لا أعتقد ذلك. بالمقارنة مع النماذج الكبيرة ، فإن نماذج الذكاء الاصطناعي الصغيرة أسهل في النشر والإدارة ، وهي أكثر كفاءة من حيث سرعة المعالجة واستخدام الذاكرة.في عدد كبير من سيناريوهات التطبيق ، لا يحتاج المستخدمون أو الشركات إلى قدرات التفكير الأكثر عمومية للغة كبيرة النماذج ، ولكن ركز فقط على هدف تنبؤ دقيق للغاية. لذلك ، لا تزال نماذج الذكاء الاصطناعي الصغيرة خيارًا أكثر قابلية للتطبيق في معظم السيناريوهات ولا ينبغي استبعادها قبل الأوان في موجة النماذج الكبيرة.
** المرجع **