Foresight Ventures: وجهة نظر عقلانية حول شبكات الطاقة الحاسوبية اللامركزية

ForesightNews

2023-06-01 07:39:23

مشهد قوة الحوسبة اللامركزية ضخم ، لكن أين التحديات؟

** بقلم: إيان شو ، Foresight Ventures **

TL ؛ DR

في الوقت الحالي ، هناك اتجاهان رئيسيان للجمع بين AI + Crypto: قوة الحوسبة الموزعة و ZKML ؛ بالنسبة إلى ZKML ، يرجى الرجوع إلى مقالتي السابقة. ** ستحلل هذه المقالة شبكة طاقة الحوسبة الموزعة اللامركزية وتتأمل فيها **.
في ظل اتجاه التطوير لنماذج الذكاء الاصطناعي واسعة النطاق ، ** ستكون موارد طاقة الحوسبة ساحة المعركة الكبرى في العقد المقبل ، وأيضًا أهم شيء للمجتمع البشري في المستقبل ** ، ولن تبقى فقط في المجال التجاري المنافسة ، ولكنها ستصبح أيضًا لعبة القوى العظمى والموارد الإستراتيجية. في المستقبل ، سيزداد الاستثمار في البنية التحتية للحوسبة عالية الأداء واحتياطيات طاقة الحوسبة بشكل كبير.
تتمتع شبكة الطاقة الحاسوبية الموزعة اللامركزية بأكبر طلب على تدريب النماذج الكبيرة للذكاء الاصطناعي ، ولكنها تواجه أيضًا أكبر التحديات والاختناقات التقنية. بما في ذلك الحاجة إلى مزامنة البيانات المعقدة وقضايا تحسين الشبكة. بالإضافة إلى ذلك ، تعتبر خصوصية البيانات وأمنها قيودًا مهمة أيضًا. على الرغم من أن بعض التقنيات الحالية يمكن أن توفر حلولًا أولية ، إلا أنها لا تزال غير قابلة للتطبيق في مهام التدريب الموزعة على نطاق واسع بسبب النفقات العامة الحاسوبية والتواصلية الضخمة.
تتمتع شبكة طاقة الحوسبة الموزعة اللامركزية بفرصة أفضل للهبوط في تفكير النموذج ، ويمكنها أن تتنبأ بأن المساحة الإضافية المستقبلية كبيرة أيضًا بدرجة كافية. لكنها تواجه أيضًا تحديات مثل تأخير الاتصال وخصوصية البيانات وأمن النموذج. مقارنةً بتدريب النموذج ، يكون للاستدلال تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئات الموزعة.
من خلال حالتي شركتين مبتدئتين ، Together و Gensyn.ai ، من منظور تحسين التكنولوجيا وتصميم طبقة الحوافز ، يتم توضيح الاتجاه العام للبحث والأفكار المحددة لشبكة الطاقة الحاسوبية الموزعة اللامركزية.

1. قوة الحوسبة الموزعة - تدريب النموذج الكبير

نحن نناقش تطبيق قوة الحوسبة الموزعة في التدريب ، ونركز بشكل عام على تدريب نماذج اللغة الكبيرة. والسبب الرئيسي هو أن تدريب النماذج الصغيرة لا يتطلب الكثير من قوة الحوسبة. من أجل القيام بخصوصية البيانات الموزعة ومجموعة من المشاريع المشكلة ليست فعالة من حيث التكلفة ، فمن الأفضل حلها بشكل مباشر ومركزي. نموذج اللغة الكبير لديه طلب كبير على قوة الحوسبة ، وهو الآن في المرحلة الأولى من الانفجار. من عام 2012 إلى عام 2018 ، سيتضاعف طلب الحوسبة على الذكاء الاصطناعي كل 4 أشهر تقريبًا. بالحكم على أن السنوات الخمس إلى الثماني القادمة سوف لا يزال طلبًا متزايدًا ضخمًا.

في حين أن هناك فرصًا ضخمة ، يجب أيضًا رؤية المشاكل بوضوح. يعلم الجميع أن المشهد ضخم ، ولكن أين التحديات المحددة؟ من يمكنه استهداف هذه المشكلات بدلاً من الدخول بشكل أعمى في اللعبة هو جوهر الحكم على المشاريع الممتازة لهذا المسار.

*
(إطار عمل NVIDIA NeMo Megatron） *

1. عملية التدريب الشاملة

خذ على سبيل المثال تدريب نموذج كبير مع 175 مليار معلمة. نظرًا للحجم الهائل للنموذج ، يجب تدريبه بشكل متوازٍ على العديد من أجهزة GPU. لنفترض أن هناك غرفة كمبيوتر مركزية بها 100 وحدة معالجة رسومات (GPU) وكل جهاز به ذاكرة تبلغ 32 جيجابايت.

** إعداد البيانات **: أولاً ، يلزم وجود مجموعة بيانات ضخمة تحتوي على بيانات مختلفة مثل معلومات الإنترنت ، والأخبار ، والكتب ، وما إلى ذلك. يجب معالجة هذه البيانات مسبقًا قبل التدريب ، بما في ذلك تنظيف النص ، والترميز ، وبناء المفردات ، وما إلى ذلك.
** تجزئة البيانات **: سيتم تقسيم البيانات المعالجة إلى دفعات متعددة للمعالجة المتوازية على وحدات معالجة رسومات متعددة. افترض أن حجم الدُفعة المحدد هو 512 ، أي أن كل دفعة تحتوي على 512 تسلسلًا نصيًا. بعد ذلك ، قمنا بتقسيم مجموعة البيانات بأكملها إلى دفعات ، لتشكيل قائمة انتظار من الدُفعات.
** نقل البيانات بين الأجهزة **: في بداية كل خطوة تدريب ، تأخذ وحدة المعالجة المركزية دفعة من قائمة انتظار الدُفعات ، ثم ترسل بيانات هذه المجموعة إلى وحدة معالجة الرسومات من خلال ناقل PCIe. بافتراض أن متوسط طول كل تسلسل نصي هو 1024 رمزًا ، يكون حجم البيانات لكل دفعة حوالي 512 \ * 1024 \ * 4B = 2 ميغا بايت (بافتراض أن كل رمز مميز يتم تمثيله برقم نقطة عائمة فردية بدقة 4 بايت). عادةً ما تستغرق عملية نقل البيانات هذه بضع مللي ثانية فقط.
** التدريب الموازي **: بعد أن يتلقى كل جهاز GPU البيانات ، يبدأ في إجراء حسابات التمرير إلى الأمام والخلف ، ويحسب التدرج اللوني لكل معلمة. نظرًا للحجم الكبير للنموذج ، لا يمكن لذاكرة وحدة معالجة الرسومات الواحدة تخزين جميع المعلمات ، لذلك نستخدم تقنية نموذجية متوازية لتوزيع معلمات النموذج على وحدات معالجة رسومات متعددة.
** تجميع التدرج وتحديث المعلمة **: بعد اكتمال حساب الانتشار العكسي ، تحصل كل وحدة معالجة رسومات على التدرج اللوني لجزء من المعلمات. يجب بعد ذلك تجميع هذه التدرجات عبر جميع أجهزة GPU من أجل حساب التدرج اللوني العالمي. يتطلب ذلك نقل البيانات عبر الشبكة ، وبافتراض وجود شبكة بسرعة 25 جيجابت في الثانية ، يستغرق الأمر حوالي 224 ثانية لنقل 700 جيجابايت من البيانات (بافتراض أرقام فاصلة عائمة أحادية الدقة لكل معلمة ، ثم 175 مليار معلمة تساوي حوالي 700 جيجابايت). ثم تقوم كل وحدة معالجة رسومات (GPU) بتحديث معلماتها المخزنة وفقًا للتدرج اللوني العام.
** المزامنة **: بعد تحديث المعلمات ، يجب مزامنة جميع أجهزة وحدة معالجة الرسومات للتأكد من أنها تستخدم جميعها معلمات نموذجية متسقة للخطوة التالية من التدريب. يتطلب هذا أيضًا نقل البيانات عبر الشبكة.
** كرر خطوات التدريب: ** كرر الخطوات المذكورة أعلاه حتى يتم الانتهاء من تدريب جميع الدُفعات ، أو الوصول إلى العدد المحدد مسبقًا من جولات التدريب (الحقبة).

تتضمن هذه العملية قدرًا كبيرًا من نقل البيانات ومزامنتها ، والتي قد تصبح عنق الزجاجة لكفاءة التدريب. لذلك ، يعد تحسين عرض النطاق الترددي للشبكة ووقت الاستجابة واستخدام استراتيجيات التوازي والمزامنة الفعالة أمرًا مهمًا للغاية للتدريب على النماذج واسعة النطاق.

2. عنق الزجاجة للتواصل:

وتجدر الإشارة إلى أن عنق الزجاجة في الاتصال هو أيضًا السبب في أن شبكة طاقة الحوسبة الموزعة الحالية لا يمكنها إجراء تدريب كبير على نموذج اللغة.

تحتاج كل عقدة إلى تبادل المعلومات بشكل متكرر للعمل معًا ، مما يؤدي إلى زيادة تكلفة الاتصال. بالنسبة لنماذج اللغات الكبيرة ، تكون هذه المشكلة خطيرة بشكل خاص بسبب العدد الكبير من معلمات النموذج. يتم تقسيم النفقات العامة للاتصالات إلى هذه الجوانب:

** نقل البيانات **: تحتاج العقد إلى تبادل معلمات النموذج ومعلومات التدرج بشكل متكرر أثناء التدريب. يتطلب ذلك نقل كمية كبيرة من البيانات في الشبكة ، مما يستهلك قدرًا كبيرًا من النطاق الترددي للشبكة. إذا كانت ظروف الشبكة رديئة أو كانت المسافة بين عقد الحوسبة كبيرة ، فسيكون التأخير في نقل البيانات مرتفعًا ، مما يزيد من عبء الاتصال.
** مشكلة التزامن **: أثناء التدريب ، تحتاج العقد للعمل معًا لضمان التدريب الصحيح. يتطلب ذلك عمليات مزامنة متكررة بين العقد ، مثل تحديث معلمات النموذج ، وحساب التدرجات العالمية ، وما إلى ذلك. تحتاج هذه العمليات المتزامنة إلى نقل كمية كبيرة من البيانات في الشبكة ، وتحتاج إلى انتظار جميع العقد لإكمال العملية ، مما سيؤدي إلى الكثير من الاتصالات ووقت الانتظار.
** تراكم التدرج وتحديثه **: أثناء عملية التدريب ، تحتاج كل عقدة إلى حساب التدرج اللوني الخاص بها وإرساله إلى العقد الأخرى للتراكم والتحديث. يتطلب ذلك نقل كمية كبيرة من بيانات التدرج في الشبكة ، والحاجة إلى انتظار جميع العقد لإكمال حساب التدرجات ونقلها ، وهو أيضًا سبب وجود قدر كبير من الحمل الزائد للاتصالات.
** اتساق البيانات **: من الضروري التأكد من أن معلمات النموذج لكل عقدة متسقة. يتطلب هذا المجموع الاختباري المتكرر للبيانات وعمليات المزامنة بين العقد ، مما يؤدي إلى قدر كبير من حمل الاتصال.

على الرغم من وجود بعض الطرق لتقليل نفقات الاتصال ، مثل ضغط المعلمات والتدرجات ، والاستراتيجيات الموازية الفعالة ، وما إلى ذلك ، فقد تؤدي هذه الأساليب إلى زيادة العبء الحسابي أو التأثير سلبًا على تأثير التدريب للنموذج. أيضًا ، لا يمكن لهذه الطرق أن تحل مشكلة الاتصال العلوية تمامًا ، خاصة في حالة ظروف الشبكة السيئة أو المسافات الكبيرة بين عقد الحوسبة.

كمثال:

** شبكة طاقة الحوسبة الموزعة اللامركزية **

يحتوي نموذج GPT-3 على 175 مليار معلمة ، وإذا قمنا بتمثيل هذه المعلمات باستخدام أرقام فاصلة عائمة أحادية الدقة (4 بايت لكل معلمة) ، فإن تخزين هذه المعلمات يتطلب حوالي 700 جيجابايت من الذاكرة. في التدريب الموزع ، يجب نقل هذه المعلمات وتحديثها بشكل متكرر بين عقد الحوسبة.

بافتراض وجود 100 عقدة حسابية ، تحتاج كل عقدة إلى تحديث جميع المعلمات في كل خطوة ، ثم تحتاج كل خطوة إلى نقل حوالي 70 تيرابايت (700 جيجابايت \ * 100) من البيانات. إذا افترضنا أن الخطوة تستغرق ثانية واحدة (افتراض متفائل جدًا) ، فيجب نقل 70 تيرابايت من البيانات كل ثانية. هذا الطلب على النطاق الترددي يفوق بكثير بالفعل طلب معظم الشبكات وهو أيضًا مسألة جدوى.

في الواقع ، بسبب تأخيرات الاتصال وازدحام الشبكة ، قد يكون وقت نقل البيانات أطول بكثير من 1 ثانية. هذا يعني أن عقد الحوسبة قد تحتاج إلى قضاء الكثير من الوقت في انتظار نقل البيانات بدلاً من إجراء حسابات فعلية. سيؤدي هذا إلى تقليل كفاءة التدريب بشكل كبير ، ولا يمكن حل هذا الانخفاض في الكفاءة بالانتظار ، ولكن الفرق بين ممكن وغير ممكن ، مما سيجعل عملية التدريب بأكملها غير قابلة للتنفيذ.

** غرفة كمبيوتر مركزية **

حتى في بيئة غرفة الكمبيوتر المركزية ، لا يزال تدريب النماذج الكبيرة يتطلب تحسينًا كثيفًا للاتصالات.

في بيئة غرفة الكمبيوتر المركزية ، تُستخدم أجهزة الحوسبة عالية الأداء كمجموعة ، متصلة عبر شبكة عالية السرعة لمشاركة مهام الحوسبة. ومع ذلك ، حتى عند تدريب نموذج مع عدد كبير جدًا من المعلمات في بيئة شبكة عالية السرعة ، لا تزال عبء الاتصال يمثل عنق الزجاجة ، لأن معلمات وتدرجات النموذج تحتاج إلى النقل والتحديث بشكل متكرر بين أجهزة الحوسبة المختلفة .

كما ذكرنا في البداية ، افترض أن هناك 100 عقدة حوسبة ، كل خادم لديه نطاق ترددي للشبكة يبلغ 25 جيجابت في الثانية. إذا احتاج كل خادم إلى تحديث جميع المعلمات في كل خطوة تدريب ، فإن كل خطوة تدريب تحتاج إلى نقل حوالي 700 جيجابايت من البيانات وتستغرق حوالي 224 ثانية. من خلال الاستفادة من غرفة الكمبيوتر المركزية ، يمكن للمطورين تحسين طوبولوجيا الشبكة داخل مركز البيانات واستخدام تقنيات مثل نموذج التوازي لتقليل هذا الوقت بشكل كبير.

في المقابل ، إذا تم إجراء نفس التدريب في بيئة موزعة ، بافتراض أنه لا يزال هناك 100 عقدة حوسبة موزعة في جميع أنحاء العالم ، فإن متوسط عرض النطاق الترددي للشبكة لكل عقدة هو 1 جيجابت في الثانية فقط. في هذه الحالة ، يستغرق الأمر حوالي 5600 ثانية لنقل نفس 700 جيجابايت من البيانات ، وهو أطول بكثير مما هو عليه في غرفة الكمبيوتر المركزية. أيضًا ، نظرًا لتأخيرات الشبكة وازدحامها ، فقد يكون الوقت الفعلي المطلوب أطول.

ومع ذلك ، مقارنةً بالموقف في شبكة طاقة الحوسبة الموزعة ، فمن السهل نسبيًا تحسين عبء الاتصال في بيئة غرفة كمبيوتر مركزية. لأنه في بيئة غرفة الكمبيوتر المركزية ، عادةً ما تكون أجهزة الحوسبة متصلة بنفس الشبكة عالية السرعة ، ويكون عرض النطاق الترددي وتأخير الشبكة جيدًا نسبيًا. في شبكة طاقة الحوسبة الموزعة ، قد يتم توزيع عقد الحوسبة في جميع أنحاء العالم ، وقد تكون ظروف الشبكة رديئة نسبيًا ، مما يجعل مشكلة الاتصال الزائد أكثر خطورة.

في عملية تدريب GPT-3 ، يستخدم OpenAI إطار عمل موازٍ نموذجي يسمى Megatron لحل مشكلة الاتصال الزائد. يقسم Megatron معلمات النموذج ويعالجها بالتوازي بين وحدات معالجة رسومات متعددة ، وكل جهاز مسؤول فقط عن تخزين وتحديث جزء من المعلمات ، وبالتالي تقليل كمية المعلمات التي يحتاجها كل جهاز للمعالجة وتقليل عبء الاتصال. في الوقت نفسه ، تُستخدم أيضًا شبكة ربط عالي السرعة أثناء التدريب ، ويتم تقليل طول مسار الاتصال عن طريق تحسين هيكل الشبكة.

*
（البيانات المستخدمة لتدريب نماذج LLM） *

3. لماذا لا تستطيع شبكة طاقة الحوسبة الموزعة إجراء هذه التحسينات

يمكن القيام بذلك ، ولكن بالمقارنة مع غرفة الكمبيوتر المركزية ، فإن تأثير هذه التحسينات محدود للغاية.

** تحسين طوبولوجيا الشبكة **: في غرفة الكمبيوتر المركزية ، يمكن التحكم في أجهزة الشبكة وتخطيطها بشكل مباشر ، لذلك يمكن تصميم هيكل الشبكة وتحسينه وفقًا للاحتياجات. ومع ذلك ، في بيئة موزعة ، يتم توزيع عقد الحوسبة في مواقع جغرافية مختلفة ، حتى واحدة في الصين وواحدة في الولايات المتحدة ، ولا توجد طريقة للتحكم المباشر في اتصال الشبكة بينهما. على الرغم من أنه يمكن استخدام البرامج لتحسين مسار نقل البيانات ، إلا أنها ليست فعالة مثل التحسين المباشر لشبكة الأجهزة. في الوقت نفسه ، نظرًا للاختلافات في المواقع الجغرافية ، فإن تأخيرات الشبكة وعروض النطاق تختلف أيضًا بشكل كبير ، مما يحد بشكل أكبر من تأثير تحسين طوبولوجيا الشبكة.
** نموذج التوازي **: نموذج التوازي هو تقنية تقسم معلمات النموذج إلى عقد حوسبة متعددة ، وتحسن سرعة التدريب من خلال المعالجة المتوازية. ومع ذلك ، تحتاج هذه الطريقة عادةً إلى نقل البيانات بين العقد بشكل متكرر ، لذلك فهي تتطلب متطلبات عالية بشأن النطاق الترددي للشبكة ووقت الاستجابة. في غرفة الكمبيوتر المركزية ، نظرًا لارتفاع عرض النطاق الترددي للشبكة وزمن وصول منخفض ، يمكن أن يكون نموذج التوازي فعالًا للغاية. ومع ذلك ، في بيئة موزعة ، يكون نموذج التوازي محدودًا إلى حد كبير بسبب ظروف الشبكة السيئة.

4. تحديات أمان البيانات والخصوصية

قد تؤثر جميع الروابط التي تتضمن معالجة البيانات ونقلها تقريبًا على أمان البيانات وخصوصيتها:

** توزيع البيانات **: يجب توزيع بيانات التدريب على كل عقدة مشاركة في الحساب. قد يتم استخدام / تسريب البيانات الموجودة في هذا الارتباط بشكل ضار على العقد الموزعة.
** تدريب النموذج **: أثناء عملية التدريب ، ستستخدم كل عقدة البيانات المخصصة لها للحساب ، ثم تُخرج التحديث أو التدرج اللوني لمعلمات النموذج. أثناء هذه العملية ، إذا سُرقت عملية حساب العقدة أو تم تحليل النتيجة بشكل ضار ، فقد يتم أيضًا تسريب البيانات.
** المعلمة وتجميع التدرج **: يجب تجميع ناتج كل عقدة لتحديث النموذج العالمي ، وقد يؤدي الاتصال أثناء عملية التجميع أيضًا إلى تسريب معلومات حول بيانات التدريب.

** ما الحلول المتاحة لمخاوف خصوصية البيانات؟ **

حساب متعدد الأطراف آمن: تم تطبيق SMC بنجاح في بعض مهام الحوسبة المحددة صغيرة الحجم. ومع ذلك ، في مهام التدريب الموزعة على نطاق واسع ، نظرًا لحملها الكبير في مجال الحوسبة والاتصالات ، لم يتم استخدامها على نطاق واسع حتى الآن.
الخصوصية التفاضلية: تُطبق في بعض مهام جمع البيانات وتحليلها ، مثل إحصائيات مستخدم Chrome ، إلخ. ولكن في مهام التعلم العميق على نطاق واسع ، سيكون لـ DP تأثير على دقة النموذج. في الوقت نفسه ، يمثل تصميم آلية مناسبة لتوليد الضوضاء وإضافتها تحديًا.
التعلم الموحد: يتم تطبيقه في بعض مهام تدريب نماذج الأجهزة المتطورة ، مثل توقع المفردات للوحات مفاتيح Android ، إلخ. ولكن في مهام التدريب الموزعة على نطاق واسع ، تواجه FL مشاكل مثل ارتفاع مستوى الاتصال والتنسيق المعقد.
التشفير متماثل الشكل: تم تطبيقه بنجاح في بعض المهام مع تعقيد حسابي أقل. ومع ذلك ، في مهام التدريب الموزعة على نطاق واسع ، نظرًا لارتفاع تكاليفها الحسابية ، لم يتم استخدامها على نطاق واسع حتى الآن.

ملخص

كل من الطرق المذكورة أعلاه لها سيناريوهات وقيود قابلة للتطبيق ، ولا يمكن لأي من الطرق أن تحل تمامًا مشكلة خصوصية البيانات في تدريب النموذج الكبير لشبكة طاقة الحوسبة الموزعة.

هل تستطيع ZK ، التي لديها آمال كبيرة ، حل مشكلة خصوصية البيانات في تدريب النماذج الكبيرة؟ *

من الناحية النظرية ، يمكن استخدام ZKP لضمان خصوصية البيانات في الحوسبة الموزعة ، مما يسمح للعقدة بإثبات أنها أجرت حسابات وفقًا للوائح ، ولكنها لا تحتاج إلى الكشف عن بيانات الإدخال والإخراج الفعلية.

ولكن في الواقع ، تواجه الاختناقات التالية في سيناريو استخدام ZKP لنماذج كبيرة لتدريب شبكة الطاقة الحاسوبية الموزعة على نطاق واسع:

** النفقات العامة للحوسبة والاتصالات **: يتطلب إنشاء براهين انعدام المعرفة والتحقق منها الكثير من موارد الحوسبة. بالإضافة إلى ذلك ، تتمتع ZKPs بنفقات اتصال عالية بسبب الحاجة إلى إرسال الدليل نفسه. يمكن أن تصبح هذه النفقات العامة ذات أهمية خاصة في حالة تدريب النموذج الكبير. على سبيل المثال ، إذا كان حساب كل دفعة صغيرة يتطلب إنشاء إثبات ، فقد يؤدي ذلك إلى زيادة الوقت الإجمالي وتكلفة التدريب بشكل كبير.
** تعقيد بروتوكول ZK **: تصميم وتنفيذ بروتوكول ZKP المناسب لتدريب النماذج الكبيرة سيكون معقدًا للغاية. يجب أن يكون هذا البروتوكول قادرًا على التعامل مع البيانات واسعة النطاق والحسابات المعقدة ، ويجب أن يكون قادرًا على التعامل مع الأخطاء غير الطبيعية المحتملة.
** توافق الأجهزة والبرامج **: يتطلب استخدام ZKP دعمًا محددًا للأجهزة والبرامج ، والذي قد لا يكون متاحًا على جميع أجهزة الحوسبة الموزعة.

ملخص

لاستخدام ZKP لشبكات الحوسبة الموزعة على نطاق واسع لتدريب النماذج الكبيرة ، سوف يستغرق الأمر عدة سنوات من البحث والتطوير ، كما سيتطلب المزيد من الطاقة والموارد من المجتمع الأكاديمي في هذا الاتجاه.

2. قدرة الحوسبة الموزعة - نموذج التفكير

سيناريو آخر كبير نسبيًا لقوة الحوسبة الموزعة هو الاستدلال النموذجي.وفقًا لحكمنا على مسار تطوير النماذج الكبيرة ، فإن الطلب على تدريب النموذج سوف يتباطأ تدريجياً مع نضوج النماذج الكبيرة بعد اجتياز نقطة عالية. ستزداد متطلبات الاستدلال بالمقابل بشكل كبير مع نضج النماذج الكبيرة و AIGC.

بالمقارنة مع مهام التدريب ، عادةً ما يكون لمهام الاستدلال تعقيد حسابي أقل وتفاعل بيانات أضعف ، وتكون أكثر ملاءمة للبيئات الموزعة.

*
(استدلال Power LLM مع NVIDIA Triton) *

1. التحدي

** تأخير الاتصال **:

في بيئة موزعة ، يعد الاتصال بين العقد أمرًا ضروريًا. في شبكة طاقة الحوسبة الموزعة اللامركزية ، قد تنتشر العقد في جميع أنحاء العالم ، لذلك يمكن أن يمثل زمن انتقال الشبكة مشكلة ، خاصةً في المهام المنطقية التي تتطلب استجابة في الوقت الفعلي.

** نشر النموذج وتحديثه **:

يجب نشر النموذج على كل عقدة. إذا تم تحديث النموذج ، فستحتاج كل عقدة إلى تحديث نموذجها ، مما يستهلك الكثير من عرض النطاق الترددي للشبكة والوقت.

خصوصية البيانات:

على الرغم من أن مهام الاستدلال تتطلب عادةً بيانات ونماذج إدخال فقط ، ولا تحتاج إلى إرجاع كمية كبيرة من البيانات والمعلمات الوسيطة ، فقد تظل بيانات الإدخال تحتوي على معلومات حساسة ، مثل المعلومات الشخصية للمستخدمين.

** نموذج الأمان **:

في الشبكة اللامركزية ، يجب نشر النموذج على عقد غير موثوق بها ، مما سيؤدي إلى تسرب النموذج ويؤدي إلى مشكلة حقوق الملكية النموذجية وإساءة الاستخدام. يمكن أن يثير هذا أيضًا مخاوف تتعلق بالأمان والخصوصية ، إذا تم استخدام نموذج لمعالجة البيانات الحساسة ، يمكن للعقد استنتاج معلومات حساسة من خلال تحليل سلوك النموذج.

** مراقبة الجودة **:

قد يكون لكل عقدة في شبكة طاقة الحوسبة الموزعة اللامركزية قدرات وموارد حوسبة مختلفة ، مما قد يجعل من الصعب ضمان أداء وجودة مهام الاستدلال.

2. الجدوى

التعقيد الحسابي:

في مرحلة التدريب ، يحتاج النموذج إلى التكرار بشكل متكرر. أثناء عملية التدريب ، من الضروري حساب الانتشار الأمامي والانتشار الخلفي لكل طبقة ، بما في ذلك حساب وظيفة التنشيط ، وحساب وظيفة الخسارة ، وحساب التدرج وتحديث الوزن. لذلك ، فإن التعقيد الحسابي لتدريب النموذج مرتفع.

في مرحلة الاستدلال ، يلزم مرور أمامي واحد فقط لحساب التنبؤ. على سبيل المثال ، في GPT-3 ، يجب تحويل نص الإدخال إلى متجه ، ثم إعادة توجيهه عبر كل طبقة من النموذج (عادةً طبقة المحولات) ، وأخيراً يتم الحصول على توزيع احتمالية الإخراج ، ويتم إنشاء الكلمة التالية وفقًا لهذا التوزيع. في شبكات GAN ، يحتاج النموذج إلى إنشاء صورة من متجه ضوضاء الإدخال. تتضمن هذه العمليات فقط الانتشار الأمامي للنموذج ، ولا تحتاج إلى حساب التدرجات أو تحديث المعلمات ، ولديها تعقيد حسابي منخفض.

** تفاعل البيانات **:

أثناء مرحلة الاستدلال ، يعالج النموذج عادةً إدخالًا واحدًا بدلاً من مجموعة كبيرة من البيانات أثناء التدريب. تعتمد نتيجة كل استنتاج فقط على المدخلات الحالية ، وليس على مدخلات أو مخرجات أخرى ، لذلك ليست هناك حاجة لقدر كبير من تفاعل البيانات ، وضغط الاتصال أقل.

بأخذ نموذج الصورة التوليدية كمثال ، بافتراض أننا نستخدم شبكات GAN لتوليد الصور ، نحتاج فقط إلى إدخال ناقل ضوضاء في النموذج ، ومن ثم سيقوم النموذج بإنشاء صورة مقابلة. في هذه العملية ، سيولد كل إدخال ناتجًا واحدًا فقط ، ولا توجد تبعية بين المخرجات ، لذلك ليست هناك حاجة لتفاعل البيانات.

إذا أخذنا GPT-3 كمثال ، فإن كل جيل من الكلمة التالية يتطلب فقط إدخال النص الحالي وحالة النموذج ، ولا يحتاج إلى التفاعل مع المدخلات أو المخرجات الأخرى ، وبالتالي فإن متطلبات تفاعل البيانات ضعيفة أيضًا.

ملخص

بغض النظر عما إذا كان نموذجًا للغة كبيرة أو نموذجًا للصورة التوليدية ، فإن التعقيد الحسابي وتفاعل البيانات لمهام التفكير منخفض نسبيًا ، وهو أكثر ملاءمة لشبكات طاقة الحوسبة الموزعة اللامركزية ، وهذا هو السبب في أن معظم المشاريع نراها الآن في اتجاه واحد القوة.

3. العناصر

إن العتبة التقنية والعرض التقني لشبكة طاقة الحوسبة اللامركزية الموزعة عالية جدًا ، وتتطلب أيضًا دعم موارد الأجهزة ، لذلك لم نشهد الكثير من المحاولات الآن. خذ معًا و Gensyn.ai كأمثلة:

1. معًا

*
（RedPajama من Together） *

Together هي شركة تركز على المصدر المفتوح للنماذج الكبيرة وتلتزم بالحلول اللامركزية لطاقة الحوسبة AI ، وتأمل أن يتمكن أي شخص من الوصول إلى الذكاء الاصطناعي واستخدامه في أي مكان. معًا أغلقوا للتو جولة أولية بقيمة 20 مليون دولار أمريكي بقيادة شركة Lux Capital.

شارك كل من كريس وبيرسي وسي. .

من وجهة نظري ، فإن خطة ريادة الأعمال الأكثر منطقية لقوة الحوسبة الموزعة هي:

** الخطوة الأولى. نموذج مفتوح المصدر **

لتنفيذ الاستدلال النموذجي في شبكة طاقة الحوسبة الموزعة اللامركزية ، فإن الشرط الأساسي هو أن العقد يجب أن تكون قادرة على الحصول على النموذج بتكلفة منخفضة ، أي أن النموذج الذي يستخدم شبكة طاقة الحوسبة اللامركزية يجب أن يكون مفتوح المصدر (إذا كان النموذج يحتاج إلى ترخيص في المقابل إذا تم استخدامه أدناه ، فإنه سيزيد من تعقيد وتكلفة التنفيذ). على سبيل المثال ، لا يعد chatgpt ، كنموذج غير مفتوح المصدر ، مناسبًا للتنفيذ على شبكة طاقة حوسبة لامركزية.

لذلك ، يمكن التكهن بأن الحاجز غير المرئي للشركة التي توفر شبكة طاقة حوسبة لامركزية يحتاج إلى تطوير نماذج قوية واسعة النطاق وقدرات الصيانة. يمكن لنموذج أساسي قوي تم تطويره ذاتيًا ومفتوح المصدر أن يتخلص من الاعتماد على نموذج مفتوح المصدر لجهة خارجية إلى حد معين ، ويحل المشكلات الأساسية لشبكة طاقة الحوسبة اللامركزية. في الوقت نفسه ، من الأفضل إثبات أن شبكة طاقة الحوسبة يمكنها بشكل فعال تنفيذ تدريب واستدلال النماذج الكبيرة.

وفعلت معا الشيء نفسه. تم إطلاق RedPajama المستندة إلى LLaMA التي تم إصدارها مؤخرًا بالاشتراك مع Together و Ontocord.ai و ETH DS3Lab و Stanford CRFM و Hazy Research ، بهدف تطوير سلسلة من نماذج اللغات الكبيرة مفتوحة المصدر بالكامل.

** الخطوة الثانية. قوة الحوسبة الموزعة تستند إلى منطق النموذج **

كما هو مذكور في القسمين أعلاه ، مقارنةً بتدريب النموذج ، فإن الاستدلال النموذجي له تعقيد حسابي وتفاعل بيانات أقل ، وهو أكثر ملاءمة للبيئة الموزعة اللامركزية.

على أساس نموذج المصدر المفتوح ، قام فريق البحث والتطوير في Together’s R&D بإجراء سلسلة من التحديثات على طراز RedPajama-INCITE-3B ، مثل استخدام LoRA لتحقيق ضبط دقيق منخفض التكلفة ، وجعل النموذج يعمل على وحدة المعالجة المركزية (خاصة MacBook) Pro مع معالج M2 Pro) يعمل على الطراز الأكثر نعومة. في الوقت نفسه ، على الرغم من أن حجم هذا النموذج صغير ، إلا أن قدرته تفوق النماذج الأخرى من نفس الحجم ، وقد تم تطبيقه عمليًا في السيناريوهات القانونية والاجتماعية وغيرها.

** الخطوة الثالثة. استقرت قدرة الحوسبة الموزعة على تدريب النموذج **

(التغلب على معوقات الاتصال لمخطط شبكة الطاقة الحاسوبية للتدريب اللامركزي) *

على المدى المتوسط والطويل ، على الرغم من مواجهة تحديات كبيرة واختناقات فنية ، يجب أن تكون الأكثر جاذبية لتلبية الطلب على قوة الحوسبة لتدريب نموذج كبير على الذكاء الاصطناعي. بدأنا معًا في تحديد كيفية التغلب على اختناق الاتصال في التدريب اللامركزي في بداية إنشائه. كما قاموا بنشر ورقة ذات صلة حول NeurIPS 2022: * التغلب على اختناقات الاتصال للتدريب اللامركزي *. يمكننا تلخيص الاتجاهات التالية بشكل أساسي:

** جدولة التحسين **

عند التدريب في بيئة لامركزية ، من المهم تعيين مهام اتصالات ثقيلة للأجهزة ذات الاتصالات الأسرع لأن الاتصالات بين العقد لها فترات انتقال وعرض نطاق مختلفة. معًا يبني نموذجًا لوصف تكلفة استراتيجية جدولة محددة ، ويحسن استراتيجية الجدولة بشكل أفضل لتقليل تكاليف الاتصال وتعظيم إنتاجية التدريب. وجد فريق Together أيضًا أنه حتى مع وجود شبكة أبطأ 100 مرة ، كان معدل نقل التدريب من طرف إلى طرف أبطأ من 1.7 إلى 2.3 مرة فقط. لذلك ، من المثير للاهتمام اللحاق بالفجوة بين الشبكات الموزعة والمجموعات المركزية من خلال جدولة التحسين.

** تحسين ضغط الاتصال **

يقترح معًا ضغط الاتصال لعمليات التنشيط الأمامية والتدرجات العكسية ، ويقدم خوارزمية AQ-SGD ، والتي توفر ضمانات صارمة لتقارب نزول التدرج العشوائي. AQ-SGD قادر على ضبط النماذج الأساسية الكبيرة على الشبكات البطيئة (على سبيل المثال 500 ميجابت في الثانية) مع أداء تدريبي أبطأ بنسبة 31٪ فقط على الشبكات المركزية (على سبيل المثال 10 جيجابت في الثانية) دون ضغط. بالإضافة إلى ذلك ، يمكن دمج AQ-SGD مع أحدث تقنيات ضغط التدرج مثل QuantizedAdam لتحقيق تسريع من طرف إلى طرف بنسبة 10٪.

ملخص المشروع

يعد تكوين الفريق معًا شاملاً للغاية ، ويتمتع الأعضاء بخلفية أكاديمية قوية جدًا ، بدءًا من تطوير النماذج الكبيرة ، ويتم دعم الحوسبة السحابية إلى تحسين الأجهزة من قبل خبراء الصناعة. أظهرنا معًا وضعًا طويل الأمد وصحيًا للمريض في تخطيط المسار ، من تطوير نماذج كبيرة مفتوحة المصدر إلى اختبار قوة الحوسبة الخاملة (مثل mac) في شبكة طاقة الحوسبة الموزعة باستخدام تفكير النموذج ، ثم قوة الحوسبة الموزعة في تخطيط كبير على تدريب نموذجي. - يوجد هذا النوع من التراكم وشعور الشعر الخفيف :)

ومع ذلك ، في الوقت الحالي ، لم نر الكثير من نتائج البحث الخاصة بـ Together في طبقة الحوافز. أعتقد أن هذا مهم مثل البحث والتطوير التكنولوجي ، وهو عامل رئيسي لضمان تطوير شبكة طاقة حوسبة لامركزية.

2.Review.ai

*
(Review.ai) *

من المسار التقني لـ Together ، يمكننا أن نفهم تقريبًا عملية تنفيذ شبكة طاقة الحوسبة اللامركزية في التدريب النموذجي والاستدلال ، بالإضافة إلى أولويات البحث والتطوير المقابلة.

هناك نقطة مهمة أخرى لا يمكن تجاهلها وهي تصميم طبقة الحوافز / خوارزمية الإجماع لشبكة الطاقة الحاسوبية. على سبيل المثال ، تحتاج الشبكة الممتازة إلى:

تأكد من أن الفوائد جذابة بما فيه الكفاية ؛
ضمان حصول كل عامل منجم على المزايا التي يستحقها ، بما في ذلك مكافحة الغش والمزيد من الأجر مقابل المزيد من العمل ؛
التأكد من جدولة المهام بشكل مباشر ومعقول وتوزيعها على عقد مختلفة ، ولن يكون هناك عدد كبير من العقد الخاملة أو اكتظاظ بعض العقد ؛
خوارزمية الحوافز بسيطة وفعالة ، ولن تتسبب في زيادة عبء النظام والتأخير ؛

……

** انظر كيف يفعل Gensyn.ai: **

** كن عقدة **

بادئ ذي بدء ، يتنافس المحللون في شبكة الطاقة الحاسوبية على الحق في معالجة المهام المقدمة من المستخدمين من خلال العطاءات ، ووفقًا لحجم المهمة وخطر اكتشاف الغش ، يحتاج المحلل إلى رهن مبلغ معين.

يؤكد

ينشئ Solver نقاط تحقق متعددة أثناء تحديث المعلمات (لضمان الشفافية وإمكانية تتبع العمل) ، ويقوم بشكل دوري بإنشاء أدلة استدلال التشفير (إثبات تقدم العمل) حول المهام ؛

عندما يكمل Solver العمل وينشئ جزءًا من نتائج الحساب ، سيحدد البروتوكول أداة تحقق ، وسوف يتعهد المدقق أيضًا بمبلغ معين (لضمان قيام المدقق بالتحقق بأمانة) ، وتحديد أي جزء من الحساب يجب التحقق من النتائج وفقًا للأدلة المقدمة أعلاه.

** في حالة الاختلاف بين المحقق والمحلل **

من خلال بنية البيانات المستندة إلى شجرة Merkle ، يتم تحديد الموقع الدقيق الذي تختلف فيه نتائج الحساب. ستكون عملية التحقق بأكملها على السلسلة ، وسيتم خصم الغشاشين من المبلغ المرهون به.

ملخص المشروع

إن تصميم خوارزمية التحفيز والتحقق يجعل Gensyn.ai لا يحتاج إلى إعادة عرض جميع نتائج مهمة الحوسبة بأكملها أثناء عملية التحقق ، ولكنه يحتاج فقط إلى نسخ جزء من النتائج والتحقق منه وفقًا للإثبات المقدم ، مما يحسن بشكل كبير كفاءة التحقق. في الوقت نفسه ، تحتاج العقد فقط إلى تخزين جزء من نتائج الحساب ، مما يقلل أيضًا من استهلاك مساحة التخزين وموارد الحوسبة. بالإضافة إلى ذلك ، لا يمكن لعقد الغش المحتملة أن تتنبأ بالأجزاء التي سيتم اختيارها للتحقق منها ، وبالتالي فإن هذا يقلل أيضًا من مخاطر الغش ؛

يمكن أيضًا لهذه الطريقة في التحقق من الاختلافات واكتشاف الغشاشين العثور بسرعة على أخطاء في عملية الحساب دون مقارنة نتائج الحساب بالكامل (بدءًا من العقدة الجذرية لشجرة Merkle والانتقال إلى أسفل خطوة بخطوة). فعالة جدًا لمهام الحوسبة واسعة النطاق.

باختصار ، هدف تصميم طبقة التحفيز / التحقق الخاصة بـ Gensyn.ai هو: بسيط وفعال. ومع ذلك ، فهو يقتصر حاليًا على المستوى النظري ، وقد يواجه التنفيذ المحدد التحديات التالية:

في النموذج الاقتصادي ، كيفية تحديد المعايير المناسبة بحيث يمكنها منع الاحتيال بشكل فعال دون تحديد عتبة عالية جدًا للمشاركين.
فيما يتعلق بالتنفيذ الفني ، فإن كيفية صياغة إثبات منطقي فعال للتشفير الدوري هي أيضًا مشكلة معقدة تتطلب معرفة متقدمة بالتشفير.
فيما يتعلق بتخصيص المهام ، فإن كيفية اختيار المهام وتعيينها لمحللين مختلفين في شبكة الطاقة الحاسوبية تحتاج أيضًا إلى دعم خوارزمية جدولة معقولة. من الواضح أنها مفتوحة للتساؤل من حيث الكفاءة والجدوى لتخصيص المهام فقط وفقًا لـ آلية تقديم العطاءات ، مثل قوة الحوسبة ، يمكن للعقد القوية التعامل مع المهام على نطاق أوسع ، ولكنها قد لا تشارك في العطاءات (يتضمن ذلك حوافز لتوافر العقدة) ، وقد تقدم العقد ذات القدرة الحوسبية المنخفضة أعلى عروض الأسعار ولكنها ليست مناسبة للمقياس الكبير المعقد مهام الحوسبة.

رابعًا ، قليل من التفكير في المستقبل

لم يتم التحقق من مسألة من يحتاج إلى شبكة طاقة حوسبة لامركزية. من الواضح أن تطبيق قوة الحوسبة الخاملة على تدريب النموذج واسع النطاق الذي يتطلب موارد طاقة حوسبة ضخمة هو الأكثر منطقية والأكثر إبداعًا. ولكن في الواقع ، يجب أن تدفعنا الاختناقات مثل الاتصال والخصوصية إلى إعادة التفكير:

هل هناك أمل حقًا في التدريب اللامركزي للنماذج الكبيرة؟

إذا قفزت من هذا الإجماع ، فإن “سيناريو الهبوط الأكثر منطقية” ، ما إذا كان سيتم تطبيق قوة الحوسبة اللامركزية لتدريب نماذج الذكاء الاصطناعي الصغيرة هو أيضًا سيناريو كبير. من وجهة نظر فنية ، تم حل العوامل المحددة الحالية نظرًا لحجم النموذج وبنيته. وفي الوقت نفسه ، من وجهة نظر السوق ، شعرنا دائمًا أن تدريب النماذج الكبيرة سيكون ضخمًا من الآن في المستقبل ، لكن سوق نماذج الذكاء الاصطناعي الصغيرة لم يعد جذابًا بعد الآن؟

أنا لا أعتقد ذلك. بالمقارنة مع النماذج الكبيرة ، فإن نماذج الذكاء الاصطناعي الصغيرة أسهل في النشر والإدارة ، وهي أكثر كفاءة من حيث سرعة المعالجة واستخدام الذاكرة.في عدد كبير من سيناريوهات التطبيق ، لا يحتاج المستخدمون أو الشركات إلى قدرات التفكير الأكثر عمومية للغة كبيرة النماذج ، ولكن ركز فقط على هدف تنبؤ دقيق للغاية. لذلك ، لا تزال نماذج الذكاء الاصطناعي الصغيرة خيارًا أكثر قابلية للتطبيق في معظم السيناريوهات ولا ينبغي استبعادها قبل الأوان في موجة النماذج الكبيرة.

** المرجع **

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات

Foresight Ventures: وجهة نظر عقلانية حول شبكات الطاقة الحاسوبية اللامركزية

TL ؛ DR

1. قوة الحوسبة الموزعة - تدريب النموذج الكبير

1. عملية التدريب الشاملة

** 2. عنق الزجاجة للتواصل: **

** 3. لماذا لا تستطيع شبكة طاقة الحوسبة الموزعة إجراء هذه التحسينات **

** 4. تحديات أمان البيانات والخصوصية **

** 2. قدرة الحوسبة الموزعة - نموذج التفكير **

** 1. التحدي **

** 2. الجدوى **

** 3. العناصر **

** 1. معًا **

** 2.Review.ai **

** رابعًا ، قليل من التفكير في المستقبل **

2. عنق الزجاجة للتواصل:

3. لماذا لا تستطيع شبكة طاقة الحوسبة الموزعة إجراء هذه التحسينات

4. تحديات أمان البيانات والخصوصية

2. قدرة الحوسبة الموزعة - نموذج التفكير

1. التحدي

2. الجدوى

3. العناصر

1. معًا

2.Review.ai

رابعًا ، قليل من التفكير في المستقبل