GE-Sim 2.0 من Zhi Yuan: إنشاء العالم باستخدام World Model، ودفع خصم العالمين المنافس إلى التطور الذاتي عبر الروبوتات البشرية

ChainNewsAbmedia

تَواصُلُ الذكاء الجسدي (Embodied AI) يقترب من منعطفٍ محوري. أصدرت شركة Zhiren Robot الصينية (智元機器人) مؤخرًا Genie Envisioner World Simulator 2.0 (GE-Sim 2.0)، في محاولة لدفع نموذج العالم (World Model)—من مجرد أداة لفهم البيئة—إلى جهاز محاكاة للعالم (World Simulator) يمكنه تشغيل الروبوتات وتدريبها وتحسينها بشكل مباشر.

إذا كنت لا تعرف مدى أهمية ذلك بعد، فابدأ بالاطلاع على العيوب الجوهرية في بنية LLM: منطقيًا، تقوم نماذج LLM الحالية بتوقع السياق اعتمادًا على كمٍّ هائل من البيانات النصية، فهي قد تعرف أن كلمات مثل «Apple掉下來» تظهر غالبًا معًا، لكنها لا تفهم فعليًا علاقة السبب والنتيجة للثقل أو العالم الفيزيائي.

ولهذا السبب يندفع علماء مثل يانغ ليكون (杨立昆) ولي في-لي (李飞飞) إلى مسار World Model. فعندما يصبح لدى الذكاء الاصطناعي القدرة على فهم بيئات ثلاثية الأبعاد والتنبؤ بالفيزياء، ستتحول هذه التقنية إلى «الدماغ الرقمي» للذكاء الآلي المستقل مثل الروبوتات الذاتية، والقيادة الذاتية، والتصنيع الذكي ضمن ما يُسمى «الذكاء الاصطناعي المادي» (Physical AI). لذلك ترى خريطة طريق World Model أن الروبوتات ستكون حاملة بالغة الأهمية. والآن، عندما يدخل مصنعو الروبوتات المنزلية (等身機器人) مثل Zhiren Robot إلى الساحة، فهذا يرمز إلى الطليعة التي تقود صعود الصين من خلال التفوق في العتاد.

وفي السابق، كان رئيس مجلس إدارة شركة TSMC (台積電) وي تشيه-جيا (魏哲家) قد قال: إذا نظرت إلى الصين القارية وهي تصنع روبوتات تقفز هنا وهناك وتقفز وتثب، فهذا لا يفيد، إنها مجرد شكل جميل. وقد أشار إلى أن المفتاح هو جعل «دماغ الروبوت» يعمل، ومن الذي يصنعه؟ إن من يقوم بذلك هو Nvidia (، وAMD )، وكثير من الشركات الأمريكية، لكن 95% من الدماغ يتم تصنيعها بواسطة TSMC.

(深度解析:LLM 存在缺陷?為何楊立昆的 AMI 押注 World Model 路線)

تقول خريطة طريق World Model إن الروبوتات هي المفتاح

تعتمد نماذج LLM السائدة حاليًا على كمٍّ ضخم من بيانات النصوص والعلاقات الإحصائية لفهم السياق والتنبؤ بالكلمة التالية. يمكنها معرفة أن كلمات «Apple掉下來» تظهر غالبًا معًا، لكنها لا تفهم فعليًا علاقة السبب والنتيجة للثقل أو العالم الفيزيائي.

تتفوق هذه النمط في مهام توليد النصوص والمساعدة البرمجية والاستعلامات، لكن لا تزال هناك قيود جوهرية في السيناريوهات التي تتطلب فهم بنية العالم الواقعي واستدلال علاقات السبب والنتيجة والتخطيط طويل المدى. والمشكلة الأكبر هي أن مصادر البيانات آخذة في الجفاف تدريجيًا. يعتمد تدريب LLM بدرجة كبيرة على بيانات بشرية عالية الجودة، وفي السنوات الأخيرة بدأ الوسط المهني يحذر من أن البيانات النصية البشرية المتاحة قد تنفد خلال بضع سنوات قادمة. وعندها، كما يحدث مع زواج الأقارب الذي قد يورث عيوبًا، سينحرف النموذج تدريجيًا عن الواقع وتظهر تدهورات في الأداء.

(深度解析:LLM 存在缺陷?為何楊立昆的 AMI 押注 World Model 路線)

وهذا هو سبب اختيار شخصين بارزين في مجال أبحاث الذكاء الاصطناعي في السنوات الأخيرة—يانغ ليكون، و لي في-لي (Fei-Fei Li) المعروف بـ «أمينة الذكاء الاصطناعي»—الرهان على جيل جديد من بنى الذكاء الاصطناعي يُعرف باسم World Model (نموذج العالم).

في ذلك الوقت، كان الكاتب قد قال: إذا نظرنا إلى الأمر من زاوية أوسع، فإنه عندما يمتلك الذكاء الاصطناعي القدرة على فهم بيئات ثلاثية الأبعاد والتنبؤ بالفيزياء، ستصبح هذه التقنية «الدماغ الرقمي» للروبوتات المستقلة والقيادة الذاتية والتصنيع الذكي ضمن «الذكاء الاصطناعي المادي» (Physical AI). لذلك ترى خريطة طريق World Model أن الروبوتات ستكون حاملة بالغة الأهمية. والآن، مع دخول شركة Zhiren Robot، يرمز ذلك إلى طليعة الصين في تحدي التفوق عبر العتاد.

في السابق، قال رئيس مجلس إدارة TSMC، وي تشيه-جيا، صراحةً عند الحديث عن تطور الروبوتات وشبه الموصلات: إذا نظرت إلى الصين القارية وهي تصنع روبوتات تقفز هنا وهناك وتقفز وتثب، فهذا لا يفيد، إنها مجرد شكل جميل. وقد أشار إلى أن المفتاح هو جعل دماغ الروبوت قادرًا على العمل؛ فمن يقوم بذلك؟ إن «من يصنع الدماغ» هم Nvidia ( وAMD ) وكم هائل من الشركات الأمريكية، لكن 95% من الدماغ يتم تصنيعها بواسطة TSMC.

(台積電魏哲家酸:中國機器人蹦蹦跳,只是好看頭沒用!關鍵仍來自輝達)

تطور World Model: من فهم العالم إلى التعلم داخل العالم

خلال السنوات القليلة الماضية، ظل World Model يُنظر إليه كإحدى التقنيات المحورية لفهم الواقع بالذكاء الاصطناعي. من خلال الصور واللغة وبيانات الاستشعار، يمكن للنموذج التنبؤ بتغيرات البيئة، مما يمنح الروبوتات قدرات اتخاذ قرار أساسية.

لكن الاختراق الجوهري في GE-Sim 2.0 لا يكمن فقط في فهم العالم، بل في إدخال نظام التعلم والعمل داخل «العالم المُنشأ بواسطة النموذج» بوصفه حلقة عمل، مع تضمين Action (الإجراء) كمتغير جوهري، والانتقال من التنبؤ بالحالة التقليدي إلى حلقة كاملة:

State

Action

State Evolution

وهذا يعني أن الروبوت لم يعد يقتصر على الملاحظة والاستجابة، بل يمكنه التجربة الخطوة تلو الخطوة في بيئة محاكاة، والتحسين الذاتي، والتعلم المستمر. هذا التحول يجعل World Model يتطور من «نموذج إدراكي» إلى «بنية تحتية للتدريب».

GE-Sim 2.0: جعل الروبوتات «تتطور» داخل عالم افتراضي

يُعرّف GE-Sim 2.0 على أنه مجموعة من «مُحاكيات العالم الجسدي»، والهدف الأساسي هو معالجة ثلاث عنق زجاجات كبرى في تدريب الواقع: التكلفة المرتفعة جدًا، نقص البيانات، وصعوبة القياس على نطاق واسع. من خلال توليد بيئة عبر النموذج، يمكن للنظام تدريب الروبوتات على نطاق كبير دون الاعتماد على العالم الحقيقي.

تقنيًا، يقوم GE-Sim 2.0 بدمج ثلاث قدرات رئيسية: أولًا هي «توليد الصور المعتمد على الأفعال»، إذ يمكن للنموذج توليد المشاهد المستقبلية المقابلة بناءً على أفعال الروبوت، مع الحفاظ على اتساق متعدد زوايا الرؤية، بما في ذلك زاوية الرأس وزاوية操作 اليدين يمينًا ويسارًا.

ثانيًا هو نمذجة الإحساس بالجسم (proprioception)، فلا يقتصر الأمر على محاكاة المشاهد الخارجية، بل يمكنه أيضًا التنبؤ بحالة المفاصل وحركة الروبوت نفسه، بما يجعل عملية اتخاذ القرار أقرب إلى عالم الفيزياء الحقيقي.

ثالثًا هي «تقييم المهام تلقائيًا»، إذ عبر reward model (نموذج المكافأة) المدمج، يمكن للنظام تحديد ما إذا كانت المهمة قد اكتملت تلقائيًا، مثل «وضع الجسم الأزرق داخل الصندوق الأحمر»، وتقديم الملاحظات التي تُستخدم مباشرة في التعلم المعزز. وهذا يتيح للروبوت إكمال حلقة مغلقة كاملة داخل بيئة المحاكاة:

GE-Sim 2.0 أصبح قادرًا على تحقيق «توليد مقاطع فيديو بثبات على مستوى الدقائق»

مقارنةً بالنماذج المبكرة التي كانت تقتصر على توليد مقاطع قصيرة فقط، أصبح GE-Sim 2.0 قادرًا على تحقيق «توليد مقاطع فيديو بثبات على مستوى الدقائق»، ويدعم محاكاة مهام طويلة. وفي الوقت نفسه، وبفضل التدريب باستخدام بيانات واقعية واسعة النطاق (بيانات التشغيل عن بُعد، والنشر، والتفاعل)، يمتلك النموذج قدرة تعميم أقوى بين سيناريوهات ومهام مختلفة. وهذه النقطة حاسمة بشكل خاص للروبوتات ثنائية القدمين (المشابهة للإنسان): لأن تشغيل العالم الواقعي متغير للغاية ولا يمكن الاعتماد على التدريب على مشهد ثابت فقط.

ظهور World Simulator يعني أنه يمكن للروبوتات «التدرب بلا حدود» داخل العالم الافتراضي، ما سيؤدي إلى تغيرين بنيويين: أولًا، انخفاض كبير في تكاليف التدريب. ثانيًا، زيادة سرعة تطور القدرات بمعدل أُسّي.

智元機器人: قوة جديدة في مجال الروبوتات الثنائية الشبيهة بالإنسان في الصين

تأسست شركة 智元機器人 في عام 2023، على يد 彭志輝، «عبقري» هواوي، وهي تركز على مجال الذكاء الجسدي الذي يجمع بين الذكاء الاصطناعي والروبوتات.

تشمل المنتجات الأساسية للشركة:

سلسلة الروبوتات ثنائية الشبه بالإنسان «远征»

نظام الروبوتات «灵犀»

النموذج العام GO-1

وقد أنهت الشركة عدة جولات تمويل، وحصلت على استثمارات من مؤسسات مثل Sequoia China وHillhouse Capital، ويُنظر إليها بوصفها لاعبًا مهمًا في مجال الروبوتات الثنائية الشبيهة بالإنسان في الصين، في منافسة مع شركة宇树科技.

هذه المقالة 智元 GE-Sim 2.0:用 World Model 生成世界,宇树劲敌将人形机器人推向自我进化 تم ظهورها لأول مرة على 链新闻 ABMedia。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات