محاكاة الإدراك البشري: كيف يتفاجأ الذكاء الاصطناعي كالأطفال؟
الـخـلاصـة حول محاكاة الإدراك البشري
- 🔹 الملخص
- 🔹 تحليل
- 🔹 أسئلة شائعة
يمثل نموذج V-JEPA من ميتا خطوة عميقة في **محاكاة الإدراك البشري**، خاصة الحدس الفطري لدى الأطفال الرضع. يعتمد النموذج على معمارية جديدة تتخلى عن معالجة البكسلات لصالح ‘التمثيلات الكامنة’، وهي طبقات تجريدية تركز على جوهر المشهد (الشكل والحركة) وتتجاهل الضوضاء. هذا التحول يمنح الذكاء الاصطناعي قدرة على فهم المبادئ الفيزيائية الأساسية للعالم، مما يمكنه من التنبؤ بالأحداث المنطقية. وعندما تُنتهك هذه القواعد، يظهر النموذج ‘درجة مفاجأة’ عالية، محاكياً بذلك رد فعل الرضع تجاه ديمومة الكائن. ورغم أن هذا التقدم لا يعني وعياً حقيقياً، فإنه يفتح الباب أمام ثورة في الروبوتات والقيادة الذاتية، لكنه لا يزال يفتقر إلى تمثيل عدم اليقين والذاكرة الزمنية الطويلة.
📎 المختصر المفيد:
• هو نموذج للذكاء الاصطناعي طورته ميتا، يحاكي الحدس الفطري للأطفال الرضع عبر فهم المبادئ الفيزيائية الأساسية للعالم.
• يعتمد النموذج على معمارية التمثيلات الكامنة (Latent Representations) بدلاً من فضاء البكسل، لتركيز المعالجة على السمات الجوهرية للمشهد وتجاهل الضوضاء.
• حقق V-JEPA دقة قاربت 98% في اختبار IntPhys لتمييز الأحداث الممكنة وغير الممكنة فيزيائياً داخل مقاطع الفيديو.
• يُظهر النموذج ‘درجة مفاجأة’ حسابية عند انتهاك توقعاته المنطقية، محاكياً بذلك رد فعل الرضع تجاه ديمومة الكائن.
• لا يزال النموذج يفتقر إلى آلية لتمثيل حالة عدم اليقين ولديه ذاكرة زمنية محدودة، مما يعيق الإدراك المستمر.
ℹ️ خلاصة مختصرة لأهم ما جاء في الخبر قبل التفاصيل
لطالما كان فهم كيفية عمل الدماغ البشري وبناء آلات تستطيع محاكاة الإدراك والحدس من أعمق طموحات البشرية. وبينما قطعت نماذج الذكاء الاصطناعي شوطًا كبيرًا في معالجة البيانات واللغة، ظلت لديها فجوة كبيرة في القدرة على فهم العالم المادي ببديهية، وهو أمر يكتسبه الأطفال الرضع بسهولة عبر الملاحظة.
لكن الأبحاث الحديثة تشير إلى أن هذه الفجوة تضيق بسرعة، مع تطوير نماذج قادرة على أن إظهار الدهشة عندما تتغير قواعد الفيزياء أمامها، أي عند وقوع أحداث غير منطقية. ويمثل نموذج (V-JEPA) خطوة مهمة نحو تزويد الذكاء الاصطناعي بفهم فطري للعالم، مما يَعد بثورة في مجالات الروبوتات والمركبات القيادة الذاتية.
الذكاء الاصطناعي يحاكي إدراك الأطفال الرضع:
في خطوة علمية رائدة، تمكن باحثو شركة (ميتا) من تطوير نموذج للذكاء الاصطناعي يُظهر قدرة على فهم المبادئ الفيزيائية الأساسية للعالم، وهو ما يُعرف باسم (الحدس الفطري)، الذي يكتسبه الأطفال الرضع من خلال الملاحظة. ويتمثل هذا الإنجاز في النموذج، الذي يُسمى (V-JEPA)، والذي يستطيع أن يتفاجأ عندما يواجه أحداثًا مستحيلة فيزيائيًا، مثل اختفاء كائن دون سبب، محاكيًا بذلك رد فعل الأطفال بعمر ستة أشهر تجاه ديمومة الكائن.
ولا يعتمد نموذج (V-JEPA)، على القواعد الفيزيائية المبرمجة سابقًا بل يتعلم من خلال مشاهدة ملايين الفيديوهات، تمامًا كما تتعلم العقول البشرية عبر التجربة.
ويستطيع النموذج، وفق اختبارات ميتا، التنبؤ بما سيحدث في الفيديوهات اعتمادًا على (التمثيلات الكامنة) Latent Representations، وهي عبارة عن طبقات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأشياء وحركتها ومكانها. وإذا خالفت المشاهد المستقبلية توقعاته المنطقية، يظهر خطأ كبير في التنبؤ، يشبه شعور المفاجأة لدى الأطفال الرضّع.
ولكن كيف يختلف نموذج (V-JEPA) في فهم المشاهد عن النماذج التقليدية؟

يواجه مهندسو الذكاء الاصطناعي، وخاصة أولئك الذين يطورون أنظمة القيادة الذاتية، تحديًا أساسيًا في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري، فقد اعتمدت الأنظمة المصممة لتحليل محتوى الفيديو – سواء لتصنيفه أو لتحديد معالم الأجسام المحيطة – لمدة طويلة على ما يُسمى (فضاء البكسل) Pixel Space، وفي هذا الفضاء، يُتعامل مع كل نقطة لونية (بكسل) في المشهد بوزن متساوٍ، في عملية تشبه تلقي الدماغ لجميع المدخلات الحسية دون فلترة أو تحديد أولويات.
ولكن يعاني هذا المنهج، نقطة عمياء إدراكية حتى في ظل فعاليته في بعض السياقات، تخيل مشهدًا معقدًا لشارع مليء بالسيارات وإشارات المرور، لو أصر النموذج على معالجة تفاصيل دقيقة وغير جوهرية مثل: حركة الأوراق أو تباين الظلال، سيؤدي ذلك إلى إغفال أكثر البيانات أهمية، مثل: لون إشارة المرور أو الموقع الدقيق للسيارات المجاورة.
وكما يوضح الباحثون، فإن العمل في فضاء البكسل يعني التعامل مع كم ضخم من التفاصيل التي لا ينبغي نمذجتها بالضرورة، مما يعيق الكفاءة والقدرة على اتخاذ قرارات سريعة ومدركة.
ولمعالجة هذا القصور، طورت ميتا معمارية (Video Joint Embedding Predictive Architecture) – التي تُعرف اختصارًا باسم (V-JEPA) – والتي أطلقتها في عام 2024، بهدف محاكاة جزء أساسي من العملية الإدراكية البشرية، وهو التجريد الانتقائي.
فبينما تقوم النماذج التقليدية بحجب أجزاء من إطارات الفيديو وتدريب الشبكة على التنبؤ بقيمة البكسلات المفقودة، يتخذ نموذج (V-JEPA) مسارًا مختلفًا جذريًا، إذ يستخدم عملية الحجب نفسها، ولكنه لا يتنبأ بما هو خلف القناع على مستوى البكسل، بل يتنبأ بالمحتوى بناءً على مستويات أعلى من التجريد تُعرف باسم التمثيلات الكامنة (Latent Representations)، وهي الجوهر الفلسفي والتقني الذي يحاكي الإدراك البشري.
ويعتمد النموذج على مشفّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية، التي تمثّل السمات الجوهرية التي تشمل: شكل الجسم، وأبعاده، وموقعه، وحركته، والعلاقات بين العناصر. وبدل آلاف البكسلات، يتعامل النظام مع جوهر المشهد فقط، تمامًا كما يعالج الدماغ المدخلات البصرية بإهمال الضوضاء والتركيز على المعلومات المفيدة.
ويؤكد كوينتن جاريدو، عالم الأبحاث في (ميتا)، أن جوهر قوة هذا النموذج يكمن في قدرته على تصفية المعطيات، قائلًا: “تتيح هذه الآلية للنموذج إسقاط الشوائب والتفاصيل غير الضرورية، والتركيز بدلًا من ذلك في أكثر الجوانب جوهرية وأهمية في المشهد المصوَّر. إن التخلص الكفؤ من المعلومات الزائدة هو هدف محوري يسعى نموذج (V-JEPA) إلى تحقيقه بأقصى درجات الفعالية”.
ويمنح هذا التحول من نمذجة البكسلات إلى نمذجة المعاني، نموذج (V-JEPA) قدرة كبيرة على التعميم، ودقة عالية في فهم المشاهد الجديدة، وكفاءة لافتة في البيئات المعقّدة مثل القيادة الذاتية أو الروبوتات. وبذلك، لا يقتصر دوره على رؤية العالم، بل فهمه، وهي خطوة عميقة نحو ما يشبه الإدراك البشري، مما يفتح الباب للتساؤل حول مدى قربنا من عصر “الآلات الواعية”.
محاكاة الحدس.. حين يتفاجأ النموذج كما يتفاجأ الإنسان:
كشف فريق (V-JEPA) في شهر فبراير الماضي، عن نتائج لافتة في اختبار (IntPhys)، المصمم لقياس قدرة نماذج الذكاء الاصطناعي على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا داخل مقاطع الفيديو. وحقق النموذج دقة قاربت 98%، متفوقًا بفارق كبير على نماذج الرؤية التقليدية التي تعتمد على التنبؤ في فضاء البكسل، والتي بالكاد تمكنت من تجاوز عتبة التخمين العشوائي. ولا تعكس هذه النتيجة مجرد تحسّن تقني، بل تشير إلى انتقال نوعي من التعرّف البصري إلى مستوى أعمق من الفهم السياقي للعالم.
ولم يكتفِ الباحثون بقياس دقة التنبؤ، بل ذهبوا خطوة أبعد، حين قاموا بقياس ما يمكن تسميته (درجة المفاجأة) لدى النموذج. فقد حُسِب رياضيًا الفارق بين ما يتوقعه (V-JEPA) أن يحدث في الإطارات المستقبلية وما يحدث فعليًا. وعندما احتوت المشاهد على خروقات صريحة لقوانين الفيزياء – مثل اختفاء كرة خلف حاجز وعدم ظهورها مجددًا – ارتفع خطأ التنبؤ بنحو حاد، في استجابة تشبه إلى حد بعيد ردّ الفعل الحدسي لدى الرضّع عندما تُنتهك قواعدهم الفطرية عن العالم. وبعبارة أخرى، يمكننا القول إن نموذج (V-JEPA) بدا وكأنه تفاجأ بما رآه.
وتكتسب هذه السمة أهمية خاصة، لأنها تعكس أن النموذج لا يكتفي بحفظ الأنماط، بل يبني توقعات داخلية عن كيفية تصرّف العالم، ويُظهر خللًا حسابيًا واضحًا عندما تُنتهك تلك التوقعات.
وقد أبدى ميخا هيلبرون، عالم الإدراك في جامعة أمستردام، إعجابه العميق بهذه القدرة، مشيرًا إلى أن علم التطور يخبرنا بأن الرضع لا يحتاجون إلى تعريض مكثف لتعلم الفيزياء البديهية. وشدد على قوة الدليل الذي قدمه الفريق: “من المقنع أنهم أثبتوا أن هذا الفهم قابل للتعلم في المقام الأول، دون الحاجة إلى افتراضات فطرية مبرمجة سابقًا”.
ومع ذلك، لا يرى بعض العلماء أن الطريق قد اكتمل. إذ يرى كارل فريستون، عالم الأعصاب الحاسوبي في جامعة كوليدج لندن، أن نموذج (V-JEPA) يسير في لمسار الصحيح نحو محاكاة الكيفية التي تتعلّم بها أدمغتنا البشرية وتبني تصوراتها عن العالم.
ولكنه في الوقت نفسه، يؤكد أن هذا التقدم لا يزال منقوصًا، إذ يفتقر النموذج إلى بعض المقومات الجوهرية، ويبرز في مقدمتها غياب آلية واضحة لتمثيل عدم اليقين. فحين لا تكون المعلومات المستخلصة من الإطارات السابقة كافية لاستشراف ما سيحدث لاحقًا، يصبح التنبؤ بطبيعته غير مؤكد. فنموذج (V-JEPA) لا يمتلك حتى الآن القدرة على قياس هذا الغموض أو التعبير عنه بصورة كمية، وهو عنصر أساسي في أي نموذج يطمح إلى محاكاة الإدراك البشري بدقة.
فعندما تكون المعلومات المتاحة غير كافية للتنبؤ بالمستقبل، يدرك الإنسان حدود معرفته ويتعامل معها بوصفها حالة عدم يقين، في حين لا يزال النموذج يفتقر إلى آلية صريحة لقياس هذا الغموض والتعبير عنه.
لذلك في شهر يونيو الماضي، انتقل الفريق إلى مستوى أكثر طموحًا بإطلاق (V-JEPA 2)، وهو نموذج يضم 1.2 مليار معامل، ودُرِّب على 22 مليون مقطع فيديو. ولم تقتصر التجارب على الرؤية فقط، بل امتدت إلى مجال الروبوتات، إذ أُعيد ضبط النموذج باستخدام عدد محدود نسبيًا من بيانات الروبوت، ثم اُستخدم لتخطيط الأفعال التالية في مهام تلاعب بسيطة. وتشير هذه الخطوة إلى جسر آخذ في التشكّل بين الفهم والتصرف، وهي إحدى الركائز الأساسية لأي تصور عن الإدراك الواعي.
ومع ذلك، تكشف الاختبارات الحديثة مثل: IntPhys 2، عن حدود واضحة. فعند التعامل مع سيناريوهات أطول وأكثر تعقيدًا، لم تتفوق النماذج إلا بشكل طفيف على المصادفة. ويعود ذلك جزئيًا إلى محدودية الذاكرة الزمنية للنموذج، إذ لا يستطيع التعامل إلا مع ثوانٍ معدودة من الفيديو قبل أن ينسى ما سبق. وتضع هذه الذاكرة القصيرة سقفًا لما يمكن أن يكون إدراكًا مستمرًا، ناهيك عن وعي متكامل.
ختامًا، هل نحن فعلًا على أعتاب عصر الآلات الواعية؟

ما تُظهره نماذج مثل (V-JEPA) لا يتمثل في ميلاد وعي اصطناعي بالمعنى الفلسفي الدقيق،بل هو دليل قاطع على تسارع محاكاة الذكاء الاصطناعي نحو محاكاة الركائز الجوهرية للإدراك البشري، وهي: بناء التوقعات المنطقية، واكتشاف ما يخرق تلك التوقعات، والتعلّم من عنصر المفاجأة.
ويمثل ذلك خطوة كبيرة نحو آلات قادرة على فهم العالم بوصفه منظومة مترابطة، لا مجرد سلسلة من المدخلات البصرية. ومع ذلك، تبقى هذه النماذج بعيدة عن امتلاك تجربة ذاتية أو وعي إنساني حقيقي.
ولذلك لم يَعد التساؤل المطروح اليوم؛ حول إمكانية الوصول إلى هذا المسار، بل أصبح يركز في المدى الذي يمكن أن تبلغه هذه المحاكاة، وما حدود الوعي التي قد تلامسها الآلة مستقبلًا؟
🔍 تحليل محاكاة الإدراك البشري وتفاصيل إضافية
تُشير هذه التطورات بوضوح إلى تحوّل استراتيجي في سباق الهيمنة على الذكاء الاصطناعي، حيث لم يعد التركيز على حجم البيانات الخام، بل على كفاءة النمذجة والقدرة على التجريد. إن نجاح نماذج مثل V-JEPA في **محاكاة الإدراك البشري** عبر التمثيلات الكامنة يقلل بشكل جذري من الحاجة إلى مجموعات البيانات الموسومة (Labeled Data)، مما يخفض التكاليف التشغيلية ويسرّع دورات التطوير. هذا التحول له تداعيات اقتصادية عميقة، إذ يفتح الباب أمام شركات التكنولوجيا الكبرى لإنشاء أنظمة قيادة ذاتية وروبوتات صناعية أكثر موثوقية وأقل عرضة للأخطاء الإدراكية الناتجة عن الضوضاء البصرية. علاوة على ذلك، فإن القدرة على **محاكاة الإدراك البشري** وتوقع الأحداث المنطقية تمنح الدول التي تتبنى هذه التقنيات ميزة تنافسية في مجالات الأمن والدفاع، حيث يصبح الفهم السياقي للمشاهد المعقدة أمراً حاسماً. إن الاستثمار في هذه المعماريات الجديدة، التي تهدف إلى **محاكاة الإدراك البشري**، يعكس إدراكاً بأن الجيل القادم من الذكاء الاصطناعي يجب أن يكون قادراً على التعميم والتعلم الذاتي، بدلاً من مجرد حفظ الأنماط، مما يضمن هيمنة تقنية طويلة الأمد.
💡 إضاءة: القدرة على قياس ‘درجة المفاجأة’ حسابياً لدى النموذج عندما تنتهك قوانين الفيزياء، محاكياً بذلك رد فعل الأطفال الرضع تجاه ديمومة الكائن.
❓ هل الآلات تفهم العالم؟ أسئلة وأجوبة حول V-JEPA
شو الفرق بين V-JEPA والنماذج القديمة اللي بتشوف الفيديوهات؟
كيف النموذج بيعرف إذا صار شي مستحيل فيزيائياً؟
هل هذا يعني إنو الذكاء الاصطناعي صار عنده وعي زي البشر؟
شو هي التمثيلات الكامنة اللي بيحكوا عنها؟
شو التحديات اللي لسا بتواجه V-JEPA؟
ليش هذا النموذج مهم لسيارات القيادة الذاتية؟
📖 اقرأ أيضًا
- صواريخ من غزة والقسام تكشف تفاصيل عمليتين ضد الاحتلال في بيت لاهيا
- عيد بلا أضحية في المغرب.. ما علاقة ذلك بالجفاف وتغير المناخ؟
- إيران تحمّل واشنطن مسؤولية أي هجوم إسرائيلي على منشآتها النووية
- جيش الاحتلال يلقي منشورات في غزة تتضمن آيات قرآنية
- علماء هواة يتمكنون من رصد ظاهرة “قضم اللسان” في حيتان الأوركا

