العقل العالمي: لماذا يفشل معظم الذكاء الاصطناعي في التعرف على البرياني والأريبا والدال

معظم أنظمة التعرف على الطعام بالذكاء الاصطناعي تم تدريبها على البرغر والسلطات. إليك لماذا يخلق ذلك فجوة دقة هائلة للمأكولات الجنوب آسيوية وأمريكا اللاتينية والشرق أوسطية، وكيف تسد النماذج المدربة عالمياً هذه الفجوة.

اطلب من معظم تطبيقات التعرف على الطعام تحديد طبق من برياني الدجاج وعلى الأرجح ستحصل على "أرز مع لحم" أو، أسوأ من ذلك، "أرز مقلي". تقدير السعرات الحرارية الذي يتبع ذلك سيكون خاطئاً بمقدار 200 إلى 400 سعرة حرارية لأن النموذج ليس لديه مفهوم عن الأرز البسمتي المنقوع بالسمن أو التتبيل المتعدد الطبقات أو البصل المقلي المطوي في الطبق.

هذه ليست مشكلة هامشية. وفقاً للأمم المتحدة، يعيش أكثر من 5.5 مليار شخص خارج أمريكا الشمالية وأوروبا. وجباتهم اليومية، من أرز الجولوف النيجيري إلى السيفيتشي البيروفي إلى الأوكونومياكي الياباني، ممثلة تمثيلاً ناقصاً بشكل منهجي في مجموعات البيانات التي تُشغّل أنظمة الذكاء الاصطناعي للطعام السائدة. النتيجة هي تقنية تعمل جيداً مع البرغر بالجبن لكنها تخذل غالبية سكان العالم.

مشكلة بيانات التدريب المتمركزة حول الغرب

نماذج الرؤية الحاسوبية تتعلم من الصور التي تُدرَّب عليها. أكثر مجموعات بيانات الطعام العامة استخداماً تروي قصة واضحة عن مكان التحيز.

Food-101، أحد المعايير الأساسية في أبحاث التعرف على الطعام، يحتوي على 101 فئة طعام. ما يقرب من 70 بالمئة منها أطباق أوروبية غربية أو أمريكية شمالية: الهامبرغر، سباغيتي بولونيز، سلطة سيزر، فطيرة التفاح. المطبخ الجنوب آسيوي ممثل بفئة واحدة فقط. المطبخ الأفريقي ليس له أي تمثيل.

UECFOOD-256، المطوّر في جامعة الاتصالات الكهربائية في طوكيو، يميل بشدة نحو الأطباق اليابانية. هو ممتاز للتعرف على الرامن والتمبورا، لكنه لا يقدم شيئاً تقريباً للأطعمة من أمريكا الجنوبية أو غرب أفريقيا.

عندما يواجه نموذج مُدرّب بشكل أساسي على هذه المجموعات طبقاً من تشولي بهاتوري، لديه خياران: تصنيف الطبق بشكل خاطئ تماماً، أو ربطه بأقرب معادل غربي. لا أحد منهما ينتج عدداً دقيقاً من السعرات الحرارية.

لماذا يُكلّف التصنيف الخاطئ أكثر مما تظن

فجوة السعرات الحرارية بين التصنيف الصحيح والخاطئ يمكن أن تكون هائلة. تأمل هذه الأمثلة الواقعية:

  • برياني الدجاج المُصنّف كـ "أرز دجاج مقلي": البرياني المصنوع بالسمن والبصل المقلي يمكن أن يحتوي على 450 إلى 600 سعرة حرارية لكل حصة. إدخال أرز دجاج مقلي نموذجي في قاعدة بيانات عامة يُدرج 300 إلى 380 سعرة حرارية. هذا نقص محتمل بـ 200 سعرة حرارية لكل وجبة.
  • الأريبا المُصنّفة كـ "خبز ذرة": أريبا محشوة بالجبن والفاصولياء يمكن أن تصل إلى 500 سعرة حرارية. شريحة خبز ذرة تُسجّل بـ 170 إلى 200 سعرة حرارية.
  • دال مكهني المُصنّف كـ "شوربة عدس": الزبدة والكريمة في دال مكهني التقليدي تدفعه إلى 350 إلى 450 سعرة حرارية لكل كوب. شوربة عدس أساسية تقع عند 160 إلى 200 سعرة حرارية.

على مدار أسبوع، هذه الأخطاء تتراكم إلى مئات أو حتى آلاف السعرات الحرارية المحسوبة بشكل خاطئ، وهو ما يكفي لتقويض خطة تنشيف أو تضخيم تماماً.

تعقيد الأطباق العالمية

الأطباق الغربية تميل إلى أن تكون لها مكونات مرئية وقابلة للفصل نسبياً: بروتين، ونشويات، وخضروات. العديد من المأكولات غير الغربية تقدم تحدياً مختلفاً جوهرياً للرؤية الحاسوبية.

التحضيرات متعددة الطبقات والمخلوطة

البرياني طبق متعدد الطبقات. الأرز واللحم والتوابل والبصل المقلي والدهون مدمجة معاً بدلاً من تقديمها بشكل منفصل. صورة السطح تكشف فقط الطبقة العلوية. المولي نيغرو من أواكساكا يحتوي على أكثر من 30 مكوناً مطحوناً في صلصة واحدة. كاري مسمن التايلاندي يجمع حليب جوز الهند والفول السوداني المحمص والبطاطس واللحم في مزيج واحد لا يمكن تمييزه.

لكي يقدّر نموذج الذكاء الاصطناعي السعرات الحرارية بدقة، يحتاج إلى فهم ليس فقط كيف يبدو الطبق، ولكن ما بداخله.

التباين الإقليمي داخل نفس الطبق

"الحمص" المصنوع في لبنان وسوريا وإسرائيل وتركيا سيختلف بشكل كبير في محتوى زيت الزيتون ونسبة الطحينة وحجم الحصة. برياني حيدر أباد المنزلي يختلف عن برياني لكناو في المطعم في كل من التقنية وكثافة السعرات. التمالي تختلف من منطقة لأخرى عبر المكسيك وأمريكا الوسطى، مع حشوات تتراوح من الدجاج الهبر إلى لحم الخنزير بالشحم.

النموذج يحتاج إلى سياق إقليمي، وليس فقط تعرف على مستوى الطبق، لإنتاج تقديرات موثوقة.

المساهمون غير المرئيون في السعرات الحرارية

العديد من تقاليد الطهي العالمية تعتمد على استخدام سخي لدهون الطهي التي تصبح غير مرئية في الطبق النهائي. الطبخ الهندي يستخدم السمن. الأطباق الغرب أفريقية غالباً تستخدم زيت النخيل. مطبخ أمريكا اللاتينية يدمج الشحم والمانتيكا. الطبخ الشرق أوسطي يستخدم كميات سخية من زيت الزيتون والزبدة.

هذه الدهون تُمتص في الطبق أثناء الطهي. الصورة لا يمكنها كشفها، لكنها يمكن أن تمثل 30 إلى 50 بالمئة من إجمالي السعرات الحرارية.

كيف يتعامل Nutrola مع التعرف على الطعام العالمي

بناء ذكاء اصطناعي للطعام يعمل عبر المأكولات يتطلب جهداً متعمداً في كل مرحلة: جمع البيانات، وبنية النموذج، وربط التغذية بعد التعرف.

بيانات تدريب متنوعة على نطاق واسع

مجموعة بيانات تدريب Nutrola تتضمن صور طعام مصدرها من أكثر من 130 دولة. بدلاً من الاعتماد فقط على مجموعات البيانات العامة المتمركزة حول الغرب، يدمج النظام صوراً مجموعة إقليمياً مع تصنيفات تم التحقق منها من قبل أخصائيي التغذية. هذا يعني أن النموذج قد رأى آلاف الأمثلة من الإنجيرا مع التبس، ليس فقط صوراً احترافية ولكن وجبات حقيقية تم تصويرها في المنازل والمطاعم عبر إثيوبيا وإريتريا.

ملفات تغذية على مستوى الطبق

بدلاً من تفكيك كل طبق إلى مكونات عامة، يحتفظ Nutrola بملفات تغذية للأطباق كما تُحضّر فعلياً. دال مكهني ليس "عدس + دهون مجهولة". هو طبق محدد بطريقة تحضير معروفة، وتقدير السعرات الحرارية يعكس الزبدة والكريمة وتقنية الطهي البطيء التي تحدده.

هذا النهج يمتد إلى المتغيرات الإقليمية. النظام يميّز بين برياني على طريقة كولكاتا مع البطاطس وبرياني دم حيدر آبادي، لأن الملفات السعرية مختلفة حقاً.

المدخلات متعددة الأنماط للمكونات المخفية

عندما لا تكون الصورة وحدها كافية، يستخدم Nutrola مطالبات صوتية ونصية لملء الثغرات. يمكن للمستخدم أن يقول "هذا طُبخ بزيت جوز الهند" أو "يوجد جبن داخل الأريبا" ويُعدّل النظام التقدير وفقاً لذلك. هذا النهج متعدد الأنماط يعالج مشكلة السعرات غير المرئية التي لا تستطيع أنظمة الصور الصرفة حلها.

ماذا يعني التعرف العالمي الأفضل للمستخدمين

بالنسبة لملايين الأشخاص الذين يتناولون أنظمة غذائية غير غربية يومياً، الذكاء الاصطناعي الدقيق للطعام ليس ميزة ترفيهية. هو الفرق بين متتبع تغذية يعمل وآخر يقوّض أهدافك بصمت.

وجدت دراسة نُشرت عام 2023 في مجلة أكاديمية التغذية وعلم النظم الغذائية أن الالتزام بتتبع التغذية ينخفض بنسبة 40 بالمئة عندما يشعر المستخدمون أن تطبيقهم غير دقيق. إذا كان متتبعك يُخطئ باستمرار في تحديد وجباتك، فإنك تتوقف عن الوثوق به، ثم تتوقف عن استخدامه.

التعرف الدقيق على الطعام العالمي مهم أيضاً لمجتمعات الشتات. أمريكي هندي من الجيل الثاني يتناول مزيجاً من الدال والروتي والسلطات طوال الأسبوع يحتاج إلى تطبيق يتعامل مع كلا المطبخين بدقة متساوية. طالب نيجيري في لندن يطهو شوربة إيغوسي لا يجب أن يُدخل كل مكون يدوياً لأن الذكاء الاصطناعي لم يرَ الطبق من قبل.

الطريق إلى الأمام لذكاء الطعام الاصطناعي

مجال التعرف على الطعام يتحرك نحو تنوع أكبر، لكن التقدم غير متساوٍ. مجموعات بيانات جديدة مثل ISIA Food-500 و Nutrition5k توسع التغطية، وتقنيات التعلم بالنقل تتيح للنماذج التكيف مع المأكولات الممثلة تمثيلاً ناقصاً بكميات أصغر من البيانات المُعنونة.

العامل المميز في المستقبل سيكون البيانات الغذائية المُتحقق منها. التعرف على أن طبقاً ما هو برياني هو نصف المشكلة فقط. ربط ذلك التعرف بتحليل دقيق للسعرات والماكرو يتطلب معرفة غذائية خاصة بالمنطقة تتجاوز ما يمكن أن توفره قاعدة بيانات طعام عامة.

لأي شخص يتتبع التغذية خارج نظام غذائي غربي قياسي، السؤال الذي يجب طرحه حول أي ذكاء اصطناعي للطعام واضح ومباشر: هل تم تدريب هذا النظام على طعامي؟

الأسئلة الشائعة

ما هو أفضل تطبيق تتبع سعرات للطعام الهندي؟

أفضل متتبع سعرات للطعام الهندي يحتاج إلى شيئين: نموذج تعرف مُدرّب على أطباق جنوب آسيوية متنوعة وقاعدة بيانات غذائية تأخذ في الاعتبار طرق التحضير التقليدية. التطبيقات المُدرّبة بشكل أساسي على مجموعات بيانات غربية تميل إلى تصنيف أطباق مثل البرياني وبانير تيكا ودال مكهني خطأً كإدخالات عامة، مما ينتج أخطاء سعرات كبيرة. نموذج Nutrola مُدرّب على صور طعام من أكثر من 130 دولة ويحتفظ بملفات تغذية خاصة بالأطباق تعكس طرق الطهي الحقيقية، بما في ذلك السمن والكريمة والتباينات الإقليمية.

لماذا يعطي متتبع السعرات الخاص بي نتائج خاطئة للطعام العرقي؟

معظم متتبعات الطعام السائدة تستخدم نماذج تعرف مُدرّبة على مجموعات بيانات تهيمن عليها المأكولات الغربية مثل Food-101. عندما تواجه هذه النماذج أطباقاً غير مألوفة، فإنها إما تُصنّفها خطأً كطبق غربي مشابه بصرياً أو تعود إلى إدخالات قاعدة بيانات عامة. الملفات الغذائية لهذه المطابقات الخاطئة غالباً ما تكون خارج النطاق بمئات السعرات الحرارية، خاصةً للأطباق المُحضّرة بدهون طهي مثل السمن وزيت النخيل أو حليب جوز الهند التي تكون غير مرئية في الصور.

هل يمكن للذكاء الاصطناعي تتبع السعرات الحرارية بدقة لطعام الشرق الأوسط؟

يمكن للذكاء الاصطناعي تتبع طعام الشرق الأوسط بدقة إذا كان النموذج مُدرّباً بشكل خاص على أطباق مثل الشاورما والفتوش والكبة والمنسف، وإذا كانت قاعدة البيانات الغذائية تأخذ في الاعتبار محتوى زيت الزيتون والطحينة والزبدة. العديد من الأطعمة في المطبخ الشرق أوسطي تستمد جزءاً كبيراً من سعراتها الحرارية من الدهون المدمجة أثناء الطهي. النظام الذي يجمع بين التعرف بالصور وتفاصيل التحضير المقدمة من المستخدم، مثل كمية زيت الزيتون المستخدمة، سينتج تقديرات أكثر موثوقية.

كيف يتعامل ذكاء الطعام الاصطناعي مع الأطباق ذات المكونات المخلوطة الكثيرة؟

الأطباق المعقدة ذات المكونات المخلوطة أو المتعددة الطبقات، مثل المولي والبرياني واليخنات، هي من بين أصعب التحديات في التعرف على الطعام. الأنظمة القائمة على الصور فقط يمكنها تحليل السطح المرئي فقط، وتفتقد الطبقات الداخلية والدهون الممتصة. الذكاء الاصطناعي المتقدم للطعام يعالج هذا من خلال التعرف على مستوى الطبق، حيث يحدد الطبق الكامل بدلاً من المكونات الفردية، ومن خلال المدخلات متعددة الأنماط حيث يمكن للمستخدمين إضافة تفاصيل عن المكونات المخفية عبر النص أو الصوت. هذا النهج المُجمّع يحسّن الدقة بشكل كبير للتحضيرات المعقدة متعددة المكونات.

هل بيانات الطعام المُجمعة من المستخدمين دقيقة للمأكولات العالمية؟

قواعد البيانات الغذائية المُجمعة من المستخدمين تميل إلى أن تكون الأقل دقة للمأكولات العالمية. إدخالات أطباق مثل أرز الجولوف والسيفيتشي أو الباد تاي غالباً ما يُقدّمها مستخدمون قد لا يأخذون في الاعتبار التباينات الإقليمية أو دهون الطهي أو طرق التحضير الأصيلة. إدخال "برياني" واحد لا يمكن أن يمثل النطاق السعري من برياني خضروات خفيف إلى برياني لحم ضأن دم غني. قواعد البيانات المُتحقق منها مع ملفات غذائية خاصة بالمنطقة وتفاصيل على مستوى المتغير توفر بيانات أكثر موثوقية بشكل كبير للمأكولات غير الغربية.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!

لماذا يفشل معظم الذكاء الاصطناعي في التعرف على الأطعمة غير الغربية مثل البرياني والدال | Nutrola