قمنا بتحليل 10 ملايين صورة طعام: أكثر 20 نوع طعام تم التعرف عليه بشكل خاطئ بواسطة الذكاء الاصطناعي

تكشف البيانات الأصلية من نظام التعرف على الطعام الخاص بـ Nutrola عن الأطعمة التي يصعب على رؤية الكمبيوتر التعرف عليها بشكل صحيح، ولماذا تخلط الخوارزميات بينها، وكيف قمنا بتحسين الدقة.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

البيانات وراء التعرف على الطعام بواسطة الذكاء الاصطناعي

لقد أحدث التعرف على الطعام المدعوم بالذكاء الاصطناعي ثورة في تتبع التغذية. بدلاً من البحث في قواعد البيانات وتخمين أحجام الحصص، يمكنك التقاط صورة وترك رؤية الكمبيوتر تقوم بالعمل. تقوم ميزة Snap & Track الخاصة بـ Nutrola بمعالجة ملايين صور الطعام كل شهر، وفي أكثر من 50 دولة، يعتمد المستخدمون عليها كوسيلة تسجيل رئيسية.

لكن التعرف على الطعام بواسطة الذكاء الاصطناعي ليس مثالياً. بعض الأطعمة تخدع حتى أكثر نماذج رؤية الكمبيوتر تقدماً. لفهم أين تتفوق هذه التقنية وأين تعاني، قمنا بتحليل 10 ملايين صورة طعام تمت معالجتها من خلال نظام Snap & Track الخاص بـ Nutrola بين يناير 2025 ويناير 2026. قمنا بمقارنة تحديدات الذكاء الاصطناعي مع تصحيحات المستخدمين، والتحقق اليدوي، ومراجعات أخصائيي التغذية لحساب معدلات الدقة لكل نوع طعام وتحديد الأنماط النظامية للاختلاط.

إليكم ما وجدناه.

المنهجية

شمل تحليلنا 10,247,831 صورة طعام قدمها مستخدمو Nutrola عبر 53 دولة. لكل صورة، تتبعنا:

  • التحديد الأولي بواسطة الذكاء الاصطناعي: الطعام (الأطعمة) التي حددها الذكاء الاصطناعي بأعلى درجة ثقة.
  • معدل تصحيح المستخدم: مدى تكرار تغيير المستخدم لتحديد الذكاء الاصطناعي إلى طعام مختلف.
  • التحقق من أخصائي التغذية: تمت مراجعة عينة عشوائية من 50,000 صورة بواسطة أخصائيي تغذية مؤهلين لتحديد دقة الحقيقة المستقلة عن تصحيحات المستخدم.
  • دقة أعلى تحديد: ما إذا كان تحديد الذكاء الاصطناعي بأعلى درجة ثقة صحيحًا.
  • دقة أعلى 3: ما إذا كان الطعام الصحيح ظهر بين أعلى ثلاثة توقعات للذكاء الاصطناعي.

بشكل عام، حقق نظام Snap & Track الخاص بـ Nutrola دقة أعلى 1 بنسبة 87.3% ودقة أعلى 3 بنسبة 94.1% عبر جميع فئات الطعام. تتماشى هذه الأرقام مع المعايير المنشورة لنماذج التعرف على الطعام المتطورة، والتي عادةً ما تسجل دقة أعلى 1 تتراوح بين 80-90% على مجموعات بيانات قياسية مثل Food-101 وISIA Food-500.

ومع ذلك، تختلف الدقة بشكل كبير حسب نوع الطعام. بعض الفئات تتجاوز دقة أعلى 1 بنسبة 95%، بينما تقع أخرى تحت 60%.

أكثر 20 نوع طعام تم التعرف عليه بشكل خاطئ

الترتيب الكامل

الترتيب الطعام دقة أعلى 1 دقة أعلى 3 أكثر حالات التعرف الخاطئ شيوعًا خطأ السعرات الحرارية عند التعرف الخاطئ
1 كسكس 52.1% 71.4% كينوا، برغل، أرز +/- 15-40 سعر حراري لكل حصة
2 زبادي يوناني (عادي) 55.8% 78.2% كريمة حامضة، لبنة، زبادي عادي +/- 30-80 سعر حراري لكل حصة
3 أرز القرنبيط 57.3% 74.6% أرز أبيض، كسكس +110-150 سعر حراري لكل حصة
4 حساء ميسو 58.9% 76.1% أنواع أخرى من الحساء القائم على المرق، دashi +/- 20-60 سعر حراري لكل حصة
5 أنواع الخبز المسطح 59.4% 73.8% نان مقابل روتي مقابل بيتا مقابل تورتيلا +/- 50-150 سعر حراري لكل قطعة
6 وعاء أكاي 61.2% 79.5% وعاء سموذي، وعاء توت مختلط +/- 100-200 سعر حراري لكل وعاء
7 لحم ديك رومي مدخن 62.0% 80.1% لحم خنزير مدخن +40-70 سعر حراري لكل حصة
8 تمبيه 63.4% 77.9% توفو (صلب)، سيتان +/- 30-80 سعر حراري لكل حصة
9 نودلز كوسا 64.1% 81.3% مكرونة عادية، نودلز زجاجية +150-200 سعر حراري لكل حصة
10 بابا غنوج 64.8% 79.7% حمص +30-60 سعر حراري لكل حصة
11 شريحة سمك أبيض 65.2% 82.4% صدر دجاج، أنواع أخرى من الأسماك البيضاء +/- 20-50 سعر حراري لكل حصة
12 فطائر بروتين 66.1% 83.0% فطائر عادية +80-150 سعر حراري لكل حصة
13 حليب الشوفان 67.3% 84.2% حليب عادي، حليب لوز، حليب صويا +/- 30-80 سعر حراري لكل كوب
14 خضروات ورقية داكنة (مطبوخة) 67.9% 85.1% سبانخ مقابل كيل مقابل كولاردز مقابل شارد +/- 5-15 سعر حراري لكل حصة
15 حلويات خالية من السكر 68.4% 80.6% النسخ العادية من نفس الحلوى +100-250 سعر حراري لكل حصة
16 أطباق الحبوب 69.1% 83.7% التعرف الخاطئ على نوع قاعدة الحبوب +/- 40-100 سعر حراري لكل حصة
17 لحم نباتي 69.8% 84.9% لحم حقيقي مكافئ +/- 30-80 سعر حراري لكل حصة
18 زلابية 70.2% 85.6% وونتون مقابل جيوزا مقابل بيروجي مقابل مومو +/- 20-60 سعر حراري لكل قطعة
19 أطباق الكاري المختلطة 70.5% 82.3% الارتباك بين أنواع الكاري والقواعد +/- 50-150 سعر حراري لكل حصة
20 شوفان مبيت 71.0% 86.2% دقيق الشوفان العادي، بودنغ الشيا +/- 50-120 سعر حراري لكل حصة

لماذا تخدع هذه الأطعمة الذكاء الاصطناعي: خمس أنماط

النمط 1: توائم بصرية مع ملفات تعريف سعرات حرارية مختلفة

أكثر مصدر شائع للاختلاط هو الأطعمة التي تبدو متطابقة تقريبًا ولكن لها ملفات تعريف غذائية مختلفة بشكل كبير. الكسكس والكينوا، وهما أكثر الأطعمة التي تم التعرف عليها بشكل خاطئ، يكاد يكون من المستحيل تمييزهما في صورة، خاصة عند خلطهما مع الخضروات أو الصلصة. ومع ذلك، تحتوي الكينوا على حوالي 20% سعرات حرارية أكثر وبروتين أكبر بكثير لكل حصة مقارنة بالكسكس.

وبالمثل، يتشارك أرز القرنبيط والأرز الأبيض خصائص بصرية متطابقة تقريبًا في الصور، لكن الفرق في السعرات الحرارية كبير: حوالي 25 سعر حراري لكل كوب من أرز القرنبيط مقابل 200+ سعر حراري للأرز الأبيض. عندما يخطئ الذكاء الاصطناعي في التعرف على أرز القرنبيط كأرز أبيض، يمكن أن يرتفع سجل السعرات الحرارية بمقدار 150 أو أكثر من السعرات الحرارية لطبق جانبي واحد.

يقدم الزبادي اليوناني، والكريمة الحامضة، واللبنة مجموعة أخرى من التوائم البصرية. جميعها بيضاء وكريمية، وعادة ما تُقدم في أطباق. يحتوي الزبادي اليوناني كامل الدسم على حوالي 130 سعر حراري لكل كوب، بينما تحتوي الكريمة الحامضة على حوالي 445 سعر حراري لكل كوب. يمكن أن يؤدي التعرف الخاطئ هنا إلى تشويه حسابات المدخول اليومي للمستخدم بشكل كبير.

النمط 2: الاختلافات الإقليمية للأطعمة المماثلة

احتلت أنواع الخبز المسطح المرتبة الخامسة في قائمتنا لأن الفئة تشمل العشرات من الأطعمة المتشابهة بصريًا ولكنها غذائيًا متميزة عبر الثقافات. تبدو تورتيلا دقيق القمح العادية (حوالي 120 سعر حراري) مشابهة للنان (حوالي 260 سعر حراري) في الصور، خاصة عندما تكون مطوية جزئيًا أو ملفوفة. يمكن أن تبدو الروتي (حوالي 100 سعر حراري) والبراتا (حوالي 260 سعر حراري، بسبب طبقات الزيت/الزبدة) غير قابلة للتمييز، ومع ذلك يحتوي أحدهما على أكثر من ضعف السعرات الحرارية.

تقدم الزلابية (المصنفة في المرتبة 18) نفس التحدي. تشترك الجيوزا اليابانية، والجاوزي الصينية، والبيروجي البولندية، والمومو النيبالية، والخبز الجورجي في شكل مشابه (غلاف عجين مع حشوة) ولكنها تختلف بشكل كبير في الحجم، وسمك الغلاف، وتركيبة الحشوة، وطريقة التحضير (مبخرة مقابل مقلية مقابل مسلوقة).

تتمثل ميزة Nutrola هنا في تغطيتها عبر أكثر من 50 دولة. تم تدريب نموذج الذكاء الاصطناعي على صور الطعام من كل تقليد طهي رئيسي، مما يمنحه مفردات بصرية أوسع من النماذج التي تم تدريبها بشكل أساسي على تصوير الطعام الغربي. ومع ذلك، لا تزال التمييزات داخل الفئة تمثل تحديًا.

النمط 3: الأطعمة البديلة التي تحاكي الأصلية

أدى ظهور البدائل الغذائية إلى خلق فئة جديدة من التحديات في التعرف. لحم الديك الرومي المدخن يحاكي لحم الخنزير المدخن. البرغر النباتي يحاكي برغر اللحم البقري. نودلز الكوسا تحاكي المكرونة. فطائر البروتين تحاكي الفطائر العادية. الحلويات الخالية من السكر تحاكي نظيراتها كاملة السكر.

تم تصميم هذه البدائل عمدًا لتبدو مثل الأطعمة التي تحل محلها. هذه هي النقطة الأساسية من منظور رضا المستهلك، لكنها تخلق مشكلة أساسية لأنظمة التعرف البصرية. يمكن أن تكون الآثار السعرات الحرارية كبيرة: الفطائر العادية تحتوي في المتوسط على 175 سعر حراري لكل واحدة، بينما تحتوي فطائر البروتين عادةً على 90-110 سعر حراري لكل واحدة. تحتوي نودلز الكوسا على حوالي 20 سعر حراري لكل كوب مقابل 220 سعر حراري للسباغيتي المطبوخة.

في مجموعة بياناتنا، كان لدى الأطعمة البديلة دقة أعلى 1 متوسطة تبلغ 66.7%، مقارنةً بـ 89.2% لنظيراتها غير البديلة. هذه منطقة يمكن أن تساعد فيها الإشارات السياقية (تفضيلات النظام الغذائي للمستخدم، أنماط التسجيل السابقة) ، ويقوم الذكاء الاصطناعي لـ Nutrola بدمج هذه الإشارات لتحسين التوقعات.

النمط 4: الأطعمة السائلة وشبه السائلة

تعتبر الحساء، وأوعية السموذي، والمشروبات أصعب باستمرار للتعرف عليها بواسطة الذكاء الاصطناعي مقارنةً بالأطعمة الصلبة. حساء ميسو (المصنف في المرتبة 4) هو سائل واضح يحتوي على قطع من التوفو والأعشاب البحرية التي يمكن أن تخلط مع أنواع أخرى من المرق الآسيوي. تشترك أوعية الأكاي (المصنفة في المرتبة 6) في خصائص بصرية مع أوعية سموذي التوت الأخرى ولكنها تختلف بشكل كبير في محتوى السعرات الحرارية اعتمادًا على مزيج القاعدة والت toppings.

التحدي مع الأطعمة السائلة هو أن المعلومات الغذائية الحيوية تكون حرفيًا غير مرئية. قد تحتوي كوبين من السائل يبدو متطابقًا في صورة على أي شيء من 10 سعرات حرارية (قهوة سوداء) إلى 400 سعر حراري (سموذي عالي السعرات). تتعامل Nutrola مع ذلك من خلال طرح أسئلة متابعة على المستخدمين عند اكتشاف الأطعمة السائلة: "هل هذه نسخة عادية أم دايت؟" "ما هي العلامة التجارية؟"

النمط 5: الأطباق المختلطة مع مكونات مخفية

تمثل أطباق الكاري (المصنفة في المرتبة 19) وأطباق الحبوب (المصنفة في المرتبة 16) تحديًا أوسع: الأطباق متعددة المكونات حيث تكون المكونات الغذائية الهامة مخفية عن الأنظار. قد يتم تحضير كاري أخضر تايلاندي باستخدام حليب جوز الهند (يضيف 200+ سعر حراري لكل حصة) أو قاعدة مرق أخف. يعتمد محتوى السعرات الحرارية لطبق الحبوب بشكل كبير على ما إذا كانت القاعدة كينوا، أرز أبيض، أرز بني، أو فاررو، والتي قد تكون مغطاة بالت toppings.

تشكل الأطباق المختلطة حوالي 35% من جميع الوجبات المسجلة بواسطة مستخدمي Nutrola ولكن تمثل 52% من الأخطاء الكبيرة في تقدير السعرات الحرارية (المعرفة بأنها أخطاء تتجاوز 15% من المحتوى الحقيقي للسعرات للطبق).

كيف حسّنت Nutrola الدقة

تدريب النموذج التكراري

كل تصحيح من المستخدم في Nutrola يعود إلى خط أنابيب تدريب نموذج الذكاء الاصطناعي. عندما يغير المستخدم "كينوا" إلى "كسكس"، يتم إضافة هذا التصحيح، مع الصورة الأصلية، إلى مجموعة بيانات التدريب. على مدار فترة التحليل التي استمرت 12 شهرًا، حسّن هذا العملية التعليمية المستمرة الدقة العامة لأعلى 1 من 82.6% إلى 87.3%، بزيادة قدرها 4.7 نقطة مئوية.

الربع دقة أعلى 1 دقة أعلى 3 متوسط خطأ السعرات الحرارية
الربع الأول 2025 82.6% 90.3% 47 سعر حراري
الربع الثاني 2025 84.1% 91.8% 41 سعر حراري
الربع الثالث 2025 85.9% 93.2% 36 سعر حراري
الربع الرابع 2025 86.8% 93.9% 33 سعر حراري
الربع الأول 2026 (جزئي) 87.3% 94.1% 31 سعر حراري

الإشارات السياقية

لا يقوم الذكاء الاصطناعي لـ Nutrola بتحديد الأطعمة في فراغ. بل يدمج الإشارات السياقية لتحسين الدقة:

  • الملف الغذائي للمستخدم: إذا أشار المستخدم إلى أنه يتبع نظامًا غذائيًا نباتيًا، فإن النموذج يزيد من درجات الثقة للبدائل النباتية (التوفو بدلاً من الدجاج، حليب الشوفان بدلاً من حليب الألبان، برغر نباتي بدلاً من لحم البقر).
  • توقيت الوجبة: من المرجح أن تحتوي صور الإفطار على أطعمة الإفطار. يبدو أن هذا بديهي، لكنه يحسن الدقة بشكل كبير للأصناف الغامضة مثل الشوفان المبيت مقابل بودنغ الشيا.
  • الموقع الجغرافي: من المرجح أن تكون الصورة الملتقطة في طوكيو حساء ميسو بدلاً من مينستروني. تخدم Nutrola المستخدمين في أكثر من 50 دولة وتستخدم بيانات الموقع العامة (بموافقة المستخدم) لضبط أولويات تحديد الطعام.
  • أنماط التسجيل السابقة: إذا كان المستخدم يسجل بانتظام أرز القرنبيط، يتعلم النموذج أن هذا المستخدم من المرجح أن يأكل أرز القرنبيط بدلاً من الأرز الأبيض عندما تكون المدخلات البصرية غامضة.

التعرف على الصور المتعددة

في عام 2025، قدمت Nutrola القدرة على التقاط صور متعددة لنفس الوجبة من زوايا مختلفة. بالنسبة للأطباق المعقدة والأطعمة الغامضة، يمكن أن تحل زاوية ثانية عدم اليقين في التعرف. في الاختبارات، حسّن التعرف من زوايا متعددة دقة أعلى 1 للأطعمة العشرين الأكثر تم التعرف عليها بشكل خاطئ بمقدار 8.2 نقطة مئوية.

عتبات الثقة وتحفيز المستخدم

عندما تنخفض درجة الثقة للذكاء الاصطناعي تحت 75%، تقدم Nutrola للمستخدمين أعلى ثلاثة مرشحين بدلاً من تسجيل النتيجة الأعلى تلقائيًا. يمكن للمستخدمين النقر على التعرف الصحيح أو كتابة اسم الطعام. تعني هذه الطريقة الشفافة أن التعرفات ذات الثقة المنخفضة يتم اكتشافها وتصحيحها قبل أن تؤثر على دقة تتبع السعرات الحرارية.

تأثير السعرات الحرارية للاختلاط

ليس كل الاختلاطات متساوية. إن الخلط بين الكيل (المصنف في المرتبة 14) والسبانخ (المصنف في المرتبة 14) له تأثير سعرات حرارية يتراوح بين 5-15 سعر حراري لكل حصة، وهو تأثير غذائي غير مهم. يمكن أن يؤدي الخلط بين أرز القرنبيط والأرز الأبيض (المصنف في المرتبة 3) أو نودلز الكوسا والمكرونة (المصنف في المرتبة 9) إلى إدخال أخطاء تتراوح بين 150-200 سعر حراري، وهو ما يكفي للتأثير بشكل كبير على ميزانية السعرات اليومية.

قمنا بحساب تأثير السعرات الحرارية الموزونة للاختلاطات عبر مجموعة بياناتنا:

نطاق خطأ السعرات الحرارية % من جميع الاختلاطات التأثير العملي
أقل من 25 سعر حراري 38.2% غير ملحوظ
25-75 سعر حراري 29.6% طفيف
75-150 سعر حراري 19.7% معتدل، ملحوظ مع مرور الوقت
150-250 سعر حراري 9.1% كبير، يمكن أن يؤثر على الأهداف اليومية
أكثر من 250 سعر حراري 3.4% رئيسي، يعادل وجبة صغيرة

كان متوسط خطأ السعرات الحرارية عبر جميع الاختلاطات 42 سعر حراري، وهو ضمن هامش الخطأ لمعظم أغراض تتبع التغذية. ومع ذلك، فإن ذيل التوزيع (12.5% من الاختلاطات التي تدخل أخطاء تتجاوز 150 سعر حراري) هو المكان الذي يمتلك فيه التعرف على الطعام بواسطة الذكاء الاصطناعي أكبر مجال للتحسين.

ما يمكن للمستخدمين فعله لتحسين دقة الذكاء الاصطناعي

  1. التقاط صور واضحة ومضيئة. يعمل الذكاء الاصطناعي بشكل أفضل مع الإضاءة الجيدة ورؤية واضحة من أعلى للطبق. تقلل الصور الملتقطة في المطاعم ذات الإضاءة الخافتة وزوايا التصوير المتطرفة من الدقة بمعدل 6 نقاط مئوية في المتوسط.

  2. فصل المكونات عند الإمكان. إذا كانت وجبتك تحتوي على مكونات متميزة (بروتين، حبوب، خضروات)، فإن ترتيبها بفصل مرئي يساعد الذكاء الاصطناعي على تحديد كل عنصر بشكل فردي بدلاً من اعتبار الطبق كطبق مختلط واحد.

  3. استخدام ميزة التصحيح. كل تصحيح تقوم به يحسن الذكاء الاصطناعي لك ولجميع مجتمع Nutrola. يرى المستخدمون الذين يصححون الاختلاطات في الأسبوعين الأولين من الاستخدام معدلات دقة أعلى بنسبة 11% على المدى الطويل لأن النموذج يتعلم أنماطهم الغذائية المحددة.

  4. تحديد البدائل. إذا كنت تتناول الأطعمة البديلة بانتظام (أرز القرنبيط، لحم نباتي، خيارات خالية من السكر)، قم بتدوين ذلك في تفضيلاتك الغذائية في Nutrola. سيقوم الذكاء الاصطناعي بوزن هذه البدائل بشكل أكبر في توقعاته.

  5. تجربة الصور من زوايا متعددة. بالنسبة للأطباق المعقدة، يمكن أن تحل صورة ثانية من زاوية مختلفة الغموض. هذا مفيد بشكل خاص للأوعية، والحساء، والأطباق المختلطة حيث قد تكون المكونات الرئيسية مخفية تحت الت toppings.

النظر إلى الأمام

لقد تحسنت دقة التعرف على الطعام بواسطة الذكاء الاصطناعي بشكل كبير على مدار السنوات الثلاث الماضية، ولا تظهر الاتجاهات أي علامات على التباطؤ. يقوم نموذج Snap & Track الخاص بـ Nutrola بمعالجة المزيد من صور الطعام شهريًا مما تحتوي عليه معظم مجموعات البيانات الأكاديمية المنشورة في المجموع، وكل تفاعل يجعل النظام أكثر ذكاءً.

هدفنا بنهاية عام 2026 هو تحقيق دقة أعلى 1 بنسبة 90% عبر جميع فئات الطعام و75% للأطعمة العشرين الأكثر تم التعرف عليها بشكل خاطئ حاليًا. مع استمرار تحسين النموذج، وزيادة بيانات التدريب من قاعدة مستخدمينا المتزايدة عبر أكثر من 50 دولة، وميزات مثل التعرف من زوايا متعددة والإشارات السياقية، نعتقد أن هذه الأهداف قابلة للتحقيق.

الهدف ليس استبدال الحكم البشري تمامًا. بل هو جعل تسجيل الطعام سريعًا ودقيقًا لدرجة أن الاحتكاك في تتبع التغذية يختفي فعليًا. لم نصل إلى هناك بعد، ولكن بعد 10 ملايين صورة، نحن أقرب بشكل ملحوظ مما كنا عليه قبل عام.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!