كيف تقدّر الذكاء الاصطناعي أحجام الحصص من الصور: نظرة تقنية متعمقة

نظرة مفصلة على كيفية استخدام الذكاء الاصطناعي لتقدير أحجام الحصص الغذائية من خلال تقدير العمق، واستخدام الأجسام المرجعية، ونمذجة الحجم.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

تحديد نوع الطعام الموجود على طبقك هو نصف التحدي فقط في تتبع السعرات الحرارية باستخدام الذكاء الاصطناعي. النصف الآخر، والذي يمكن القول إنه الأصعب، هو معرفة كمية الطعام الموجودة. قد تحتوي حصة من المعكرونة على 200 سعرة حرارية أو 800 سعرة حرارية اعتمادًا على حجم الحصة. الحصول على هذا التقدير بشكل صحيح هو ما يميز أداة تتبع التغذية المفيدة عن غيرها.

تتناول هذه المقالة نظرة تقنية متعمقة حول كيفية تقدير أنظمة الذكاء الاصطناعي لأحجام الحصص من الصور، مع التركيز على تقدير العمق، وتحديد الأجسام المرجعية، ونمذجة الحجم، والتحديات المستمرة التي يواجهها الباحثون والمهندسون لجعل هذه التقديرات أكثر دقة.

لماذا يعتبر تقدير الحصص أصعب من التعرف على الطعام

التعرف على الطعام هو في الأساس مشكلة تصنيف. يجب على النظام الاختيار من مجموعة محدودة من فئات الطعام. بينما تقدير الحصة، على النقيض من ذلك، هو مشكلة انحدار. يجب على النظام التنبؤ بقيمة مستمرة (بالغرام أو المليلتر) بناءً على المعلومات المرئية فقط.

توجد عدة عوامل تجعل هذا الأمر تحديًا خاصًا:

  • مشكلة الانتقال من 2D إلى 3D: الصورة الفوتوغرافية تختزل الواقع ثلاثي الأبعاد إلى صورة ثنائية الأبعاد. يتم فقدان معلومات العمق، مما يجعل من الصعب التمييز بين طبقة رقيقة من الطعام وكومة سميكة.
  • الكثافة المتغيرة: كوب من الخضروات الورقية وكوب من الجرانولا لهما نفس الحجم ولكن أوزان ومحتويات سعرات حرارية مختلفة تمامًا. يجب على النظام تقدير كل من الحجم والكثافة.
  • تشويه المنظور: الزاوية التي تؤخذ منها الصورة تؤثر على حجم ظهور العناصر الغذائية. يبدو الطبق المأخوذ من الأعلى مختلفًا عن نفس الطبق المأخوذ من زاوية 45 درجة.
  • تحديد المقاييس الغامضة: بدون وجود جسم مرجعي معروف في الإطار، لا توجد طريقة لتحديد الحجم المطلق. يمكن أن تبدو صورة مقربة لملف تعريف صغير مشابهة لصورة بيتزا كبيرة مأخوذة من بعيد.

تقدير العمق من صورة واحدة

أحد الاختراقات الرئيسية التي تمكن تقدير الحصص من الصور هو تقدير العمق الأحادي، وهو القدرة على استنتاج معلومات العمق من صورة واحدة بدلاً من الحاجة إلى كاميرات استيريو أو أجهزة متخصصة.

كيف يعمل تقدير العمق الأحادي

يستنتج النظام البصري البشري العمق من العديد من الإشارات: تداخل الأجسام (الأجسام الأقرب تحجب الأجسام الأبعد)، الحجم النسبي (الأجسام الأصغر عادة ما تكون أبعد)، تدرجات القوام (تصبح القوام أكثر دقة عند المسافات البعيدة)، والمنظور الجوي (تبدو الأجسام البعيدة أكثر ضبابية).

يمكن لنماذج التعلم العميق تعلم هذه الإشارات نفسها من مجموعات بيانات كبيرة من الصور المقترنة بخرائط العمق. عند تطبيقها على تصوير الطعام، يمكن لهذه النماذج تقدير أي أجزاء من العنصر الغذائي أقرب إلى الكاميرا وأيها أبعد، مما يعيد بناء الشكل ثلاثي الأبعاد للطعام من صورة مسطحة.

خرائط العمق وحجم الطعام

تقوم خريطة العمق بتعيين قيمة مسافة لكل بكسل في الصورة. بالنسبة لتقدير الطعام، يعني ذلك أن النظام يمكنه تحديد أن مركز وعاء الحساء يقع على عمق معين بينما حافة الوعاء على عمق آخر. يسمح الفرق بين هذين العمقين، جنبًا إلى جنب مع الحدود المكتشفة للطعام، للنظام بتقدير الحجم.

يمكن لكاميرات الهواتف الذكية الحديثة المزودة بأجهزة استشعار LiDAR (المتاحة في طرازات iPhone Pro وiPad Pro الحديثة) التقاط بيانات العمق الفعلية جنبًا إلى جنب مع الصورة الملونة، مما يوفر معلومات عمق أكثر دقة بكثير من التقدير الخوارزمي وحده. يمكن لتطبيقات تتبع الطعام الاستفادة من هذا الجهاز عند توفره، بينما تعتمد على التقدير الأحادي في الأجهزة التي لا تحتوي على أجهزة استشعار عمق.

تحديد مقاييس الأجسام المرجعية

بدون نقطة مرجعية معروفة، يكون الحجم المطلق للأجسام في الصورة غامضًا. يحل تحديد مقاييس الأجسام المرجعية هذه المشكلة من خلال استخدام أجسام ذات أبعاد معروفة لتحديد مقياس الحجم للصورة بأكملها.

الأجسام المرجعية الشائعة

الجسم المرجعي البعد المعروف فائدة الدقة
طبق عشاء قياسي 25-27 سم قطرًا يحدد المقياس العام للوجبة
شوكة أو ملعقة ~19 سم طولًا يوفر مقياسًا حتى في اللقطات القريبة
بطاقة ائتمان 8.56 × 5.4 سم دقيق ومعياري عالميًا
هاتف ذكي يختلف حسب الطراز ولكن معروف يمكن اكتشافه وقياسه خوارزميًا
يد تختلف ولكن يمكن تقديرها من الديموغرافيات مقياس تقريبي عند عدم توفر مرجع آخر

الكشف التلقائي عن الأجسام المرجعية

بدلاً من الحاجة إلى أن يضع المستخدم بطاقة مرجعية بجوار طعامه (ما يضيف بعض التعقيد ويقلل من الاستخدام)، تحاول الأنظمة الحديثة اكتشاف الأجسام المرجعية الشائعة تلقائيًا. تظهر الأطباق والأوعية والأدوات والطاولات بشكل متكرر في صور الطعام ويمكن أن تعمل كنقاط مرجعية للحجم إذا تمكن النظام من التعرف عليها.

يبحث نظام تقدير الحصص في Nutrola تلقائيًا عن الأطباق والأوعية والأدوات في الإطار لتحديد المقياس. عند اكتشاف هذه الأجسام، يستخدم النظام أبعادها النموذجية لمعايرة حجم العناصر الغذائية. عندما لا يتم العثور على جسم مرجعي، يعتمد النظام على المعرفة السابقة حول أحجام الحصص الغذائية النموذجية وقد يطلب من المستخدم التأكيد.

المعايرة المعتمدة على الأطباق

تعتبر المعايرة المعتمدة على الأطباق واحدة من الطرق الفعالة بشكل خاص. تقع الأطباق القياسية في معظم البلدان ضمن نطاق حجم ضيق (25 إلى 27 سم في القطر). من خلال اكتشاف الشكل البيضاوي للطبق في الصورة وفرض حجم قياسي، يمكن للنظام تحديد مقياس موثوق لكل ما هو موجود على الطبق.

تعمل هذه الطريقة بشكل جيد لأن الأطباق تكون موجودة دائمًا تقريبًا في صور الوجبات، وشكلها البيضاوي سهل الاكتشاف بغض النظر عن زاوية الكاميرا، وتشوه المنظور للبيضاوي في الواقع يشف عن معلومات حول زاوية الكاميرا، مما يساعد على تصحيح تأثيرات المنظور على الطعام.

تقنيات تقدير الحجم

بمجرد أن يحدد النظام الطعام، ويقدر العمق، ويحدد المقياس، يجب عليه دمج هذه المعلومات لتقدير حجم كل عنصر غذائي.

الأشكال الهندسية الأساسية

تتمثل إحدى الطرق في تقريب العناصر الغذائية كمجموعات من الأشكال الهندسية البسيطة:

  • الأسطوانات للأطعمة الطويلة مثل المشروبات، والفطائر المكدسة، أو الكعك المتعدد الطبقات
  • نصف الكرات للأطعمة المدورة مثل كرات الأرز، أو كتل البطاطس المهروسة، أو حصص الآيس كريم
  • المكعبات المستطيلة للخبز المقطع، أو كتل الجبن، أو القضبان
  • المخاريط المقطوعة لأوعية الحساء أو الحبوب (شكل الوعاء يساعد في تحديد الحجم)
  • المجسمات غير المنتظمة للأطعمة ذات الأشكال المعقدة مثل أفخاذ الدجاج أو الفواكه الكاملة

يقوم النظام بملاءمة شكل أو أكثر من هذه الأشكال الأساسية إلى منطقة الطعام المكتشفة ويحسب الحجم من الأشكال الملائمة والمقياس المحدد.

إعادة البناء المعتمدة على الفوكسل

تتضمن طريقة أكثر تطورًا إعادة البناء المعتمدة على الفوكسل، حيث يتم نمذجة العنصر الغذائي كشبكة ثلاثية الأبعاد من المكعبات الصغيرة (الفوكسل). يتم تصنيف كل فوكسل إما كاحتواء على طعام أو كونه فارغًا بناءً على خريطة العمق وقناع التقسيم. ثم يكون الحجم الإجمالي هو مجموع جميع الفوكسلات التي تحتوي على الطعام.

تتعامل هذه الطريقة مع الأشكال غير المنتظمة بشكل أفضل من الأشكال الهندسية الأساسية ولكنها تتطلب موارد حسابية أكبر. إنها مفيدة بشكل خاص للأطعمة التي لا تت conform إلى الأشكال البسيطة، مثل قطعة خبز ممزقة أو قطعة فاكهة مقطوعة بشكل غير منتظم.

تقدير الحجم العصبي

تتجاوز الطريقة الأحدث النمذجة الهندسية الصريحة تمامًا. بدلاً من ذلك، يتم تدريب شبكة عصبية من البداية إلى النهاية للتنبؤ بحجم الطعام مباشرة من الصورة. تتعلم هذه النماذج التمثيلات الضمنية لجيوميتري الطعام من مجموعات بيانات كبيرة من صور الطعام المقترنة بقياسات الوزن الفعلية.

لقد أظهرت هذه الطريقة نتائج واعدة لأنها يمكن أن تلتقط الإشارات البصرية الدقيقة التي ترتبط بالحجم، مثل الطريقة التي تعكس بها الضوء على سطح سائل أو نمط الظل الذي تلقيه كومة من الطعام. كما أنها تتجنب تراكم الأخطاء الذي يمكن أن يحدث عندما يتم إجراء تقدير العمق، والتقسيم، والتناسب الهندسي كخطوات منفصلة.

من الحجم إلى الوزن إلى السعرات الحرارية

تقدير الحجم ليس الخطوة النهائية. لحساب السعرات الحرارية، يجب على النظام تحويل الحجم إلى وزن (باستخدام كثافة الطعام) والوزن إلى سعرات حرارية (باستخدام بيانات التركيب الغذائي).

قواعد بيانات كثافة الطعام

تختلف كثافات الأطعمة بشكل كبير. كوب من الزيت يزن حوالي 220 جرامًا، بينما كوب من الدقيق يزن حوالي 120 جرامًا، وكوب من الفشار يزن حوالي 8 جرامات. تعتبر بيانات الكثافة الدقيقة ضرورية لتحويل تقديرات الحجم إلى تقديرات الوزن.

تحافظ الأنظمة الإنتاجية على قواعد بيانات تربط العناصر الغذائية بكثافاتها، مع الأخذ في الاعتبار الاختلافات في طريقة التحضير (مطبوخ مقابل نيء، مفروم مقابل كامل) وأنماط التقديم الشائعة.

عنصر الطعام الكثافة (غرام/مل) وزن 1 كوب (غرام) السعرات الحرارية لكل كوب
الماء 1.00 237 0
الحليب الكامل 1.03 244 149
الأرز الأبيض المطبوخ 0.74 175 205
السبانخ النيئة 0.13 30 7
زبدة الفول السوداني 1.09 258 1517
زيت الزيتون 0.92 218 1909

التركيب الغذائي

بمجرد أن يكون لدى النظام تقدير للوزن بالجرامات، يبحث عن التركيب الغذائي لكل جرام من قاعدة بيانات شاملة للأطعمة. عادة ما تستند هذه القواعد إلى مصادر موثوقة مثل قاعدة بيانات USDA FoodData Central، معززة ببيانات من الشركات المصنعة للأطعمة وقواعد بيانات التغذية الإقليمية.

تغطي قاعدة بيانات Nutrola أكثر من 1.3 مليون نوع من الأطعمة، بما في ذلك المنتجات المعلبة، وعناصر قوائم المطاعم، والأطعمة العامة مع ملفات تعريف كاملة من العناصر الغذائية الكبرى والميكروية. تضمن هذه التغطية الشاملة أنه بمجرد تحديد عنصر غذائي وحصة، تكون الحسابات الغذائية دقيقة.

تحديات الدقة وكيفية التعامل معها

على الرغم من تعقيد هذه التقنيات، يبقى تقدير الحصص من الصور علمًا غير كامل. يساعد فهم مصادر الخطأ في وضع توقعات واقعية ويسلط الضوء على التحسينات المستمرة في هذا المجال.

مصادر الخطأ المعروفة

اختلاف زاوية الكاميرا: يبدو أن نفس الحصة تختلف اعتمادًا على ما إذا تم التقاط الصورة من الأعلى، أو من زاوية 45 درجة، أو من مستوى الطاولة. عادة ما توفر الصور الملتقطة من الأعلى تقديرات أكثر دقة لأنها تقلل من تشويه المنظور، ولكن العديد من المستخدمين يحملون هواتفهم بشكل مائل بشكل طبيعي.

الطعام المحجوب: لا يمكن قياس الطعام المخفي تحت الصلصات، أو الجبن، أو غيرها من الإضافات بصريًا. يجب على النظام استنتاج الجزء المخفي بناءً على نوع الطبق المرئي وطريقة التحضير النموذجية.

الحاويات غير المنتظمة: تجعل الأوعية، والأكواب، والحاويات غير القياسية من تحديد المقياس المعتمد على الأطباق أقل موثوقية. تبدو حصة صغيرة في وعاء كبير مختلفة عن حصة كبيرة في وعاء صغير، حتى لو كانت منطقة الطعام تبدو مشابهة.

اختلافات التحضير الفردية: قد يستخدم شخصان يصنعان "وعاء من الشوفان" كميات مختلفة تمامًا من الشوفان والماء، مما يؤدي إلى نفس الحجم الظاهر ولكن بمحتوى سعرات حرارية مختلف.

استراتيجيات تحسين الدقة

التقاط من زوايا متعددة: تطلب بعض الأنظمة من المستخدمين التقاط صور من زوايا متعددة، مما يتيح إعادة البناء الاستيريو وتقدير الحجم بدقة أكبر. يحسن ذلك الدقة بشكل كبير ولكنه يضيف تعقيدًا لعملية التسجيل.

دوائر تغذية المستخدم: عندما يقوم المستخدمون بوزن طعامهم وتأكيد أو تصحيح الحصة المقدرة، فإن ذلك يخلق بيانات تدريب تحسن النموذج مع مرور الوقت. تشجع Nutrola المستخدمين على التحقق من الحصص باستخدام ميزان مطبخ بين الحين والآخر لمعايرة كل من الذكاء الاصطناعي ووعي المستخدم الخاص.

المعلومات السياقية السابقة: يمكن للنظام استخدام المعلومات السياقية لتحسين التقديرات. إذا كان المستخدم في سلسلة مطاعم معينة، يمكن للنظام استخدام أحجام الحصص المعروفة. إذا كان المستخدم يسجل عادةً فطورًا معينًا، يمكن للنظام تعلم حصته النموذجية.

تقديرات مدركة للثقة: بدلاً من تقديم رقم واحد، توفر الأنظمة المتطورة نطاق ثقة. إذا كان النظام غير متأكد من الحصة، يمكنه تقديم التقدير كنطاق (على سبيل المثال، 300 إلى 450 سعرة حرارية) وطلب من المستخدم تقديم معلومات إضافية.

معايير دقة الحالية

أظهرت أبحاث من المؤتمر الدولي لتحليل الصور ومعالجتها أن أنظمة تقدير حجم الطعام المتطورة تحقق أخطاء متوسطة تتراوح بين 15 و25 بالمئة. للمقارنة، أظهرت الدراسات أن أخصائيي التغذية المدربين الذين يقدرون الحصص من الصور يحققون أخطاء تتراوح بين 10 و15 بالمئة، بينما يبلغ متوسط أخطاء الأفراد غير المدربين حوالي 30 إلى 50 بالمئة.

هذا يعني أن تقدير الحصص بواسطة الذكاء الاصطناعي أفضل بكثير مما يمكن أن يفعله معظم الأشخاص بدون مساعدة، ويقترب من دقة المحترفين المدربين. مع الجمع بين السرعة وميزة الراحة، يجعل هذا تتبع السعرات الحرارية بمساعدة الذكاء الاصطناعي تحسنًا كبيرًا مقارنةً بالتسجيل اليدوي لمعظم المستخدمين.

دور معايرة المستخدم

أحد الجوانب التي لا تحظى بالتقدير الكافي في تقدير الحصص بواسطة الذكاء الاصطناعي هو دور معايرة المستخدم مع مرور الوقت. مع تسجيل المستخدمين للوجبات وتقديم تصحيحات بين الحين والآخر، يبني النظام ملفًا عن أحجام الحصص النموذجية وتفضيلات الطعام الخاصة بهم.

بالنسبة للمستخدمين المنتظمين، يعني ذلك أن النظام يصبح أكثر دقة تدريجيًا. إذا كنت تميل إلى تقديم حصص أكبر من الأرز مقارنةً بالمتوسط، يتعلم النظام تعديل تقديرات الأرز الخاصة بك للأعلى. إذا كنت تستخدم عادةً زيتًا أقل من الوصفة القياسية، يمكن للنظام أن يأخذ ذلك في الاعتبار.

تستفيد Nutrola من هذه التخصيصات لتقديم تقديرات حصص أكثر دقة كلما طالت مدة استخدامك للتطبيق. يستفيد المستخدمون الجدد من المتوسطات على مستوى السكان، بينما يتلقى المستخدمون ذوو الخبرة تقديرات شخصية تم معايرتها وفقًا لعاداتهم الخاصة.

نصائح عملية للحصول على تقديرات حصص أكثر دقة

بينما يتولى الذكاء الاصطناعي معظم العمل الشاق، يمكن للمستخدمين تحسين الدقة من خلال اتباع بعض الإرشادات البسيطة:

  1. التصوير من الأعلى عند الإمكان. توفر الصور الملتقطة من الأعلى أكبر قدر من المعلومات حول مساحة سطح الطعام وتقلل من تشويه المنظور.
  2. تضمين الطبق بالكامل في الإطار. حافة الطبق تعمل كنقطة مرجعية حاسمة للتحديد.
  3. تجنب اللقطات القريبة للغاية. يحتاج النظام إلى سياق لتقدير الحجم. الصورة التي تظهر فقط الطعام دون أي أشياء محيطة لا تقدم أي مرجع للمقياس.
  4. التصوير قبل الخلط. السلطة التي تحتوي على مكونات منفصلة مرئية أسهل في التحليل من تلك التي تم خلطها معًا.
  5. استخدام إضاءة جيدة. يمكن أن تحجب الظلال والضوء المنخفض حدود الطعام وإشارات العمق.
  6. التأكيد أو التصحيح من حين لآخر. يساعد استخدام ميزان المطبخ مرة واحدة في الأسبوع للتحقق من تقدير الذكاء الاصطناعي في معايرة كل من النظام وحدسك الخاص.

الأسئلة الشائعة

ما مدى دقة تقدير الحصص بواسطة الذكاء الاصطناعي مقارنةً باستخدام ميزان الطعام؟

يوفر ميزان الطعام دقة تصل إلى 1 إلى 2 جرام، وهو أكثر دقة بكثير من أي طريقة تقدير بصرية. عادةً ما يحقق تقدير الحصص بواسطة الذكاء الاصطناعي من الصور دقة تتراوح بين 15 إلى 25 بالمئة من الوزن الفعلي. ومع ذلك، فإن ميزة الراحة لتقدير الذكاء الاصطناعي (الذي يستغرق ثانيتين مقابل 30 ثانية أو أكثر مع الميزان) تعني أن المزيد من الأشخاص يتتبعون باستمرار، وهو ما غالبًا ما يكون أكثر أهمية للنتائج على المدى الطويل من الدقة المثالية.

هل تؤثر زاوية الكاميرا على دقة تقدير الحصص؟

نعم، بشكل كبير. توفر الصور الملتقطة من الأعلى (المباشرة على الطبق) أفضل دقة لأنها تظهر المساحة السطحية الكاملة للطعام مع الحد الأدنى من تشويه المنظور. لا تزال الصور الملتقطة من زاوية 45 درجة شائعة وتنتج تقديرات جيدة. تعتبر الزوايا المنخفضة جدًا (قريبة من مستوى الطاولة) الأقل دقة لأن معظم الطعام يكون محجوبًا بواسطة الحافة الأمامية للطبق.

هل يمكن للذكاء الاصطناعي تقدير الحصص للسوائل مثل الحساء والسموذي؟

تقدم السوائل تحديًا فريدًا لأن حجمها يتحدد بواسطة حاويتها بدلاً من شكلها الخاص. تقدّر أنظمة الذكاء الاصطناعي حصص السوائل من خلال تحديد نوع الحاوية ومستوى التعبئة. وعاء الحساء المملوء حتى الحافة له حجم مختلف عن وعاء مملوء حتى منتصفه. تكون الدقة عمومًا جيدة عندما تكون الحاوية ذات شكل قياسي ولكن أقل موثوقية مع الحاويات غير المعتادة.

لماذا يبالغ الذكاء الاصطناعي أحيانًا في تقدير حصتي أو يقلل منها؟

تشمل الأسباب الشائعة للمبالغة في التقدير التقديم الكثيف الذي يبدو أكبر مما هو عليه، والزينة التي تضيف حجمًا بصريًا دون سعرات حرارية كبيرة، واستخدام أطباق كبيرة تجعل النظام يفترض وجود طعام أكثر. تشمل الأسباب الشائعة للتقليل من التقدير الطعام المخفي تحت طعام آخر، والأطعمة الغنية بالسعرات الحرارية التي تبدو صغيرة، وأنماط التقديم غير المعتادة. يساعد تقديم التغذية الراجعة عندما تكون التقديرات خاطئة النظام على التحسين.

هل أحتاج إلى هاتف مزود بجهاز استشعار LiDAR لتتبع الحصص بدقة؟

لا. بينما يمكن أن توفر الهواتف المزودة بـ LiDAR معلومات عمق أكثر دقة، يمكن للنماذج الحديثة للذكاء الاصطناعي تقدير العمق بشكل جيد من صورة كاميرا قياسية فقط. لقد ضاقت الفجوة في الدقة بين الهواتف المزودة بـ LiDAR والهواتف القياسية مع تحسن تقدير العمق المعتمد على البرمجيات. يعمل Nutrola بدقة على أي هاتف ذكي حديث.

كيف يتعامل النظام مع الأطعمة المكدسة أو الطبقات؟

بالنسبة للأطعمة المكدسة بشكل واضح مثل الفطائر أو السندويشات المكونة من طبقات، يمكن للنظام حساب الطبقات وتقدير السماكة من الملف الجانبي. بالنسبة للأطعمة ذات الطبقات المخفية مثل اللازانيا أو البوريتو، يعتمد النظام على نماذج التركيب المتعلمة التي تقدّر الهيكل الداخلي النموذجي بناءً على السطح الخارجي المرئي ونوع الطبق.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!