كيف تتعرف الرؤية الحاسوبية على الطعام: التقنية وراء تتبع السعرات الحرارية بالذكاء الاصطناعي

10 مارس 2026

اكتشف كيف تعمل الشبكات العصبية الالتفافية وتصنيف الصور على تشغيل التعرف على الطعام بالذكاء الاصطناعي، مما يتيح لتطبيقات مثل Nutrola تحويل صورة بسيطة إلى بيانات دقيقة للسعرات الحرارية.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

في كل مرة توجه فيها كاميرا هاتفك نحو طبق طعام وتحصل على تحليل فوري للسعرات الحرارية، تنطلق سلسلة معقدة من عمليات الذكاء الاصطناعي خلف الكواليس. ما يبدو وكأنه نقرة بسيطة يتضمن شبكات عصبية التفافية، وتصنيف صور متعدد التسميات، وسنوات من البحث في مجال الرؤية الحاسوبية. إن فهم كيفية عمل هذه التقنية يساعد في تفسير لماذا أصبح تتبع السعرات الحرارية المدعوم بالذكاء الاصطناعي دقيقًا إلى هذا الحد، ولماذا يستمر في التحسن.

تستعرض هذه المقالة التقنية الأساسية وراء الذكاء الاصطناعي للتعرف على الطعام، بدءًا من اللبنات الأساسية للشبكات العصبية وصولًا إلى التحديات الهندسية المحددة لتحديد ما يوجد في طبقك.

ما هي الرؤية الحاسوبية ولماذا تهم التغذية؟

الرؤية الحاسوبية هي فرع من فروع الذكاء الاصطناعي يدرّب الآلات على تفسير وفهم المعلومات البصرية من العالم الحقيقي. بينما يميز البشر بسهولة بين وعاء من الشوفان وطبق من المعكرونة، فإن تعليم الحاسوب القيام بالأمر نفسه يتطلب معالجة ملايين الصور المصنفة وبناء نماذج رياضية للأنماط البصرية.

بالنسبة لتتبع التغذية، تحل الرؤية الحاسوبية أكبر نقطة ألم في المراقبة الذاتية للنظام الغذائي: مشكلة إدخال البيانات يدويًا. أظهرت الأبحاث المنشورة في مجلة أكاديمية التغذية وعلم الحمية أن تسجيل الطعام يدويًا يؤدي إلى نقص في الإبلاغ عن تناول السعرات الحرارية بنسبة 10 إلى 45 بالمائة. من خلال استبدال الأوصاف المكتوبة بصورة فوتوغرافية، تزيل الرؤية الحاسوبية الاحتكاك الذي يجعل معظم الناس يتخلون عن تتبع الطعام خلال الأسبوعين الأولين.

حجم المشكلة

يُعتبر التعرف على الطعام من أصعب تحديات تصنيف الصور بسبب التنوع الهائل المتضمن:

هناك آلاف الأطباق المختلفة عبر المطابخ العالمية
يمكن أن يبدو الطعام نفسه مختلفًا بشكل كبير حسب طريقة التحضير
تؤثر الإضاءة والزاوية وطريقة التقديم جميعها على المظهر
غالبًا ما تتشارك عدة أطعمة في طبق واحد، مما يتطلب التعرف عليها في آن واحد
تتفاوت أحجام الحصص بشكل مستمر بدلًا من أن تقع في فئات محددة

على الرغم من هذه التحديات، تحقق أنظمة التعرف على الطعام الحديثة معدلات دقة ضمن أفضل 5 تخمينات تتجاوز 90 بالمائة في المعايير المرجعية القياسية، مما يعني أن صنف الطعام الصحيح يظهر ضمن أفضل خمسة تخمينات للنظام أكثر من تسع مرات من أصل عشرة.

الشبكات العصبية الالتفافية: أساس التعرف على الطعام

في قلب كل نظام تعرف على الطعام تقريبًا يوجد نوع من بنية التعلم العميق يُسمى الشبكة العصبية الالتفافية، أو CNN. فهم CNN هو المفتاح لفهم كيف يمكن لهاتفك أن ينظر إلى صورة ويخبرك أنك تتناول دجاج تكا ماسالا مع أرز بسمتي.

كيف تعالج CNN الصورة

تعالج CNN الصورة من خلال سلسلة من الطبقات، كل منها مصممة لاكتشاف ميزات بصرية متزايدة التعقيد:

الطبقة 1 - اكتشاف الحواف: تتعلم الطبقة الالتفافية الأولى اكتشاف الحواف البسيطة وتدرجات الألوان. قد تتعرف على الحافة المنحنية لوعاء أو الحد الفاصل بين قطعة لحم وصلصتها.

الطبقة 2 - التعرف على الملمس: تجمع الطبقات الأعمق الحواف في أنسجة. تبدأ الشبكة في التمييز بين الملمس الحبيبي للأرز البني والسطح الأملس للأرز الأبيض، أو الملمس الليفي للدجاج المشوي واللمعان اللامع للدجاج المقلي.

الطبقة 3 - التعرف على الأشكال والأنماط: تجمّع الطبقات الأعلى الأنسجة في أشكال وأنماط يمكن التعرف عليها. قد يُصنف شكل دائري بملمس معين على أنه خبز تورتيلا، بينما يصبح شكل ممدود بملمس مختلف عصا خبز.

الطبقة 4 - التعرف على الأشياء: تجمع الطبقات الالتفافية النهائية جميع المعلومات السابقة للتعرف على أصناف الطعام الكاملة. تعلمت الشبكة أن مزيجًا معينًا من اللون والملمس والشكل والسياق يتوافق مع طعام محدد.

دور التجميع وخرائط الميزات

بين الطبقات الالتفافية، تقلل طبقات التجميع الأبعاد المكانية للبيانات مع الاحتفاظ بأهم الميزات. يخدم هذا غرضين: يجعل الحساب قابلًا للإدارة ويوفر درجة من الثبات الانتقالي، مما يعني أن الشبكة يمكنها التعرف على صنف الطعام بغض النظر عن مكان ظهوره في الإطار.

يُسمى ناتج كل طبقة التفافية خريطة ميزات. تلتقط خرائط الميزات المبكرة معلومات منخفضة المستوى مثل الحواف والألوان، بينما تشفر خرائط الميزات اللاحقة مفاهيم عالية المستوى مثل "هذه المنطقة تحتوي على سباغيتي." ينتج نموذج التعرف على الطعام النموذجي مئات من خرائط الميزات هذه في كل طبقة.

بنيات CNN الشائعة المستخدمة في التعرف على الطعام

البنية	السنة	الابتكار الرئيسي	الاستخدام النموذجي في الذكاء الاصطناعي الغذائي
AlexNet	2012	أثبت أن CNN العميقة تعمل على نطاق واسع	أبحاث التعرف على الطعام المبكرة
VGGNet	2014	أظهر أن العمق مهم	استخراج الميزات لمجموعات بيانات الطعام
GoogLeNet/Inception	2014	المعالجة متعددة المقاييس	التعرف على الطعام بكفاءة على الأجهزة المحمولة
ResNet	2015	الاتصالات المتبقية للشبكات العميقة جدًا	تصنيف الطعام عالي الدقة
EfficientNet	2019	التوسع المتوازن للعمق والعرض والدقة	تطبيقات التعرف على الطعام الحديثة على الهاتف المحمول
Vision Transformers	2020	الانتباه الذاتي لأجزاء الصورة	أبحاث التعرف على الطعام الأحدث

من التصنيف إلى الكشف متعدد التسميات

كانت أنظمة التعرف على الطعام المبكرة تتعامل مع المهمة كمشكلة تصنيف بسيطة: بالنظر إلى صورة واحدة، تتنبأ بتسمية طعام واحدة. لكن الوجبات الحقيقية نادرًا ما تكون بهذه البساطة. قد يحتوي غداء نموذجي على بروتين رئيسي، وجانب من الخضروات، وحبوب، وصلصة، كلها في طبق واحد.

كشف الأشياء للأطباق المعقدة

تستخدم أنظمة التعرف على الطعام الحديثة أطر عمل كشف الأشياء التي يمكنها تحديد وتحديد موقع عدة أصناف طعام داخل صورة واحدة. ترسم هذه الأنظمة مربعات إحاطة حول كل صنف طعام مميز وتصنفها بشكل مستقل.

تم تكييف بنيات مثل YOLO (You Only Look Once) و Faster R-CNN لكشف الطعام. تقسم هذه النماذج الصورة إلى شبكة وتتنبأ بموقع وفئة أصناف الطعام في آن واحد، مما يتيح المعالجة في الوقت الفعلي على الأجهزة المحمولة.

التجزئة الدلالية للحدود الدقيقة

لتحقيق دقة أكبر، تستخدم بعض الأنظمة التجزئة الدلالية، التي تصنف كل بكسل في الصورة على أنه ينتمي إلى فئة طعام محددة. هذا مفيد بشكل خاص للأطباق المختلطة مثل السلطات أو الأطباق المقلية السريعة، حيث تتداخل المكونات المختلفة وتتشابك.

تستخدم ميزة Snap & Track في Nutrola مزيجًا من هذه المقاربات. عندما تصور وجبتك، يكتشف النظام أولًا مناطق الطعام الفردية، ثم يصنف كلًا منها، وأخيرًا يقدر كمية كل صنف موجود. يتيح هذا الخط المتسلسل متعدد المراحل للنظام التعامل مع كل شيء من موزة بسيطة إلى وجبة معقدة متعددة الأطباق.

بيانات التدريب: الوقود وراء التعرف الدقيق على الطعام

نموذج التعرف على الطعام لا يكون أفضل من البيانات التي تم تدريبه عليها. يعد بناء مجموعة بيانات صور طعام عالية الجودة من أكثر الجوانب تحديًا وكثافة في الموارد لتطوير الذكاء الاصطناعي الغذائي.

مجموعات البيانات المرجعية العامة

دفعت عدة مجموعات بيانات عامة التقدم في أبحاث التعرف على الطعام:

Food-101: تحتوي على 101,000 صورة عبر 101 فئة طعام، تُستخدم على نطاق واسع كمعيار مرجعي
ISIA Food-500: تغطي 500 فئة طعام مع 400,000 صورة، وتوفر تغطية أوسع
UEC Food-256: مجموعة بيانات طعام يابانية تضم 256 فئة، مهمة لتغطية المطبخ الآسيوي
Nutrition5k: تربط صور الطعام بقياسات غذائية دقيقة من بيئة مخبرية

تحدي التنوع في العالم الحقيقي

مجموعات البيانات العامة، رغم قيمتها للبحث، لا تمثل بالكامل تنوع الطعام الذي يتناوله الناس حول العالم. النموذج المُدرَّب بشكل أساسي على المطبخ الغربي سيواجه صعوبة مع أطباق جنوب شرق آسيا، والعكس صحيح. لهذا السبب تكمل أنظمة التعرف على الطعام الإنتاجية مجموعات البيانات العامة ببيانات خاصة مجمعة من قاعدة مستخدميها.

يخدم Nutrola مستخدمين في أكثر من 50 دولة، مما يعني أن النظام يواجه تنوعًا هائلًا من المطابخ يوميًا. توفر قاعدة المستخدمين العالمية هذه تدفقًا مستمرًا من صور الطعام الواقعية التي تساعد النموذج على تحسين تعرفه على جميع المطابخ بمرور الوقت.

تقنيات تكثيف البيانات

لتوسيع بيانات التدريب بشكل اصطناعي وتحسين متانة النموذج، يطبق المهندسون تقنيات تكثيف بيانات متنوعة:

التدوير والقلب: يضمن أن النموذج يتعرف على الطعام من أي زاوية
تباين الألوان: يحاكي ظروف الإضاءة المختلفة
الاقتصاص العشوائي: يعلّم النموذج التعرف على مناظر جزئية للطعام
القطع والمزج: تقنيات متقدمة تجبر النموذج على التركيز على مناطق تمييزية متعددة بدلًا من الاعتماد على إشارة بصرية واحدة

كيف تعمل تقنية Snap & Track في Nutrola

تجمع ميزة Snap & Track في Nutrola جميع هذه التقنيات في تجربة مستخدم سلسة. إليك ما يحدث في الثانيتين تقريبًا بين التقاط الصورة ورؤية تحليل السعرات الحرارية:

المعالجة المسبقة للصورة: يتم تغيير حجم الصورة وتطبيعها إلى التنسيق الذي تتوقعه الشبكة العصبية. يتم تطبيق تصحيحات الإضاءة واللون لتوحيد المدخلات.
كشف الطعام: يحدد نموذج كشف الأشياء مناطق الطعام المميزة في الصورة ويرسم مربعات إحاطة حول كل منها.
التصنيف: يتم تمرير كل منطقة مكتشفة عبر شبكة تصنيف تحدد صنف الطعام المحدد. يأخذ النظام في الاعتبار أفضل المرشحين ودرجات ثقتهم.
تقدير الحصة: يقدر نموذج منفصل حجم ووزن كل صنف طعام محدد بناءً على الإشارات البصرية والتحجيم المرجعي (المزيد عن هذا في مقالنا المرافق حول تقدير حجم الحصة).
البحث الغذائي: تتم مطابقة الأطعمة المحددة والحصص المقدرة مع قاعدة بيانات غذائية شاملة لحساب السعرات الحرارية والمغذيات الكبرى والمغذيات الدقيقة.
التحقق من المستخدم: يتم تقديم النتائج للمستخدم، الذي يمكنه تأكيد أو تصحيح التعرفات. تعمل حلقة التغذية الراجعة هذه على تحسين النموذج باستمرار.

يعمل هذا الخط المتسلسل بالكامل في أقل من ثانيتين، مما يجعله أسرع من كتابة "صدر دجاج مشوي" في شريط البحث والتمرير عبر عشرات النتائج.

التحديات في الذكاء الاصطناعي للتعرف على الطعام

على الرغم من التقدم الملحوظ، لا يزال الذكاء الاصطناعي للتعرف على الطعام يواجه عدة تحديات يعمل الباحثون والمهندسون بنشاط على حلها.

الأطعمة المتشابهة بصريًا

تبدو بعض الأطعمة متطابقة تقريبًا في الصور ولكن لها ملفات غذائية مختلفة جدًا. الأرز الأبيض وأرز القرنبيط، والمعكرونة العادية ومعكرونة القمح الكامل، والجبن كامل الدسم والجبن قليل الدسم هي جميعها أمثلة على أطعمة متشابهة بصريًا تختلف بشكل كبير في السعرات الحرارية والمغذيات الكبرى.

تتعامل الأنظمة الحالية مع هذا من خلال مزيج من الأدلة السياقية (ما هو موجود أيضًا في الطبق)، وتاريخ المستخدم (ما يتناوله الشخص عادةً)، ومن خلال سؤال المستخدم للتأكيد عندما تكون الثقة منخفضة.

الأطباق المختلطة والمتعددة الطبقات

يمثل البوريتو أو الساندويتش أو الطاجن متعدد الطبقات مشكلة جوهرية: معظم المكونات مخفية عن الأنظار. يمكن للذكاء الاصطناعي رؤية التورتيلا لكن ليس الفاصوليا والجبن والقشدة الحامضة والأرز بداخله.

لمعالجة هذا، تتعلم النماذج التركيب النموذجي للأطباق الشائعة. عندما يتعرف النظام على بوريتو، يمكنه استنتاج المكونات الداخلية المحتملة بناءً على المظهر الخارجي المرئي وطرق التحضير الشائعة. يمكن للمستخدمين بعد ذلك تعديل الحشوات المحددة حسب الحاجة.

الإضاءة والظروف البيئية

يمكن أن تؤثر إضاءة المطاعم الخافتة والفلاش القوي والإضاءة المحيطة الملونة جميعها على مظهر الطعام. يمكن للإضاءة الصفراء أن تجعل الأرز الأبيض يبدو مثل أرز الزعفران، بينما يمكن للإضاءة المائلة للأزرق أن تجعل اللحم الأحمر يبدو بنيًا.

تعالج الأنظمة الحديثة هذا من خلال تكثيف بيانات التدريب وبناء ميزات ثابتة اللون تركز أكثر على الملمس والشكل بدلًا من قيم اللون المطلقة.

مستقبل تقنية التعرف على الطعام

يتطور الذكاء الاصطناعي للتعرف على الطعام بسرعة. تشير عدة اتجاهات ناشئة إلى أنظمة أكثر قدرة في المستقبل القريب:

التعرف القائم على الفيديو: بدلًا من تحليل صورة واحدة، قد تحلل الأنظمة المستقبلية مقطع فيديو قصير للوجبة، مما يلتقط زوايا متعددة ويحسن الدقة.

طبقات الواقع المعزز: يمكن للواقع المعزز توفير معلومات غذائية في الوقت الفعلي أثناء مسح بوفيه أو قائمة مطعم، مما يساعدك على اتخاذ خيارات مدروسة قبل تناول الطعام.

النماذج متعددة الوسائط: الجمع بين التعرف البصري والنص (القوائم، قوائم المكونات) وحتى الصوت (سؤال المستخدم "هل أضفت الصلصة؟") لفهم أكثر اكتمالًا للوجبة.

المعالجة على الجهاز: مع ازدياد قوة معالجات الهاتف المحمول، يمكن إجراء المزيد من معالجة الذكاء الاصطناعي مباشرة على الهاتف دون إرسال الصور إلى خادم، مما يحسن السرعة والخصوصية.

التعرف على مستوى المكونات: التحول إلى ما هو أبعد من التصنيف على مستوى الطبق لتحديد المكونات الفردية وكمياتها التقريبية، مما يتيح حسابات غذائية أكثر دقة.

لماذا تستمر الدقة في التحسن

من أكثر الجوانب المشجعة في الذكاء الاصطناعي للتعرف على الطعام آلية التحسين المدمجة فيه. في كل مرة يلتقط فيها مستخدم صورة ويؤكد أو يصحح النتيجة، يتلقى النظام نقطة بيانات مصنفة. مع ملايين المستخدمين الذين يسجلون وجباتهم يوميًا، تجمع الأنظمة الإنتاجية مثل Nutrola بيانات التدريب بمعدل لا يمكن للأبحاث الأكاديمية مجاراته.

يخلق هذا دورة فعالة: الدقة الأفضل تؤدي إلى مزيد من المستخدمين، والمزيد من المستخدمين يولدون المزيد من البيانات، والمزيد من البيانات يمكّن من دقة أفضل. لهذا السبب فإن التعرف على الطعام الذي تختبره اليوم أفضل بكثير مما كان متاحًا حتى قبل عام، وسيستمر في التحسن.

الأسئلة الشائعة

ما مدى دقة التعرف على الطعام بالذكاء الاصطناعي مقارنة بالتسجيل اليدوي؟

أظهرت الدراسات أن التعرف على الطعام بالذكاء الاصطناعي يمكن أن يحقق معدلات دقة تتجاوز 90 بالمائة للأطعمة الشائعة، وهو ما يضاهي أو يفوق دقة أخصائيي التغذية المدربين في تقدير الحصص يدويًا. عادةً ما يقلل التسجيل اليدوي من قبل غير الخبراء من تناول السعرات الحرارية المُبلغ عنها بنسبة 10 إلى 45 بالمائة، مما يجعل التسجيل بمساعدة الذكاء الاصطناعي أكثر موثوقية لمعظم الناس.

هل يمكن للتعرف على الطعام بالذكاء الاصطناعي العمل مع مطابخ من جميع أنحاء العالم؟

نعم، على الرغم من أن الدقة تختلف حسب المطبخ اعتمادًا على بيانات التدريب المتاحة. تعمل أنظمة مثل Nutrola التي تخدم قاعدة مستخدمين عالمية في 50 دولة أو أكثر على تحسين تعرفها باستمرار على المطابخ المتنوعة مع جمع المزيد من البيانات من المستخدمين حول العالم. كلما كان المطبخ ممثلًا بشكل أكبر في بيانات التدريب، أصبح التعرف أكثر دقة.

هل يعمل الذكاء الاصطناعي للتعرف على الطعام بدون إنترنت؟

يعتمد ذلك على طريقة التنفيذ. تعالج بعض التطبيقات الصور على الجهاز باستخدام نماذج محسّنة، مما يعمل بدون إنترنت ولكن قد يضحي ببعض الدقة. تقوم تطبيقات أخرى بإرسال الصور إلى خوادم سحابية للمعالجة، مما يتطلب اتصالًا بالإنترنت ولكن يمكنها استخدام نماذج أكبر وأكثر دقة. تستخدم العديد من التطبيقات الحديثة نهجًا هجينًا، حيث تجري التعرف الأولي على الجهاز وتحسن النتائج بالمعالجة السحابية عند توفرها.

كيف يتعامل الذكاء الاصطناعي مع الوجبات المنزلية التي لا تطابق أطباق المطاعم؟

يتم تدريب أنظمة التعرف على الطعام الحديثة على صور طعام المطاعم والمنزلي على حد سواء. تحدد المكونات الفردية بدلًا من محاولة مطابقة طبق كامل مع إدخال في قاعدة البيانات. لذلك سيتم تقسيم طبق مقلي منزلي إلى مكوناته المرئية (دجاج، بروكلي، أرز، صلصة) بدلًا من مطابقته مع عنصر واحد في القائمة.

هل تبقى بيانات صور طعامي خاصة؟

تختلف سياسات الخصوصية حسب التطبيق. يلتزم Nutrola بخصوصية المستخدم ويستخدم صور الطعام فقط لغرض التحليل الغذائي وتحسين النموذج. تتم معالجة الصور بشكل آمن ولا تتم مشاركتها مع أطراف ثالثة. يمكن للمستخدمين مراجعة سياسة الخصوصية للحصول على التفاصيل الكاملة حول ممارسات التعامل مع البيانات.

ماذا يحدث عندما يخطئ الذكاء الاصطناعي في تحديد الطعام؟

عندما يخطئ الذكاء الاصطناعي في التعرف على طعام ما، يمكن للمستخدمين تصحيح النتيجة عن طريق اختيار الصنف الصحيح من قائمة أو كتابة اسم الطعام الصحيح. يعمل هذا التصحيح كبيانات تدريب قيمة تساعد النموذج على التحسن بمرور الوقت. كلما زادت التصحيحات التي يتلقاها النظام لطعام معين، زادت سرعة تحسن دقته لذلك الصنف.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!