علم استخراج الوصفات باستخدام الذكاء الاصطناعي: كيف تقرأ تقنيات معالجة اللغة الطبيعية ورؤية الكمبيوتر مقاطع الفيديو للطهي

14 مارس 2026

استكشف خط الأنابيب التقني الذي يمكّن الذكاء الاصطناعي من استخراج الوصفات من مقاطع الفيديو للطهي، من خلال دمج تحويل الكلام إلى نص، والتعرف الضوئي على الأحرف، والتعرف البصري على المكونات، ومعالجة اللغة الطبيعية لتوليد بيانات غذائية دقيقة تلقائيًا.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

أصبحت مقاطع الفيديو للطهي الشكل السائد لمشاركة الوصفات. يستضيف يوتيوب وحده أكثر من مليار مشاهدة لمقاطع الفيديو للطهي شهريًا، بينما تولد محتويات الطعام على تيك توك عشرات المليارات من المشاهدات سنويًا، وقد حولت ريلز إنستغرام كل طاهٍ منزلي إلى منشئ محتوى محتمل. ومع ذلك، لا يزال هناك فجوة مستمرة بين مشاهدة الوصفة ومعرفة ما تحتويه فعليًا من حيث التغذية.

لتجسير هذه الفجوة، يتطلب الأمر خط أنابيب ذكاء اصطناعي متعدد المراحل يجمع بين التعرف التلقائي على الكلام، والتعرف الضوئي على الأحرف، ورؤية الكمبيوتر، ومعالجة اللغة الطبيعية. يقوم هذا المقال بتفصيل كل مرحلة من مراحل الخط التقني، ويشرح النماذج والأبحاث التي تجعل ذلك ممكنًا، ويفحص كيف تتقارب هذه التقنيات لتحويل مقطع فيديو للطهي إلى بيانات غذائية منظمة.

مشكلة استخراج الوصفة: لماذا تعتبر مقاطع الفيديو صعبة

تعتبر الوصفات النصية على المواقع الإلكترونية سهلة نسبيًا للتحليل. فهي تتبع هياكل متوقعة مع قوائم المكونات، والكميات، والتعليمات خطوة بخطوة. يوفر تنسيق HTML وتعليقات وصفات schema.org هيكلًا إضافيًا قابلًا للقراءة من قبل الآلات.

تقدم مقاطع الفيديو للطهي تحديًا مختلفًا تمامًا. يتم توزيع معلومات الوصفة عبر عدة أنماط في الوقت نفسه:

السرد المنطوق يصف المكونات والكميات والتقنيات
النص المعروض على الشاشة يعرض قوائم المكونات، ودرجات الحرارة، والأوقات
المحتوى المرئي يظهر المكونات أثناء إضافتها، وخلطها، وتحويلها
المعرفة الضمنية تفترض أن المشاهدين يفهمون الخطوات غير المعلنة مثل تسخين الفرن مسبقًا أو شطف الأرز

لا تحتوي أي نمط واحد على الوصفة الكاملة. قد يقول المنشئ "أضف بعض زيت الزيتون" بينما يظهر على الشاشة سكب يبدو أنه حوالي ملعقتين كبيرتين، ويظهر النص لاحقًا "2 ملعقة كبيرة زيت زيتون". يتطلب استخراج الوصفة الكاملة دمج المعلومات من جميع هذه المصادر وحل النزاعات بينها.

خط أنابيب الاستخراج متعدد الأنماط

يمر الخط الكامل من الفيديو الخام إلى البيانات الغذائية المنظمة عبر خمس مراحل رئيسية:

المرحلة	المدخلات	التقنية	المخرجات
1. استخراج الصوت	ملف الفيديو	ASR (Whisper)	نص مكتوب مع توقيت
2. استخراج النص المرئي	إطارات الفيديو	OCR (PaddleOCR، EasyOCR)	نص معروض على الشاشة مع توقيت
3. التعرف على المكونات المرئية	إطارات الفيديو	CNN/محولات الرؤية (CLIP، ViT)	المكونات والإجراءات المحددة
4. تحليل NLP والدمج	النص + OCR + البيانات المرئية	نماذج المحولات (BERT، LLMs)	وصفة منظمة مع الكميات
5. مطابقة قاعدة البيانات الغذائية	وصفة منظمة	المطابقة الضبابية + استعلام قاعدة البيانات	تحليل غذائي كامل

تقدم كل مرحلة تحديات تقنية مميزة وتستند إلى مجالات مختلفة من أبحاث التعلم الآلي.

المرحلة 1: التعرف التلقائي على الكلام لسرد الوصفة

الخطوة الأولى في استخراج وصفة من فيديو الطهي هي تحويل السرد المنطوق إلى نص. هذه هي مجال التعرف التلقائي على الكلام، أو ASR.

ثورة Whisper

غير نموذج Whisper من OpenAI، الذي تم تقديمه في ورقة بحثية عام 2022 من قبل رادفورد وآخرين، بشكل جذري مشهد تحويل الكلام إلى نص لاستخراج الوصفات. تم تدريبه على 680,000 ساعة من البيانات متعددة اللغات ومتعددة المهام التي تم جمعها من الويب، حقق Whisper دقة نسخ قريبة من مستوى الإنسان عبر مجموعة واسعة من ظروف الصوت.

ما يجعل Whisper ذا قيمة خاصة في نسخ مقاطع الفيديو للطهي:

مقاومة الضوضاء. البيئات المطبخية صاخبة. تتنافس أصوات المقالي المشتعلة، والماء الجاري، وأصوات التقطيع، والموسيقى الخلفية مع صوت الراوي. يعني تدريب Whisper على ظروف صوتية متنوعة أنه يتعامل مع هذه المصادر الصوتية المتداخلة بشكل أفضل من النماذج السابقة لـ ASR.

القدرة متعددة اللغات. يتم إنتاج مقاطع الفيديو للطهي تقريبًا بكل لغة. يدعم Whisper النسخ بـ 915 لغة ويمكنه إجراء الترجمة إلى الإنجليزية، مما يمكّن استخراج الوصفات من المحتوى بغض النظر عن اللغة الأصلية.

علامات الترقيم والتنسيق. على عكس أنظمة ASR السابقة التي أنتجت تدفقات نصية مسطحة، ينتج Whisper نصوصًا مكتوبة مع علامات الترقيم والتنسيق التي تحافظ على حدود الجمل. هذه البنية حاسمة لمرحلة تحليل NLP اللاحقة.

توقيت الكلمات. يمكن لـ Whisper إنتاج توقيتات على مستوى الكلمة، مما يمكّن من التوافق الدقيق بين ما يُقال وما يُعرض على الشاشة في أي لحظة معينة.

التحديات الخاصة بسرد الطهي

حتى مع قدرات Whisper، تقدم مقاطع الفيديو للطهي تحديات ASR لا تظهر في معايير التعرف على الكلام القياسية:

المفردات الخاصة بالمجال. أسماء المكونات تمتد عبر آلاف العناصر من المطابخ العالمية. قد لا تظهر مصطلحات مثل "غوتشوجانغ"، "زعتر"، "طحينة"، أو "بانكو" بشكل متكرر في بيانات التدريب العامة. هناك حاجة إلى نماذج مفردات الطعام المتخصصة أو قواميس ما بعد المعالجة لتصحيح الأخطاء النظامية في التعرف.

الغموض في الكميات. غالبًا ما تكون الكميات المنطوقة غير دقيقة. تتطلب عبارات مثل "كمية جيدة من الملح"، "رشّة من الخل"، أو "حوالي هذا المقدار من الدقيق" تفسيرًا سياقيًا يتجاوز النسخ.

التبديل بين اللغات. يقوم العديد من منشئي المحتوى بالطهي بالتبديل بين اللغات، مستخدمين الإنجليزية للسرد العام ولكن لغتهم الأم لأسماء الأطباق أو التقنيات التقليدية. يجب أن تتعامل ASR متعددة اللغات مع هذه الانتقالات بسلاسة.

التواصل غير اللفظي. قد يشير المنشئ إلى مكون دون تسميته، أو يقول "هذا" بينما يحمل زجاجة. تتطلب هذه الإشارات الإشارية حلًا عبر الأنماط المرئية.

ما بعد معالجة النص

تتطلب المخرجات الخام لـ ASR عدة خطوات ما بعد المعالجة قبل أن تكون مفيدة لاستخراج الوصفات:

تصحيح الكيانات الغذائية يستخدم قاموسًا متخصصًا لإصلاح الأخطاء الشائعة في التعرف (مثل "كمون" تم سماعه كـ "قادمة")
تطبيع الكميات يحول الأرقام والكسر المنطوقين إلى تنسيقات عددية موحدة
التقسيم يقسم النص المستمر إلى خطوات وصفة منطقية بناءً على فترات التوقف الزمنية، والعبارات الانتقالية، وحدود الأفعال
تصفية الثقة تحدد وتعلم المقاطع ذات الثقة المنخفضة للتحقق المحتمل عبر الأنماط المتعددة

المرحلة 2: التعرف الضوئي على الأحرف للنص المعروض على الشاشة

تظهر العديد من مقاطع الفيديو للطهي قوائم المكونات، والقياسات، ودرجات الحرارة، والتعليمات كطبقات نصية معروضة على الشاشة. غالبًا ما يكون هذا النص أكثر دقة من السرد المنطوق ويتبع تنسيقًا أكثر معيارية.

كيف يعمل OCR على إطارات الفيديو

يتضمن استخراج النص من إطارات الفيديو مهمتين فرعيتين: اكتشاف النص (العثور على مكان ظهور النص في الإطار) وقراءة النص (قراءة ما يقوله النص).

اكتشاف النص يحدد المناطق في الصورة التي تحتوي على نص. يمكن للكاشفات الحديثة مثل CRAFT (Character Region Awareness for Text Detection) وDBNet (Differentiable Binarization Network) تحديد النص بغض النظر عن الاتجاه أو الحجم أو تعقيد الخلفية. تنتج هذه النماذج صناديق محيطة أو مضلعات حول مناطق النص.

قراءة النص تحول المناطق المكتشفة إلى سلاسل حرفية. تعالج الهياكل المعتمدة على الشبكات العصبية التلافيفية والمتكررة، غالبًا مع فك تشفير CTC (Connectionist Temporal Classification)، المناطق النصية المقطوعة وتنتج تسلسلات حرفية. تستخدم الأساليب الأحدث هياكل قائمة على المحولات لتحسين الدقة على الخطوط المزخرفة.

التحديات الفريدة لـ OCR في مقاطع فيديو الطهي

يختلف النص المعروض على الشاشة في مقاطع الفيديو للطهي بشكل كبير عن نص الوثائق الذي تم تحسين معظم أنظمة OCR له:

الطبقات النصية المتحركة. غالبًا ما يتحرك النص بشكل متكرر، مما يتطلب تجميعًا زمنيًا عبر إطارات متعددة لالتقاط النص الكامل. قد يكشف تأثير متحرك النص حرفًا بحرف على مدى عدة إطارات.

الخطوط الزخرفية. غالبًا ما يستخدم منشئو محتوى الطعام خطوطًا مزخرفة أو يدوية تختلف عن الخطوط النظيفة في بيانات تدريب OCR القياسية. يساعد ضبط النماذج على مجموعات بيانات الخطوط الخاصة بالطهي في تحسين معدلات التعرف.

الخلفيات المعقدة. غالبًا ما يتم وضع النص فوق خلفيات مرئية مزدحمة تظهر الطعام، والمطابخ، والأيدي. لا يمكن افتراض وجود تباين عالٍ بين النص والخلفية. تساعد تقنيات كشف النصوص، والظل، وضبابية الخلفية في عزل طبقة النص.

اللغات المتعددة والنصوص المختلطة. قد تحتوي الإطار الواحد على نصوص بعدة نصوص، مثل القياسات الإنجليزية جنبًا إلى جنب مع أسماء الأطباق اليابانية. تتعامل نماذج OCR متعددة النصوص أو كشف النصوص المتعددة يليها مسارات التعرف الخاصة باللغة مع هذا التنوع.

إزالة التكرار الزمني والتجميع

نظرًا لأن إطارات الفيديو يتم أخذ عينات منها عدة مرات في الثانية، سيتم اكتشاف نفس النص المعروض على الشاشة عبر العديد من الإطارات المتتالية. يجب على خط أنابيب OCR:

أخذ عينات من الإطارات بمعدل مناسب (عادةً 1 إلى 2 إطار في الثانية لاكتشاف النص)
تتبع مناطق النص عبر الإطارات لتحديد النص الثابت مقابل النص المتغير
إزالة التكرار من الاكتشافات المتكررة لنفس النص
دمج الاكتشافات الجزئية من النصوص المتحركة
ربط كل عنصر نصي مع نافذته الزمنية لدمجها لاحقًا مع البيانات الصوتية والمرئية

تكون مخرجات هذه المرحلة قائمة نصية مؤرخة من عناصر النص المعروضة على الشاشة، كل منها مرتبط بمدة ظهوره وموقعه المكاني في الإطار.

المرحلة 3: التعرف على المكونات المرئية باستخدام رؤية الكمبيوتر

بجانب النص، يحتوي المحتوى المرئي لمقطع فيديو الطهي على معلومات غنية حول المكونات والكميات وطرق التحضير. يمكن لنماذج رؤية الكمبيوتر التعرف على المكونات أثناء ظهورها، وتقدير الكميات من الإشارات المرئية، والتعرف على إجراءات الطهي.

التعرف على المكونات باستخدام محولات الرؤية وCLIP

يبني التعرف الحديث على المكونات المرئية على تقدمين رئيسيين: محولات الرؤية (ViT) وCLIP (Contrastive Language-Image Pre-training).

محولات الرؤية، التي قدمها دوسوفيتسكي وآخرون في عام 2020، تطبق بنية المحول على التعرف على الصور. بدلاً من استخدام طبقات التلافيف، تقسم ViT الصورة إلى قطع وتتعامل معها كسلسلة، مشابهة لكيفية معالجة المحولات للكلمات في الجملة. أثبتت هذه الطريقة فعاليتها بشكل خاص في مهام التعرف المرئي الدقيقة مثل تحديد المكونات، حيث تميز الاختلافات الطفيفة في اللون والملمس والشكل العناصر المتشابهة.

CLIP، الذي طوره رادفورد وآخرون في OpenAI في عام 2021، يتعلم المفاهيم المرئية من الإشراف على اللغة الطبيعية. تم تدريبه على 400 مليون زوج من الصور والنصوص، يمكن لـ CLIP التعرف على الأشياء الموصوفة في النص دون أن يكون قد تم تدريبه صراحة على أمثلة موصوفة لتلك الأشياء. بالنسبة للتعرف على المكونات، يعني ذلك أن نظامًا قائمًا على CLIP يمكنه التعرف على مكون حتى لو لم يكن في مجموعة التدريب، طالما يمكنه مطابقة المظهر المرئي مع وصف نصي.

الميزة العملية لـ CLIP في استخراج الوصفات هي قدرته على العمل بدون تدريب مسبق أو مع تدريب قليل. تمتد مجموعة متنوعة من المكونات، والتحضيرات، والعروض الثقافية. تحتاج نماذج التصنيف التقليدية إلى أمثلة تدريب موصوفة لكل مكون في كل حالة تحضير. يمكن لـ CLIP التعميم من تدريبه الواسع للتعرف على مكونات جديدة موصوفة بشكل نصي.

التعرف على إجراءات الطهي

تحديد الإجراءات التي يتم تنفيذها بنفس أهمية التعرف على المكونات نفسها. يخبر التعرف على الإجراءات النظام ما إذا كانت المكونات تُقطع، تُقلى، تُخلط، أو تُخبز، مما يؤثر مباشرة على المحتوى الغذائي النهائي.

أنتجت الأبحاث في التعرف على إجراءات الفيديو نماذج تحلل تسلسلات زمنية من الإطارات لتصنيف الإجراءات. تعالج أساليب مثل الشبكات البطيئة والسريعة (SlowFast networks) الفيديو بمعدلين زمنيًا في وقت واحد: تلتقط المسار البطيء التفاصيل المكانية بينما تلتقط المسار السريع الحركة. عند تطبيقها على مقاطع الفيديو للطهي، يمكن لهذه النماذج التمييز بين التحريك، والخلط، والطوي، والعجن، وكل منها له تأثيرات مختلفة على هيكل الوصفة.

كانت مجموعات بيانات Food-101 وRecipe1M+ (مارين وآخرون، 2019) أساسية في تدريب وتقييم نماذج رؤية الكمبيوتر الخاصة بالطعام. تحتوي Recipe1M+ على أكثر من مليون وصفة طهي مع 13 مليون صورة للطعام، مما يوفر الحجم اللازم لتدريب نماذج تعمم عبر المطابخ وأنماط التحضير.

تقدير الكمية المرئية

أحد أكثر جوانب استخراج الوصفات المرئية تحديًا هو تقدير كميات المكونات من الفيديو. عندما يقوم منشئ المحتوى بسكب الزيت في مقلاة أو يأخذ ملعقة من الدقيق، تحتوي المعلومات المرئية على إشارات حول الكمية، لكن ترجمة هذه الإشارات إلى قياسات دقيقة تتطلب تفكيرًا مكانيًا متطورًا.

تجمع الأساليب الحالية بين:

توسيع مرجع الكائن: استخدام كائنات معروفة في الإطار (أواني قياسية، أكواب قياس، ألواح تقطيع) لتحديد مرجع قياس
تقدير الحجم من ديناميات السكب: تحليل مدة وسرعة تدفق السوائل المسكوبة لتقدير الحجم
تقدير العمق: يمكن لنماذج تقدير العمق الأحادي مثل MiDaS (رانفتل وآخرون، 2020) تقدير عمق المكونات في الحاويات، مما يساعد على تقدير الحجم من صورة ثنائية الأبعاد
التعلم المقارن: تتعلم النماذج المدربة على صور مقترنة لكميات معروفة تقدير الكميات من خلال المقارنة المرئية

لا يزال تقدير الكمية المرئية أقل دقة من القياسات الصريحة من الكلام أو النص، حيث يحقق عادةً دقة تتراوح بين 20 إلى 30 بالمئة. ومع ذلك، فإنه يوفر تحققًا مفيدًا ويملأ الفجوات عندما لا يتم ذكر الكميات بشكل صريح.

المرحلة 4: معالجة اللغة الطبيعية لتحليل الوصفة والدمج

مع النصوص، والنصوص المعروضة على الشاشة، والتعليقات المرئية في اليد، تواجه مرحلة معالجة اللغة الطبيعية مهمة دمج هذه الإشارات متعددة الأنماط في وصفة واحدة متماسكة ومنظمة.

التعرف على الكيانات المسماة للطعام

أول مهمة في معالجة اللغة الطبيعية هي تحديد الكيانات المتعلقة بالطعام في النصوص المنسوخة ونصوص OCR. هذه شكل متخصص من التعرف على الكيانات المسماة (NER) الذي يجب أن يحدد:

المكونات: "صدر دجاج"، "زيت زيتون بكر ممتاز"، "ملح كوشير"
الكميات: "كوبين"، "350 جرام"، "رشة"
الوحدات: "ملاعق كبيرة"، "مليلترات"، "متوسطة الحجم"
المعدلات التحضيرية: "مقطع"، "مفروم"، "في درجة حرارة الغرفة"
إجراءات الطهي: "قلي"، "خبز على 375"، "غلي لمدة 20 دقيقة"
المعدات: "مقلاة من الحديد الزهر"، "خلاط قائم"، "صينية خبز"

تحقق نماذج NER المعتمدة على المحولات والتي تم ضبطها على مجموعات البيانات الغذائية درجات F1 تزيد عن 90 بالمئة على معايير NER الغذائية القياسية. توفر مجموعة بيانات FoodBase (بوبوفسكي وآخرون، 2019) ومجموعة بيانات TASTEset نصوصًا غذائية مشروحة خصيصًا لتدريب هذه النماذج.

تحليل التبعية لربط المكونات بالكميات

ليس كافيًا تحديد الكيانات فقط. يجب على النظام تحديد أي الكميات تنتمي إلى أي مكونات. في الجملة "أضف كوبين من الدقيق وملعقة صغيرة من الملح"، يجب على النظام ربط "كوبين" بشكل صحيح مع "الدقيق" و"ملعقة صغيرة" مع "الملح".

يتطلب ذلك تحليل التبعية، الذي يحلل البنية النحوية للجمل لتحديد العلاقات بين الكلمات. تتعامل المحللات الحديثة المعتمدة على بنية BERT (ديفلين وآخرون، 2019) مع التعقيد النحوي لتعليمات الطهي، بما في ذلك أوصاف المكونات المركبة مثل "عصير الليمون الطازج" والمعدلات المتداخلة مثل "علبة 14 أونصة من الطماطم المقطعة المحمصة بالنار".

الدمج عبر الأنماط: حل النزاعات وملء الفجوات

أكثر جوانب مرحلة معالجة اللغة الطبيعية تحديًا من الناحية التقنية هو دمج المعلومات من جميع الأنماط الثلاثة (الصوت، النص، المرئي) في وصفة واحدة متسقة. يجب أن يتعامل هذا الدمج مع:

تعزيز الاتفاق. عندما يقول النص "ملعقتان كبيرتان من صلصة الصويا"، يظهر النص المعروض على الشاشة "2 ملعقة كبيرة صلصة صويا"، وتظهر التدفقات المرئية سائلًا داكنًا يُسكب، تتفق المصادر الثلاثة جميعها ولدى النظام ثقة عالية.

حل النزاعات. عندما يقول النص "كوب من السكر" لكن النص المعروض على الشاشة يقول "3/4 كوب سكر"، يجب على النظام أن يقرر أي مصدر يجب الوثوق به. بشكل عام، يتم إعطاء الأولوية للنص المعروض على الشاشة للقياسات الدقيقة لأن المنشئين عادةً ما يضيفون النصوص كتصحيحات أو توضيحات لسردهم.

ملء الفجوات. عندما يقول الراوي "تبل حسب الذوق" دون تحديد الكميات، يمكن للنظام استخدام التقدير المرئي لإجراء التوابل مع المعرفة من قاعدة البيانات عن الكميات النموذجية للتوابل لنوع الطبق لاستنتاج قيم معقولة.

المزامنة الزمنية. يتطلب مطابقة المعلومات عبر الأنماط مزامنة زمنية. يجب أن يتطابق مرجع المكون المنطوق في الطابع الزمني 2:34 مع النص المعروض على الشاشة المرئي من 2:30 إلى 2:40 والتعرف على المكونات المرئية من نفس نافذة الوقت. تتعامل آليات التوافق الديناميكي والتوافق المعتمد على الانتباه مع التزامن غير الدقيق بين الكلام والنص والأحداث المرئية.

نماذج اللغة الكبيرة لهيكلة الوصفة

أدخلت التطورات الأخيرة في نماذج اللغة الكبيرة (LLMs) نهجًا قويًا جديدًا لهيكلة الوصفات. بدلاً من بناء نماذج منفصلة للتعرف على الكيانات، وتحليل التبعية، والدمج، يمكن لنموذج LLM معالجة النص المنسوخ والنصوص OCR المجمعة وتوليد وصفة منظمة في تمريرة واحدة.

يتلقى النموذج موجهًا يحتوي على النص المنسوخ، والنصوص OCR، ووصفًا للملاحظات المرئية، جنبًا إلى جنب مع تعليمات لإخراج وصفة منظمة بتنسيق محدد. تتفوق نماذج LLM في هذه المهمة لأنها تشفر معرفة واسعة عن الطهي، بما في ذلك كميات المكونات النموذجية، وتركيبات المكونات الشائعة، وتقنيات التحضير القياسية.

تتمتع هذه الطريقة بعدة مزايا:

تتعامل مع الغموض بشكل طبيعي من خلال الاعتماد على المعرفة العالمية
تحل الإشارات المرجعية (على سبيل المثال، فهم أن "ذلك" في "قلّب ذلك بين الحين والآخر" تشير إلى الصلصة المذكورة قبل ثلاث جمل)
يمكنها استنتاج الخطوات غير المعلنة بناءً على المعرفة بالطهي
تقوم بتطبيع أسماء المكونات إلى أشكال معيارية مناسبة للاستعلام في قاعدة البيانات

القيود الرئيسية هي أن مخرجات LLM تتطلب التحقق. يجب الحذر من الهلوسة، حيث يقوم النموذج بتوليد معلومات معقولة ولكن غير صحيحة، من خلال التحقق المتبادل مع الأنماط المصدر وقيود قاعدة البيانات الغذائية.

المرحلة 5: مطابقة قاعدة البيانات الغذائية والحساب

تتحول المرحلة النهائية الوصفة المنظمة إلى تحليل غذائي كامل. يتطلب ذلك مطابقة كل مكون مستخرج مع إدخال في قاعدة بيانات غذائية شاملة وحساب القيم الغذائية لكل حصة.

تحدي المطابقة

نادراً ما تتطابق أسماء المكونات المستخرجة من مقاطع الفيديو للطهي تمامًا مع إدخالات قاعدة البيانات. قد تشير فيديو إلى "حفنة كبيرة من السبانخ الصغيرة" بينما تحتوي قاعدة البيانات على إدخالات لـ "سبانخ، نيئة" مقاسة بالجرامات. يجب على نظام المطابقة التعامل مع:

حل المرادفات: "الكزبرة" و"أوراق الكزبرة" هما نفس المكون
تعيين حالة التحضير: "لوز محمص" يتطابق مع ملف غذائي مختلف عن "لوز نيء"
تطبيع العلامة التجارية والنوع: "مكرونة باريللا" تتطابق مع "مكرونة، بيني، جافة" مع تعديلات خاصة بالعلامة التجارية
الترجمة من العامية إلى التقنية: "عصا من الزبدة" تتطابق مع "زبدة، مملحة، 113 جرام"
تحويل الوحدات: "كوب من الدقيق" يجب تحويله إلى جرام باستخدام قيم الكثافة الخاصة بالمكونات، حيث يزن كوب من الدقيق حوالي 120 جرام بينما يزن كوب من السكر حوالي 200 جرام

توفر خوارزميات المطابقة الضبابية مثل مسافة ليفنشتاين وتشابه TF-IDF القائم على القواعد الأساسية للمطابقة. تستخدم الأساليب الأكثر تقدمًا تشابهًا قائمًا على التضمين، حيث يتم ترميز كل من نص المكون المستخرج وإدخالات قاعدة البيانات إلى تمثيلات متجهة باستخدام نماذج مثل Sentence-BERT (Reimers وGurevych، 2019)، ويتم اختيار أقرب تطابق في فضاء التضمين.

قواعد البيانات الغذائية ونطاق تغطيتها

تعد العديد من قواعد البيانات الغذائية الكبرى أساسًا للحسابات الغذائية:

قاعدة البيانات	التغطية	maintained By	القوة الرئيسية
USDA FoodData Central	370,000+ foods	وزارة الزراعة الأمريكية	ملفات غذائية شاملة
Open Food Facts	3,000,000+ products	مساهمون مجتمعيون	تغطية عالمية للمواد الغذائية المعبأة
COFID (McCance وWiddowson)	3,000+ foods	وكالة معايير الغذاء البريطانية	تركيبات غذائية خاصة بالمملكة المتحدة
قاعدة بيانات تركيبات الغذاء الأسترالية	2,500+ foods	معايير الغذاء الأسترالية ونيوزيلندا	تغطية غذائية إقليمية

يستعلم نظام استخراج الوصفات القوي عن قواعد بيانات متعددة ويطبق متوسطات مرجحة حسب الثقة عندما تختلف الإدخالات. بالنسبة للأطعمة التي لا توجد في قواعد البيانات القياسية، يمكن للنظام تقدير المحتوى الغذائي من خلال تحليل الطعام إلى مكوناته الفردية وجمع مساهماتها.

التعامل مع التحولات في الطهي

تعتبر نقطة دقيقة تفصل بين الحسابات الغذائية الدقيقة والتقريبية هي حساب التحولات في الطهي. عندما يتم طهي الطعام، تتغير محتوياته الغذائية:

فقدان الماء: يفقد اللحم من 20 إلى 35 بالمئة من وزنه أثناء الطهي، مما يركز العناصر الغذائية لكل جرام من الطعام المطبوخ
امتصاص الدهون: تمتص الأطعمة المقلية الزيت أثناء الطهي، مما يضيف سعرات حرارية ليست جزءًا من ملف المكون الخام
تحلل العناصر الغذائية: تتدهور الفيتامينات الحساسة للحرارة مثل فيتامين C وفيتامينات B أثناء الطهي
جلاتين النشا: تغير الطهي من مؤشر نسبة السكر في الدم للأطعمة النشوية
إذابة الدهون: يتسبب طهي اللحوم الدهنية في إذابة الدهون، مما يقلل من محتوى السعرات الحرارية للجزء المستهلك

توفر وزارة الزراعة الأمريكية عوامل الاحتفاظ بالعناصر الغذائية الشائعة عبر طرق الطهي المختلفة. يؤدي تطبيق هذه العوامل على قيم المكونات الغذائية الخام إلى إنتاج تقدير أكثر دقة للطبق النهائي المطبوخ.

تدمج محرك التغذية في Nutrola هذه النماذج الخاصة بالتحولات في الطهي، مما يعدل قيم قاعدة بيانات المكونات الخام بناءً على طرق الطهي المحددة خلال تحليل الفيديو. عندما يكتشف النظام أن الدجاج يُشوى بدلاً من قليه، فإنه يطبق عوامل فقدان الرطوبة والاحتفاظ بالدهون المناسبة لإنتاج تقدير دقيق للسعرات الحرارية للطبق النهائي.

كيف تنفذ Nutrola هذا الخط

تجلب Nutrola هذا الخط التقني متعدد المراحل إلى تجربة عملية للمستهلك. عندما يشارك المستخدم مقطع فيديو للطهي أو يلصق رابطًا لوصفة فيديو، تقوم خلفية Nutrola بمعالجة الفيديو من خلال خط الاستخراج الموصوف أعلاه وتعيد وصفة منظمة مع بيانات غذائية كاملة.

تشمل التنفيذ العملي عدة قرارات هندسية توازن بين الدقة والسرعة وتجربة المستخدم:

أخذ عينات من الإطارات الانتقائية. بدلاً من معالجة كل إطار، يحدد نظام Nutrola الإطارات الرئيسية حيث تحدث تغييرات بصرية كبيرة، مثل ظهور مكونات جديدة، وتغير إجراءات الطهي، أو تحديث النص المعروض على الشاشة. يقلل ذلك من التكلفة الحسابية بنسبة 80 إلى 90 بالمئة بينما يلتقط المعلومات المرئية ذات الصلة.

تسجيل الثقة. تحمل كل عنصر مستخرج درجة ثقة مستمدة من الاتفاق عبر الأنماط. تتلقى المكونات المؤكدة من الكلام والنص والتعرف المرئي درجات ثقة عالية. يتم وضع المكونات التي يتم اكتشافها بواسطة نمط واحد فقط في علامة للتحقق من قبل المستخدم.

حلقة تصحيح المستخدم. عندما يكون النظام غير متأكد من مكون أو كمية، يقدم أفضل تقدير له للمستخدم مع خيار التصحيح. تغذي هذه التصحيحات النموذج، مما يحسن دقة الاستخراج بمرور الوقت من خلال عملية تعلم تعتمد على الإنسان.

التحقق المدعوم من قاعدة البيانات. يتم التحقق من الوصفات المستخرجة مقابل قيود الاحتمالية الغذائية. إذا استخرج النظام كمية قد تؤدي إلى عدد سعرات حرارية غير معقول لنوع الطبق، فإنه يضع علامة على الاستخراج للمراجعة.

تتحول هذه الطريقة تجربة مشاهدة مقطع فيديو للطهي السلبية إلى بيانات غذائية قابلة للتنفيذ تتكامل مباشرة في تتبع المستخدم اليومي. بدلاً من البحث يدويًا عن كل مكون وتقدير الحصص، يتلقى المستخدمون تحليلًا غذائيًا كاملًا مستمدًا مباشرة من محتوى الفيديو.

الحدود البحثية: ما هو القادم

يتقدم مجال استخراج الوصفات متعددة الأنماط بسرعة. تعد عدة اتجاهات بحثية بتحسين الدقة والقدرة بشكل أكبر.

نماذج متعددة الأنماط من البداية إلى النهاية

تقوم خطوط الأنابيب الحالية بمعالجة كل نمط بشكل منفصل قبل دمجها. يمكن أن تعالج النماذج متعددة الأنماط الناشئة الفيديو والصوت والنص في وقت واحد في نموذج واحد. يمكن لنماذج الأساس متعددة الأنماط مثل Gemini من Google استيعاب الفيديو مباشرة والتفكير عبر الأنماط دون تمثيلات وسيطة صريحة. تعد هذه النماذج بخطوط أنابيب أبسط وتفكير عبر الأنماط أفضل، على الرغم من أنها تتطلب موارد حسابية كبيرة.

الفهم الإجرائي

تستخرج الأنظمة الحالية قائمة مسطحة من المكونات والخطوات. ستبني الأنظمة المستقبلية تمثيلات إجرائية أغنى تلتقط بنية الرسم البياني للوصفة: أي الخطوات تعتمد على أي أخرى، وأي المكونات تُستخدم في أي مرحلة، وكيف تتجمع النتائج الوسيطة. يمكّن هذا الفهم الإجرائي من حساب غذائي أكثر دقة من خلال تتبع كيفية تحول المكونات عبر كل خطوة.

تقدير غذائي مخصص

مع معالجة أنظمة استخراج الوصفات لمزيد من البيانات، يمكنها تعلم أنماط كل منشئ فردي. يمكن لنظام قام بتحليل 100 فيديو من نفس المنشئ أن يتعلم أنه عندما يقول هذا المنشئ "رشّة من زيت الزيتون"، فإنه عادةً ما يستخدم حوالي ملعقة كبيرة. يحسن هذا المعايرة الشخصية تقدير الكمية بشكل كبير.

المعرفة الغذائية الثقافية والإقليمية

يتطلب توسيع استخراج الوصفات إلى تنوع المأكولات العالمية معرفة عميقة بالطعام الثقافي. معرفة أن "طبق من الإينجيرا مع الوط" في الطهي الإثيوبي يتبع تقاليد نسبية معينة، أو أن "وعاء من الفو" في المطبخ الفيتنامي يحتوي على نسب مكونات نموذجية، يسمح للنظام بإجراء تقديرات مستنيرة حتى عندما لا يتم توفير كميات صريحة.

الأسئلة الشائعة

ما مدى دقة استخراج الوصفات باستخدام الذكاء الاصطناعي من مقاطع الفيديو للطهي مقارنة بقراءة وصفة نصية يدويًا؟

تحقق خطوط الاستخراج متعددة الأنماط الحالية دقة تتراوح بين 85 إلى 92 بالمئة في تحديد المكونات و75 إلى 85 بالمئة في استخراج الكميات عند مقارنتها بالوصفات الحقيقية المكتوبة من قبل منشئي الفيديو. المصدر الرئيسي للخطأ هو تقدير الكمية عندما لا يحدد المنشئون قياسات صريحة. بالمقارنة، تحقق النسخ اليدوية من قبل المشاهدين البشر دقة تقريبية تبلغ 90 إلى 95 بالمئة، مما يعني أن استخراج الذكاء الاصطناعي يقترب من أداء البشر في هذه المهمة. تتضمن تنفيذ Nutrola خطوة تحقق من المستخدم للاستخراجات ذات الثقة المنخفضة، مما يرفع الدقة الفعالة فوق 95 بالمئة في الممارسة العملية.

ماذا يحدث عندما لا يحدد مقطع الفيديو للطهي كميات المكونات بشكل صريح؟

عندما لا يتم تحديد الكميات بشكل صريح في الكلام أو النص المعروض، يتراجع النظام إلى تسلسل من طرق التقدير. أولاً، يحاول تقدير الكمية المرئية من إطارات الفيديو باستخدام تقدير العمق وتوسيع مرجع الكائن. ثانيًا، يستشير قاعدة بيانات من الكميات النموذجية لنوع الطبق. ثالثًا، يستخدم المتوسطات الإحصائية من الوصفات المستخرجة سابقًا لنفس الطبق. يتم وضع علامة على التقدير الناتج بدرجة ثقة منخفضة، وتعرض Nutrola ذلك للمستخدم مع ملاحظة أن الكمية تم تقديرها بدلاً من أن تكون محددة بشكل صريح.

هل يمكن للذكاء الاصطناعي استخراج الوصفات من مقاطع الفيديو للطهي بلغات أخرى غير الإنجليزية؟

نعم. تدعم نماذج ASR الحديثة مثل Whisper النسخ بـ 915 لغة، وتتعامل أنظمة OCR مع نصوص متعددة بما في ذلك اللاتينية، وCJK، والسيريلية، والعربية، والديفاناغارية. يمكن لطبقة تحليل NLP العمل بعدة لغات، على الرغم من أن الدقة عادةً ما تكون أعلى للغات التي تحتوي على أكبر قدر من بيانات التدريب. يمكن لـ Whisper أيضًا ترجمة الكلام غير الإنجليزي مباشرة إلى الإنجليزية، مما يمكّن خط الأنابيب اللاحق من العمل باللغة الإنجليزية حتى لمقاطع الفيديو بلغات أخرى. تدعم Nutrola استخراج الوصفات من مقاطع الفيديو بأكثر من 30 لغة.

كيف يتعامل النظام مع الوصفات حيث يقوم المنشئ بإجراء استبدالات أو أخطاء أثناء التصوير؟

تساعد الطبيعة الزمنية لتحليل الفيديو في هذا السيناريو. عندما يقول المنشئ "كنت سأستخدم الزبدة لكن ليس لدي سوى زيت الزيتون"، تحدد طبقة NLP التصحيح وتستخدم زيت الزيتون بدلاً من الزبدة في الوصفة النهائية. بالمثل، عندما يضيف المنشئ مكونًا ثم يقول "في الواقع، هذا كثير، دعني أخرج بعضًا منه"، يتتبع النظام التصحيح. يمكن للنماذج المعتمدة على الانتباه التي تعالج النص الكامل أن تحدد هذه التصحيحات الذاتية من خلال التعرف على أنماط الخطاب المرتبطة بالمراجعات.

ما الفرق بين استخراج الوصفات من الفيديو واستخراج الوصفات من صفحة الويب؟

يعتمد استخراج الوصفات من الويب بشكل أساسي على تحليل البيانات الهيكلية. تستخدم معظم مواقع الوصفات تنسيق schema.org Recipe، الذي يوفر قوائم مكونات قابلة للقراءة من قبل الآلات، وكميات، وتعليمات. يعتبر استخراج الوصفات من الفيديو أكثر صعوبة بشكل أساسي لأن المعلومات غير منظمة وموزعة عبر الصوت، والنص، والأنماط المرئية التي يجب دمجها. ومع ذلك، يتمتع استخراج الفيديو بميزة التقاط تفاصيل التحضير وإشارات الكمية المرئية التي تفتقر إليها الوصفات النصية. يشارك العديد من المنشئين أيضًا نصائح، واستبدالات، ومعلومات سياقية في سردهم لا تظهر أبدًا في وصفة مكتوبة.

كيف تؤثر اكتشاف طريقة الطهي على دقة التغذية للوصفات المستخرجة؟

تؤثر اكتشاف طريقة الطهي بشكل كبير على دقة التغذية. تضيف قلي صدر الدجاج في الزيت حوالي 60 إلى 100 سعرة حرارية مقارنة بشواء نفس الصدر بسبب امتصاص الزيت. يمكن أن يقلل غلي الخضار من محتوى فيتامين C بنسبة 30 إلى 50 بالمئة. يستخدم خط الأنابيب الذكائي نماذج التعرف على الإجراءات لتحديد طرق الطهي (الشواء، القلي، الخبز، التبخير، التحضير النيء) ويطبق عوامل الاحتفاظ بالعناصر الغذائية من وزارة الزراعة الأمريكية وفقًا لذلك. عادةً ما يحسن هذا الحساب المدرك لطريقة الطهي دقة تقدير السعرات الحرارية بنسبة 10 إلى 15 بالمئة مقارنة باستخدام قيم المكونات الخام فقط.

الخاتمة

يعد استخراج وصفة من مقطع فيديو للطهي نموذجًا مصغرًا للتحدي الأوسع في الذكاء الاصطناعي: فهم المعلومات غير المنظمة، متعددة الأنماط، من العالم الحقيقي. يتطلب الأمر التعرف على الكلام الذي يعمل في المطابخ الصاخبة، ورؤية الكمبيوتر التي يمكنها تحديد المئات من المكونات في حالات تحضير مختلفة، وOCR التي تقرأ النصوص المزخرفة على خلفيات مزدحمة، وNLP التي تدمج كل هذا في صورة غذائية متماسكة.

يمثل الخط الأنبوبي الموصوف في هذا المقال، من النسخ المعتمد على Whisper إلى التعرف البصري المدعوم من CLIP إلى هيكلة الوصفة المعتمدة على LLM، أحدث ما توصلت إليه التكنولوجيا. يبني كل مكون على سنوات من أبحاث التعلم الآلي، من الأعمال الأساسية على CNNs وRNNs إلى ثورة المحولات التي وحدت معالجة اللغة الطبيعية ورؤية الكمبيوتر تحت نموذج معماري واحد.

تجلب Nutrola تنفيذ هذا الخط إلى الاستخدام اليومي. من خلال استخراج الوصفات تلقائيًا من مقاطع الفيديو للطهي التي يشاهدها المستخدمون بالفعل، فإنها تلغي الفجوة بين اكتشاف الوصفة وفهم تأثيرها الغذائي. والنتيجة هي تجربة تتبع التغذية التي تلبي احتياجات المستخدمين حيث هم بالفعل، مما يحول استهلاك الفيديو السلبي إلى وعي غذائي نشط دون الحاجة إلى إدخال البيانات يدويًا.

مع استمرار تحسين نماذج الذكاء الاصطناعي متعددة الأنماط، ستزداد دقة وسرعة استخراج الوصفات. لم يعد حلم توجيه هاتفك نحو أي محتوى طهي والحصول على تحليل غذائي كامل على الفور طموحًا بحثيًا. إنها تقنية تعمل، وتتحسن مع كل تقدم في العلوم الأساسية.

مستعد لتحويل تتبع تغذيتك؟

انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!