המדע מאחורי חילוץ מתכונים בעזרת AI: איך NLP וראיית מחשב קוראים סרטוני בישול

14 במרץ 2026

גלה את הצינור הטכני שמאפשר ל-AI לחלץ מתכונים מסרטוני בישול, משלב זיהוי דיבור אוטומטי, OCR, זיהוי רכיבים חזותיים ו-NLP כדי לייצר נתונים תזונתיים מדויקים באופן אוטומטי.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

סרטוני בישול הפכו לפורמט המרכזי לשיתוף מתכונים. רק ביוטיוב יש יותר מ-1 מיליארד צפיות בסרטוני בישול בכל חודש, תוכן אוכל בטיקטוק מייצר עשרות מיליארדי צפיות בשנה, ורילס באינסטגרם הפך כל טבח ביתי ליצרן תוכן פוטנציאלי. עם זאת, קיים פער מתמשך בין צפייה במתכון לבין הבנת התוכן התזונתי שלו.

לסגור את הפער הזה דרוש צינור AI רב-שלבי שמשלב זיהוי דיבור אוטומטי, זיהוי תווים אופטי, ראיית מחשב ועיבוד שפה טבעית. מאמר זה מפרט כל שלב בצינור הטכני, מסביר את המודלים והמחקרים שמאפשרים זאת, ובודק כיצד טכנולוגיות אלו מתאגדות כדי להפוך סרטון בישול לנתונים תזונתיים מובנים.

בעיית חילוץ המתכון: למה סרטונים קשים

מתכונים טקסטואליים באתרים יחסית קלים לפירוק. הם עוקבים אחרי מבנים צפויים עם רשימות רכיבים, כמויות והוראות שלב אחר שלב. תיוג HTML ו-annotations של מתכונים ב-schema.org מספקים מבנה נוסף שניתן לקריאה על ידי מכונות.

סרטוני בישול מציבים אתגר שונה fundamentally. המידע על המתכון מפוזר על פני מספר מודאלים בו זמנית:

נראטיב מדובר מתאר רכיבים, כמויות וטכניקות
טקסט על המסך מציג רשימות רכיבים, טמפרטורות וזמנים
תוכן חזותי מראה רכיבים מתווספים, מעורבים ומעובדים
ידע סמוי מניח שהצופים מבינים צעדים לא מפורשים כמו חימום תנור מראש או שטיפת אורז

אף מודל אחד לא מכיל את המתכון המלא. יוצר עשוי לומר "להוסיף קצת שמן זית" בעוד שהמסך מציג מזיגה שמרמזת על כמות של כ-2 כפות, וטקסט על המסך מאוחר יותר מציג "2 כפות שמן זית." חילוץ המתכון המלא דורש שילוב מידע מכל המקורות הללו ופתרון סתירות ביניהם.

צינור החילוץ הרב-מודלי

הצינור המלא מהווידאו הגולמי לנתוני תזונה מובנים כולל חמישה שלבים מרכזיים:

שלב	קלט	טכנולוגיה	פלט
1. חילוץ שמע	קובץ וידאו	ASR (Whisper)	תמלול עם חותמות זמן
2. חילוץ טקסט חזותי	פריימים של וידאו	OCR (PaddleOCR, EasyOCR)	טקסט על המסך עם חותמות זמן
3. זיהוי רכיבים חזותיים	פריימים של וידאו	CNN/Transformers חזותיים (CLIP, ViT)	רכיבים ופעולות מזוהים
4. ניתוח NLP ושילוב	תמלול + OCR + נתונים חזותיים	מודלים של טרנספורמר (BERT, LLMs)	מתכון מובנה עם כמויות
5. התאמת מסד נתונים תזונתי	מתכון מובנה	התאמה מעורפלת + חיפוש במסד נתונים	פירוט תזונתי מלא

כל שלב מציב אתגרים טכניים שונים ומסתמך על תחומים שונים של מחקר בלמידת מכונה.

שלב 1: זיהוי דיבור אוטומטי לנראטיב המתכון

השלב הראשון בחילוץ מתכון מסרטון בישול הוא המרת הנראטיב המדובר לטקסט. זהו תחום זיהוי הדיבור האוטומטי, או ASR.

מהפכת ה-Whisper

מודל ה-Whisper של OpenAI, שהוצג במאמר מ-2022 על ידי רדפורד ואחרים, שינה באופן יסודי את הנוף של זיהוי דיבור לטקסט עבור חילוץ מתכונים. המודל אומן על 680,000 שעות של נתונים רב-לשוניים ורב-משימתיים שנאספו מהאינטרנט, והגיע לרמת דיוק כמעט אנושית בהעתקת טקסט בתנאי שמע מגוונים.

מה שהופך את ה-Whisper לערך מוסף במיוחד עבור תמלול סרטוני בישול:

עמידות לרעש. הסביבות במטבח רועשות. רעש של מחבתות, מים זורמים, קולות חיתוך ומוזיקה ברקע מתחרים כולם בקולו של המספר. האימון של Whisper בתנאי שמע מגוונים מאפשר לו להתמודד עם מקורות רעש חופפים טוב יותר מאשר מודלים קודמים של ASR.

יכולת רב-לשונית. סרטוני בישול מופקים כמעט בכל שפה. ה-Whisper תומך בתמלול ב-915 שפות ויכול לבצע תרגום לאנגלית, מה שמאפשר חילוץ מתכונים מתוכן ללא קשר לשפה המקורית.

פיסוק ועיצוב. בניגוד למערכות ASR קודמות שהפיקו זרמי טקסט שטוחים, ה-Whisper מייצר תמלולים עם פיסוק ועיצוב ששומרים על גבולות משפטים. המבנה הזה קריטי עבור ניתוח NLP בהמשך.

חותמות זמן ברמת המילה. ה-Whisper יכול להפיק חותמות זמן ברמת המילה, מה שמאפשר התאמה מדויקת בין מה שנאמר למה שמוצג על המסך בכל רגע נתון.

אתגרים ספציפיים לנראטיב הבישול

גם עם יכולות ה-Whisper, סרטוני בישול מציבים אתגרים ל-ASR שאינם מופיעים במדדי זיהוי דיבור סטנדרטיים:

אוצר מילים ספציפי לתחום. שמות רכיבים נעים בין אלפי פריטים במטבחים שונים. מונחים כמו "גוצ'וג'אנג", "זעתר", "טחינה" או "פנקו" עשויים לא להופיע לעיתים קרובות בנתוני האימון הכלליים. מודלים של אוצר מילים ייחודיים למזון או מילונים לאחר-עיבוד נדרשים כדי לתקן טעויות זיהוי שיטתיות.

אי-בהירות בכמויות. כמויות מדוברות לעיתים קרובות אינן מדויקות. "כמות טובה של מלח", "טיפת חומץ" או "בערך ככה הרבה קמח" דורשות פרשנות הקשרית שעולה על תמלול.

מעבר בין שפות. רבים מיוצרי הבישול עוברים בין שפות, משתמשים באנגלית לנראטיב הכללי אך בשפת האם שלהם לשמות מנות או טכניקות מסורתיות. ASR רב-לשוני חייב להתמודד עם המעברים הללו בצורה חלקה.

תקשורת לא-מילולית. יוצר עשוי להצביע על רכיב מבלי להזכיר את שמו, או לומר "זה" תוך כדי החזקת בקבוק. הפניות דיקטיביות אלו דורשות פתרון חוצה מודלים עם הזרם החזותי.

עיבוד שלאחר מכן של התמלול

פלט ה-ASR הגולמי דורש מספר צעדי עיבוד שלאחר מכן לפני שהוא שימושי לחילוץ מתכונים:

תיקון ישויות מזון משתמש במילון ספציפי לתחום כדי לתקן טעויות זיהוי נפוצות (למשל, "קימל" ששמעו כ"בא").
נורמליזציה של כמויות ממירה מספרים וד fractions מדוברות לפורמטים מספריים סטנדרטיים.
סגמנטציה מחלקת את התמלול הרציף לשלבי מתכון לוגיים בהתבסס על הפסקות זמניות, ביטויי מעבר וגבולות פועל.
סינון לפי ביטחון מזהה ומסמן קטעים עם ביטחון נמוך לבדיקה פוטנציאלית חוצה מודלים.

שלב 2: זיהוי תווים אופטי לטקסט על המסך

רבים מסרטוני הבישול מציגים רשימות רכיבים, מדידות, טמפרטורות והוראות כהנחות טקסט על המסך. טקסט זה לעיתים קרובות מדויק יותר מהנראטיב המדובר ועוקב אחרי פורמטים יותר סטנדרטיים.

איך עובד ה-OCR על פריימים של וידאו

חילוץ טקסט מפריימים של וידאו כולל שתי משימות משנה: זיהוי טקסט (מציאת היכן הטקסט מופיע בפריים) וזיהוי טקסט (קריאת מה שהטקסט אומר).

זיהוי טקסט ממקם אזורים בתמונה שמכילים טקסט. מד detectors מודרניים כמו CRAFT (Character Region Awareness for Text Detection) ו-DBNet (Differentiable Binarization Network) יכולים לזהות טקסט ללא קשר לכיוון, גודל או מורכבות הרקע. מודלים אלו מפיקים קופסאות גבול או פוליגונים סביב אזורי הטקסט.

זיהוי טקסט ממיר את אזורי הטקסט המוכרים למחרוזות תו. ארכיטקטורות המבוססות על רשתות עצביות קונבולוציוניות ורציפות, לעיתים קרובות עם פענוח CTC (Connectionist Temporal Classification), מעבדות את אזורי הטקסט החתוכים ומפיקות רצפי תווים. גישות חדשות יותר משתמשות בארכיטקטורות מבוססות טרנספורמרים לשיפור הדיוק על פונטים מעוצבים.

האתגרים הייחודיים של OCR בסרטוני בישול

הטקסט על המסך בסרטוני בישול שונה באופן מהותי מהטקסט הדוקומנטרי שמערכות OCR רבות מותאמות עבורו:

הנחות טקסט מונפשות. טקסט לעיתים קרובות מופיע ונעלם, מה שדורש אגירה זמנית על פני מספר פריימים כדי לתפוס את הטקסט המלא. אנימציה של הזזה עשויה לחשוף את הטקסט תו אחרי תו על פני מספר פריימים.

פונטים מעוצבים. יוצרי תוכן מזון לעיתים קרובות משתמשים בפונטים מעוצבים, ידניים או דקורטיביים השונים מהפונטים הנקיים בנתוני האימון הסטנדרטיים של OCR. התאמה על קבוצות פונטים ייחודיות לבישול משפרת את שיעורי הזיהוי.

רקעים מורכבים. טקסט לעיתים קרובות מצוי על רקעים חזותיים עמוסים שמציגים מזון, מטבחים וידיים. לא ניתן להניח ניגודיות גבוהה בין הטקסט לרקע. זיהוי קו טקסט, צללים וטשטוש רקע מסייעים לבודד את שכבת הטקסט.

שפות מרובות וכתבים מעורבים. פריים אחד עשוי להכיל טקסט בכמה כתבים, כמו מדידות באנגלית לצד שמות מנות ביפנית. מודלים OCR מרובי כתבים או זיהוי כתבים ולאחר מכן מסלולי זיהוי ספציפיים לשפה מטפלים במגוון זה.

דדופליקציה ואגירה זמנית

מכיוון שפריימים של וידאו מדוגמים מספר פעמים בשנייה, אותו טקסט על המסך יזוהה על פני מספר פריימים רצופים. צינור ה-OCR חייב:

לדגום פריימים בקצב מתאים (בדרך כלל 1 עד 2 פריימים בשנייה לזיהוי טקסט)
לעקוב אחרי אזורי טקסט בין פריימים כדי לזהות טקסט קבוע מול טקסט זמני
לדדופליקציה של זיהויים חוזרים של אותו טקסט
למזג זיהויים חלקיים מהנחות טקסט מונפשות
לקשר כל אלמנט טקסט עם חלון הזמן שלו לצורך שילוב מאוחר עם נתוני שמע וחזותיים

פלט שלב זה הוא רשימה עם חותמות זמן של אלמנטים טקסטואליים על המסך, כל אחד מהם מקושר עם משך הזמן שבו הוא נראה ומיקום מרחבי בפריים.

שלב 3: זיהוי רכיבים חזותיים עם ראיית מחשב

מעבר לטקסט, התוכן החזותי של סרטון בישול מכיל מידע עשיר על רכיבים, כמויות ושיטות הכנה. מודלים של ראיית מחשב יכולים לזהות רכיבים כפי שהם מופיעים, להעריך כמויות מציונים חזותיים ולזהות פעולות בישול.

זיהוי רכיבים עם Transformers חזותיים ו-CLIP

זיהוי רכיבים חזותיים מודרני מתבסס על שתי התקדמויות מרכזיות: Transformers חזותיים (ViT) והכשרה קונטרסטיבית של שפה-תמונה (CLIP).

Transformers חזותיים, שהוצגו על ידי דוסוביצקי ואחרים ב-2020, מיישמים את ארכיטקטורת הטרנספורמרים על זיהוי תמונות. במקום להשתמש בשכבות קונבולוציוניות, ViT מחלק תמונה לפאצ'ים ומעבד אותם כרצף, בדומה לאופן שבו טרנספורמרים מעבדים מילים במשפט. גישה זו הוכחה כיעילה במיוחד למשימות זיהוי חזותי מדויקות כמו זיהוי רכיבים, שבהן הבדלים עדינים בצבע, מרקם וצורה מבדילים בין פריטים דומים.

CLIP, שפותח על ידי רדפורד ואחרים ב-OpenAI ב-2021, לומד מושגים חזותיים מפיקוח בשפה טבעית. המודל אומן על 400 מיליון זוגות של תמונה-טקסט, ויכול לזהות אובייקטים המתוארים בטקסט מבלי שהאומן הוכשר במפורש על דוגמאות מסומנות של אותם אובייקטים. עבור זיהוי רכיבים, זה אומר שמערכת מבוססת CLIP יכולה לזהות רכיב גם אם הוא לא היה בקבוצת האימון, כל עוד היא יכולה להתאים את המראה החזותי לתיאור הטקסטואלי.

היתרון המעשי של CLIP עבור חילוץ מתכונים הוא היכולת שלו לפעול ללא דוגמאות (zero-shot) או עם דוגמאות מועטות (few-shot). מזון כולל מגוון עצום של רכיבים, הכנות והצגות תרבותיות. מודל סיווג מסורתי היה זקוק לדוגמאות מסומנות לכל רכיב בכל מצב הכנה. CLIP יכול להכליל מהאימון הרחב שלו כדי לזהות רכיבים חדשים המתוארים בצורה טקסטואלית.

זיהוי פעולות בישול

זיהוי מהן הפעולות שמתבצעות הוא חשוב באותה מידה כמו זיהוי הרכיבים עצמם. זיהוי הפעולה אומר למערכת אם רכיב נחתך, מטוגן, מעורבב או נאפה, דבר שמשפיע ישירות על התוכן התזונתי הסופי.

מחקר בזיהוי פעולות בווידאו ייצר מודלים המנתחים רצפים זמניים של פריימים כדי לסווג פעולות. גישות כמו רשתות SlowFast (Feichtenhofer et al., 2019) מעבדות וידאו בשתי רזולוציות זמניות בו זמנית: מסלול איטי תופס פרטים מרחביים בעוד שמסלול מהיר תופס תנועה. כאשר מדובר בסרטוני בישול, מודלים אלו יכולים להבחין בין ערבוב, הקצפה, קיפול ולישה, שכל אחד מהם יש לו השלכות שונות על מבנה המתכון.

Datasets כמו Food-101 ו-Recipe1M+ (Marin et al., 2019) היו חיוניים לאימון והערכה של מודלים של ראיית מחשב ספציפיים למזון. Recipe1M+ מכיל יותר מ-1 מיליון מתכונים עם 13 מיליון תמונות מזון, מה שמספק את הסקלה הנדרשת לאימון מודלים שמכלילים בין מטבחים וסגנונות הכנה.

הערכת כמויות חזותיות

אחד האתגרים המורכבים ביותר בחילוץ מתכונים חזותיים הוא הערכת כמויות רכיבים מהווידאו. כאשר יוצר שופך שמן למחבת או ממלא קמח לקערה, המידע החזותי מכיל רמזים לגבי הכמות, אך תרגום הרמזים הללו למדידות מדויקות דורש חשיבה מרחבית מתקדמת.

גישות נוכחיות משלבות:

הסקלה של אובייקטים ידועים: שימוש באובייקטים מוכרים בפריים (סירים סטנדרטיים, כוסות מדידה, לוחות חיתוך) כדי לקבוע רמת סקלה
הערכה של נפח מדינמיקת מזיגה: ניתוח משך הזמן וקצב הזרימה של נוזלים שנשפכים כדי להעריך נפח
הערכה של עומק: מודלים להערכה של עומק מונוקולרי כמו MiDaS (Ranftl et al., 2020) יכולים להעריך את עומק הרכיבים במיכלים, מה שעוזר להעריך נפח מתמונה דו-ממדית
למידה השוואתית: מודלים שאומנו על תמונות זוגיות של כמויות ידועות לומדים להעריך כמויות על ידי השוואה חזותית

הערכת כמויות חזותיות נותרת פחות מדויקת מאשר מדידות מפורשות משיחה או טקסט, בדרך כלל משיגה דיוק של 20 עד 30 אחוז. עם זאת, היא מספקת בדיקה שימושית וממלאת פערים כאשר כמויות אינן מצוינות במפורש.

שלב 4: עיבוד שפה טבעית לפירוק ושילוב המתכון

עם תמלולים, טקסטים על המסך והערות חזותיות ביד, שלב ה-NLP מתמודד עם המשימה של שילוב האותות הרב-מודליים הללו לתוך מתכון מובנה, קוהרנטי.

זיהוי ישויות שמיות למזון

המשימה הראשונה של NLP היא לזהות ישויות הקשורות למזון בתמלול ובטקסט ה-OCR. זהו סוג מיוחד של זיהוי ישויות שמיות (NER) שצריך לזהות:

רכיבים: "חזה עוף," "שמן זית כתית מעולה," "מלח כשר"
כמויות: "שתי כוסות," "350 גרם," "קמצוץ"
יחידות: "כפות," "מיליליטרים," "בגודל בינוני"
שינויים בהכנה: "קצוץ," "כתוש," "בטמפרטורת החדר"
פעולות בישול: "לטגן," "לאפות ב-375," "לבשל במשך 20 דקות"
ציוד: "מחבת ברזל יצוק," "מיקסר עומד," "תבנית אפייה"

מודלים מבוססי טרנספורמרים ל-NER שהותאמו על קבוצות מזון משיגים ציוני F1 מעל 90 אחוז במדדי NER סטנדרטיים. קבוצת FoodBase (Popovski et al., 2019) וסט הנתונים TASTEset מספקים טקסטים מזון מסומנים במיוחד לאימון מודלים אלו.

ניתוח תלות לקישור רכיב-כמות

זיהוי ישויות בלבד אינו מספיק. המערכת חייבת לקבוע אילו כמויות שייכות לאילו רכיבים. במשפט "הוסף שתי כוסות קמח וכף מלח," המערכת חייבת לקשר נכון בין "שתי כוסות" ל"קמח" ו"כף" ל"מלח."

זה דורש ניתוח תלות, שמנתח את המבנה הדקדוקי של משפטים כדי לזהות קשרים בין מילים. מפרקי תלות מודרניים המבוססים על ארכיטקטורת BERT (Devlin et al., 2019) מתמודדים עם המורכבות הסינטקטית של הוראות בישול, כולל תיאורים מורכבים של רכיבים כמו "מיץ לימון סחוט טרי" ומודיפיקציות מקוננות כמו "קופסה של 14 אונקיות של עגבניות קצוצות קלופות בשר."

שילוב חוצה מודלים: פתרון סתירות ומילוי פערים

האספקט הטכני המאתגר ביותר של שלב ה-NLP הוא שילוב מידע משלוש המודאלים (שמע, טקסט, חזותי) לתוך מתכון קוהרנטי אחד. השילוב הזה חייב להתמודד עם:

חיזוק הסכמה. כאשר התמלול אומר "שתי כפות רוטב סויה," הטקסט על המסך מציג "2 כפות רוטב סויה," והזרם החזותי מראה נוזל כהה נשפך, כל שלוש המקורות מסכימים והמערכת בעלת ביטחון גבוה.

פתרון סתירות. כאשר התמלול אומר "כוס סוכר" אך הטקסט על המסך אומר "3/4 כוס סוכר," המערכת חייבת להחליט איזה מקור להעדיף. בדרך כלל, טקסט על המסך מקבל עדיפות למדידות מדויקות כי יוצרי תוכן לרוב מוסיפים טקסטים על המסך כהבהרות או תיקונים לנראטיב שלהם.

מילוי פערים. כאשר המספר אומר "תבל לפי הטעם" מבלי לציין כמויות, המערכת יכולה להשתמש בהערכה חזותית של פעולת התיבול בשילוב עם ידע ממסד נתונים על כמויות תיבול טיפוסיות לסוג המנה כדי להסיק ערכים סבירים.

התאמה זמנית. התאמת מידע בין מודלים דורשת התאמה זמנית. הפניה של רכיב מדובר בזמן 2:34 צריכה להתאים לטקסט על המסך הנראה בין 2:30 ל-2:40 וזיהוי רכיבים חזותיים מאותו חלון זמן. מנגנוני עיוות זמן דינמיים ומנגנוני התאמה מבוססי תשומת לב מטפלים בסנכרון הבלתי מדויק בין דיבור, טקסט ואירועים חזותיים.

מודלים של שפה גדולה למבנה המתכון

ההתקדמות האחרונה במודלים של שפה גדולה (LLMs) הציגה גישה חדשה ועוצמתית למבנה מתכונים. במקום לבנות מודלים נפרדים ל-NER, ניתוח תלות ושילוב, LLM יכול לעבד את התמלול המשותף ואת פלט ה-OCR וליצור מתכון מובנה במעבר אחד.

המודל מקבל פקודה המכילה את התמלול, את הטקסט מה-OCR ואת התיאורים של התצפיות החזותיות, יחד עם הוראות להפיק מתכון מובנה בפורמט מוגדר. LLMs מצטיינים במשימה זו מכיוון שהם מקודדים ידע רחב על בישול, כולל כמויות רכיבים טיפוסיות, שילובי רכיבים נפוצים וטכניקות הכנה סטנדרטיות.

לגישה זו יש מספר יתרונות:

היא מתמודדת עם אי-בהירות באופן טבעי על ידי הפנייה לידע כללי
היא פותרת הפניות (co-references) (למשל, מבינה ש"זה" ב"ערבב את זה מדי פעם" מתייחס לרוטב שהוזכר שלוש משפטים קודם)
היא יכולה להסיק צעדים לא מפורשים בהתבסס על ידע בבישול
היא מנרמלת שמות רכיבים לצורות קנוניות המתאימות לחיפוש במסד נתונים

המגבלה העיקרית היא שפלטי LLM דורשים אימות. יש להיזהר מהופעות שגויות, שבהן המודל מייצר מידע סביר אך שגוי, על ידי הפנייה למקורות החזותיים ולמגבלות מסד הנתונים התזונתי.

שלב 5: התאמה וחישוב מסד נתונים תזונתי

השלב הסופי הופך את המתכון המובנה לפירוט תזונתי מלא. זה דורש התאמת כל רכיב מחולץ לרישום במסד נתונים תזונתי מקיף וחישוב ערכי התזונה לכל מנה.

אתגר ההתאמה

שמות רכיבים מחולצים מסרטוני בישול rarely תואמים בדיוק לרישומים במסד הנתונים. סרטון עשוי להתייחס ל"יד גדולה של תרד תינוקות" בעוד שהמסד מכיל רשומות עבור "תרד, גולמי" שנמדדות בגרמים. מערכת ההתאמה חייבת להתמודד עם:

פתרון סינונימים: "כוסברה" ו"עלים של כוסברה" הם אותו רכיב
מיפוי מצב הכנה: "שקדים קלויים" מתאימים לפרופיל תזונתי שונה מ"שקדים גולמיים"
נורמליזציה של מותג וזן: "פננה של בארילה" מתאימה ל"פסטה, פננה, יבשה" עם התאמות ספציפיות למותג
תרגום מדיבור טכני: "מקל חמאה" מתאימה ל"חמאה, מלוחה, 113 גרם"
המרת יחידות: "כוס קמח" חייבת להיות מומרת לגרמים באמצעות ערכי צפיפות ספציפיים לרכיב, שכן כוס קמח שוקלת כ-120 גרם בעוד שכוס סוכר שוקלת כ-200 גרם

אלגוריתמים של התאמה מעורפלת כמו מרחק לוונשטין ודמיון קוסיני TF-IDF מספקים בסיס להתאמה. גישות מתקדמות יותר משתמשות בדמיון מבוסס הטמעה, שבו גם הטקסט של הרכיב המוחלץ וגם הרישומים במסד הנתונים מקודדים לייצוגים וקטוריים באמצעות מודלים כמו Sentence-BERT (Reimers and Gurevych, 2019), וההתאמה הקרובה ביותר במרחב ההטמעה נבחרת.

מסדי נתונים תזונתיים וכיסוי שלהם

מספר מסדי נתונים תזונתיים מרכזיים משמשים כבסיס לחישובים תזונתיים:

מסד נתונים	כיסוי	מנוהל על ידי	יתרון מרכזי
USDA FoodData Central	370,000+ מזונות	משרד החקלאות של ארה"ב	פרופילים תזונתיים מקיפים
Open Food Facts	3,000,000+ מוצרים	תורמים מהקהילה	כיסוי מזון ארוז עולמי
COFID (McCance and Widdowson's)	3,000+ מזונות	סוכנות תקני המזון של בריטניה	הרכבי מזון ספציפיים לבריטניה
Australian Food Composition Database	2,500+ מזונות	תקני מזון אוסטרליה ניו זילנד	כיסוי מזון אזורי

מערכת חילוץ מתכונים חזקה שואלת ממספר מסדי נתונים ומיישמת ממוצע משוקלל של ביטחון כאשר רשומות שונות. עבור מזונות שלא נמצאו במסדי נתונים סטנדרטיים, המערכת יכולה להעריך את התוכן התזונתי על ידי פירוק המזון לרכיביו ולסכם את התרומות האישיות שלהם.

טיפול בשינויים בבישול

ניואנס קריטי שמפריד בין חישוב תזונתי מדויק להערכה הוא התחשבות בשינויים בבישול. כאשר מזון מבושל, התוכן התזונתי שלו משתנה:

אובדן מים: בשר מאבד 20 עד 35 אחוז ממשקלו במהלך הבישול, מה שמרכז את התזונה לגרם של מזון מבושל
ספיגת שומן: מזונות מטוגנים סופגים שמן בישול, מה שמוסיף קלוריות שאינן חלק מהפרופיל של הרכיב הגולמי
הרס תזונתי: ויטמינים רגישים לחום כמו ויטמין C וויטמינים מקבוצת B מתדרדרים במהלך הבישול
ג'ליטניזציה של עמילן: בישול משנה את מדד הגליקמיה של מזונות עמילניים
הפחתת שומן: בישול בשרים שומניים גורם לשומן להתמוסס, מה שמפחית את התוכן הקלורי של המנה הנצרכת

ה-USDA מספקת גורמי שמירה עבור רכיבים תזונתיים נפוצים בשיטות בישול שונות. יישום גורמים אלו על ערכי התזונה של רכיבים גולמיים מייצר הערכה מדויקת יותר של המנה המבושלת הסופית.

מנוע התזונה של Nutrola משלב את מודלי השינויים בבישול הללו, מתקן את ערכי מסד הנתונים של רכיבים גולמיים בהתבסס על שיטות הבישול שזוהו במהלך ניתוח הווידאו. כאשר המערכת מזהה שעוף נאפה ולא טוגן, היא מיישמת את גורמי אובדן הלחות והחזקת השומן המתאימים כדי לייצר הערכת קלוריות מדויקת עבור המנה המוגמרת.

איך Nutrola מיישמת את הצינור הזה

Nutrola מביאה את הצינור הטכני הרב-שלבי הזה לחוויית משתמש מעשית. כאשר משתמש משתף סרטון בישול או מדביק קישור לסרטון מתכון, המערכת האחורית של Nutrola מעבדת את הווידאו דרך צינור החילוץ המתואר לעיל ומחזירה מתכון מובנה עם נתוני תזונה מלאים.

היישום המעשי כולל מספר החלטות הנדסיות שמאזנות בין דיוק, מהירות וחוויית משתמש:

דגימה סלקטיבית של פריימים. במקום לעבד כל פריים, מערכת Nutrola מזהה פריימים מרכזיים שבהם מתרחשים שינויים חזותיים משמעותיים, כמו הופעת רכיבים חדשים, שינוי פעולות בישול או עדכון טקסט על המסך. זה מפחית את העלות החישובית ב-80 עד 90 אחוז תוך כדי תפיסת המידע החזותי הרלוונטי.

דירוג ביטחון. כל אלמנט מחולץ נושא ציון ביטחון שמופק מההסכמה בין המודלים. רכיבים שאושרו על ידי דיבור, טקסט וזיהוי חזותי מקבלים ביטחון גבוה. רכיבים שזוהו על ידי מודל אחד בלבד מסומנים לאימות על ידי המשתמש.

לולאת תיקון משתמש. כאשר המערכת אינה בטוחה לגבי רכיב או כמות, היא מציגה את ההערכה הטובה ביותר שלה למשתמש עם אפשרות לתקן. תיקונים אלו חוזרים למודל, משפרים את דיוק החילוץ לאורך זמן דרך תהליך למידה של אדם במעגל.

אימות מגובה במסד נתונים. מתכונים מחולצים מאומתים מול מגבלות תזונתיות סבירות. אם המערכת מחלצת כמות שתוביל לספירת קלוריות בלתי סבירה עבור סוג המנה, היא מסמנת את החילוץ לבדיקה.

גישה זו הופכת את החוויה הפסיבית של צפייה בסרטון בישול לנתונים תזונתיים שניתן לפעול עליהם, שמשתלבים ישירות במעקב היומי של המשתמש. במקום לחפש ידנית כל רכיב ולהעריך מנות, משתמשים מקבלים פירוט תזונתי מלא שמופק ישירות מתוכן הווידאו.

גבול המחקר: מה קורה הלאה

תחום חילוץ המתכונים הרב-מודליים מתפתח במהירות. מספר כיווני מחקר מבטיחים לשפר עוד יותר את הדיוק והיכולת.

מודלים רב-מודליים מקצה לקצה

צינורות נוכחיים מעבדים כל מודל בנפרד לפני שהם משלבים אותם. ארכיטקטורות רב-מודליות מתפתחות מעבדות וידאו, שמע וטקסט בו זמנית במודל אחד. מודלים בסיסיים רב-מודליים כמו Gemini של גוגל יכולים לקלוט וידאו ישירות ולחשוב בין מודלים מבלי ייצוגים ביניים מפורשים. מודלים אלו מבטיחים צינורות פשוטים יותר והיגיון בין מודלים טוב יותר, אם כי הם דורשים משאבים חישוביים משמעותיים.

הבנה פרוצדורלית

מערכות נוכחיות מחלצות רשימה שטוחה של רכיבים ושלבים. מערכות עתידיות יבנו ייצוגים פרוצדורליים עשירים יותר שיתפסו את מבנה הגרף של מתכון: אילו שלבים תלויים באילו אחרים, אילו רכיבים משמשים באיזה שלב, ואיך תוצאות ביניים מתאגדות. הבנה פרוצדורלית זו מאפשרת חישוב תזונתי מדויק יותר על ידי מעקב אחר איך רכיבים משתנים בכל שלב.

הערכת תזונה מותאמת אישית

כשהמערכות לחילוץ מתכונים מעבדות יותר נתונים, הן יכולות ללמוד דפוסים אישיים של יוצרי תוכן. מערכת שזיהתה 100 סרטונים מאותו יוצר לומדת שכאשר יוצר זה אומר "טיפת שמן זית," הוא בדרך כלל משתמש בכף אחת. כיול מותאם אישית זה משפר באופן משמעותי את הערכת הכמויות.

ידע תזונתי תרבותי ואזורי

הרחבת חילוץ המתכונים למגוון המלא של מטבחים עולמיים דורשת ידע תרבותי עמוק על מזון. לדעת ש"צלחת אינג'רה עם ווט" בבישול אתיופי עוקבת אחרי פרופורציות ספציפיות, או ש"קערת פו" בבישול וייטנאמי כוללת יחס רכיבים טיפוסי, מאפשרת למערכת לבצע הערכות מושכלות גם כאשר כמויות מפורשות אינן מסופקות.

שאלות נפוצות

עד כמה מדויק חילוץ המתכונים בעזרת AI מסרטוני בישול בהשוואה לקריאת מתכון טקסטואלי ידנית?

צינורות חילוץ רב-מודליים נוכחיים משיגים דיוק של 85 עד 92 אחוז בזיהוי רכיבים ו-75 עד 85 אחוז בזיהוי כמויות בהשוואה למתכונים אמתיים שנכתבו על ידי יוצרי הסרטונים. מקור השגיאה העיקרי הוא הערכת כמויות כאשר היוצרים אינם מציינים מדידות מפורשות. להשוואה, העתקה ידנית על ידי צופים אנושיים משיגה דיוק של כ-90 עד 95 אחוז, מה שמשמעותו שחילוץ AI מתקרב לביצועים ברמת אנוש למשימה זו. יישום Nutrola כולל שלב אימות משתמש עבור חילוצים עם ביטחון נמוך, מה שמעלה את הדיוק היעיל מעל 95 אחוז בפועל.

מה קורה כאשר סרטון בישול אינו מציין כמויות רכיבים מפורשות?

כאשר כמויות אינן מצוינות במפורש בשיחה או בטקסט על המסך, המערכת פועלת על פי היררכיה של שיטות הערכה. ראשית, היא מנסה הערכת כמויות חזותית מהפריימים של הווידאו באמצעות הערכת עומק והסקלה של אובייקטים ידועים. שנית, היא מתייעצת עם מסד נתונים של כמויות טיפוסיות לסוג המנה. שלישית, היא משתמשת בממוצעים סטטיסטיים ממערכות מתכונים שהחולצו בעבר מאותו סוג. ההערכה המתקבלת מסומנת עם ציון ביטחון נמוך יותר, ו-Nutrola מציגה אותה למשתמש עם הערה שהכמות הוערכה ולא צוינה במפורש.

האם AI יכול לחלץ מתכונים מסרטוני בישול בשפות אחרות מאנגלית?

כן. מודלים ASR מודרניים כמו Whisper תומכים בתמלול ב-915 שפות, ומערכות OCR מטפלות בכתבים מרובים כולל לטיני, CJK, קירילית, ערבית ודבאנאגארי. שכבת ניתוח ה-NLP יכולה לפעול בשפות מרובות, אם כי הדיוק בדרך כלל גבוה יותר עבור שפות עם יותר נתוני אימון. ה-Whisper יכול גם לתרגם דיבור שאינו באנגלית ישירות לאנגלית, מה שמאפשר לצינור להמשיך לפעול באנגלית גם עבור סרטונים בשפות אחרות. Nutrola תומכת בחילוץ מתכונים מסרטונים ביותר מ-30 שפות.

איך המערכת מתמודדת עם מתכונים שבהם היוצר מבצע החלפות או טעויות במהלך הצילום?

הטבע הזמני של ניתוח הווידאו למעשה מסייע במצב זה. כאשר יוצר אומר "חשבתי להשתמש בחמאה אבל יש לי רק שמן זית," שכבת ה-NLP של המערכת מזהה את התיקון ומשתמשת בשמן זית במקום בחמאה במתכון הסופי. באופן דומה, כאשר יוצר מוסיף רכיב ואז אומר "בעצם, זה יותר מדי, תן לי להוציא קצת," המערכת עוקבת אחרי התיקון. מודלים מבוססי תשומת לב שמעבדים את התמלול המלא יכולים לזהות את התיקונים הללו על ידי הכרת דפוסי שיח הקשורים לתיקונים.

מה ההבדל בין חילוץ מתכונים מווידאו לחילוץ מתכונים מעמוד אינטרנט?

חילוץ מתכונים מהאינטרנט מתבסס בעיקר על ניתוח נתונים מובנים. רוב אתרי המתכונים משתמשים בתגי schema.org Recipe, המספקים רשימות רכיבים, כמויות והוראות שניתן לקרוא על ידי מכונות. חילוץ מתכונים מסרטוני וידאו קשה באופן מהותי יותר מכיוון שהמידע אינו מובנה ומפוזר על פני מודלים של שמע, חזותי וטקסט שצריכים להיות משולבים. עם זאת, חילוץ ווידאו יש לו יתרון בלכידת פרטי הכנה ורמזים חזותיים לכמויות שאינם חסרים במתכון טקסטואלי. רבים מהיוצרים גם משתפים טיפים, החלפות ומידע הקשרי בנראטיב שלהם שאינו מופיע לעולם במתכון כתוב.

איך זיהוי שיטות הבישול משפיע על הדיוק התזונתי של המתכונים המוחלצים?

זיהוי שיטות הבישול משפיע משמעותית על הדיוק התזונתי. טיגון חזה עוף בשמן מוסיף כ-60 עד 100 קלוריות בהשוואה לגריל של אותו חזה בשל ספיגת השמן. בישול ירקות יכול להפחית את תכולת הוויטמין C ב-30 עד 50 אחוז. צינור ה-AI משתמש במודלים לזיהוי פעולות כדי לזהות שיטות בישול (גריל, טיגון, אפייה, אידוי, הכנה גולמית) ומיישם גורמי שמירה תזונתיים של ה-USDA בהתאם. חישוב זה המודע לשיטת הבישול משפר בדרך כלל את דיוק ההערכה הקלורית ב-10 עד 15 אחוז בהשוואה לשימוש בערכי רכיבים גולמיים בלבד.

סיכום

חילוץ מתכון מסרטון בישול הוא מיקרוקוסמוס של האתגר הרחב יותר בתחום האינטליגנציה המלאכותית: להבין מידע בלתי מובנה, רב-מודלי, מהעולם האמיתי. זה דורש זיהוי דיבור שעובד במטבחים רועשים, ראיית מחשב שיכולה לזהות מאות רכיבים במצבים שונים של הכנה, OCR שקורא טקסט מעוצב על רקעים עמוסים, ו-NLP שמשלב את כל זה לתוך תמונה תזונתית קוהרנטית.

הצינור המתואר במאמר זה, מהמרת תמלול מבוסס Whisper דרך זיהוי חזותי מבוסס CLIP ועד מבנה מתכון מבוסס LLM, מייצג את מצב האמנות הנוכחי. כל רכיב מתבסס על שנים של מחקר בלמידת מכונה, מהעבודה היסודית על CNNs ו-RNNs ועד למהפכת הטרנספורמרים שהאחידה את NLP וראיית מחשב תחת פרדיגמה ארכיטקטונית אחת.

היישום של Nutrola של צינור זה מביא את ההתקדמות במחקר לשימוש יומיומי. על ידי חילוץ אוטומטי של מתכונים מסרטוני הבישול שהמשתמשים כבר צופים בהם, הוא מסלק את הפער בין גילוי מתכון לבין הבנת השפעתו התזונתית. התוצאה היא חוויית מעקב תזונתי שעונה על הצרכים של המשתמשים היכן שהם נמצאים, והופכת צריכת וידאו פסיבית למודעות תזונתית פעילה מבלי לדרוש הקלדת נתונים ידנית.

כשהמודלים הרב-מודליים ממשיכים להשתפר, הדיוק והמהירות של חילוץ המתכונים רק יגדלו. החזון של להצביע על הטלפון שלך בכל תוכן בישול ולקבל מיד פירוט תזונתי מלא אינו עוד שאיפה מחקרית. זו טכנולוגיה עובדת, והיא משתפרת עם כל התקדמות במדע הבסיסי.

מוכנים לשנות את מעקב התזונה שלכם?

הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!