איך AI של רישום קולי מבין שפה טבעית למעקב אחר מזון

מבט טכני מעמיק על צינור ה-NLP מאחורי רישום מזון מבוסס קול — מהכרת דיבור אוטומטית והכרת ישויות שמיות ועד לפתרון אי-ודאויות במזון, נורמליזציה של כמויות ודירוג ביטחון.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

לומר "עכשיו אכלתי שני ביצים מקושקשות עם גבינת צ'דר על טוסט מחיטה מלאה" בטלפון שלך ולראות את זה מופיע כרישום מלא של ארוחה עם מאקרו מדויקים מרגיש כמעט קסום. מאחורי החוויה החלקה הזו עומדת מערכת מתקדמת של עיבוד שפה טבעית שממירה אודיו גולמי לנתוני תזונה מובנים בפחות משתי שניות. הבנת מערכת זו מגלה מדוע רישום קולי הפך לאחת הדרכים המהירות והמדויקות ביותר למעקב אחרי מה שאתה אוכל.

AI לרישום קולי משתמש בצינור NLP רב-שלבי — הכרת דיבור אוטומטית (ASR), סיווג כוונות, הכרת ישויות שמיות (NER), פתרון אי-ודאויות במזון, נורמליזציה של כמויות, מיפוי למסדי נתונים ודירוג ביטחון — כדי להמיר תיאורי ארוחה מדוברים לכניסות תזונה מדויקות ומאומתות.

מאמר זה עובר על כל שלב בצינור, מסביר את הטכנולוגיה הבסיסית ומראה בדיוק כיצד משפט מדובר אחד הופך לכניסת רישום מזון מלאה.

צינור ה-NLP בשבעה שלבים לרישום מזון קולי

מעקב אחר מזון מבוסס קול אינו אלגוריתם בודד. מדובר בשרשרת של מודלים מיוחדים, כל אחד פותר חלק שונה מהבעיה. כאשר אתה אומר תיאור ארוחה, המילים שלך עוברות שבעה שלבי עיבוד שונים לפני שכניסת תזונה מופיעה ברישום שלך.

הטבלה למטה עוקבת אחרי הבעת דיבור אחת דרך כל הצינור:

שלב תהליך קלט פלט
1. ASR דיבור לטקסט גל הקול "שני ביצים מקושקשות עם גבינת צ'דר על טוסט מחיטה מלאה"
2. הכרת כוונה סיווג כוונת המשתמש תמלול גולמי כוונה: רישום מזון (ביטחון 0.97)
3. NER חילוץ ישויות מזון תמלול מסווג [ביצים מקושקשות, גבינת צ'דר, טוסט מחיטה מלאה]
4. פתרון אי-ודאויות פתרון ישויות מעורפלות ישויות מזון גולמיות [ביצים מקושקשות (USDA: 01132), גבינת צ'דר (USDA: 01009), לחם מחיטה מלאה קלוי (USDA: 20090)]
5. נורמליזציה של כמויות סטנדרטיזציה של כמויות "שניים", מנה ברירת מחדל [2 ביצים גדולות (100 גרם), 1 פרוסת גבינת צ'דר (28 גרם), 2 פרוסות טוסט (56 גרם)]
6. מיפוי למסד נתונים התאמה לכניסות מאומתות ישויות מעובדות + כמויות פרופילים תזונתיים מלאים עם קלוריות, חלבון, שומן, פחמימות, מיקרו-נוטריינטים
7. דירוג ביטחון הערכת ודאות כל הפלטים של הצינור ביטחון כולל: 0.94 — רישום אוטומטי

כל שלב מתבסס על טכניקות שונות של למידת מכונה, וכישלונות בכל שלב משפיעים על השלב הבא. השגת הצינור המלא בצורה נכונה היא מה שמפריד בין רישום קולי אמין לבין חוויות מתסכלות.

שלב 1: הכרת דיבור אוטומטית (ASR) — המרת אודיו לטקסט

האתגר הראשון הוא להמיר גל קול גולמי לטקסט. מערכות ASR מודרניות משתמשות בארכיטקטורות מבוססות טרנספורמר — אותה משפחת מודלים מאחורי מודלים של שפה גדולה כמו GPT ו-Claude — שאומנו על מאות אלפי שעות של נתוני דיבור רב-לשוניים.

כיצד ASR פועל עבור תיאורי מזון

מודלי ASR מעבדים אודיו בשלושה שלבים:

  1. חילוץ תכונות: גל הקול הגולמי מומר לספקטרוגרם, ייצוג חזותי של תדרי האודיו לאורך זמן. הספקטרוגרם מחולק למסגרות חופפות, בדרך כלל ברוחב של 25 מילישניות עם צעד של 10 מילישניות.

  2. עיבוד מקודד: מקודד טרנספורמר מעבד את מסגרות הספקטרוגרם, לומד את הקשרים ההקשריים בין הצלילים. המודל מבין, לדוגמה, שהסדרה הפונמית עבור "צ'דר" סביר יותר בהקשר של דיבור על מזון מאשר "צ'דר" או "צ'קר".

  3. יצירת מפענח: מפענח טרנספורמר מייצר את רצף הטקסט הסביר ביותר, תוך שימוש בחיפוש קרן להעריך מספר השערות בו זמנית. המפענח מפעיל את ההסתברויות של מודל השפה כדי לפתור אי-ודאויות אקוסטיות.

מערכות ASR מודרניות כמו Whisper (OpenAI, 2022) משיגות שיעורי שגיאות מילוליות מתחת ל-5 אחוזים על דיבור באנגלית נקייה. עבור אוצר מילים ספציפי למזון, כיוונון עדין על תיאורי ארוחות יכול להעלות את הדיוק אפילו יותר, עם שיעורי שגיאות מילוליות מתחת ל-3 אחוזים על מונחים נפוצים במזון.

אתגר אוצר המילים של מזון

אוצר המילים של מזון מציב אתגרים ייחודיים ל-ASR:

  • מילים בשאילה ומונחים זרים: מילים כמו "גnocchi", "tzatziki" ו-"acai" פועלות לפי כללי ההגייה משפות המקור שלהן.
  • הומופונים: "פרח" מול "קמח", "שום" מול "דליפה", "מוסל" מול "שריר".
  • שמות מותג: אלפי שמות מוצרי מזון קנייניים שעשויים לא להופיע בנתוני האימון הכלליים.
  • הגיות אזוריות: "פקאן" נהגה בצורה שונה באזורים דוברי אנגלית.

כיוונון עדין של מודלי ASR על מערכי נתונים בתחום המזון — בדרך כלל מכילים 5,000 עד 50,000 שעות של דיבור הקשור למזון — פותר את האתגרים הללו על ידי לימוד המודל על הדפוסים הסטטיסטיים הספציפיים לתיאורי ארוחות.

שלב 2: הכרת כוונה — האם זו בקשה לרישום מזון?

לא כל מה שהמשתמש אומר לאפליקציית תזונה הוא תיאור של ארוחה. הכרת הכוונה מסווגת את התמלול לאחת מכמה קטגוריות:

כוונה דוגמת הבעת דיבור פעולה
רישום מזון "אכלתי סלט עוף קיסר לארוחת צהריים" העבר ל-NER
רישום מים "שתיתי שני כוסות מים" רישום צריכת מים
שאלה "כמה קלוריות יש באבוקדו?" העבר לעוזר ה-AI
תיקון "בעצם זה היה אורז חום ולא אורז לבן" ערוך את הכניסה הקודמת
מחיקה "מחק את הארוחה האחרונה שלי" מחק את הכניסה

סיווג הכוונה בדרך כלל משתמש במודל טרנספורמר מותאם שמעבד את התמלול המלא ומפלט הפצה של הסתברויות על פני כל הכוונות האפשריות. עבור רישום מזון, הסף מוגדר גבוה — בדרך כלל מעל 0.90 ביטחון — כדי למנוע רישום בטעות של אזכור מזון אקראי.

מחקר מהאיגוד לבלשנות חישובית (ACL, 2023) הראה שמסווגי כוונה ספציפיים לדומיין משיגים ציוני F1 מעל 0.96 כאשר הם מותאמים על פני 10,000 דוגמאות מסומנות, מה שהופך את זה לאחד השלבים האמינים יותר בצינור.

שלב 3: הכרת ישויות שמיות (NER) — חילוץ ישויות מזון

הכרת ישויות שמיות היא השלב שבו ה-AI מזהה ומחילץ את פריטי המזון הספציפיים, הכמויות והמשתנים מתוך משפט. זהו האתגר הלשוני המרכזי של רישום מזון קולי.

סוגי ישויות ב-NER למזון

מודל NER ספציפי למזון מאומן לזהות מספר סוגי ישויות:

סוג ישות תו דוגמאות
פריט מזון FOOD ביצים מקושקשות, חזה עוף, אורז חום
כמות QTY שניים, 200 גרם, כוס, חצי
משתנה MOD קלוי, עם גבינת צ'דר, דל שומן, אורגני
מותג BRAND Chobani, Barilla, Kirkland
הקשר ארוחה MEAL לארוחת בוקר, כחטיף, אחרי אימון
מיכל CONT קערה של, צלחת של, כוס של

לדוגמת ההבעה "שני ביצים מקושקשות עם גבינת צ'דר על טוסט מחיטה מלאה", מודל ה-NER מייצר:

[QTY: שניים] [FOOD: ביצים מקושקשות] [MOD: עם גבינת צ'דר] [MOD: על טוסט מחיטה מלאה]

תיאורי מזון קומפוזיטיביים

אחד האתגרים הקשים ביותר ב-NER הוא תיאורי מזון קומפוזיטיביים — ארוחות המתוארות כקומבינציות של מרכיבים ולא בשמות מנות בודדות. כאשר מישהו אומר "עוף מוקפץ עם ברוקולי, פלפלים מתוקים ורוטב סויה על אורז יסמין", המודל חייב לקבוע אם מדובר במנה אחת קומפוזיטיבית או בחמישה פריטים נפרדים.

מערכות NER מודרניות מתמודדות עם זה באמצעות שיטת תיוג BIO (Beginning, Inside, Outside) משופרת עם ניתוח תלות. מנתח התלות מזהה את הקשרים הסינטקטיים בין המילים, כך ש"עוף מוקפץ" מובן כמנה אחת בעוד "ברוקולי, פלפלים מתוקים ורוטב סויה" מזוהים כרכיבים שלה, ו"אורז יסמין" מזוהה כתוספת נפרדת.

ביצועי מדד על מערכי נתונים של NER למזון כמו FoodBase (2019) והקורס של TAC-KBP למזון מראים ציוני F1 של 0.89 עד 0.93 לחילוץ ישויות מזון, כאשר השגיאות מרוכזות במנות נדירות או אזוריות מאוד.

שלב 4: פתרון אי-ודאויות במזון — מה בדיוק אתה מתכוון?

לאחר שחולצו ישויות המזון, הצינור חייב לפתור אי-ודאויות. השפה הטבעית מלאה במילים שעשויות להתייחס למזונות שונים בהתאם להקשר, אזור או הרגל אישי.

אתגרים נפוצים בפתרון אי-ודאויות

מונח מעורפל פרשנויות אפשריות אות פתרון
צ'יפס צ'יפס תפוחי אדמה (ארה"ב), צ'יפס פריזאי (בריטניה), צ'יפס טורטיה, צ'יפס בננה מיקום המשתמש, משתנים קודמים, הקשר ארוחה
ביסקוויט עוגיה (בריטניה), לחם דמוי סקון (דרום ארה"ב), קרקר (חלקים מאסיה) מיקום המשתמש, מזונות נלווים
ג'לי קינוח ג'לטיני (ארה"ב), ריבה (בריטניה) הקשר ארוחה (על טוסט מול כקינוח)
פודינג קינוח קרמי (ארה"ב), מנה אפויה כמו פודינג יורקשייר (בריטניה) הקשר ארוחה, משתנים
תירס תירס על קלח, תירס משומר, קמח תירס, פופקורן משתנים, הקשר הכנה
טוסט פרוסת לחם, טוסט לשתייה סיווג כוונה (כבר נפתר)

פתרון אי-ודאויות מתבסס על מספר אותות:

  1. מיקום המשתמש: הגדרות השפה והאזור של האפליקציה מספקות בסיס חזק. משתמש אוסטרלי שאומר "צ'יפס" סביר יותר מתכוון לצ'יפס עבה; משתמש אמריקאי סביר יותר מתכוון לצ'יפס דק.
  2. משתנים הקשריים: "צ'יפס עם קטשופ" מרמז על צ'יפס פריזאי; "צ'יפס עם סalsa" מרמז על צ'יפס טורטיה; "שקית צ'יפס" מרמזת על צ'יפס תפוחי אדמה ארוזים.
  3. היסטוריית הארוחות: אם משתמש רושם באופן קבוע ארוחות בסגנון בריטי, מודל פתרון אי-ודאויות מתאים את ההנחות שלו בהתאם.
  4. דמיון הטבעות: הטבעות המבוססות על טרנספורמר ממקמות מזונות במרחב סמנטי שבו מזונות דומים בהקשר מצטברים יחד, מה שמאפשר למודל לבחור את הפרשנות שמתאימה ביותר להקשר הלשוני הסובב.

שלב 5: נורמליזציה של כמויות — המרת שפה טבעית לגרמים

אנשים כמעט ולא מתארים כמויות מזון בגרמים. הם אומרים "כוס", "חופן", "קערה גדולה", "שתי פרוסות", או פשוט כלום (מה שמרמז על מנה סטנדרטית אחת). נורמליזציה של כמויות ממירה את התיאורים הטבעיים הללו לכמויות סטנדרטיות במידות מטריות שניתן למפות לכניסות במסד הנתונים.

ביטויים נפוצים לכמויות וערכיהם המנורמליים

ביטוי טבעי הקשר מזון ערך מנורמל מקור
כוס אורז מבושל 186 גרם הפניה סטנדרטית של USDA
כוס חלב 244 גרם (244 מ"ל) הפניה סטנדרטית של USDA
חופן אגוזים מעורבים 28–30 גרם הסכמה מחקרית תזונתית
חופן אוכמניות 40–50 גרם הערכת מנה של USDA
פרוסה לחם 25–30 גרם ממוצע תעשייתי
פרוסה פיצה (גדולה, 14") 107 גרם הפניה סטנדרטית של USDA
קערה דגנים עם חלב 240–300 גרם סך הכל כמות הפניה של FDA
חתיכה חזה עוף 120–174 גרם מנות סטנדרטיות של USDA
טפטוף שמן זית 5–7 מ"ל סטנדרט קולינרי
רסיס רוטב סויה 5 מ"ל סטנדרט קולינרי

המורכבות כאן היא ש"כוס" של אורז (186 גרם) שונה מאוד במשקל מ"כוס" של תרד (30 גרם) או "כוס" של קמח (125 גרם). נורמליזציה של כמויות חייבת להיות מודעת למזון, לא רק למידות.

גישות מודרניות משתמשות בטבלאות חיפוש עבור יחידות מוגדרות היטב (כוס, כף, כפית) בשילוב עם מודלים של רגרסיה שנלמדו עבור כמויות מעורפלות (חופן, טפטוף, קערה גדולה). מודלים של רגרסיה אלו מאומנים על מערכי נתונים של גודל מנות ממסד הנתונים של USDA למזון ולנתונים תזונתיים (FNDDS) ומקורות דומים.

כאשר לא מצוינת כמות — כמו ב"אני אכלתי ביצים מקושקשות וטוסט" — המערכת מבררת את המנות הסטנדרטיות של USDA, המייצגות את הכמות הנצרכת בדרך כלל באירוע אכילה אחד.

שלב 6: מיפוי למסד נתונים — התאמת ישויות לנתוני תזונה מאומתים

עם ישויות המזון המעובדות וכמויות מנורמלות ביד, הצינור חייב להתאים כל פריט לכניסה ספציפית במסד נתוני תזונה. כאן הצינור של NLP נפגש עם מסד הנתונים של מדע המזון.

תהליך ההתאמה

מיפוי למסד נתונים משתמש בשילוב של:

  1. התאמת מחרוזת מדויקת: חיפוש ישיר של שם המזון במסד הנתונים. מהיר ואמין עבור מזונות נפוצים.
  2. התאמת מחרוזת מעורפלת: מרחק לוין ואלגוריתמים דומים מטפלים בשגיאות כתיב, שמות מקוצרים ושגיאות תמלול קלות. "ביצים מקושקות" עדיין תואם ל"ביצים מקושקשות".
  3. חיפוש סמנטי: הטבעות של משפטים מבוססות טרנספורמר מאפשרות התאמה על סמך משמעות ולא על סמך ניסוח מדויק. "עין שטוחה" תואמת את כניסת המסד ל"ביצה מטוגנת, לא מקושקשת" למרות שהמילים כמעט לא חופפות.
  4. נפילה היררכית: אם לא קיימת התאמה מדויקת למזון, המערכת נופלת לקטגוריה ההורית הקרובה ביותר. "פשטידת בשר מיוחדת של סבתא" תתאים ל"פשטידת בשר, ביתית" במסד הנתונים של USDA.

איכות מסד הנתונים הבסיסי קריטית בשלב זה. מסד נתונים תזונתי מאומת עם כניסות שמקורן בטבלאות הרכב מזון ממשלתיות (USDA FoodData Central, EFSA, FSANZ) ואומתו על ידי תזונאים מספק תוצאות הרבה יותר אמינות מאשר מסדי נתונים שהוזנו על ידי משתמשים שבהם כל אחד יכול להוסיף כניסות.

Nutrola משתמשת במסד נתונים תזונתי מאומת עם כניסות שנבדקו מול נתוני הרכב מזון רשמיים, מה שאומר שהערכים הסופיים של קלוריות ומאקרו המוחזרים על ידי צינור הרישום הקולי מבוססים על נתוני תזונה שנבדקו במעבדה ולא על הערכות שהוזנו על ידי משתמשים. בשילוב עם סריקות ברקוד שמכסות למעלה מ-95 אחוז מהמוצרים הארוזים, שלב המיפוי למסד נתונים משיג שיעורי התאמה גבוהים הן עבור מזונות שלמים והן עבור מוצרים ארוזים.

שלב 7: דירוג ביטחון — מתי לרשום ומתי לשאול

השלב האחרון מאגד את ציוני הביטחון מכל שלב קודם למטריקת ודאות כוללת. ציוני זה קובע אם המערכת רושמת את הארוחה אוטומטית, שואלת את המשתמש לאשר או מבקשת הבהרה.

ספים ודירוגים וביצועים

ביטחון כולל פעולה תרחיש דוגמה
0.95–1.00 רישום אוטומטי ארוחה נפוצה, כמויות ברורות, התאמה מדויקת למסד הנתונים
0.80–0.94 רישום עם בקשת אישור כמות או וריאנט מזון מעט מעורפלים
0.60–0.79 הצגת 2–3 האפשרויות הטובות ביותר לבחירת המשתמש שם מזון מעורפל או מספר התאמות אפשריות
מתחת ל-0.60 בקשה מהמשתמש לנסח מחדש או לספק פרטים נוספים דיבור לא ברור, מזון לא ידוע או תיאור מעורפל מאוד

דירוג הביטחון אינו מספר בודד אלא שילוב משוקלל של תתי ציונים:

  • ביטחון ASR: עד כמה היה בטוח מודל הדיבור לטקסט? (נמדד על ידי ההסתברות של הרצף המפוענח)
  • ביטחון NER: עד כמה היו ברורות ישויות המזון? (נמדד על ידי F1 של גבולות ישות)
  • ביטחון פתרון אי-ודאויות: האם הייתה מנצחת ברורה בין הפרשנויות האפשריות? (נמדד על ידי הפער בהסתברות בין המועמד הראשון לשני)
  • ביטחון התאמת מסד נתונים: עד כמה הייתה ההתאמה קרובה לכניסת מסד נתונים מאומתת? (נמדד על ידי דמיון קוסיני של הטבעות)

המערכת המורכבת של דירוג הביטחון היא מה שמאפשר לרישום קולי להיות גם מהיר וגם מדויק. פרשנויות עם ביטחון גבוה נרשמות מיד, בעוד מקרים עם ביטחון נמוך מעוררים שאלות הבהרה ממוקדות במקום הודעות שגיאה כלליות.

כיצד מודלים של טרנספורמרים ומודלים של שפה גדולה משפרים את רישום המזון הקולי

הצינור כולו המתואר למעלה השתנה בזכות הופעת ארכיטקטורות טרנספורמר (Vaswani et al., 2017) ומודלים של שפה גדולה (LLMs). מערכות רישום קולי ישנות השתמשו במודלים נפרדים, מאומנים באופן עצמאי לכל שלב. מערכות מודרניות משתמשות יותר ויותר במודלים מאוחדים של טרנספורמרים שמטפלים במספר שלבים בו זמנית.

התקדמויות מרכזיות

  • ASR מקצה לקצה: מודלים מבוססי טרנספורמר כמו Whisper מעבדים אודיו ישירות לטקסט ללא ייצוגים פונמיים ביניים, מה שמפחית את התפשטות השגיאות.
  • NER הקשרי: מודלים של שפה מאומנים מראש כמו BERT והגרסאות שלו מבינים מונחי מזון בהקשר, מה שמשפר באופן דרמטי את חילוץ הישויות עבור תיאורים קומפוזיטיביים.
  • פתרון אי-ודאויות ללא אימון: מודלים של שפה גדולה יכולים לפתור אי-ודאויות במונחי מזון שמעולם לא נראו בנתוני האימון על ידי ניצול הידע הרחב שלהם על העולם. מודל שקרא מיליוני מתכונים ותיאורי מזון מבין ש"צ'יפס וגואק" מתכוון לצ'יפס טורטיה עם גואקמולי מבלי שהאומן עליו במפורש.
  • תיקון שיחתי: LLMs מאפשרים שיחות טבעיות לאחר מכן. אם ה-AI רושם "אורז לבן" והמשתמש אומר "בעצם זה היה אורז כרובית", המודל מבין זאת כתיקון ומעדכן את הכניסה בהתאם.

עוזר התזונה של Nutrola מנצל את היכולות הללו, ומאפשר למשתמשים לא רק לרשום ארוחות בקול אלא גם לשאול שאלות נוספות, לבקש שינויים ולקבל תובנות תזונתיות באמצעות שיחה טבעית.

דיוק בעולם האמיתי: כיצד רישום קולי משווה לשיטות אחרות

שאלה טבעית היא כיצד דיוק הרישום הקולי משווה להזנת טקסט ידנית, סריקות ברקוד ורישום מבוסס תמונה.

שיטת רישום דיוק קלוריות ממוצע זמן ממוצע לכל כניסה מאמץ משתמש
חיפוש טקסט ידני 85–90% (תלוי בבחירת המשתמש) 45–90 שניות גבוה
סריקות ברקוד 97–99% (מזונות ארוזים בלבד) 5–10 שניות נמוך
רישום תמונה (AI) 85–92% (משתנה לפי מורכבות המזון) 3–8 שניות נמוך
רישום קולי (AI) 88–94% (משתנה לפי בהירות התיאור) 5–15 שניות מאוד נמוך

יתרון הדיוק של רישום קולי נובע מעושר השפה הטבעית. תמונה אינה יכולה להבחין בין חלב שלם לחלב דל שומן, אך תיאור קולי יכול. תמונה מתקשה עם מנות שכבות כמו בוריטו, אך תיאור מדובר — "בוריטו עוף עם שעועית שחורה, סalsa, שמנת חמוצה וגואקמולי" — מספק ל-AI מידע מפורש על המרכיבים.

השילוב של רישום קולי עם רישום תמונה מכסה את החולשות של כל שיטה. הקול מספק פרטי מרכיב; התמונות מספקות הערכת גודל חזותית. השימוש בשני השיטות יחד, כפי שנתמך במערכת הרישום המולטי-מודלית של Nutrola לצד סריקות ברקוד, מספק את הדיוק המעשי הגבוה ביותר למעקב יומיומי אחר ארוחות.

פרטיות ועיבוד על המכשיר

נתוני קול הם inherently אישיים. מערכות רישום קולי מודרניות מתמודדות עם פרטיות באמצעות מספר בחירות ארכיטקטוניות:

  • ASR על המכשיר: המרת דיבור לטקסט מתבצעת על מכשיר המשתמש, כך שהאודיו הגולמי לא עוזב את הטלפון.
  • העברת טקסט בלבד: רק הטקסט המתומלל נשלח לשרתים בענן לצורך NER ומיפוי למסד נתונים.
  • אין אחסון אודיו: הקלטות אודיו נמחקות מיד לאחר התמלול.
  • צינור מוצפן: כל הנתונים המועברים בין שלבי העיבוד משתמשים בהצפנה מקצה לקצה.

צעדים אלו מבטיחים שהנוחות של רישום קולי אינה באה על חשבון הפרטיות. Nutrola מעבדת נתוני קול עם עקרונות פרטיות אלו, מסנכרנת תוצאות תזונה ל-Apple Health ול-Google Fit מבלי לחשוף נתוני אודיו גולמיים.

שאלות נפוצות

כמה מדויק רישום המזון הקולי בהשוואה להזנת מזון ידנית?

רישום המזון הקולי משיג דיוק קלוריות של 88 עד 94 אחוז בממוצע, בהשוואה או מעט טוב יותר מחיפוש טקסט ידני (85 עד 90 אחוז). היתרון של הקול הוא שהמשתמשים נוטים לספק תיאורים מפורטים יותר באופן טבעי — כולל שיטות הכנה, תוספות ופרטי מרכיב — מה שנותן ל-AI יותר מידע לעבוד איתו מאשר חיפוש טקסט פשוט.

האם AI לרישום קולי יכול להבין תיאורי מזון עם מספר פריטים במשפט אחד?

כן. מודלי NER מודרניים מאומנים לחלץ מספר ישויות מזון מהבעת דיבור אחת. כאשר אתה אומר "סלט עוף קלוי עם אבוקדו, עגבניות שרי ורוטב בלסמי", המודל יפיק ארבע או חמש ישויות מזון נפרדות, כל אחת ממופה לכניסת מסד נתונים משלה עם ערכי קלוריות ומאקרו נפרדים.

מה קורה כאשר ה-AI אינו בטוח לגבי מה שאמרתי?

המערכת משתמשת בדירוג ביטחון מרובה-שכבתי. אם הביטחון הכולל נמוך מ-0.80, תראה בקשת אישור המראה את הפרשנות הטובה ביותר של ה-AI. מתחת ל-0.60, האפליקציה תבקש ממך להבהיר — לדוגמה, "האם התכוונת לצ'יפס תפוחי אדמה או לצ'יפס פריזאי?" גישה זו ממזערת גם רישומים שגויים וגם הפסקות מיותרות.

האם רישום קולי עובד ללא חיבור לאינטרנט?

מודלים מודרניים של ASR על המכשיר יכולים להמיר דיבור לטקסט ללא חיבור לאינטרנט. עם זאת, שלבי מיפוי למסד נתונים ופתרון אי-ודאויות בדרך כלל דורשים חיבור לשרת כדי לגשת למסד הנתונים המלא של תזונה. כמה אפליקציות, כולל Nutrola, מאחסנות מקומית מזונות שנרשמו לעיתים קרובות כך שהארוחות הנפוצות שלך יכולות להיות רשומות בקול גם ללא חיבור.

כיצד רישום קולי מתמודד עם מבטאים ודוברים שאינם דוברי אנגלית?

מודלים ASR הנוכחיים כמו Whisper מאומנים על נתוני דיבור מגוונים ורב-לשוניים המכסים מגוון רחב של מבטאים. שיעורי שגיאות מילוליות עבור דוברי אנגלית עם מבטאים בדרך כלל גבוהים ב-2 עד 5 אחוזים מאשר עבור דוברי אנגלית ילידים, אך אוצר המילים הספציפי למזון — שהוא ברובו סטנדרטי — נוטה להיות מזוהה בצורה אמינה יותר מאשר דיבור כללי. כיוונון עדין על אודיו בתחום המזון מצמצם עוד יותר את הפער בדיוק.

איזו טכנולוגיית NLP מפעילה את רישום המזון הקולי?

הצינור משתמש במודלים מבוססי טרנספורמר כמעט בכל שלב. הכרת הדיבור האוטומטית משתמשת במודלים של טרנספורמר מקודד-מפענח (דומה לארכיטקטורת Whisper). הכרת הכוונה ו-NER משתמשות במודלים מותאמים ממשפחת BERT. פתרון אי-ודאויות ומיפוי למסד נתונים משתמשים בטבעות משפטיות עבור דמיון סמנטי. מודלים של שפה גדולה מספקים תיקון שיחתי והבנה ללא אימון של תיאורי מזון חדשים.

האם אני יכול לתקן ארוחה שנרשמה בקול לאחר מעשה?

כן. מערכות רישום קולי עם עוזרי LLM תומכות בתיקונים טבעיים. אתה יכול לומר "שנה את האורז לאורז כרובית" או "מחק את הגבינה מהארוחה האחרונה שלי" וה-AI יפרש את כוונת התיקון ויעדכן את הכניסה הקיימת במקום ליצור חדשה. עוזר התזונה של Nutrola תומך בזרימת עבודה של עריכה שיחתית זו.

כמה מהר רישום המזון הקולי מהדיבור ועד הכניסה הרשומה?

השהייה הכוללת עבור תיאור ארוחה טיפוסי היא 1.5 עד 3 שניות. ASR לוקח 0.3 עד 0.8 שניות עבור הבעת דיבור קצרה. NER ופתרון אי-ודאויות מוסיפים 0.2 עד 0.5 שניות. מיפוי למסד נתונים ודירוג ביטחון לוקחים עוד 0.3 עד 0.7 שניות. השהייה ברשת מהווה את השאר. התוצאה היא חוויית רישום שמרגישה כמעט מיידית.

האם רישום קולי טוב יותר מרישום תמונה למעקב אחר קלוריות?

אף שיטה אינה טובה יותר באופן אוניברסלי. רישום קולי מצטיין כאשר אתה יכול לתאר מרכיבים בדיוק — עבור מנות ביתיות, מנות מעורבות ומזונות שנראים דומים אך שונים תזונתית (כמו חלב שלם מול חלב דל שומן). רישום תמונה מצטיין עבור מזונות בעלי מראה ייחודי שבהם גודל המנה הוא המשתנה העיקרי. השימוש בשתי השיטות יחד מספק את המעקב המקיף ביותר, ולכן Nutrola תומכת ברישום תמונה, קול, ברקוד ורישום ידני באפליקציה אחת שמתחילה ב-2.50 אירו לחודש עם ניסיון חינם של 3 ימים.

מוכנים לשנות את מעקב התזונה שלכם?

הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!