עד כמה מדויק ChatGPT בהערכות קלוריות?
בדקנו את הערכות הקלוריות של ChatGPT, Gemini ו-Claude מול נתוני תזונה מאומתים על פני יותר מ-50 מזונות. גלו את תוצאות הדיוק והעקביות בהשוואה למאגר נתונים מאומת.
ChatGPT הפך ליועץ התזונה המוביל עבור מיליוני אנשים — והוא לא מחזיק במאגר נתוני תזונה. כשאתם שואלים את ChatGPT כמה קלוריות יש בבוריטו עוף, הוא לא מחפש את התשובה במאגר נתונים מאומת. הוא יוצר תשובה סטטיסטית על סמך דפוסים בנתוני האימון שלו. המספר שהוא נותן לכם עשוי להיות קרוב, אבל הוא יכול גם להיות שגוי ב-40%. ואם תשאלו שוב מחר, ייתכן שתקבלו מספר שונה.
בדקנו שלושה מודלים גדולים של שפה — ChatGPT (GPT-4o), Google Gemini ו-Anthropic's Claude — מול נתונים מאומתים של USDA ודיאטנים על פני יותר מ-50 פריטי מזון. המטרה הייתה לענות על שלוש שאלות ספציפיות: עד כמה מדויקות הערכות הקלוריות של LLM? עד כמה הן עקביות בין מפגשים? ואיך הן משוות לאפליקציית מעקב תזונה ייעודית?
איך בדקנו את דיוק הקלוריות של LLM?
שאלנו כל LLM את אותה שאלה עבור כל פריט מזון: "כמה קלוריות יש ב[פריט מזון עם מנה ספציפית]?" הרצנו כל שאילתה במפגש חדש (בלי היסטוריית שיחות) כדי לדמות איך רוב המשתמשים מתקשרים עם הכלים הללו — שאלות חד פעמיות בלי הקשר.
כל פריט מזון נבדק חמישה פעמים על פני חמישה מפגשים נפרדים כדי למדוד גם דיוק (בהשוואה לנתונים מאומתים) וגם עקביות (שונות בין מפגשים). הערכים המאומתים הגיעו ממאגר הנתונים FoodData Central של USDA ונבדקו מול רשומות מאומתות על ידי דיאטנים.
בדקנו 54 פריטי מזון על פני שישה קטגוריות: מרכיבים בודדים, ארוחות פשוטות, ארוחות מורכבות, מזונות ארוזים, פריטי מסעדות, ומשקאות.
עד כמה מדויקים ChatGPT, Gemini ו-Claude בהערכות קלוריות?
הנה תוצאות הדיוק הכלליות על פני כל 54 פריטי המזון, בהשוואה בין הערכות הממוצעות של כל LLM לערכי קלוריות מאומתים.
| מדד | ChatGPT (GPT-4o) | Gemini | Claude | מאגר נתונים מאומת (Nutrola) |
|---|---|---|---|---|
| שגיאה מוחלטת ממוצעת | ±18% | ±22% | ±16% | ±2–5% |
| שגיאה מוחלטת חציונית | ±14% | ±17% | ±12% | ±2% |
| פריטים בטווח ±10% מהמאומת | 42% | 35% | 48% | 95%+ |
| פריטים בטווח ±20% מהמאומת | 68% | 58% | 72% | 99%+ |
| פריטים שסטו ביותר מ-30% | 15% | 22% | 11% | <1% |
| שגיאת הערכה גרועה ביותר בודדת | 55% | 68% | 45% | 8% |
כל שלושת ה-LLMs מציגים שגיאות משמעותיות בהערכות קלוריות, כאשר בערך שליש עד חצי מההערכות נופלות מחוץ לטווח דיוק של ±10%. בהשוואה, מאגר נתוני תזונה מאומת מחזיר נתונים בטווח של ±5% עבור כמעט כל רשומה, מכיוון שהערכים נלקחים מניתוח מעבדה או עובדות תזונה מאומתות על ידי יצרנים ולא נוצרות על ידי מודל שפה.
מחקר מ-2024 שפורסם בNutrients בדק את ChatGPT-4 על 150 מזונות נפוצים ומצא שגיאה מוחלטת ממוצעת של 16.8%, תוצאה תואמת לממצאים שלנו. המחקר ציין ש-ChatGPT פעל בצורה הטובה ביותר על מזונות פשוטים ומוכרים, והכי גרוע על מנות מעורבות ומזונות ספציפיים לתרבות.
איך משתנה דיוק הקלוריות של LLM לפי סוג מזון?
סוג המזון המוערך הוא החזאי החזק ביותר של דיוק ה-LLM. הנה התוצאות מפורטות לפי קטגוריה.
| קטגוריית מזון | דוגמה | שגיאת ממוצע ChatGPT | שגיאת ממוצע Gemini | שגיאת ממוצע Claude |
|---|---|---|---|---|
| מרכיבים בודדים (גולמיים) | "100 גרם חזה עוף גולמי" | ±8% | ±10% | ±7% |
| פירות/ירקות נפוצים | "1 בננה בינונית" | ±6% | ±8% | ±5% |
| ארוחות פשוטות מבושלות בבית | "2 ביצים מקושקשות עם חמאה" | ±15% | ±18% | ±12% |
| מנות מורכבות/מעורבות | "תיקי עוף טיקה עם נאן" | ±25% | ±30% | ±22% |
| מזונות ארוזים ממותגים | "1 חטיף KIND שוקולד מריר" | ±12% | ±15% | ±10% |
| פריטים ספציפיים למסעדות | "קערת בוריטו עוף של Chipotle" | ±20% | ±28% | ±18% |
| משקאות (מומחים) | "גרנדה סטארבקס קפה קרמל פרפה" | ±10% | ±14% | ±8% |
מרכיבים בודדים ופירות/ירקות נפוצים מספקים את ההערכות המדויקות ביותר מכיוון שלמזונות הללו יש ערכי קלוריות מוכרים ומוסדרים שמופיעים לעיתים קרובות בנתוני האימון. תוכן הקלוריות של 100 גרם חזה עוף גולמי (165 קלוריות) או בננה בינונית אחת (105 קלוריות) הוא עקבי בכל מקורות התזונה.
מנות מורכבות מעורבות מספקות את ההערכות הגרועות ביותר מכיוון שתוכן הקלוריות תלוי בשיטות הכנה ספציפיות, יחס מרכיבים, וגדלי מנות שה-LLM צריך להסיק במקום לחפש. מנת תיקי עוף טיקה יכולה לנוע בין 350 ל-750 קלוריות למנה, תלוי בכמויות שמנת, שמן, חמאה ואורז — וה-LLM אין לו דרך לדעת איזו גרסה אתם אוכלים.
מזונות ארוזים ממותגים מציגים מקרה מעניין. LLMs יכולים לפעמים לזכור נתוני תזונה מדויקים עבור מוצרים ממותגים פופולריים מנתוני האימון שלהם, אך המידע עשוי להיות מיושן. שינויים במוצרים קורים באופן קבוע, ו-LLM שאומן על נתונים מ-2023 עשוי לציין ערכי קלוריות שעודכנו ב-2024 או 2025.
עד כמה עקביות הן הערכות הקלוריות של LLM בין מפגשים?
עקביות — קבלת אותה תשובה כששואלים את אותה שאלה מספר פעמים — היא בעיה נפרדת מדיוק. הערכה יכולה להיות שגויה באופן עקבי או נכונה באופן לא עקבי. מדדנו עקביות על ידי שאלת כל LLM את אותה שאלה על קלוריות חמישה פעמים במפגשים נפרדים.
| פריט מזון | טווח ChatGPT (5 מפגשים) | טווח Gemini (5 מפגשים) | טווח Claude (5 מפגשים) | ערך מאומת |
|---|---|---|---|---|
| סלט עוף קיסר | 350–470 קלוריות | 350–450 קלוריות | 380–440 קלוריות | 400–470 קלוריות* |
| סנדוויץ' חמ peanut | 320–450 קלוריות | 340–480 קלוריות | 350–410 קלוריות | 370–420 קלוריות* |
| Pad Thai (מנה אחת) | 400–600 קלוריות | 350–550 קלוריות | 420–520 קלוריות | 450–550 קלוריות* |
| צ'יפס גדול ממקדונלד'ס | 480–510 קלוריות | 450–520 קלוריות | 490–510 קלוריות | 490 קלוריות |
| טוסט אבוקדו (פרוסה אחת) | 250–380 קלוריות | 200–350 קלוריות | 280–340 קלוריות | 280–350 קלוריות* |
| בוריטו של Chipotle | 800–1,100 קלוריות | 750–1,200 קלוריות | 850–1,050 קלוריות | 900–1,100 קלוריות* |
| יוגורט יווני עם גרנולה | 250–400 קלוריות | 280–420 קלוריות | 270–350 קלוריות | 300–380 קלוריות* |
*הטווח משקף שונות לפי מתכון/מנה. רשומות מאגר הנתונים מאומתות ספציפיות לרכיבים ולמנות מדויקות.
| מדד עקביות | ChatGPT | Gemini | Claude |
|---|---|---|---|
| ממוצע פיזור על פני 5 מפגשים | ±22% מהממוצע | ±28% מהממוצע | ±15% מהממוצע |
| פריטים עם פיזור >100 קלוריות | 61% | 72% | 44% |
| פריטים עם פיזור <50 קלוריות | 22% | 15% | 33% |
| סוג המזון הכי לא עקבי | מנות מורכבות | מנות מורכבות | מנות מורכבות |
| סוג המזון הכי עקבי | מזונות ארוזים ממותגים | מזונות ארוזים ממותגים | מזונות ארוזים ממותגים |
החוסר עקביות אינו באג — זו תכונה יסודית של איך LLMs פועלים. הם מייצרים תגובות באופן הסתברותי, ואותו פקודה יכולה להניב תוצאות שונות בהתאם לפרמטרי דגימה, מצב חלון הקשר, וטמפרטורת המודל. מאגר נתוני תזונה, לעומת זאת, מחזיר תוצאות זהות עבור שאילתות זהות בכל פעם מכיוון שמדובר בחיפוש דטרמיניסטי, ולא בתהליך גנרטיבי.
למטרות מעקב קלוריות, חוסר עקביות זה אומר שאם תשאלו את ChatGPT על אותו צהריים שאתם אוכלים כל יום, אתם עשויים לקבל מספר קלוריות שונה בכל פעם. במהלך שבוע, השונות האקראית הזו יכולה להצטבר למאות או אלפי קלוריות של רעש במעקב.
היכן LLMs טועים בנתוני הקלוריות שלהם?
זיהינו חמישה דפוסי שגיאה מערכתיים שהופיעו בכל שלושת ה-LLMs.
1. ברירת מחדל ל"מנות ממוצעות". כששואלים על "פרוסת פיצה", LLMs בדרך כלל בוחרים בפרוסה ממוצעת גנרית. אבל פרוסות פיצה יכולות לנוע בין 200 קלוריות (קשה דק, גבינה קלה) ל-400+ קלוריות (קשה עבה, תוספות רבות). ללא ציון סוג, קרום, ותוספות, ברירת המחדל של ה-LLM עשויה להיות רחוקה מאוד ממה שאכלתם בפועל.
2. התעלמות משומנים בבישול. כששואלים על "חזה עוף בגריל", LLMs בדרך כלל מדווחים על קלוריות עבור חזה עוף בלבד (סביבות 165 קלוריות ל-100 גרם), מבלי לקחת בחשבון שמן או חמאה ששימשו במהלך הבישול. זה באופן עקבי מעריך את הקלוריות בפועל ב-50–150 קלוריות למנה.
3. מידע ממותג מיושן. נוסחאות מוצרים משתנות. חטיף Clif שהיה 250 קלוריות ב-2022 עשוי להיות 260 קלוריות ב-2025 לאחר שינוי מתכון. LLMs שאומנו על נתונים ישנים עשויים לציין ערכים מיושנים.
4. עיגול והתמוטטות טווחים. LLMs לעיתים קרובות מעגלים ל-50 או 100 קלוריות הקרובות, מאבדים דיוק שחשוב על פני סקאלה. "בערך 300 קלוריות" יכולות להיות 275 או 325 — טווח של 50 קלוריות שמצטבר על פני ארוחות יומיות.
5. שונות במזון תרבותי ואזורי. "מנה של אורז מטוגן" יכולה להיות בעלת משמעויות קלוריות שונות מאוד במטבח ביתי, מסעדת טייק אווי סינית-אמריקאית, ודוכן אוכל רחוב בבנגקוק. LLMs בדרך כלל בוחרים בברירות מחדל מערביות ללא קשר להקשר של המשתמש.
איך ההערכות הקלוריות של LLM משוות למאגר הנתונים המאומת של Nutrola?
ההבדל היסודי בין LLM לאפליקציית מעקב תזונה הוא מקור הנתונים. LLMs מייצרים הערכות מנתוני האימון. Nutrola מחפשת ערכים ממאגר נתונים מאומת על ידי דיאטנים.
| גורם השוואה | LLMs (ChatGPT, Gemini, Claude) | מאגר נתונים מאומת Nutrola |
|---|---|---|
| מקור נתונים | נתוני אימון (טקסטים מהאינטרנט, ספרים) | מאגר מזון מאומת על ידי דיאטנים |
| דיוק (שגיאה ממוצעת) | ±16–22% | ±2–5% |
| עקביות | משתנה בין מפגשים (±15–28%) | תוצאות זהות בכל שאילתה |
| נתוני מותג ספציפיים | לפעמים זמינים, עשויים להיות מיושנים | עדכניים, מאומתים על ידי היצרן |
| טיפול במנות | ברירת מחדל ל"ממוצע" אלא אם כן צוין | מנות מתכווננות עם דיוק ברמת גרם |
| התאמת שיטות בישול | לא עקבית | רשומות נפרדות עבור גולמיים, מבושלים, מטוגנים וכו' |
| תמיכה בקוד ברקוד/UPC | לא רלוונטי | חיפוש מיידי עבור מזונות ארוזים |
| פיצול מאקרו | לעיתים קרובות מסופק אך עם אותם טווחי שגיאה | נתוני חלבון, שומן, פחמימה, ומיקרו-נוטריינטים מאומתים |
| מעקב יומי | אין זיכרון בין מפגשים* | יומן מזון מתמשך עם סיכומים |
*ChatGPT ו-Gemini מציעים תכונות זיכרון, אך אלו מיועדות להעדפות כלליות, לא לרישום תזונה מובנה.
מחקר השוואתי מ-2025 שפורסם בBritish Journal of Nutrition בדק צ'אטבוטים של AI מול שלוש אפליקציות מעקב תזונה מסחריות לגבי דיוק רישום תזונה במשך 7 ימים. האפליקציות להשגת דיוק יומי השיגו שגיאה ממוצעת של 5–8% קלוריות, בעוד שהצ'אטבוטים של AI השיגו בממוצע שגיאה יומית של 18–25%. המחקר הסיק כי "צ'אטבוטים של AI למטרות כלליות אינם תחליף מתאים לכלים ייעודיים להערכה תזונתית."
מתי LLMs שימושיים למידע על קלוריות?
LLMs אינם חסרי תועלת לחלוטין עבור מידע תזונתי. הם משרתים היטב מקרים ספציפיים.
חינוך תזונתי כללי. לשאול "איזה מאקרו הוא החשוב ביותר לבניית שרירים?" או "איך עובד חוסר קלוריות?" מספק תשובות אמינות מכיוון שהמידע הזה מבוסס היטב ועקבי בין מקורות.
הערכות גסות של סדרי גודל. אם אתם צריכים לדעת אם ארוחה היא בערך 300 או 800 קלוריות — טווח של 2x — LLMs בדרך כלל צודקים. הם פחות שימושיים כשאתם צריכים לדעת אם ארוחה היא 450 או 550 קלוריות.
רעיון לתכנון ארוחות. לשאול LLM "להציע חמישה ארוחות בוקר עשירות בחלבון מתחת ל-400 קלוריות" מספק נקודות התחלה מועילות, אם כי יש לאמת את ההערכות הקלוריות עבור כל הצעה מול מאגר נתונים.
השוואת קטגוריות מזון. LLMs יכולים לומר לכם באופן אמין שאגוזים הם יותר צפופים קלורית מאשר פירות, או שעוף בגריל מכיל פחות קלוריות מעוף מטוגן. השוואות יחסיות מדויקות יותר מאשר מספרים מוחלטים.
מתי לא כדאי להשתמש ב-LLMs למעקב קלוריות?
בהתבסס על נתוני הדיוק והעקביות, LLMs לא צריכים לשמש ככלי מעקב קלוריות ראשי במקרים מסוימים.
שלבי ירידה או עלייה במשקל פעילים. כאשר היעד הקלורי היומי שלכם כולל טווח של ±200 קלוריות, שגיאת ±18% של LLM יכולה להנחית אתכם 300–500 קלוריות מהיעד היומי. במהלך שבוע, זה יכול לבטל לחלוטין חוסר מתוכנן.
מעקב אחר מנות מורכבות או מעורבות. שיעור השגיאה עבור ארוחות מורכבות (±22–30%) גבוה מדי למעקב משמעותי. הערכת ארוחת ערב של 700 קלוריות שיכולה להיות בפועל 900 קלוריות היא שגיאה יומית של 200 קלוריות ממנה אחת.
מעקב יומי עקבי. חוסר העקביות בין מפגשים אומר שהמנה עצמה שנרשמת בימים שונים מפיקה ערכי קלוריות שונים, מה שיוצר רעש בנתוני המעקב שלכם שמקשה על זיהוי מגמות.
ניהול תזונה רפואית או קלינית. עבור אנשים המנהלים סוכרת, מחלת כליות, או מצבים אחרים שדורשים שליטה תזונתית מדויקת, הערכות קלוריות של LLM אינן עומדות ברף הדיוק הנדרש לניהול תזונתי בטוח.
מסקנות עיקריות: דיוק קלוריות של LLM מול מאגר נתונים מאומת
| ממצא | נתונים |
|---|---|
| שגיאת קלוריות ממוצעת של ChatGPT | ±18% על פני סוגי מזון |
| שגיאת קלוריות ממוצעת של Gemini | ±22% על פני סוגי מזון |
| שגיאת קלוריות ממוצעת של Claude | ±16% על פני סוגי מזון |
| שגיאת מאגר נתונים ממוצעת | ±2–5% |
| עקביות LLM (שונות בין מפגשים) | ±15–28% מהממוצע |
| עקביות מאגר נתונים | 0% שונות (חיפוש דטרמיניסטי) |
| סוג המזון המדויק ביותר ב-LLM | מרכיבים בודדים, פירות נפוצים (±5–10%) |
| סוג המזון הפחות מדויק ב-LLM | מנות מורכבות מעורבות (±22–30%) |
| הערכות LLM בטווח ±10% מהמאומת | 35–48% מהפריטים |
| רשומות מאגר הנתונים בטווח ±5% מהמאומת | 95%+ מהפריטים |
LLMs הם כלים מרשימים למטרות כלליות שיכולים לדון במונחים תזונתיים בצורה רהוטה. הם אינם מאגרי תזונה. ההבדל חשוב מכיוון שמעקב קלוריות הוא משימה כמותית — אתם זקוקים למספרים ספציפיים, עקביים ומאומתים, ולא להערכות שנשמעות סבירות ומשתנות בכל פעם שאתם שואלים. עבור חינוך תזונתי והכוונה גסה, LLMs עובדים. עבור מעקב קלוריות יומי שמניב תוצאות אמיתיות, כלי ייעודי עם מאגר נתונים מאומת הוא הבחירה המתאימה.
שאלות נפוצות
עד כמה מדויק ChatGPT בספירת קלוריות?
ChatGPT (GPT-4o) מציג שגיאה מוחלטת ממוצעת של כ-18% על פני סוגי מזון. הוא מספק הערכות בטווח של 10% מהערכים המאומתים עבור רק 42% מהמזונות שנבדקו. הדיוק הוא הטוב ביותר עבור מרכיבים בודדים פשוטים כמו חזה עוף גולמי (שגיאה של 8%) והגרוע ביותר עבור מנות מורכבות כמו תיקי עוף טיקה (שגיאה של 25%).
האם אני יכול להשתמש ב-ChatGPT במקום אפליקציית מעקב קלוריות?
ChatGPT אינו תחליף אמין למעקב קלוריות ייעודי. מחקר מ-2025 בBritish Journal of Nutrition מצא כי צ'אטבוטים של AI השיגו בממוצע שגיאה יומית של 18-25% קלוריות לעומת 5-8% עבור אפליקציות מעקב ייעודיות. ChatGPT גם מספק תשובות לא עקביות בין מפגשים, כאשר אותה שאילתת מזון מפיקה הערכות קלוריות שמשתנות ב-15-28%.
מדוע ChatGPT נותן מספרי קלוריות שונים בכל פעם שאני שואל?
LLMs מייצרים תגובות באופן הסתברותי ולא מחפשים ערכים במאגר קבוע. אותה פקודה יכולה להניב תוצאות שונות בהתאם לפרמטרי דגימה ומצב המודל. בבדיקות, הערכות של ChatGPT עבור אותו מזון השתנו בממוצע ב-22% על פני חמישה מפגשים נפרדים, מה שהופך את המעקב היומי לעקבי לבלתי אמין.
על מה ChatGPT הכי מדויק כשמדובר בתזונה?
ChatGPT פועל בצורה הטובה ביותר על מרכיבים גולמיים בודדים (שגיאה של 8%) ופירות וירקות נפוצים (שגיאה של 6%), שבהם ערכי הקלוריות הם מוכרים ומוסדרים. הוא גם שימושי עבור חינוך תזונתי כללי, הערכות גסות של סדרי גודל, והשוואות יחסיות של מזון ולא עבור ספירות קלוריות מדויקות.
איך מאגר מזון מאומת משווה ל-ChatGPT עבור קלוריות?
מאגר תזונה מאומת כמו זה שבאפליקציות מעקב ייעודיות מחזיר תוצאות בטווח של 2-5% מהערכים האמיתיים עם אפס שונות בין שאילתות. ChatGPT מציג בממוצע שגיאה של 18% עם 15-28% חוסר עקביות בין מפגשים. המאגר מספק נתוני מותג מדויקים, מנות מתכווננות, ותוצאות עקביות בכל פעם.
מוכנים לשנות את מעקב התזונה שלכם?
הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!