מאגר הנתונים הפתוח של Nutrola: 500K+ מזונות זמינים להורדה

הורד את מאגר הנתונים הפתוח של Nutrola עם 500K+ רשומות מאומתות כולל קלוריות, מקרו, מיקרו וגדלי מנות. זמין בפורמטי CSV ו-JSON למחקר, פיתוח וחינוך.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

נתוני תזונה איכותיים קשה למצוא. חוקרים מבזבזים שבועות בניקוי מסדי נתונים ממשלתיים. מפתחים כותבים סקריפטים שברוב המקרים נשברים כל חודש. סטודנטים כותבים עבודות תזה ומסתפקים בדוגמאות קטנות ומיושנות כי הרכבת מאגר נתונים מקיף מאפס אינה מציאותית במסגרת זמן אקדמית.

בניתם את מאגר המזון של Nutrola כדי לתמוך באפליקציית מעקב הקלוריות שלנו, ובמהלך שלוש השנים האחרונות השקענו רבות כדי להפוך את הנתונים לאמינים, מקיפים ומסודרים היטב. היום אנו משחררים תת-קבוצה מעובדת של מאגר הנתונים הזה כמאגר פתוח: מעל 500,000 רשומות מזון מאומתות זמינות להורדה חינם בפורמטי CSV ו-JSON.

פוסט זה מכסה את כל מה שצריך לדעת על מאגר הנתונים — מה יש בו, איך להוריד אותו, הסכימה, רישוי, מתודולוגיית איכות, ואיך הוא משתווה למקורות נתוני תזונה אחרים הזמינים לציבור.

מה יש במאגר הנתונים

מאגר הנתונים הפתוח של Nutrola מכיל מעל 500,000 רשומות מזון הכוללות מרכיבים גולמיים, מזונות כלליים, מוצרים מותגים ומנות מסעדות נפוצות. כל רשומה אומתה דרך מערכת בקרת איכות רב-שכבתית, אותה תיארנו בפירוט בפוסט שלנו על איך בנינו את מאגר המזון שלנו.

כל רשומת מזון כוללת את הנתונים הבאים:

  • שם המזון — השם הנפוץ של פריט המזון באנגלית, כולל שמות מותגים כשיש
  • קלוריות — תכולת אנרגיה בקילוקלוריות (kcal) ל-100 גרם ולמנה
  • מקרו-נוטריינטים — חלבון, שומן כללי, שומן רווי, שומן טראנס, פחמימות כוללות, סיבים תזונתיים, סוכרים כוללים וסוכרים מוספים, כולם בגרמים
  • מיקרו-נוטריינטים — 30+ ויטמינים ומינרלים כולל ויטמין A, ויטמין C, ויטמין D, ויטמין E, ויטמין K, תיאמין, ריבופלאבין, ניאצין, ויטמין B6, חומצה פולית, ויטמין B12, סידן, ברזל, מגנזיום, זרחן, אשלגן, נתרן, אבץ, נחושת, מנגן, סלניום ועוד
  • גדלי מנות — תיאור גודל המנה הסטנדרטי (למשל, "תפוח בינוני אחד," "1 כוס מבושל"), משקל המנה בגרמים, ועד שלוש גדלי מנות חלופיים לכל מזון
  • קטגוריית המזון — סיווג היררכי באמצעות הטקסונומיה הפנימית שלנו (למשל, חלב > גבינה > גבינת קשה)
  • מדינת מקור — המדינה או האזור העיקריים שבהם נמכר מוצר המזון או שבו מרכיב המזון נפוץ
  • ברקוד (כאשר זמין) — קודי UPC או EAN עבור מוצרים מותגים
  • תגי מקור נתונים — אינדיקטורים המצביעים על כך שהרשומה נובעת ממסדי נתונים ממשלתיים, נתוני יצרן, ניתוח מעבדה, או צוות האימות הפנימי שלנו

נתוני דוגמה

הנה מבחר רשומות מהמאגר כדי לתת לך מושג על המבנה והפרטים:

food_id food_name category country calories_per_100g protein_g fat_g carbs_g fiber_g serving_desc serving_g
NF-001247 חזה עוף, גולמי, ללא עור עופות > עוף US 120 22.5 2.6 0.0 0.0 1 חזה (174g) 174
NF-008391 יוגורט יווני Fage Total 0% חלב > יוגורט > יווני GR 54 10.3 0.0 3.0 0.0 1 מיכל (150g) 150
NF-014205 אורז בסמטי, לבן, מבושל דגנים > אורז IN 130 2.7 0.3 28.2 0.4 1 כוס (158g) 158
NF-022876 אבוקדו, חס, גולמי פירות > טרופיים MX 160 2.0 14.7 8.5 6.7 1/2 אבוקדו (68g) 68
NF-031560 פסטה Barilla Penne Rigate, יבשה פסטה > יבשה IT 359 12.5 2.0 71.2 3.0 2 אונקיות (56g) 56
NF-045892 קימצ'י, כרוב Napa מסורתי ירקות > מותססים KR 15 1.1 0.5 2.4 1.6 1/2 כוס (75g) 75
NF-053714 סלמון, אטלנטי, גולמי, מגודל דגים > סלמון NO 208 20.4 13.4 0.0 0.0 1 פילה (113g) 113
NF-067283 חומוס, משומר, מסונן קטניות > שעועית US 119 6.3 2.0 18.2 5.4 1/2 כוס (120g) 120

המאגר המלא כולל עוד עמודות רבות עבור מיקרו-נוטריינטים, גדלי מנות חלופיים, נתוני ברקוד ותגי מקור. הטבלה למעלה מציגה את השדות התזונתיים המרכזיים.

פורמטי נתונים

המאגר זמין בשני פורמטים:

CSV

קובץ ה-CSV משתמש בקידוד UTF-8 עם מפרידי פסיקים. השורה הראשונה מכילה כותרות עמודות. שדות שמכילים פסיקים מוקפים במרכאות כפולות. ערכים ריקים מיוצגים כשדות ריקים.

פורמט ה-CSV אידיאלי עבור כלים כמו Excel ו-Google Sheets, תוכנות סטטיסטיות כמו R ו-SPSS, וחקר נתונים מהיר עם כלים כמו csvkit או xsv.

קובץ: nutrola-open-food-dataset-v3.csv (כ-210 MB לא דחוס, 48 MB דחוס)

JSON

קובץ ה-JSON מכיל מערך של אובייקטים, אחד עבור כל רשומת מזון. אובייקטים מקוננים משמשים עבור שדות מובנים כמו גדלי מנות (שכוללים תיאור, משקל בגרמים, ושקילות במיליליטרים כשיש) ופרופילי מיקרו-נוטריינטים.

פורמט ה-JSON מתאים יותר לפיתוח אפליקציות, ייבוא למסדי נתונים, וכל תהליך שבו יש צורך לשמור על המבנה ההיררכי של גדלי מנות וקבוצות נוטריינטים.

קובץ: nutrola-open-food-dataset-v3.json (כ-340 MB לא דחוס, 62 MB דחוס)

שני הקבצים זמינים גם כארכיונים דחוסים כדי להקטין את זמני ההורדה.

סכמת נתונים

הנה הסכמה המלאה עם תיאורים עבור כל שדה במאגר הנתונים:

Field Name Type Description
food_id string מזהה ייחודי של Nutrola עבור רשומת המזון (פורמט: NF-XXXXXX)
food_name string השם הנפוץ של המזון, כולל מותג כשיש
category_l1 string קטגוריית המזון ברמה העליונה (למשל, חלב, דגנים, פירות)
category_l2 string קטגוריה ברמה השנייה (למשל, גבינה, אורז, טרופי)
category_l3 string קטגוריה ברמה השלישית כשיש (למשל, גבינת קשה, אורז חום)
country string קוד מדינה ISO 3166-1 alpha-2 המצביע על השוק העיקרי
brand string שם המותג עבור מוצרים מותגים; null עבור מזונות כלליים
barcode string ברקוד UPC/EAN; null אם אינו רלוונטי
calories_per_100g float אנרגיה ב-kcal ל-100 גרם
protein_g float חלבון בגרמים ל-100g
fat_total_g float שומן כללי בגרמים ל-100g
fat_saturated_g float שומן רווי בגרמים ל-100g
fat_trans_g float שומן טראנס בגרמים ל-100g
carbs_total_g float פחמימות כוללות בגרמים ל-100g
fiber_g float סיבים תזונתיים בגרמים ל-100g
sugars_total_g float סוכרים כוללים בגרמים ל-100g
sugars_added_g float סוכרים מוספים בגרמים ל-100g
sodium_mg float נתרן במיליגרמים ל-100g
cholesterol_mg float כולסטרול במיליגרמים ל-100g
vitamin_a_mcg float ויטמין A במיקרוגרמים RAE ל-100g
vitamin_c_mg float ויטמין C במיליגרמים ל-100g
vitamin_d_mcg float ויטמין D במיקרוגרמים ל-100g
calcium_mg float סידן במיליגרמים ל-100g
iron_mg float ברזל במיליגרמים ל-100g
potassium_mg float אשלגן במיליגרמים ל-100g
magnesium_mg float מגנזיום במיליגרמים ל-100g
zinc_mg float אבץ במיליגרמים ל-100g
phosphorus_mg float זרחן במיליגרמים ל-100g
selenium_mcg float סלניום במיקרוגרמים ל-100g
vitamin_b6_mg float ויטמין B6 במיליגרמים ל-100g
vitamin_b12_mcg float ויטמין B12 במיקרוגרמים ל-100g
folate_mcg float חומצה פולית במיקרוגרמים DFE ל-100g
vitamin_e_mg float ויטמין E במיליגרמים ל-100g
vitamin_k_mcg float ויטמין K במיקרוגרמים ל-100g
thiamin_mg float תיאמין (B1) במיליגרמים ל-100g
riboflavin_mg float ריבופלאבין (B2) במיליגרמים ל-100g
niacin_mg float ניאצין (B3) במיליגרמים ל-100g
copper_mg float נחושת במיליגרמים ל-100g
manganese_mg float מנגן במיליגרמים ל-100g
serving_1_desc string תיאור גודל המנה הראשי (למשל, "1 כוס מבושל")
serving_1_g float משקל גודל המנה הראשי בגרמים
serving_2_desc string תיאור גודל המנה החלופי; null אם אינו זמין
serving_2_g float משקל גודל המנה החלופי בגרמים
serving_3_desc string תיאור גודל המנה החלופי השני; null אם אינו זמין
serving_3_g float משקל גודל המנה החלופי השני בגרמים
data_source string תג מקור: "ממשלתי", "יצרן", "מעבדה", או "מאומת_קהילה"
last_verified string תאריך ISO 8601 שבו הרשומה אומתה לאחרונה (YYYY-MM-DD)
dataset_version string מזהה גרסת המאגר (למשל, "v3.0")

כל ערכי הנוטריינטים מבוטאים ל-100 גרם כדי לאפשר השוואות עקביות. כדי לחשב נוטריינטים למנה, הכפל את הערך ל-100 גרם במשקל המנה בגרמים וחלק ב-100.

איך להוריד

המאגר מאוחסן במאגר הציבורי שלנו ב-GitHub:

github.com/nutrola/open-food-nutrition-dataset

אתה יכול להוריד את הקבצים ישירות מעמוד השחרורים של GitHub, או לשכפל את המאגר:

git clone https://github.com/nutrola/open-food-nutrition-dataset.git

לגרסאות דחוסות:

# הורד CSV (דחוס)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz

# הורד JSON (דחוס)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz

המאגר כולל גם:

  • README.md מפורט עם הוראות התחלה מהירה
  • CHANGELOG.md המתעד שינויים בין גרסאות המאגר
  • תיקיית scripts/ עם דוגמאות סקריפטים ב-Python ו-R לטעינה, סינון וניתוח הנתונים
  • תיקיית schema/ עם הגדרות JSON Schema ו-dialect של CSV

אם אתה זקוק למאגר המלא של מעל 3 מיליון רשומות עם עדכונים בזמן אמת ולא רק לתמונות תקופתיות, ראה את Nutrition Data API לקבלת גישה למפתחים.

שימושים

מחקר אקדמי

חוקרי תזונה יכולים להשתמש במאגר לצורך ניתוח דפוסי תזונה, מודלים אפידמיולוגיים ולימודי צפיפות נוטריינטים מבלי לבזבז שבועות בניקוי ומיזוג קבצים ממשלתיים. מערכת הקטגוריות ההיררכית מקלה על סינון לפי קבוצות מזון, והשדה של המדינה מאפשר השוואות בין-תרבותיות.

מחקר שפורסם המשתמש במאגר צריך לצטט אותו כך: Nutrola Open Food Nutrition Dataset, v3.0 (2026). זמין ב-github.com/nutrola/open-food-nutrition-dataset. רישוי תחת CC BY-SA 4.0.

פיתוח אפליקציות

מפתחים הבונים אפליקציות בריאות, כושר או מזון יכולים להשתמש במאגר כמאגר מזון מקומי. הסכמה הקבועה ונתוני גדלי המנות מאפשרים לבנות תכונת רישום מזון פונקציונלית מבלי להסתמך על חיבור API חי. זה שימושי במיוחד עבור אפליקציות ניידות ראשונות, פרוטוטיפים, ופרויקטים באקתונים.

פורמט ה-CSV נטען ישירות ל-SQLite, PostgreSQL, או כל מסד נתונים יחסיים. פורמט ה-JSON מתאים בקלות לחנויות מסמכים כמו MongoDB או Firestore.

מדע נתונים ולמידת מכונה

המאגר מתאים לאימון והערכה של מודלים בלמידת מכונה הקשורים למזון ולתזונה. יישומים נפוצים כוללים:

  • מודלים לסיווג מזון — השתמש במערכת הקטגוריות כאותות אימון כדי לבנות מסווגים החוזים קטגוריות מזון משמות או פרופילים תזונתיים
  • אומדן תזונה — אימון מודלים רגרסיביים החוזים תכולת קלוריות או מקרו ממידע חלקי (למשל, אומדן קלוריות מתוך יחס חלבון, שומן ופחמימות)
  • מערכות המלצה — בניית מנועי המלצה למזון המציעים חלופות תזונתיות דומות
  • זיהוי אנומליות — זיהוי פרופילים תזונתיים לא רגילים שעשויים להצביע על בעיות איכות נתונים במאגרים אחרים

חינוך

סטודנטים ומורים למדעי התזונה יכולים להשתמש במאגר עבור קורסים, מעבדות ומשימות. המגוון של הנתונים — מכסה מזונות מעשרות מדינות ומכיל כל קבוצת מזון עיקרית — עושה אותו שימושי ללימוד מושגים כמו יחסי מקרו-נוטריינטים, צפיפות מיקרו-נוטריינטים, ואיך פרופילים תזונתיים משתנים בין מטבחים ורמות עיבוד מזון.

בריאות ציבורית ומדיניות

ארגוני בריאות הציבור יכולים להשתמש בנתונים כדי לנתח את הנוף התזונתי של קבוצות מזון או שווקים ספציפיים. השדה של המדינה מאפשר סינון לפי אזור, והשדה של המותג מאפשר ניתוח איכות התזונה של מזונות מותגים מול מזונות כלליים.

מתודולוגיית איכות נתונים

שחרור מאגר פתוח לא אומר דבר אם הנתונים אינם אמינים. הנה איך אנו מבטיחים איכות על פני 500,000+ הרשומות בשחרור זה.

אימות ממקורות מרובים

כל רשומה במאגר אומתה מול לפחות שני מקורות עצמאיים. מקורות הנתונים העיקריים שלנו כוללים:

  • מסדי נתונים תזונתיים ממשלתיים — USDA FoodData Central (ארצות הברית), CoFID (הממלכה המאוחדת), NUTTAB (אוסטרליה), CNF (קנדה), ומסדי נתונים מקבילים מ-20+ מדינות
  • נתונים מסופקים על ידי היצרן — לוחות עובדות תזונתיים שנמסרו ישירות על ידי יצרני המזון דרך תוכנית שיתוף הפעולה שלנו עם מותגים
  • ניתוח מעבדה — בדיקות מעבדה עצמאיות שנערכו על ידי הצוות שלנו עבור מזונות בעלי נפח גבוה שבהם נתוני המקור סותרים או מיושנים
  • הגשות מאומתות על ידי הקהילה — רשומות שהוגשו על ידי משתמשים שעברו את תהליך האימות שלנו בשלושה שלבים (הצלבה אוטומטית, סקירת מומחים, וזיהוי חריגות סטטיסטיות)

בדיקות איכות אוטומטיות

כל רשומה עוברת סדרת בדיקות אוטומטיות לפני שהיא נכנסת למאגר:

  • אימות איזון אנרגיה — ספירת הקלוריות נבדקת מול חישוב אטוור (4 kcal/g חלבון + 9 kcal/g שומן + 4 kcal/g פחמימה). רשומות שבהן הקלוריות המצוינות שונות מהערך המחושב ביותר מ-10% מסומנות לבדיקה ידנית.
  • בדיקות טווח — כל ערך נוטריינט מאומת מול טווחים פיזיולוגיים סבירים עבור קטגוריית המזון. רשומת גבינה המצהירה על 0 גרם שומן או רשומת פרי המצהירה על 50 גרם חלבון מסומנת מיד.
  • עקביות בין רשומות — מזונות דומים מושווים סטטיסטית. אם רשומת חזה עוף חדשה מציגה ערכים שונים באופן משמעותי מקבוצת רשומות חזה העוף הקיימת, היא מוחזקת לבדיקה.
  • אימות גודל המנה — משקלי המנות נבדקים מול מנות סטנדרטיות ידועות. "תפוח בינוני אחד" המצהיר על משקל של 500 גרם לא עובר.

סקירה אנושית

רשומות שסומנו על ידי בדיקות אוטומטיות עוברות סקירה ידנית על ידי צוות הנתונים שלנו, הכולל תזונאים ומדעני מזון מוסמכים. כ-12% מהרשומות דורשות סוג כלשהו של תיקון ידני לפני שהן מאושרות.

תחזוקה מתמשכת

המאגר אינו פלט חד פעמי. אנו מאמתים רשומות מחדש על בסיס מתגלגל, תוך עדיפות למזונות בעלי נפח גבוה (אלו שנרשמים הכי הרבה על ידי משתמשי Nutrola) ורשומות שעדכוני נתוני המקור שלהן השתנו. כאשר יצרן מזון משנה את המתכון של מוצר, אנו תופסים את השינוי דרך מערכת המעקב שלנו אחרי ברקודים ומעדכנים את הרשומה בהתאם.

תדירות עדכונים

אנו מפרסמים גרסאות חדשות של המאגר הפתוח אחת לרבעון. כל שחרור כולל:

  • רשומות מזון חדשות שנוספו מאז הגרסה הקודמת
  • תיקונים לרשומות קיימות שזוהו דרך ניטור האיכות שלנו
  • עדכוני נתונים תזונתיים עבור מוצרים שעברו שינוי מתכון
  • הרחבת כיסוי המיקרו-נוטריינטים כאשר נתוני מקור חדשים זמינים

הגרסה הנוכחית היא v3.0, שוחררה במרץ 2026. היסטוריית גרסאות ורשימות שינויים זמינות במאגר GitHub.

אם אתה זקוק לנתונים שמתעדכנים בתדירות גבוהה יותר מאשר אחת לרבעון, ה-Nutrition Data API שלנו משקף שינויים בתוך 48 שעות.

רישוי

מאגר הנתונים הפתוח של Nutrola משוחרר תחת רישיון Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).

זה אומר שאתה חופשי:

  • לשתף — להעתיק ולחלק את המאגר בכל מדיה או פורמט
  • להתאים — לערבב, לשנות ולבנות על המאגר לכל מטרה, כולל שימוש מסחרי

בתנאים הבאים:

  • הכרה — עליך לתת קרדיט מתאים ל-Nutrola, לספק קישור לרישיון, ולהצביע אם נעשו שינויים
  • ShareAlike — אם אתה מערבב, משנה או בונה על המאגר, עליך להפיץ את התרומות שלך תחת אותו רישיון CC BY-SA 4.0

בחרנו ב-CC BY-SA 4.0 כי הוא מציע את האיזון הנכון בין פתיחות והבטחה ששיפורים יזרמו חזרה לקהילה. אם תבנה גרסה טובה יותר של נתונים אלו, הרישיון מבטיח ששיפורים שלך יישארו זמינים לכולם.

איך זה משתווה למאגרים אחרים

ישנם מספר מאגרי נתונים תזונתיים זמינים לציבור. הנה איך מאגר הנתונים הפתוח של Nutrola משתווה לשניים מהאלטרנטיבות הנפוצות ביותר.

מול USDA FoodData Central

USDA FoodData Central הוא הסטנדרט המוזהב לנתוני תזונה בארצות הברית. הוא מקיף, מתועד היטב, ומגובה בניתוח מעבדה. עם זאת, יש לו מגבלות שהמאגר של Nutrola פותר:

מימד USDA FoodData Central Nutrola Open Dataset
סך הרשומות ~400,000 (Foundation, SR Legacy, Branded משולבים) 500,000+
כיסוי גיאוגרפי בעיקר ארצות הברית 47 מדינות
מוצרים מותגים מותגים אמריקאיים בלבד, לעיתים מיושנים מותגים בינלאומיים, מאומתים אחת לרבעון
פורמט נתונים מספר פורמטים לא תואמים, מבנה יחסי מורכב קובץ CSV או JSON אחד, מבנה שטוח
גדלי מנות לא עקביים בין תתי-מאגרי נתונים פורמט סטנדרטי עם עד 3 מנות לכל מזון
קלות שימוש דורש הנדסת נתונים משמעותית כדי למזג תתי-מאגרי נתונים הורד קובץ אחד והתחל לעבוד
תדירות עדכונים משתנה לפי תתי-מאגרי נתונים (שנתי עבור חלקם) אחת לרבעון

אם העבודה שלך מתמקדת אך ורק במזונות אמריקאיים ואתה זקוק לפרופיל תזונתי מעמיק ככל האפשר (USDA מכסה 150+ נוטריינטים עבור מזונות Foundation), FoodData Central הוא הבחירה הטובה יותר. אם אתה זקוק לכיסוי בינלאומי, פורמט עקבי, ומאגר נתונים שעובד מהקופסה, מאגר Nutrola הוא האפשרות החזקה יותר.

שני המאגרים משלימים זה את זה. חוקרים רבים משתמשים בנתוני ה-USDA Foundation לניתוח תזונתי מפורט בארצות הברית ומוסיפים את נתוני Nutrola לכיסוי בינלאומי ומוצרים מותגים.

מול Open Food Facts

Open Food Facts הוא מאגר נתונים שנאסף על ידי הקהל עם מעל 3 מיליון רשומות. יש לו היקף מרשים ומכסה מוצרים ממדינות רבות. עם זאת, הטבע שנאסף על ידי הקהל מביא אתגרים באיכות הנתונים:

מימד Open Food Facts Nutrola Open Dataset
סך הרשומות 3M+ 500,000+
איכות נתונים משתנה — נאסף על ידי הקהל עם בדיקות אוטומטיות מאומת — ממקורות מרובים, נבדק על ידי בני אדם
שלמות רבות מהרשומות חסרות נתוני מקרו/מיקרו כל הרשומות כוללות נתוני מקרו מלאים; 90%+ כוללות פרופילים מיקרו מלאים
גדלי מנות לא עקביים, לעיתים חסרים סטנדרטיים, תמיד נוכחים
טקסונומיית קטגוריה תגים שנאספו על ידי הקהל, לא עקביים טקסונומיה היררכית, מעובדת
כיסוי נוטריינטים משתנה באופן רחב לפי רשומה עקביים 40+ נוטריינטים בכל הרשומות
פורמט נתונים MongoDB dump, JSON מקונן מורכב CSV ו-JSON נקי
רישוי רישוי מאגר פתוח (ODbL) CC BY-SA 4.0

Open Food Facts מצטיין בהיקף — אם אתה צריך לחפש מוצר מסוים לפי ברקוד, סביר להניח שיש להם אותו. מאגר Nutrola מצטיין בעומק ובעקביות — כל רשומה עומדת באותו רף איכות, מה שהופך אותו לאמין יותר עבור ניתוח כמותי שבו חוסרי נתונים או טעויות עשויים לעוות את התוצאות.

אם אתה בונה אפליקציית סורק ברקודים וזקוק לכיסוי מוצר מקסימלי, Open Food Facts הוא התחלה טובה. אם אתה מאמן מודל למידת מכונה, עורך מחקר סטטיסטי, או בונה אפליקציה שבה דיוק תזונתי חשוב, הנתונים המאומתים של Nutrola יספקו לך בסיס חזק יותר.

איך להתחיל

ברגע שהורדת את המאגר, הנה דוגמה מהירה לטעינה ולחקירה שלו ב-Python:

import pandas as pd

# טען את המאגר
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")

# סקירה בסיסית
print(f"סך הרשומות: {len(df):,}")
print(f"מדינות מכוסות: {df['country'].nunique()}")
print(f"קטגוריות מזון (L1): {df['category_l1'].nunique()}")

# מצא מזונות עם חלבון גבוה וקלוריות נמוכות
high_protein = df[
    (df["protein_g"] > 20) &
    (df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)

print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# ניתוח ממוצעי מקרו לפי קטגוריית מזון
category_macros = df.groupby("category_l1").agg({
    "calories_per_100g": "mean",
    "protein_g": "mean",
    "fat_total_g": "mean",
    "carbs_total_g": "mean"
}).round(1)

print(category_macros.sort_values("calories_per_100g", ascending=False))

עוד דוגמאות — כולל סקריפטים ב-R, מדריכי ייבוא SQL, ו-Jupyter notebooks — זמינות בתיקיית scripts/ של מאגר ה-GitHub.

שאלות נפוצות

האם המאגר באמת חינם לשימוש?

כן. מאגר הנתונים הפתוח של Nutrola משוחרר תחת רישיון CC BY-SA 4.0, המאפשר שימוש מסחרי ולא מסחרי. הדרישות היחידות הן שתיתן קרדיט ל-Nutrola כמקור ושכל מאגר נתונים נגזר שתפיץ יהיה תחת אותו רישיון. אין מפתחות API, אין מגבלות שימוש, ואין צורך בהרשמה כדי להוריד את הקבצים.

באיזו תדירות מתעדכן המאגר?

אנו מפרסמים גרסאות חדשות אחת לרבעון. כל שחרור מוסיף רשומות מזון חדשות, מתקן כל טעויות שזוהו מאז הגרסה הקודמת, ומעדכן רשומות עבור מוצרים שעברו שינוי מתכון. עמוד השחרורים של מאגר ה-GitHub כולל את היסטוריית הגרסאות המלאה, ואתה יכול לעקוב אחרי המאגר כדי להתעדכן כאשר גרסאות חדשות מתפרסמות.

האם אני יכול להשתמש במאגר הזה כדי לבנות אפליקציה מסחרית?

כן. רישיון CC BY-SA 4.0 מתיר במפורש שימוש מסחרי. אתה יכול להשתמש בנתונים באפליקציה בתשלום, מוצר SaaS, או כל הקשר מסחרי אחר. עליך לכלול הכרה ל-Nutrola באפליקציה או בתיעוד שלך, ואם תפיץ גרסה מותאמת של המאגר עצמו, הגרסה המותאמת חייבת גם להיות רשומה תחת CC BY-SA 4.0. שימוש בנתונים בתוך האפליקציה שלך (מבלי להפיץ את המאגר הגולמי) אינו מפעיל את דרישת ה-ShareAlike.

מדוע רק 500K רשומות כאשר למאגר המלא של Nutrola יש מעל 3 מיליון?

המאגר הפתוח מכיל רשומות שאנו יכולים לשחרר תחת רישיון פתוח ללא מגבלות. המאגר המלא שלנו כולל נתונים ממקורות פרטיים — שיתופי פעולה ישירים עם יצרנים, נתוני מעבדה מורשים, ומקורות אחרים עם מגבלות חוזיות על הפצה. 500K הרשומות במאגר הפתוח נובעות ממסדי נתונים ממשלתיים, ניתוח מעבדה שלנו, והגשות קהילתיות שבהן התורמים הסכימו לרישוי פתוח. אם אתה זקוק לגישה למאגר המלא, ה-Nutrition Data API שלנו מספק אותו תחת תנאים מסחריים נפרדים.

מה לעשות אם אני מוצא טעות במאגר?

פתח בעיה במאגר ה-GitHub עם ה-food_id של הרשומה המושפעת ותיאור של הטעות. כלול קישור מקור אם יש לך (למשל, אתר אינטרנט של יצרן המראה עובדות תזונתיות שונות). צוות הנתונים שלנו עובר על בעיות מדווחות אחת לשבוע, ותיקונים מאושרים ייכללו בשחרור הרבעוני הבא. עבור תיקונים דחופים, אנו עשויים לדחוף שחרור תיקון בין עדכונים רבעוניים.

איך זה קשור ל-Nutrola Nutrition Data API?

המאגר הפתוח הוא תמונה סטטית רבעונית של תת-קבוצה מעובדת של מאגר הנתונים שלנו. ה-API מספק גישה בזמן אמת למאגר המלא של מעל 3 מיליון רשומות עם חיפוש, סינון, חיפוש ברקוד ותכונות אחרות. תחשוב על המאגר הפתוח כבסיס לשימושים לא מקוונים או קבוצתיים, ועל ה-API כפתרון עבור אפליקציות ייצור הזקוקות לנתונים חיים. רבים מהמפתחים מתחילים עם המאגר הפתוח לצורך פרוטוטיפ ומעבירים ל-API כאשר הם מגיעים לייצור.

מוכנים לשנות את מעקב התזונה שלכם?

הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!