مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola: أكثر من 500,000 طعام متاح للتنزيل
قم بتنزيل مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola مع أكثر من 500,000 إدخال موثق يتضمن السعرات الحرارية، والماكرو، والميكرو، وأحجام الحصص. متاحة بصيغتي CSV وJSON للبحث، والتطوير، والتعليم.
من الصعب العثور على بيانات تغذية موثوقة. يقضي الباحثون أسابيع في تنظيف قواعد البيانات الحكومية. يكتب المطورون أدوات سكرابير هشة تتعطل كل شهر. الطلاب الذين يكتبون أطروحاتهم يكتفون بعينات صغيرة قديمة لأن تجميع مجموعة بيانات شاملة من الصفر ليس واقعياً ضمن الجدول الزمني الأكاديمي.
قمنا ببناء قاعدة بيانات الطعام الخاصة بـ Nutrola لدعم تطبيق تتبع السعرات الحرارية الخاص بنا، وعلى مدار السنوات الثلاث الماضية استثمرنا بشكل كبير في جعل هذه البيانات دقيقة وشاملة ومنظمة بشكل جيد. اليوم، نطلق مجموعة فرعية من تلك القاعدة كبيانات مفتوحة: أكثر من 500,000 إدخال طعام موثق متاحة للتنزيل المجاني بصيغتي CSV وJSON.
تتناول هذه المقالة كل ما تحتاج لمعرفته حول مجموعة البيانات — ما تحتويه، كيفية تنزيلها، المخطط، الترخيص، منهجية الجودة، وكيفية مقارنتها بمصادر بيانات التغذية المتاحة للجمهور.
ما الذي تحتويه مجموعة البيانات
تحتوي مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola على أكثر من 500,000 إدخال طعام تشمل المكونات الخام، والأطعمة العامة، والمنتجات الاستهلاكية المعلّمة، والأصناف الشائعة في المطاعم. تم التحقق من كل إدخال من خلال نظام مراقبة الجودة متعدد الطبقات لدينا، وهو نفس النظام الذي تم وصفه بالتفصيل في منشورنا حول كيفية بناء قاعدة بيانات الطعام الخاصة بنا.
يتضمن كل إدخال طعام النقاط البيانية التالية:
- اسم الطعام — الاسم الشائع للعنصر الغذائي باللغة الإنجليزية، مع أسماء العلامات التجارية حيثما ينطبق
- السعرات الحرارية — محتوى الطاقة بالكيلوكالوري (kcal) لكل 100 جرام ولكل حصة
- المغذيات الكبيرة — البروتين، والدهون الكلية، والدهون المشبعة، والدهون المتحولة، والكربوهيدرات الكلية، والألياف الغذائية، والسكريات الكلية، والسكريات المضافة، جميعها بالجرام
- المغذيات الدقيقة — أكثر من 30 نوعاً من الفيتامينات والمعادن بما في ذلك فيتامين A، وفيتامين C، وفيتامين D، وفيتامين E، وفيتامين K، والثيامين، والريبوفلافين، والنياسين، وفيتامين B6، وحمض الفوليك، وفيتامين B12، والكالسيوم، والحديد، والمغنيسيوم، والفوسفور، والبوتاسيوم، والصوديوم، والزنك، والنحاس، والمنغنيز، والسيلينيوم، والمزيد
- أحجام الحصص — وصف حجم الحصة القياسية (مثل "تفاحة متوسطة واحدة"، "كوب مطبوخ")، وزن الحصة بالجرام، وما يصل إلى ثلاثة أحجام حصص بديلة لكل طعام
- فئة الطعام — تصنيف هرمي باستخدام تصنيفنا الداخلي (مثل، الألبان > الجبنة > الجبنة الصلبة)
- بلد المنشأ — البلد أو المنطقة الرئيسية التي يتم بيع المنتج الغذائي فيها أو يستهلك فيها العنصر بشكل شائع
- الرمز الشريطي (حيثما يتوفر) — رموز UPC أو EAN للمنتجات المعلّمة
- علامات مصدر البيانات — مؤشرات الأصل التي تظهر ما إذا كان الإدخال قد نشأ من قواعد بيانات حكومية، أو بيانات المصنع، أو التحليل المخبري، أو فريق التحقق الداخلي لدينا
عينة من البيانات
إليك مجموعة من الإدخالات من مجموعة البيانات لتعطيك فكرة عن الهيكل والتفاصيل:
| food_id | food_name | category | country | calories_per_100g | protein_g | fat_g | carbs_g | fiber_g | serving_desc | serving_g |
|---|---|---|---|---|---|---|---|---|---|---|
| NF-001247 | صدور دجاج، نيء، بدون جلد | دواجن > دجاج | الولايات المتحدة | 120 | 22.5 | 2.6 | 0.0 | 0.0 | 1 صدر (174 جرام) | 174 |
| NF-008391 | زبادي فاجي كامل 0% اليوناني | الألبان > الزبادي > يوناني | اليونان | 54 | 10.3 | 0.0 | 3.0 | 0.0 | 1 حاوية (150 جرام) | 150 |
| NF-014205 | أرز بسمتي، أبيض، مطبوخ | الحبوب > الأرز | الهند | 130 | 2.7 | 0.3 | 28.2 | 0.4 | 1 كوب (158 جرام) | 158 |
| NF-022876 | أفوكادو، هاس، نيء | الفواكه > استوائي | المكسيك | 160 | 2.0 | 14.7 | 8.5 | 6.7 | 1/2 أفوكادو (68 جرام) | 68 |
| NF-031560 | باستا باريللا بيني ريجات، جافة | المعكرونة > جافة | إيطاليا | 359 | 12.5 | 2.0 | 71.2 | 3.0 | 2 أونصات (56 جرام) | 56 |
| NF-045892 | كيمتشي، ملفوف نابا التقليدي | الخضروات > مخمر | كوريا الجنوبية | 15 | 1.1 | 0.5 | 2.4 | 1.6 | 1/2 كوب (75 جرام) | 75 |
| NF-053714 | سلمون، أطلنطي، نيء، مزرع | الأسماك > سلمون | النرويج | 208 | 20.4 | 13.4 | 0.0 | 0.0 | 1 شريحة (113 جرام) | 113 |
| NF-067283 | حمص، معلب، مصفى | البقوليات > الفاصوليا | الولايات المتحدة | 119 | 6.3 | 2.0 | 18.2 | 5.4 | 1/2 كوب (120 جرام) | 120 |
تتضمن مجموعة البيانات الكاملة المزيد من الأعمدة للمغذيات الدقيقة، وأحجام الحصص البديلة، وبيانات الرموز الشريطية، وعلامات المصدر. تعرض الجدول أعلاه الحقول الغذائية الأساسية.
تنسيقات البيانات
تتوفر مجموعة البيانات بصيغتين:
CSV
يستخدم ملف CSV ترميز UTF-8 مع فواصل فاصلة. تحتوي الصف الأول على رؤوس الأعمدة. يتم تضمين الحقول التي تحتوي على فواصل بين علامات اقتباس مزدوجة. يتم تمثيل القيم الفارغة كحقول فارغة.
تنسيق CSV مثالي لأدوات جداول البيانات مثل Excel وGoogle Sheets، والبرامج الإحصائية مثل R وSPSS، واستكشاف البيانات السريع باستخدام أدوات سطر الأوامر مثل csvkit أو xsv.
الملف: nutrola-open-food-dataset-v3.csv (حوالي 210 ميغابايت غير مضغوط، 48 ميغابايت مضغوط)
JSON
يحتوي ملف JSON على مصفوفة من الكائنات، واحدة لكل إدخال طعام. تُستخدم الكائنات المتداخلة للحقول المنظمة مثل أحجام الحصص (التي تحتوي على وصف، ووزن بالجرام، ومعادل بالملليلتر حيثما ينطبق) وملفات المغذيات الدقيقة.
تنسيق JSON أكثر ملاءمة لتطوير التطبيقات، واستيراد قواعد البيانات، وأي سير عمل تحتاج فيه إلى الحفاظ على الهيكل الهرمي لأحجام الحصص ومجموعات المغذيات.
الملف: nutrola-open-food-dataset-v3.json (حوالي 340 ميغابايت غير مضغوط، 62 ميغابايت مضغوط)
كلا الملفين متاحان أيضًا كأرشيفات مضغوطة gzip لتقليل أوقات التنزيل.
مخطط البيانات
إليك المخطط الكامل مع أوصاف لكل حقل في مجموعة البيانات:
| اسم الحقل | النوع | الوصف |
|---|---|---|
food_id |
سلسلة | معرف Nutrola الفريد لإدخال الطعام (التنسيق: NF-XXXXXX) |
food_name |
سلسلة | الاسم الشائع للطعام، بما في ذلك العلامة التجارية حيثما ينطبق |
category_l1 |
سلسلة | فئة الطعام الرئيسية (مثل، الألبان، الحبوب، الفواكه) |
category_l2 |
سلسلة | الفئة الفرعية الثانية (مثل، الجبنة، الأرز، الاستوائي) |
category_l3 |
سلسلة | الفئة الفرعية الثالثة حيثما ينطبق (مثل، الجبنة الصلبة، الأرز البني) |
country |
سلسلة | رمز الدولة ISO 3166-1 alpha-2 الذي يشير إلى السوق الرئيسية |
brand |
سلسلة | اسم العلامة التجارية للمنتجات المعلّمة؛ فارغ للأطعمة العامة |
barcode |
سلسلة | الرمز الشريطي UPC/EAN؛ فارغ إذا لم يكن قابلاً للتطبيق |
calories_per_100g |
عدد عشري | الطاقة بالكيلوكالوري لكل 100 جرام |
protein_g |
عدد عشري | البروتين بالجرام لكل 100 جرام |
fat_total_g |
عدد عشري | الدهون الكلية بالجرام لكل 100 جرام |
fat_saturated_g |
عدد عشري | الدهون المشبعة بالجرام لكل 100 جرام |
fat_trans_g |
عدد عشري | الدهون المتحولة بالجرام لكل 100 جرام |
carbs_total_g |
عدد عشري | الكربوهيدرات الكلية بالجرام لكل 100 جرام |
fiber_g |
عدد عشري | الألياف الغذائية بالجرام لكل 100 جرام |
sugars_total_g |
عدد عشري | السكريات الكلية بالجرام لكل 100 جرام |
sugars_added_g |
عدد عشري | السكريات المضافة بالجرام لكل 100 جرام |
sodium_mg |
عدد عشري | الصوديوم بالميليجرام لكل 100 جرام |
cholesterol_mg |
عدد عشري | الكوليسترول بالميليجرام لكل 100 جرام |
vitamin_a_mcg |
عدد عشري | فيتامين A بالميكروجرام RAE لكل 100 جرام |
vitamin_c_mg |
عدد عشري | فيتامين C بالميليجرام لكل 100 جرام |
vitamin_d_mcg |
عدد عشري | فيتامين D بالميكروجرام لكل 100 جرام |
calcium_mg |
عدد عشري | الكالسيوم بالميليجرام لكل 100 جرام |
iron_mg |
عدد عشري | الحديد بالميليجرام لكل 100 جرام |
potassium_mg |
عدد عشري | البوتاسيوم بالميليجرام لكل 100 جرام |
magnesium_mg |
عدد عشري | المغنيسيوم بالميليجرام لكل 100 جرام |
zinc_mg |
عدد عشري | الزنك بالميليجرام لكل 100 جرام |
phosphorus_mg |
عدد عشري | الفوسفور بالميليجرام لكل 100 جرام |
selenium_mcg |
عدد عشري | السيلينيوم بالميكروجرام لكل 100 جرام |
vitamin_b6_mg |
عدد عشري | فيتامين B6 بالميليجرام لكل 100 جرام |
vitamin_b12_mcg |
عدد عشري | فيتامين B12 بالميكروجرام لكل 100 جرام |
folate_mcg |
عدد عشري | حمض الفوليك بالميكروجرام DFE لكل 100 جرام |
vitamin_e_mg |
عدد عشري | فيتامين E بالميليجرام لكل 100 جرام |
vitamin_k_mcg |
عدد عشري | فيتامين K بالميكروجرام لكل 100 جرام |
thiamin_mg |
عدد عشري | الثيامين (B1) بالميليجرام لكل 100 جرام |
riboflavin_mg |
عدد عشري | الريبوفلافين (B2) بالميليجرام لكل 100 جرام |
niacin_mg |
عدد عشري | النياسين (B3) بالميليجرام لكل 100 جرام |
copper_mg |
عدد عشري | النحاس بالميليجرام لكل 100 جرام |
manganese_mg |
عدد عشري | المنغنيز بالميليجرام لكل 100 جرام |
serving_1_desc |
سلسلة | وصف حجم الحصة الرئيسي (مثل، "1 كوب مطبوخ") |
serving_1_g |
عدد عشري | وزن حجم الحصة الرئيسي بالجرام |
serving_2_desc |
سلسلة | وصف حجم الحصة البديلة؛ فارغ إذا لم يكن متاحًا |
serving_2_g |
عدد عشري | وزن حجم الحصة البديلة بالجرام |
serving_3_desc |
سلسلة | وصف حجم الحصة البديلة الثانية؛ فارغ إذا لم يكن متاحًا |
serving_3_g |
عدد عشري | وزن حجم الحصة البديلة الثانية بالجرام |
data_source |
سلسلة | علامة الأصل: "حكومي"، "مصنع"، "مخبري"، أو "مجتمع موثق" |
last_verified |
سلسلة | تاريخ ISO 8601 عندما تم التحقق من الإدخال آخر مرة (YYYY-MM-DD) |
dataset_version |
سلسلة | معرف إصدار مجموعة البيانات (مثل، "v3.0") |
تُعبر جميع قيم المغذيات لكل 100 جرام للسماح بمقارنات متسقة. لحساب المغذيات لكل حصة، اضرب القيمة لكل 100 جرام في وزن الحصة بالجرام ثم قسمها على 100.
كيفية التنزيل
تستضيف مجموعة البيانات في مستودع GitHub العام الخاص بنا:
github.com/nutrola/open-food-nutrition-dataset
يمكنك تنزيل الملفات مباشرة من صفحة إصدارات GitHub، أو استنساخ المستودع:
git clone https://github.com/nutrola/open-food-nutrition-dataset.git
لإصدارات المضغوطة:
# تنزيل CSV (مضغوط)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz
# تنزيل JSON (مضغوط)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz
يحتوي المستودع أيضًا على:
README.mdمفصل مع تعليمات البدء السريعCHANGELOG.mdتوثق التغييرات بين إصدارات مجموعة البيانات- دليل
scripts/مع أمثلة على Python وR لتحميل البيانات، وتصفيتها، وتحليلها - دليل
schema/مع تعريفات JSON Schema وCSV
إذا كنت بحاجة إلى قاعدة بيانات كاملة تضم أكثر من 3 ملايين إدخال مع تحديثات في الوقت الحقيقي بدلاً من لقطات دورية، راجع واجهة برمجة بيانات التغذية للوصول للمطورين.
حالات الاستخدام
البحث الأكاديمي
يمكن للباحثين في مجال التغذية استخدام مجموعة البيانات لتحليل أنماط النظام الغذائي، ونمذجة وبائيات الأمراض، ودراسات كثافة المغذيات دون قضاء أسابيع في تنظيف ودمج ملفات البيانات الحكومية. تجعل نظام الفئات الهرمي من السهل تصفية البيانات حسب مجموعات الطعام، ويسمح حقل البلد بالمقارنات عبر الثقافات.
يجب على الأبحاث المنشورة التي تستخدم مجموعة البيانات أن تقتبسها كالتالي: مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola، الإصدار 3.0 (2026). متاحة على github.com/nutrola/open-food-nutrition-dataset. مرخصة بموجب CC BY-SA 4.0.
تطوير التطبيقات
يمكن للمطورين الذين يبنون تطبيقات صحية، أو لياقة، أو غذائية استخدام مجموعة البيانات كقاعدة بيانات محلية للطعام. يعني المخطط المتسق وبيانات حجم الحصة أنه يمكنك بناء ميزة تسجيل الطعام الوظيفية دون الاعتماد على اتصال API مباشر. هذا مفيد بشكل خاص لتطبيقات الهواتف المحمولة التي تعمل في وضع عدم الاتصال، والنماذج الأولية، ومشاريع الهاكاثون.
يتم تحميل تنسيق CSV مباشرة إلى SQLite، أو PostgreSQL، أو أي قاعدة بيانات علائقية. يتوافق تنسيق JSON بشكل جيد مع مخازن الوثائق مثل MongoDB أو Firestore.
علم البيانات وتعلم الآلة
تعتبر مجموعة البيانات مناسبة لتدريب وتقييم نماذج تعلم الآلة المتعلقة بالطعام والتغذية. تشمل التطبيقات الشائعة:
- نماذج تصنيف الطعام — استخدم التسلسل الهرمي للفئات كعلامات تدريب لبناء مصنفات تتنبأ بفئات الطعام من الأسماء أو ملفات المغذيات
- تقدير التغذية — درب نماذج الانحدار التي تتنبأ بمحتوى السعرات الحرارية أو الماكرو من معلومات جزئية (مثل تقدير السعرات الحرارية من نسب البروتين والدهون والكربوهيدرات)
- أنظمة التوصية — بناء محركات توصية للطعام تقترح بدائل غذائية مماثلة
- كشف الشذوذ — تحديد ملفات التغذية غير العادية التي قد تشير إلى مشاكل في جودة البيانات في مجموعات بيانات أخرى
التعليم
يمكن لطلاب وعلماء التغذية استخدام مجموعة البيانات للدروس، والمختبرات، والواجبات. تغطي البيانات مجموعة واسعة من الأطعمة من عشرات الدول وتمتد عبر كل مجموعة غذائية رئيسية، مما يجعلها مفيدة لتعليم مفاهيم مثل نسب المغذيات الكبيرة، وكثافة المغذيات الدقيقة، وكيف تختلف ملفات التغذية عبر المأكولات ومستويات معالجة الطعام.
الصحة العامة والسياسة
يمكن للمنظمات الصحية العامة استخدام البيانات لتحليل المشهد الغذائي لفئات أو أسواق غذائية محددة. يسمح حقل البلد بالتصفية حسب المنطقة، ويمكن أن يساعد حقل العلامة التجارية في تحليل جودة التغذية للمنتجات المعلّمة مقابل الأطعمة العامة.
منهجية جودة البيانات
إصدار مجموعة بيانات مفتوحة لا يعني شيئًا إذا لم تكن البيانات موثوقة. إليك كيف نضمن الجودة عبر أكثر من 500,000 إدخال في هذا الإصدار.
التحقق من مصادر متعددة
تم التحقق من كل إدخال في مجموعة البيانات ضد مصدرين مستقلين على الأقل. تشمل مصادر البيانات الرئيسية لدينا:
- قواعد بيانات التغذية الحكومية — USDA FoodData Central (الولايات المتحدة)، CoFID (المملكة المتحدة)، NUTTAB (أستراليا)، CNF (كندا)، وقواعد بيانات مكافئة من أكثر من 20 دولة
- بيانات مقدمة من المصنعين — لوحات الحقائق الغذائية المقدمة مباشرة من قبل الشركات المصنعة للغذاء من خلال برنامج شراكة العلامة التجارية لدينا
- التحليل المخبري — اختبارات مخبرية مستقلة أجراها فريقنا للأطعمة ذات الحجم الكبير حيث تكون بيانات المصدر متضاربة أو قديمة
- المساهمات المجتمعية الموثقة — إدخالات مقدمة من المستخدمين التي اجتازت عملية التحقق من ثلاث خطوات (التحقق الآلي، المراجعة من قبل الخبراء، واكتشاف القيم الشاذة)
فحوصات الجودة الآلية
يمر كل إدخال عبر مجموعة من الفحوصات الآلية قبل دخوله مجموعة البيانات:
- التحقق من توازن الطاقة — يتم التحقق من عدد السعرات الحرارية مقابل حساب Atwater (4 kcal/g بروتين + 9 kcal/g دهون + 4 kcal/g كربوهيدرات). يتم وضع علامة على الإدخالات التي تختلف فيها السعرات الحرارية المعلنة عن القيمة المحسوبة بأكثر من 10% للمراجعة اليدوية.
- فحوصات النطاق — يتم التحقق من كل قيمة مغذية مقابل النطاقات الفيزيولوجية المعقولة لفئة الطعام. يتم وضع علامة على إدخال الجبنة الذي يدعي 0 جرام من الدهون أو إدخال الفاكهة الذي يدعي 50 جرام من البروتين على الفور.
- اتساق الإدخالات المتشابهة — تتم مقارنة الأطعمة المتشابهة إحصائيًا. إذا كان إدخال جديد لصدور الدجاج يحتوي على قيم مختلفة بشكل كبير عن مجموعة إدخالات صدور الدجاج الموجودة، يتم احتجازه للمراجعة.
- التحقق من حجم الحصة — يتم التحقق من أوزان الحصص مقابل الحصص القياسية المعروفة. لا يمر "تفاحة متوسطة واحدة" تدعي وزن 500 جرام.
المراجعة البشرية
تخضع الإدخالات التي تم وضع علامة عليها من خلال الفحوصات الآلية للمراجعة اليدوية من قبل فريق البيانات لدينا، والذي يتضمن أخصائيين تغذية وعلماء غذاء معتمدين. يتطلب حوالي 12% من الإدخالات نوعًا من التصحيح اليدوي قبل الموافقة عليها.
الصيانة المستمرة
ليست مجموعة البيانات مجرد تفريغ لمرة واحدة. نقوم بإعادة التحقق من الإدخالات بشكل دوري، مع إعطاء الأولوية للأطعمة ذات الحجم الكبير (تلك التي يتم تسجيلها بشكل متكرر من قبل مستخدمي Nutrola) والإدخالات التي تم تحديث بيانات مصدرها. عندما يعيد مصنع الطعام صياغة منتج، نكتشف التغيير من خلال نظام مراقبة الرموز الشريطية لدينا ونقوم بتحديث الإدخال وفقًا لذلك.
تكرار التحديث
نقوم بنشر إصدارات جديدة من مجموعة البيانات المفتوحة كل ثلاثة أشهر. يتضمن كل إصدار:
- إدخالات طعام جديدة تمت إضافتها منذ الإصدار السابق
- تصحيحات للإدخالات الحالية التي تم تحديدها من خلال مراقبة الجودة لدينا
- تحديث بيانات التغذية للمنتجات التي تم إعادة صياغتها
- توسيع تغطية المغذيات الدقيقة حيث تتوفر بيانات مصدر جديدة
الإصدار الحالي هو v3.0، تم إصداره في مارس 2026. تاريخ الإصدار وسجلات التغييرات متاحة في مستودع GitHub.
إذا كنت بحاجة إلى بيانات يتم تحديثها بشكل أكثر تكرارًا من كل ثلاثة أشهر، فإن واجهة برمجة بيانات التغذية تعكس التغييرات خلال 48 ساعة.
الترخيص
تم إصدار مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola بموجب ترخيص المشاع الإبداعي النسب-المشاركة بالمثل 4.0 الدولي (CC BY-SA 4.0).
هذا يعني أنه يمكنك:
- المشاركة — نسخ وإعادة توزيع مجموعة البيانات بأي وسيلة أو تنسيق
- التكيف — إعادة المزج، والتحويل، والبناء على مجموعة البيانات لأي غرض، بما في ذلك الاستخدام التجاري
بموجب الشروط التالية:
- النسبة — يجب عليك إعطاء الائتمان المناسب لـ Nutrola، وتوفير رابط للترخيص، والإشارة إذا تم إجراء تغييرات
- المشاركة بالمثل — إذا قمت بإعادة المزج، أو التحويل، أو البناء على مجموعة البيانات، يجب عليك توزيع مساهماتك بموجب نفس ترخيص CC BY-SA 4.0
اخترنا CC BY-SA 4.0 لأنه يحقق التوازن الصحيح بين الانفتاح وضمان تدفق التحسينات إلى المجتمع. إذا قمت ببناء نسخة أفضل من هذه البيانات، يضمن الترخيص أن تظل تحسيناتك متاحة للجميع أيضًا.
كيف تقارن بمجموعات البيانات الأخرى
توجد العديد من مجموعات بيانات التغذية المتاحة للجمهور. إليك كيف تقارن مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola بأكثر البدائل استخدامًا.
مقابل USDA FoodData Central
تعتبر USDA FoodData Central المعيار الذهبي لبيانات التغذية في الولايات المتحدة. إنها شاملة، موثقة بشكل جيد، ومدعومة بالتحليل المخبري. ومع ذلك، لديها قيود تعالجها مجموعة بيانات Nutrola:
| البعد | USDA FoodData Central | مجموعة بيانات Nutrola المفتوحة |
|---|---|---|
| إجمالي الإدخالات | ~400,000 (المؤسسة، SR Legacy، المعلّمة مجتمعة) | 500,000+ |
| التغطية الجغرافية | الولايات المتحدة بشكل رئيسي | 47 دولة |
| المنتجات المعلّمة | علامات تجارية أمريكية فقط، وغالبًا ما تكون قديمة | علامات تجارية دولية، موثقة ربع سنوية |
| تنسيق البيانات | تنسيقات ملفات متعددة غير متوافقة، هيكل علائقي معقد | ملف CSV أو JSON واحد، هيكل مسطح |
| أحجام الحصص | غير متسقة عبر قواعد البيانات الفرعية | تنسيق موحد مع ما يصل إلى 3 حصص لكل طعام |
| سهولة الاستخدام | تتطلب هندسة بيانات كبيرة لدمج قواعد البيانات الفرعية | قم بتنزيل ملف واحد وابدأ العمل |
| تكرار التحديث | يختلف حسب قاعدة البيانات الفرعية (سنويًا لبعضها) | ربع سنوي |
إذا كان عملك يركز حصريًا على الأطعمة الأمريكية وتحتاج إلى أعمق ملف غذائي ممكن (تغطي USDA أكثر من 150 مغذٍ للأطعمة الأساسية)، فإن FoodData Central هو الخيار الأفضل. إذا كنت بحاجة إلى تغطية دولية، وتنسيق متسق، ومجموعة بيانات تعمل من البداية، فإن مجموعة بيانات Nutrola هي الخيار الأقوى.
تعتبر المجموعتان مكملتين. يستخدم العديد من الباحثين بيانات USDA Foundation لتحليل المغذيات في الولايات المتحدة بالتفصيل ويكملونها ببيانات Nutrola للتغطية الدولية والمنتجات المعلّمة.
مقابل Open Food Facts
Open Food Facts هي قاعدة بيانات مستندة إلى المجتمع تحتوي على أكثر من 3 ملايين إدخال. لديها نطاق مثير للإعجاب وتغطي منتجات من العديد من الدول. ومع ذلك، فإن طبيعتها المستندة إلى المجتمع تقدم تحديات جودة البيانات:
| البعد | Open Food Facts | مجموعة بيانات Nutrola المفتوحة |
|---|---|---|
| إجمالي الإدخالات | 3M+ | 500,000+ |
| جودة البيانات | متغيرة — مستندة إلى المجتمع مع فحوصات آلية | موثقة — تم التحقق منها من مصادر متعددة، مراجعة بشرية |
| الاكتمال | العديد من الإدخالات تفتقر إلى بيانات الماكرو/الميكرو | جميع الإدخالات تحتوي على بيانات ماكرو كاملة؛ 90%+ تحتوي على ملفات ميكرو كاملة |
| أحجام الحصص | غير متسقة، وغالبًا ما تكون مفقودة | موحدة، دائمًا موجودة |
| تصنيف الفئات | علامات مستندة إلى المجتمع، غير متسقة | تصنيف هرمي، مصنف |
| تغطية المغذيات | تتفاوت على نطاق واسع لكل إدخال | مغذيات متسقة تزيد عن 40 مغذٍ عبر جميع الإدخالات |
| تنسيق البيانات | تفريغ MongoDB، JSON متداخل معقد | CSV وJSON نظيف |
| الترخيص | ترخيص قاعدة البيانات المفتوحة (ODbL) | CC BY-SA 4.0 |
تتفوق Open Food Facts في النطاق — إذا كنت بحاجة إلى البحث عن منتج محدد غير شائع بواسطة الرمز الشريطي، فمن المحتمل أن يكون لديهم. تتفوق مجموعة بيانات Nutrola في العمق والاتساق — كل إدخال يفي بنفس معايير الجودة، مما يجعلها أكثر موثوقية للتحليل الكمي حيث يمكن أن تؤدي فجوات البيانات أو الأخطاء إلى تشويه النتائج.
إذا كنت تبني تطبيق ماسح ضوئي للرموز الشريطية وتحتاج إلى أقصى تغطية للمنتجات، فإن Open Food Facts هو نقطة انطلاق جيدة. إذا كنت تقوم بتدريب نموذج تعلم الآلة، أو إجراء بحث إحصائي، أو بناء تطبيق حيث تهم دقة التغذية، فإن بيانات مجموعة Nutrola الموثقة ستوفر لك أساسًا أقوى.
البدء
بمجرد تنزيل مجموعة البيانات، إليك مثال سريع على كيفية تحميلها واستكشافها في Python:
import pandas as pd
# تحميل مجموعة البيانات
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")
# نظرة عامة أساسية
print(f"إجمالي الإدخالات: {len(df):,}")
print(f"الدول المغطاة: {df['country'].nunique()}")
print(f"فئات الطعام (L1): {df['category_l1'].nunique()}")
# العثور على أطعمة عالية البروتين، منخفضة السعرات
high_protein = df[
(df["protein_g"] > 20) &
(df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)
print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# تحليل متوسط الماكرو حسب فئة الطعام
category_macros = df.groupby("category_l1").agg({
"calories_per_100g": "mean",
"protein_g": "mean",
"fat_total_g": "mean",
"carbs_total_g": "mean"
}).round(1)
print(category_macros.sort_values("calories_per_100g", ascending=False))
تتوفر المزيد من الأمثلة — بما في ذلك نصوص R، وأدلة استيراد SQL، ودفاتر Jupyter — في دليل scripts/ الخاص بمستودع GitHub.
الأسئلة الشائعة
هل مجموعة البيانات مجانية حقًا للاستخدام؟
نعم. تم إصدار مجموعة بيانات التغذية الغذائية المفتوحة من Nutrola بموجب ترخيص CC BY-SA 4.0، الذي يسمح بالاستخدام التجاري وغير التجاري. المتطلبات الوحيدة هي أنك تعطي الائتمان لـ Nutrola كمصدر وأن أي مجموعات بيانات مشتقة تقوم بتوزيعها تستخدم نفس الترخيص. لا توجد مفاتيح API، ولا حدود للاستخدام، ولا حاجة للتسجيل لتنزيل الملفات.
كم مرة يتم تحديث مجموعة البيانات؟
نقوم بنشر إصدارات جديدة كل ثلاثة أشهر. يتضمن كل إصدار إدخالات طعام جديدة، وتصحيح أي أخطاء تم تحديدها منذ الإصدار السابق، وتحديث الإدخالات للمنتجات التي تم إعادة صياغتها. تحتوي صفحة إصدارات مستودع GitHub على تاريخ الإصدار الكامل، ويمكنك متابعة المستودع لتلقي إشعارات عند نشر إصدارات جديدة.
هل يمكنني استخدام هذه المجموعة لبناء تطبيق تجاري؟
نعم. يسمح ترخيص CC BY-SA 4.0 بشكل صريح بالاستخدام التجاري. يمكنك استخدام البيانات في تطبيق مدفوع، أو منتج SaaS، أو أي سياق تجاري آخر. يجب عليك تضمين الائتمان لـ Nutrola في تطبيقك أو الوثائق، وإذا قمت بتوزيع نسخة معدلة من مجموعة البيانات نفسها، يجب أن تكون النسخة المعدلة مرخصة أيضًا بموجب CC BY-SA 4.0. استخدام البيانات داخل تطبيقك (دون إعادة توزيع مجموعة البيانات الخام) لا يتطلب شرط المشاركة بالمثل.
لماذا فقط 500,000 إدخال بينما تحتوي قاعدة بيانات Nutrola الكاملة على أكثر من 3 ملايين؟
تحتوي مجموعة البيانات المفتوحة على إدخالات يمكننا إصدارها بموجب ترخيص مفتوح دون قيود. تتضمن قاعدة بياناتنا الكاملة بيانات من مصادر خاصة — شراكات مباشرة مع المصنعين، وبيانات مخبرية مرخصة، ومصادر أخرى ذات قيود تعاقدية على إعادة التوزيع. تأتي الإدخالات الـ 500,000 في مجموعة البيانات المفتوحة من قواعد بيانات حكومية، وتحليل مختبري خاص بنا، ومساهمات مجتمعية حيث وافق المساهمون على الترخيص المفتوح. إذا كنت بحاجة إلى الوصول إلى قاعدة البيانات الكاملة، توفر واجهة برمجة بيانات التغذية ذلك بموجب شروط تجارية منفصلة.
ماذا يجب أن أفعل إذا وجدت خطأ في مجموعة البيانات؟
افتح قضية في مستودع GitHub مع food_id للإدخال المتأثر ووصف الخطأ. أضف رابط مصدر إذا كان لديك (مثل، موقع ويب الشركة المصنعة الذي يظهر حقائق غذائية مختلفة). يقوم فريق البيانات لدينا بمراجعة القضايا المبلغ عنها أسبوعيًا، ويتم تضمين التصحيحات المؤكدة في الإصدار الربع سنوي التالي. بالنسبة للتصحيحات العاجلة، قد نقوم بدفع إصدار تصحيح بين التحديثات الربع سنوية.
كيف يرتبط ذلك بواجهة برمجة بيانات Nutrola؟
تعتبر مجموعة البيانات المفتوحة لقطة ثابتة ربع سنوية من مجموعة مختارة من قاعدة بياناتنا. توفر واجهة برمجة التطبيقات الوصول في الوقت الحقيقي إلى قاعدة البيانات الكاملة التي تحتوي على أكثر من 3 ملايين إدخال مع ميزات البحث، والتصفية، والبحث عن الرموز الشريطية، وغيرها. اعتبر مجموعة البيانات المفتوحة كقاعدة لسيناريوهات الاستخدام غير المتصلة أو الدفعات، وواجهة برمجة التطبيقات كحل للتطبيقات الإنتاجية التي تحتاج إلى بيانات حية. يبدأ العديد من المطورين بمجموعة البيانات المفتوحة للنمذجة الأولية وينتقلون إلى واجهة برمجة التطبيقات عندما ينتقلون إلى الإنتاج.
مستعد لتحويل تتبع تغذيتك؟
انضم إلى الآلاف الذين حولوا رحلتهم الصحية مع Nutrola!