Nutrola का ओपन फूड न्यूट्रिशन डेटासेट: 500K+ खाद्य पदार्थ डाउनलोड के लिए उपलब्ध

Nutrola का ओपन फूड न्यूट्रिशन डेटासेट डाउनलोड करें जिसमें 500K+ सत्यापित प्रविष्टियाँ शामिल हैं, जिनमें कैलोरी, मैक्रोज़, माइक्रोन्यूट्रिएंट्स और सर्विंग साइज शामिल हैं। शोध, विकास और शिक्षा के लिए CSV और JSON में उपलब्ध।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

अच्छे न्यूट्रिशन डेटा को खोजना मुश्किल है। शोधकर्ता सरकारी डेटाबेस को साफ करने में हफ्तों बर्बाद करते हैं। डेवलपर्स ऐसे स्क्रैपर्स लिखते हैं जो हर महीने टूट जाते हैं। थिसिस पेपर लिखने वाले छात्र छोटे, पुराने नमूनों पर निर्भर रहते हैं क्योंकि एक व्यापक डेटासेट को खड़ा करना शैक्षणिक समयसीमा में वास्तविकता नहीं है।

हमने Nutrola का फूड डेटाबेस अपने कैलोरी ट्रैकिंग ऐप को शक्ति देने के लिए बनाया, और पिछले तीन वर्षों में हमने उस डेटा को सटीक, व्यापक और अच्छी तरह से संरचित बनाने में भारी निवेश किया है। आज हम उस डेटाबेस का एक क्यूरेटेड उपसमुच्चय एक ओपन डेटासेट के रूप में जारी कर रहे हैं: 500,000 से अधिक सत्यापित खाद्य प्रविष्टियाँ जो CSV और JSON प्रारूपों में मुफ्त डाउनलोड के लिए उपलब्ध हैं।

यह पोस्ट आपको डेटासेट के बारे में जानने के लिए आवश्यक सभी जानकारी प्रदान करती है — इसमें क्या है, इसे कैसे डाउनलोड करें, स्कीमा, लाइसेंसिंग, गुणवत्ता पद्धति, और यह अन्य सार्वजनिक रूप से उपलब्ध न्यूट्रिशन डेटा स्रोतों के साथ कैसे तुलना करता है।

डेटासेट में क्या है

Nutrola ओपन फूड न्यूट्रिशन डेटासेट में 500,000+ खाद्य प्रविष्टियाँ शामिल हैं, जो कच्चे सामग्री, सामान्य खाद्य पदार्थ, ब्रांडेड उपभोक्ता उत्पादों और सामान्य रेस्तरां आइटमों को कवर करती हैं। प्रत्येक प्रविष्टि को हमारे मल्टी-लेयर गुणवत्ता नियंत्रण पाइपलाइन के माध्यम से सत्यापित किया गया है, वही प्रणाली जिसे हमने कैसे हमने अपना फूड डेटाबेस बनाया पर विस्तार से बताया है।

प्रत्येक खाद्य प्रविष्टि में निम्नलिखित डेटा बिंदु शामिल हैं:

  • खाद्य नाम — खाद्य आइटम का सामान्य नाम अंग्रेजी में, जहाँ ब्रांड नाम लागू हो
  • कैलोरी — 100 ग्राम और प्रति सर्विंग में ऊर्जा सामग्री किलो कैलोरी (kcal) में
  • मैक्रोन्यूट्रिएंट्स — प्रोटीन, कुल वसा, संतृप्त वसा, ट्रांस वसा, कुल कार्बोहाइड्रेट, आहार फाइबर, कुल शर्करा, और जोड़ी गई शर्करा, सभी ग्राम में
  • माइक्रोन्यूट्रिएंट्स — 30+ विटामिन और खनिज जैसे विटामिन A, विटामिन C, विटामिन D, विटामिन E, विटामिन K, थियामिन, राइबोफ्लेविन, नियासिन, विटामिन B6, फोलेट, विटामिन B12, कैल्शियम, आयरन, मैग्नीशियम, फास्फोरस, पोटेशियम, सोडियम, जिंक, कॉपर, मैंगनीज, सेलेनियम, और अधिक
  • सर्विंग साइज — मानक सर्विंग साइज विवरण (जैसे, "1 मध्यम सेब," "1 कप पका हुआ"), सर्विंग का वजन ग्राम में, और प्रति खाद्य तीन वैकल्पिक सर्विंग साइज तक
  • खाद्य श्रेणी — हमारी आंतरिक वर्गीकरण प्रणाली का उपयोग करके श्रेणीबद्ध वर्गीकरण (जैसे, डेयरी > पनीर > हार्ड पनीर)
  • उत्पत्ति देश — वह मुख्य देश या क्षेत्र जहाँ खाद्य उत्पाद बेचा जाता है या सामग्री का सामान्य उपभोग होता है
  • बारकोड (जहाँ उपलब्ध) — ब्रांडेड उत्पादों के लिए UPC या EAN कोड
  • डेटा स्रोत टैग — उत्पत्ति संकेतक जो दिखाते हैं कि प्रविष्टि सरकारी डेटाबेस, निर्माता डेटा, प्रयोगशाला विश्लेषण, या हमारी आंतरिक सत्यापन टीम से आई है

नमूना डेटा

यहाँ डेटासेट से प्रविष्टियों का एक चयन है ताकि आप संरचना और विवरण का अंदाजा लगा सकें:

food_id food_name category country calories_per_100g protein_g fat_g carbs_g fiber_g serving_desc serving_g
NF-001247 चिकन ब्रेस्ट, कच्चा, बिना त्वचा के पोल्ट्री > चिकन US 120 22.5 2.6 0.0 0.0 1 ब्रेस्ट (174g) 174
NF-008391 फेज़ टोटल 0% ग्रीक योगर्ट डेयरी > योगर्ट > ग्रीक GR 54 10.3 0.0 3.0 0.0 1 कंटेनर (150g) 150
NF-014205 बासमती चावल, सफेद, पका हुआ अनाज > चावल IN 130 2.7 0.3 28.2 0.4 1 कप (158g) 158
NF-022876 एवोकाडो, हस, कच्चा फल > उष्णकटिबंधीय MX 160 2.0 14.7 8.5 6.7 1/2 एवोकाडो (68g) 68
NF-031560 बैरिला पेनने रिगेटे, सूखा पास्ता > सूखा IT 359 12.5 2.0 71.2 3.0 2 oz (56g) 56
NF-045892 किमची, पारंपरिक नापा गोभी सब्जियाँ > किण्वित KR 15 1.1 0.5 2.4 1.6 1/2 कप (75g) 75
NF-053714 सामन, अटलांटिक, कच्चा, फार्म किया हुआ मछली > सामन NO 208 20.4 13.4 0.0 0.0 1 फिलेट (113g) 113
NF-067283 चने, कैन्ड, छाने हुए फलियाँ > बीन्स US 119 6.3 2.0 18.2 5.4 1/2 कप (120g) 120

पूर्ण डेटासेट में माइक्रोन्यूट्रिएंट्स, वैकल्पिक सर्विंग साइज, बारकोड डेटा, और स्रोत टैग के लिए कई और कॉलम शामिल हैं। ऊपर की तालिका में मुख्य पोषण क्षेत्रों को दिखाया गया है।

डेटा प्रारूप

डेटासेट दो प्रारूपों में उपलब्ध है:

CSV

CSV फ़ाइल UTF-8 एन्कोडिंग का उपयोग करती है जिसमें अल्पविराम विभाजक होते हैं। पहली पंक्ति में कॉलम हेडर होते हैं। जिन फ़ील्ड में अल्पविराम होते हैं, उन्हें डबल कोट्स में रखा गया है। शून्य मानों को खाली फ़ील्ड के रूप में दर्शाया गया है।

CSV प्रारूप स्प्रेडशीट उपकरणों जैसे Excel और Google Sheets, सांख्यिकीय सॉफ़्टवेयर जैसे R और SPSS, और कमांड-लाइन उपकरणों जैसे csvkit या xsv के साथ त्वरित डेटा अन्वेषण के लिए आदर्श है।

फ़ाइल: nutrola-open-food-dataset-v3.csv (लगभग 210 MB अनकंप्रेस्ड, 48 MB gzipped)

JSON

JSON फ़ाइल में खाद्य प्रविष्टियों के लिए एक ऑब्जेक्ट्स की सूची होती है। संरचित फ़ील्ड्स जैसे सर्विंग साइज (जिसमें विवरण, ग्राम वजन, और जहां लागू हो, मिलीलीटर समकक्ष शामिल होते हैं) और माइक्रोन्यूट्रिएंट प्रोफाइल के लिए नेस्टेड ऑब्जेक्ट्स का उपयोग किया जाता है।

JSON प्रारूप एप्लिकेशन विकास, डेटाबेस आयात, और किसी भी कार्यप्रवाह के लिए बेहतर है जहाँ आपको सर्विंग साइज और पोषक तत्व समूहों की श्रेणीबद्ध संरचना को बनाए रखना होता है।

फ़ाइल: nutrola-open-food-dataset-v3.json (लगभग 340 MB अनकंप्रेस्ड, 62 MB gzipped)

दोनों फ़ाइलें डाउनलोड समय को कम करने के लिए gzip-संपीड़ित आर्काइव के रूप में भी उपलब्ध हैं।

डेटा स्कीमा

यहाँ डेटासेट में प्रत्येक फ़ील्ड के लिए विवरण के साथ पूरा स्कीमा है:

Field Name Type Description
food_id string खाद्य प्रविष्टि के लिए अनूठा Nutrola पहचानकर्ता (फॉर्मेट: NF-XXXXXX)
food_name string खाद्य का सामान्य नाम, जिसमें ब्रांड शामिल है जहाँ लागू हो
category_l1 string शीर्ष स्तर की खाद्य श्रेणी (जैसे, डेयरी, अनाज, फल)
category_l2 string दूसरी स्तर की श्रेणी (जैसे, पनीर, चावल, उष्णकटिबंधीय)
category_l3 string जहाँ लागू हो, तीसरी स्तर की श्रेणी (जैसे, हार्ड पनीर, ब्राउन चावल)
country string प्राथमिक बाजार को इंगित करने वाला ISO 3166-1 अल्फा-2 देश कोड
brand string ब्रांडेड उत्पादों के लिए ब्रांड नाम; सामान्य खाद्य पदार्थों के लिए शून्य
barcode string UPC/EAN बारकोड; यदि लागू नहीं है तो शून्य
calories_per_100g float 100 ग्राम में ऊर्जा kcal में
protein_g float 100g में प्रोटीन ग्राम में
fat_total_g float 100g में कुल वसा ग्राम में
fat_saturated_g float 100g में संतृप्त वसा ग्राम में
fat_trans_g float 100g में ट्रांस वसा ग्राम में
carbs_total_g float 100g में कुल कार्बोहाइड्रेट ग्राम में
fiber_g float 100g में आहार फाइबर ग्राम में
sugars_total_g float 100g में कुल शर्करा ग्राम में
sugars_added_g float 100g में जोड़ी गई शर्करा ग्राम में
sodium_mg float 100g में सोडियम मिलीग्राम में
cholesterol_mg float 100g में कोलेस्ट्रॉल मिलीग्राम में
vitamin_a_mcg float 100g में विटामिन A माइक्रोग्राम RAE में
vitamin_c_mg float 100g में विटामिन C मिलीग्राम में
vitamin_d_mcg float 100g में विटामिन D माइक्रोग्राम में
calcium_mg float 100g में कैल्शियम मिलीग्राम में
iron_mg float 100g में आयरन मिलीग्राम में
potassium_mg float 100g में पोटेशियम मिलीग्राम में
magnesium_mg float 100g में मैग्नीशियम मिलीग्राम में
zinc_mg float 100g में जिंक मिलीग्राम में
phosphorus_mg float 100g में फास्फोरस मिलीग्राम में
selenium_mcg float 100g में सेलेनियम माइक्रोग्राम में
vitamin_b6_mg float 100g में विटामिन B6 मिलीग्राम में
vitamin_b12_mcg float 100g में विटामिन B12 माइक्रोग्राम में
folate_mcg float 100g में फोलेट माइक्रोग्राम DFE में
vitamin_e_mg float 100g में विटामिन E मिलीग्राम में
vitamin_k_mcg float 100g में विटामिन K माइक्रोग्राम में
thiamin_mg float 100g में थियामिन (B1) मिलीग्राम में
riboflavin_mg float 100g में राइबोफ्लेविन (B2) मिलीग्राम में
niacin_mg float 100g में नायसिन (B3) मिलीग्राम में
copper_mg float 100g में कॉपर मिलीग्राम में
manganese_mg float 100g में मैंगनीज मिलीग्राम में
serving_1_desc string प्राथमिक सर्विंग साइज विवरण (जैसे, "1 कप पका हुआ")
serving_1_g float प्राथमिक सर्विंग साइज का वजन ग्राम में
serving_2_desc string वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य
serving_2_g float वैकल्पिक सर्विंग साइज का वजन ग्राम में
serving_3_desc string दूसरी वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य
serving_3_g float दूसरी वैकल्पिक सर्विंग साइज का वजन ग्राम में
data_source string उत्पत्ति टैग: "government", "manufacturer", "laboratory", या "verified_community"
last_verified string ISO 8601 तिथि जब प्रविष्टि को अंतिम बार सत्यापित किया गया (YYYY-MM-DD)
dataset_version string डेटासेट संस्करण पहचानकर्ता (जैसे, "v3.0")

सभी पोषक तत्व मान 100 ग्राम में व्यक्त किए गए हैं ताकि सुसंगत तुलना की जा सके। सर्विंग के लिए पोषक तत्वों की गणना करने के लिए, 100 ग्राम के लिए मान को सर्विंग के वजन से गुणा करें और 100 से विभाजित करें।

डाउनलोड कैसे करें

डेटासेट हमारे सार्वजनिक GitHub रिपॉजिटरी पर होस्ट किया गया है:

github.com/nutrola/open-food-nutrition-dataset

आप GitHub Releases पृष्ठ से फ़ाइलें सीधे डाउनलोड कर सकते हैं, या रिपॉजिटरी को क्लोन कर सकते हैं:

git clone https://github.com/nutrola/open-food-nutrition-dataset.git

संपीड़ित संस्करणों के लिए:

# CSV डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz

# JSON डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz

रिपॉजिटरी में भी शामिल हैं:

  • त्वरित प्रारंभ निर्देशों के साथ एक विस्तृत README.md
  • डेटासेट संस्करणों के बीच परिवर्तनों का दस्तावेजीकरण करने वाला CHANGELOG.md
  • डेटा को लोड करने, फ़िल्टर करने और विश्लेषण करने के लिए Python और R उदाहरण स्क्रिप्ट के साथ scripts/ निर्देशिका
  • JSON स्कीमा और CSV व्याकरण परिभाषाएँ के साथ schema/ निर्देशिका

यदि आपको वास्तविक समय में अपडेट के साथ पूर्ण 3 मिलियन+ प्रविष्टियों का डेटाबेस चाहिए, तो हमारे Nutrition Data API को डेवलपर एक्सेस के लिए देखें।

उपयोग के मामले

अकादमिक शोध

पोषण शोधकर्ता इस डेटासेट का उपयोग आहार पैटर्न विश्लेषण, महामारी विज्ञान मॉडलिंग, और पोषक तत्व घनत्व अध्ययन के लिए कर सकते हैं बिना सरकारी डेटा फ़ाइलों को साफ करने में हफ्तों बर्बाद किए। श्रेणीबद्ध श्रेणी प्रणाली खाद्य समूहों के अनुसार फ़िल्टर करना आसान बनाती है, और देश का फ़ील्ड क्रॉस-सांस्कृतिक तुलना की अनुमति देता है।

प्रकाशित शोध में डेटासेट का संदर्भ देना चाहिए: Nutrola ओपन फूड न्यूट्रिशन डेटासेट, v3.0 (2026)। उपलब्ध है github.com/nutrola/open-food-nutrition-dataset। CC BY-SA 4.0 के तहत लाइसेंस प्राप्त।

एप्लिकेशन विकास

डेवलपर्स जो स्वास्थ्य, फिटनेस, या खाद्य संबंधित एप्लिकेशन बना रहे हैं, वे इस डेटासेट का उपयोग स्थानीय खाद्य डेटाबेस के रूप में कर सकते हैं। सुसंगत स्कीमा और सर्विंग साइज डेटा का अर्थ है कि आप एक कार्यात्मक खाद्य लॉगिंग फीचर बना सकते हैं बिना लाइव API कनेक्शन पर निर्भर किए। यह विशेष रूप से ऑफ़लाइन-प्रथम मोबाइल ऐप्स, प्रोटोटाइपिंग, और हैकाथन परियोजनाओं के लिए उपयोगी है।

CSV प्रारूप सीधे SQLite, PostgreSQL, या किसी भी संबंधात्मक डेटाबेस में लोड होता है। JSON प्रारूप दस्तावेज़ स्टोर्स जैसे MongoDB या Firestore के लिए साफ़ तरीके से मैप होता है।

डेटा विज्ञान और मशीन लर्निंग

यह डेटासेट खाद्य और पोषण से संबंधित मशीन लर्निंग मॉडल को प्रशिक्षित और मूल्यांकन करने के लिए उपयुक्त है। सामान्य अनुप्रयोगों में शामिल हैं:

  • खाद्य वर्गीकरण मॉडल — नामों या पोषण प्रोफाइल से खाद्य श्रेणियों की भविष्यवाणी करने के लिए प्रशिक्षण लेबल के रूप में श्रेणी पदानुक्रम का उपयोग करें
  • पोषण अनुमान — आंशिक जानकारी (जैसे, प्रोटीन, वसा, और कार्ब्स के अनुपात से कैलोरी का अनुमान लगाना) से कैलोरी या मैक्रो सामग्री की भविष्यवाणी करने के लिए रिग्रेशन मॉडल प्रशिक्षित करें
  • सिफारिश प्रणाली — पोषण के समान विकल्प सुझाने वाले खाद्य सिफारिश इंजन बनाएं
  • असामान्यता पहचान — असामान्य पोषण प्रोफाइल की पहचान करें जो अन्य डेटासेट में डेटा गुणवत्ता समस्याओं को इंगित कर सकती हैं

शिक्षा

पोषण विज्ञान के छात्र और शिक्षक इस डेटासेट का उपयोग पाठ्यक्रम, प्रयोगशालाओं, और असाइनमेंट के लिए कर सकते हैं। डेटा की व्यापकता — जो दर्जनों देशों से खाद्य पदार्थों को कवर करती है और हर प्रमुख खाद्य समूह में फैली हुई है — इसे मैक्रोन्यूट्रिएंट अनुपात, माइक्रोन्यूट्रिएंट घनत्व, और विभिन्न व्यंजनों और खाद्य प्रसंस्करण स्तरों के बीच पोषण प्रोफाइल कैसे भिन्न होते हैं, जैसे अवधारणाओं को सिखाने के लिए उपयोगी बनाती है।

सार्वजनिक स्वास्थ्य और नीति

सार्वजनिक स्वास्थ्य संगठन इस डेटा का उपयोग विशिष्ट खाद्य श्रेणियों या बाजारों के पोषण परिदृश्य का विश्लेषण करने के लिए कर सकते हैं। देश का फ़ील्ड क्षेत्र के अनुसार फ़िल्टरिंग की अनुमति देता है, और ब्रांड फ़ील्ड ब्रांडेड बनाम सामान्य खाद्य पोषण गुणवत्ता का विश्लेषण करने में मदद करता है।

डेटा गुणवत्ता पद्धति

एक ओपन डेटासेट जारी करना तब तक कोई मायने नहीं रखता जब तक डेटा विश्वसनीय न हो। हम इस रिलीज़ में 500,000+ प्रविष्टियों में गुणवत्ता सुनिश्चित करने के लिए निम्नलिखित तरीके अपनाते हैं।

मल्टी-सोर्स सत्यापन

डेटासेट में प्रत्येक प्रविष्टि को कम से कम दो स्वतंत्र स्रोतों के खिलाफ सत्यापित किया गया है। हमारे प्राथमिक डेटा स्रोतों में शामिल हैं:

  • सरकारी पोषण डेटाबेस — USDA FoodData Central (संयुक्त राज्य अमेरिका), CoFID (यूनाइटेड किंगडम), NUTTAB (ऑस्ट्रेलिया), CNF (कनाडा), और 20+ देशों के समकक्ष डेटाबेस
  • निर्माता द्वारा प्रदान किया गया डेटा — खाद्य निर्माताओं द्वारा सीधे हमारे ब्रांड साझेदारी कार्यक्रम के माध्यम से प्रस्तुत पोषण तथ्य पैनल
  • प्रयोगशाला विश्लेषण — हमारे टीम द्वारा उच्च मात्रा वाले खाद्य पदार्थों के लिए स्वतंत्र प्रयोगशाला परीक्षण जहाँ स्रोत डेटा विवादास्पद या पुराना है
  • सत्यापित सामुदायिक सबमिशन — उपयोगकर्ता द्वारा प्रस्तुत प्रविष्टियाँ जो हमारी तीन-चरण सत्यापन प्रक्रिया (स्वचालित क्रॉस-रेफेरेंसिंग, विशेषज्ञ समीक्षा, और सांख्यिकीय आउटलेयर पहचान) से गुजरी हैं

स्वचालित गुणवत्ता जांच

प्रत्येक प्रविष्टि डेटासेट में प्रवेश करने से पहले स्वचालित जांच की एक श्रृंखला से गुजरती है:

  • ऊर्जा संतुलन सत्यापन — कैलोरी की गणना एटवाटर गणना (4 kcal/g प्रोटीन + 9 kcal/g वसा + 4 kcal/g कार्बोहाइड्रेट) के खिलाफ क्रॉस-चेक की जाती है। जिन प्रविष्टियों में निर्दिष्ट कैलोरी गणना के मान से 10% से अधिक भिन्न होती हैं, उन्हें मैनुअल समीक्षा के लिए चिह्नित किया जाता है।
  • रेंज जांच — प्रत्येक पोषक तत्व मान को खाद्य श्रेणी के लिए शारीरिक रूप से संभावित रेंज के खिलाफ सत्यापित किया जाता है। एक पनीर प्रविष्टि जो 0 ग्राम वसा का दावा करती है या एक फल प्रविष्टि जो 50 ग्राम प्रोटीन का दावा करती है, तुरंत चिह्नित की जाती है।
  • क्रॉस-प्रविष्टि स्थिरता — समान खाद्य पदार्थों की सांख्यिकीय तुलना की जाती है। यदि एक नया चिकन ब्रेस्ट प्रविष्टि मौजूदा चिकन ब्रेस्ट प्रविष्टियों के समूह से महत्वपूर्ण रूप से भिन्न मान दिखाती है, तो इसे समीक्षा के लिए रोका जाता है।
  • सर्विंग साइज सत्यापन — सर्विंग वजन ज्ञात मानक भागों के खिलाफ जांचा जाता है। "1 मध्यम सेब" जो 500 ग्राम का दावा करता है, पास नहीं होता।

मानव समीक्षा

स्वचालित जांच द्वारा चिह्नित प्रविष्टियाँ हमारी डेटा टीम द्वारा मैनुअल समीक्षा से गुजरती हैं, जिसमें प्रमाणित पोषण विशेषज्ञ और खाद्य वैज्ञानिक शामिल हैं। लगभग 12% प्रविष्टियों को स्वीकृत होने से पहले किसी न किसी रूप में मैनुअल सुधार की आवश्यकता होती है।

निरंतर रखरखाव

डेटासेट एक बार का डंप नहीं है। हम प्रविष्टियों को एक रोलिंग आधार पर फिर से सत्यापित करते हैं, उच्च मात्रा वाले खाद्य पदार्थों (जो Nutrola उपयोगकर्ताओं द्वारा सबसे अधिक लॉग किए जाते हैं) और उन प्रविष्टियों को प्राथमिकता देते हैं जिनका स्रोत डेटा अपडेट किया गया है। जब एक खाद्य निर्माता एक उत्पाद को फिर से तैयार करता है, तो हम अपने बारकोड निगरानी प्रणाली के माध्यम से परिवर्तन को पकड़ते हैं और प्रविष्टि को तदनुसार अपडेट करते हैं।

अपडेट आवृत्ति

हम ओपन डेटासेट के नए संस्करण तिमाही में प्रकाशित करते हैं। प्रत्येक रिलीज़ में शामिल हैं:

  • पिछले संस्करण के बाद जोड़े गए नए खाद्य प्रविष्टियाँ
  • पिछले संस्करण के बाद पहचाने गए मौजूदा प्रविष्टियों में सुधार
  • पुनः तैयार किए गए उत्पादों के लिए अपडेट की गई पोषण डेटा
  • नए स्रोत डेटा उपलब्ध होने पर विस्तारित माइक्रोन्यूट्रिएंट कवरेज

वर्तमान संस्करण v3.0 है, जो मार्च 2026 में जारी किया गया था। संस्करण इतिहास और चेंज लॉग GitHub रिपॉजिटरी में उपलब्ध हैं।

यदि आपको तिमाही से अधिक बार अपडेट किया गया डेटा चाहिए, तो हमारा Nutrition Data API 48 घंटों के भीतर परिवर्तनों को दर्शाता है।

लाइसेंस

Nutrola ओपन फूड न्यूट्रिशन डेटासेट को क्रिएटिव कॉमन्स एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल (CC BY-SA 4.0) लाइसेंस के तहत जारी किया गया है।

इसका मतलब है कि आप स्वतंत्र रूप से:

  • शेयर — डेटासेट को किसी भी माध्यम या प्रारूप में कॉपी और पुनर्वितरित करें
  • एडाप्ट — डेटासेट को किसी भी उद्देश्य के लिए, जिसमें वाणिज्यिक उपयोग शामिल है, रिमिक्स, ट्रांसफॉर्म और निर्माण करें

निम्नलिखित शर्तों के तहत:

  • एट्रिब्यूशन — आपको Nutrola को उचित श्रेय देना होगा, लाइसेंस का लिंक प्रदान करना होगा, और यह बताना होगा कि क्या परिवर्तन किए गए हैं
  • शेयरअलाइक — यदि आप डेटासेट को रिमिक्स, ट्रांसफॉर्म, या निर्माण करते हैं, तो आपको अपने योगदान को उसी CC BY-SA 4.0 लाइसेंस के तहत वितरित करना होगा

हमने CC BY-SA 4.0 को चुना क्योंकि यह खुलापन और यह सुनिश्चित करने के बीच सही संतुलन बनाता है कि सुधार समुदाय में वापस प्रवाहित होते रहें। यदि आप इस डेटा का एक बेहतर संस्करण बनाते हैं, तो लाइसेंस यह सुनिश्चित करता है कि आपके सुधार सभी के लिए उपलब्ध रहें।

यह अन्य डेटासेट्स के साथ कैसे तुलना करता है

कई सार्वजनिक रूप से उपलब्ध पोषण डेटासेट हैं। यहाँ Nutrola ओपन फूड न्यूट्रिशन डेटासेट की तुलना दो सबसे व्यापक रूप से उपयोग किए जाने वाले विकल्पों से की गई है।

बनाम USDA FoodData Central

USDA FoodData Central संयुक्त राज्य अमेरिका में पोषण डेटा के लिए स्वर्ण मानक है। यह व्यापक, अच्छी तरह से प्रलेखित है, और प्रयोगशाला विश्लेषण द्वारा समर्थित है। हालाँकि, इसमें कुछ सीमाएँ हैं जिन्हें Nutrola डेटासेट संबोधित करता है:

Dimension USDA FoodData Central Nutrola ओपन डेटासेट
कुल प्रविष्टियाँ ~400,000 (फाउंडेशन, SR लेगेसी, ब्रांडेड मिलाकर) 500,000+
भौगोलिक कवरेज मुख्य रूप से संयुक्त राज्य अमेरिका 47 देश
ब्रांडेड उत्पाद केवल अमेरिकी ब्रांड, अक्सर पुराने अंतरराष्ट्रीय ब्रांड, त्रैमासिक सत्यापित
डेटा प्रारूप कई असंगत फ़ाइल प्रारूप, जटिल संबंधात्मक संरचना एकल CSV या JSON फ़ाइल, सपाट संरचना
सर्विंग साइज उप-डेटाबेस में असंगत मानकीकृत प्रारूप जिसमें प्रति खाद्य 3 सर्विंग तक
उपयोग में आसानी उप-डेटाबेस को मिलाने के लिए महत्वपूर्ण डेटा इंजीनियरिंग की आवश्यकता होती है एक फ़ाइल डाउनलोड करें और काम करना शुरू करें
अपडेट आवृत्ति उप-डेटाबेस द्वारा भिन्न (कुछ के लिए वार्षिक) त्रैमासिक

यदि आपका काम विशेष रूप से अमेरिकी खाद्य पदार्थों पर केंद्रित है और आपको संभवतः गहरे पोषण प्रोफाइल की आवश्यकता है (USDA फाउंडेशन खाद्य पदार्थों के लिए 150+ पोषक तत्वों को कवर करता है), तो FoodData Central बेहतर विकल्प है। यदि आपको अंतरराष्ट्रीय कवरेज, सुसंगत प्रारूपिंग, और एक डेटासेट चाहिए जो तुरंत काम करे, तो Nutrola डेटासेट मजबूत विकल्प है।

दोनों डेटासेट पूरक हैं। कई शोधकर्ता USDA फाउंडेशन डेटा का उपयोग विस्तृत अमेरिकी पोषण विश्लेषण के लिए करते हैं और इसे Nutrola डेटा के साथ अंतरराष्ट्रीय कवरेज और ब्रांडेड उत्पादों के लिए पूरक करते हैं।

बनाम Open Food Facts

Open Food Facts एक क्राउडसोर्स्ड डेटाबेस है जिसमें 3 मिलियन से अधिक प्रविष्टियाँ हैं। इसके पास प्रभावशाली पैमाना है और यह कई देशों के उत्पादों को कवर करता है। हालाँकि, इसकी क्राउडसोर्स्ड प्रकृति डेटा गुणवत्ता की चुनौतियाँ पेश करती है:

Dimension Open Food Facts Nutrola ओपन डेटासेट
कुल प्रविष्टियाँ 3M+ 500,000+
डेटा गुणवत्ता परिवर्तनशील — क्राउडसोर्स्ड स्वचालित जांच के साथ सत्यापित — मल्टी-सोर्स, मानव-समीक्षित
पूर्णता कई प्रविष्टियों में मैक्रो/माइक्रो डेटा गायब है सभी प्रविष्टियों में पूर्ण मैक्रो डेटा है; 90%+ में पूर्ण माइक्रो प्रोफाइल हैं
सर्विंग साइज असंगत, अक्सर गायब मानकीकृत, हमेशा मौजूद
श्रेणी वर्गीकरण क्राउडसोर्स्ड टैग, असंगत श्रेणीबद्ध, क्यूरेटेड वर्गीकरण
पोषक तत्व कवरेज प्रविष्टि के अनुसार व्यापक रूप से भिन्न सभी प्रविष्टियों में सुसंगत 40+ पोषक तत्व
डेटा प्रारूप MongoDB डंप, जटिल नेस्टेड JSON साफ़ CSV और JSON
लाइसेंस ओपन डेटाबेस लाइसेंस (ODbL) CC BY-SA 4.0

Open Food Facts व्यापकता में उत्कृष्ट है — यदि आपको किसी विशेष अज्ञात उत्पाद को बारकोड द्वारा देखना है, तो उनके पास संभवतः यह होगा। Nutrola डेटासेट गहराई और स्थिरता में उत्कृष्ट है — प्रत्येक प्रविष्टि एक ही गुणवत्ता मानक को पूरा करती है, जिससे यह मात्रात्मक विश्लेषण के लिए अधिक विश्वसनीय बनाता है जहाँ डेटा गैप या त्रुटियाँ परिणामों को विकृत कर सकती हैं।

यदि आप एक बारकोड स्कैनर ऐप बना रहे हैं और अधिकतम उत्पाद कवरेज की आवश्यकता है, तो Open Food Facts एक अच्छा प्रारंभिक बिंदु है। यदि आप एक मशीन लर्निंग मॉडल को प्रशिक्षित कर रहे हैं, सांख्यिकीय शोध कर रहे हैं, या एक ऐप बना रहे हैं जहाँ पोषण सटीकता महत्वपूर्ण है, तो Nutrola डेटासेट का सत्यापित डेटा आपको एक मजबूत आधार प्रदान करेगा।

शुरुआत कैसे करें

एक बार जब आप डेटासेट डाउनलोड कर लें, तो यहाँ Python में इसे लोड करने और अन्वेषण करने का एक त्वरित उदाहरण है:

import pandas as pd

# डेटासेट लोड करें
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")

# बुनियादी अवलोकन
print(f"कुल प्रविष्टियाँ: {len(df):,}")
print(f"कवरेज वाले देश: {df['country'].nunique()}")
print(f"खाद्य श्रेणियाँ (L1): {df['category_l1'].nunique()}")

# उच्च प्रोटीन, कम कैलोरी वाले खाद्य पदार्थ खोजें
high_protein = df[
    (df["protein_g"] > 20) &
    (df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)

print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# खाद्य श्रेणी के अनुसार औसत मैक्रोज़ का विश्लेषण करें
category_macros = df.groupby("category_l1").agg({
    "calories_per_100g": "mean",
    "protein_g": "mean",
    "fat_total_g": "mean",
    "carbs_total_g": "mean"
}).round(1)

print(category_macros.sort_values("calories_per_100g", ascending=False))

अधिक उदाहरण — जिनमें R स्क्रिप्ट, SQL आयात गाइड, और Jupyter नोटबुक शामिल हैं — GitHub रिपॉजिटरी के scripts/ निर्देशिका में उपलब्ध हैं।

अक्सर पूछे जाने वाले प्रश्न

क्या डेटासेट वास्तव में उपयोग के लिए मुफ्त है?

हाँ। Nutrola ओपन फूड न्यूट्रिशन डेटासेट CC BY-SA 4.0 लाइसेंस के तहत जारी किया गया है, जो वाणिज्यिक और गैर-वाणिज्यिक उपयोग की अनुमति देता है। केवल आवश्यकताएँ हैं कि आप Nutrola को स्रोत के रूप में श्रेय दें और यदि आप वितरित करते हैं तो किसी भी व्युत्पन्न डेटासेट को उसी लाइसेंस के तहत लाइसेंसित करें। फ़ाइलें डाउनलोड करने के लिए कोई API कुंजी, कोई उपयोग सीमा, और कोई पंजीकरण आवश्यक नहीं है।

डेटासेट कितनी बार अपडेट किया जाता है?

हम नए संस्करण त्रैमासिक में प्रकाशित करते हैं। प्रत्येक रिलीज़ में नए खाद्य प्रविष्टियाँ जोड़ी जाती हैं, पिछले संस्करण के बाद पहचाने गए किसी भी त्रुटियों को सही किया जाता है, और उन प्रविष्टियों के लिए अपडेट किया जाता है जो पुनः तैयार की गई हैं। GitHub रिपॉजिटरी के Releases पृष्ठ पर पूर्ण संस्करण इतिहास है, और आप नए संस्करण प्रकाशित होने पर सूचित होने के लिए रिपॉजिटरी को देख सकते हैं।

क्या मैं इस डेटासेट का उपयोग एक वाणिज्यिक ऐप बनाने के लिए कर सकता हूँ?

हाँ। CC BY-SA 4.0 लाइसेंस स्पष्ट रूप से वाणिज्यिक उपयोग की अनुमति देता है। आप डेटा का उपयोग एक भुगतान ऐप, एक SaaS उत्पाद, या किसी अन्य वाणिज्यिक संदर्भ में कर सकते हैं। आपको अपने ऐप या दस्तावेज़ में Nutrola को श्रेय देना होगा, और यदि आप डेटासेट का एक संशोधित संस्करण वितरित करते हैं, तो संशोधित संस्करण को भी CC BY-SA 4.0 के तहत लाइसेंसित करना होगा। अपने ऐप के भीतर डेटा का उपयोग (कच्चे डेटासेट को पुनर्वितरित किए बिना) शेयरअलाइक आवश्यकता को सक्रिय नहीं करता है।

Nutrola का पूरा डेटाबेस 3 मिलियन+ प्रविष्टियों में केवल 500K प्रविष्टियाँ क्यों हैं?

ओपन डेटासेट में वे प्रविष्टियाँ शामिल हैं जिन्हें हम बिना किसी प्रतिबंध के एक ओपन लाइसेंस के तहत जारी कर सकते हैं। हमारा पूरा डेटाबेस ऐसे डेटा को शामिल करता है जो स्वामित्व वाले स्रोतों से आता है — सीधे निर्माता साझेदारियों, लाइसेंस प्राप्त प्रयोगशाला डेटा, और अन्य स्रोतों से जिनमें पुनर्वितरण पर संविदात्मक सीमाएँ हैं। ओपन डेटासेट में 500K प्रविष्टियाँ सरकारी डेटाबेस, हमारे अपने प्रयोगशाला विश्लेषण, और सामुदायिक सबमिशन से आती हैं जहाँ योगदानकर्ताओं ने ओपन लाइसेंसिंग पर सहमति दी। यदि आपको पूर्ण डेटाबेस तक पहुँच की आवश्यकता है, तो हमारा Nutrition Data API इसे अलग वाणिज्यिक शर्तों के तहत प्रदान करता है।

यदि मैं डेटासेट में कोई त्रुटि पाता हूँ तो मुझे क्या करना चाहिए?

GitHub रिपॉजिटरी पर उस प्रविष्टि के food_id और त्रुटि का विवरण के साथ एक समस्या खोलें। यदि आपके पास कोई स्रोत लिंक है (जैसे, एक निर्माता की वेबसाइट जो विभिन्न पोषण तथ्यों को दिखाती है), तो उसे शामिल करें। हमारी डेटा टीम साप्ताहिक रूप से रिपोर्ट की गई समस्याओं की समीक्षा करती है, और पुष्टि की गई सुधारों को अगले त्रैमासिक रिलीज़ में शामिल किया जाता है। तत्काल सुधारों के लिए, हम त्रैमासिक अपडेट के बीच एक पैच रिलीज़ को धकेल सकते हैं।

यह Nutrola न्यूट्रिशन डेटा API से कैसे संबंधित है?

ओपन डेटासेट हमारे डेटाबेस का एक स्थिर त्रैमासिक स्नैपशॉट है। API पूर्ण 3 मिलियन+ प्रविष्टियों के डेटाबेस तक वास्तविक समय में पहुँच प्रदान करता है जिसमें खोज, फ़िल्टरिंग, बारकोड लुकअप, और अन्य सुविधाएँ शामिल हैं। ओपन डेटासेट को ऑफ़लाइन या बैच उपयोग के मामलों के लिए आधार के रूप में सोचें, और API को उत्पादन अनुप्रयोगों के लिए लाइव डेटा की आवश्यकता के समाधान के रूप में। कई डेवलपर्स प्रोटोटाइपिंग के लिए ओपन डेटासेट के साथ शुरू करते हैं और जब वे उत्पादन में जाते हैं तो API पर माइग्रेट करते हैं।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!