Nutrola का ओपन फूड न्यूट्रिशन डेटासेट: 500K+ खाद्य पदार्थ डाउनलोड के लिए उपलब्ध
Nutrola का ओपन फूड न्यूट्रिशन डेटासेट डाउनलोड करें जिसमें 500K+ सत्यापित प्रविष्टियाँ शामिल हैं, जिनमें कैलोरी, मैक्रोज़, माइक्रोन्यूट्रिएंट्स और सर्विंग साइज शामिल हैं। शोध, विकास और शिक्षा के लिए CSV और JSON में उपलब्ध।
अच्छे न्यूट्रिशन डेटा को खोजना मुश्किल है। शोधकर्ता सरकारी डेटाबेस को साफ करने में हफ्तों बर्बाद करते हैं। डेवलपर्स ऐसे स्क्रैपर्स लिखते हैं जो हर महीने टूट जाते हैं। थिसिस पेपर लिखने वाले छात्र छोटे, पुराने नमूनों पर निर्भर रहते हैं क्योंकि एक व्यापक डेटासेट को खड़ा करना शैक्षणिक समयसीमा में वास्तविकता नहीं है।
हमने Nutrola का फूड डेटाबेस अपने कैलोरी ट्रैकिंग ऐप को शक्ति देने के लिए बनाया, और पिछले तीन वर्षों में हमने उस डेटा को सटीक, व्यापक और अच्छी तरह से संरचित बनाने में भारी निवेश किया है। आज हम उस डेटाबेस का एक क्यूरेटेड उपसमुच्चय एक ओपन डेटासेट के रूप में जारी कर रहे हैं: 500,000 से अधिक सत्यापित खाद्य प्रविष्टियाँ जो CSV और JSON प्रारूपों में मुफ्त डाउनलोड के लिए उपलब्ध हैं।
यह पोस्ट आपको डेटासेट के बारे में जानने के लिए आवश्यक सभी जानकारी प्रदान करती है — इसमें क्या है, इसे कैसे डाउनलोड करें, स्कीमा, लाइसेंसिंग, गुणवत्ता पद्धति, और यह अन्य सार्वजनिक रूप से उपलब्ध न्यूट्रिशन डेटा स्रोतों के साथ कैसे तुलना करता है।
डेटासेट में क्या है
Nutrola ओपन फूड न्यूट्रिशन डेटासेट में 500,000+ खाद्य प्रविष्टियाँ शामिल हैं, जो कच्चे सामग्री, सामान्य खाद्य पदार्थ, ब्रांडेड उपभोक्ता उत्पादों और सामान्य रेस्तरां आइटमों को कवर करती हैं। प्रत्येक प्रविष्टि को हमारे मल्टी-लेयर गुणवत्ता नियंत्रण पाइपलाइन के माध्यम से सत्यापित किया गया है, वही प्रणाली जिसे हमने कैसे हमने अपना फूड डेटाबेस बनाया पर विस्तार से बताया है।
प्रत्येक खाद्य प्रविष्टि में निम्नलिखित डेटा बिंदु शामिल हैं:
- खाद्य नाम — खाद्य आइटम का सामान्य नाम अंग्रेजी में, जहाँ ब्रांड नाम लागू हो
- कैलोरी — 100 ग्राम और प्रति सर्विंग में ऊर्जा सामग्री किलो कैलोरी (kcal) में
- मैक्रोन्यूट्रिएंट्स — प्रोटीन, कुल वसा, संतृप्त वसा, ट्रांस वसा, कुल कार्बोहाइड्रेट, आहार फाइबर, कुल शर्करा, और जोड़ी गई शर्करा, सभी ग्राम में
- माइक्रोन्यूट्रिएंट्स — 30+ विटामिन और खनिज जैसे विटामिन A, विटामिन C, विटामिन D, विटामिन E, विटामिन K, थियामिन, राइबोफ्लेविन, नियासिन, विटामिन B6, फोलेट, विटामिन B12, कैल्शियम, आयरन, मैग्नीशियम, फास्फोरस, पोटेशियम, सोडियम, जिंक, कॉपर, मैंगनीज, सेलेनियम, और अधिक
- सर्विंग साइज — मानक सर्विंग साइज विवरण (जैसे, "1 मध्यम सेब," "1 कप पका हुआ"), सर्विंग का वजन ग्राम में, और प्रति खाद्य तीन वैकल्पिक सर्विंग साइज तक
- खाद्य श्रेणी — हमारी आंतरिक वर्गीकरण प्रणाली का उपयोग करके श्रेणीबद्ध वर्गीकरण (जैसे, डेयरी > पनीर > हार्ड पनीर)
- उत्पत्ति देश — वह मुख्य देश या क्षेत्र जहाँ खाद्य उत्पाद बेचा जाता है या सामग्री का सामान्य उपभोग होता है
- बारकोड (जहाँ उपलब्ध) — ब्रांडेड उत्पादों के लिए UPC या EAN कोड
- डेटा स्रोत टैग — उत्पत्ति संकेतक जो दिखाते हैं कि प्रविष्टि सरकारी डेटाबेस, निर्माता डेटा, प्रयोगशाला विश्लेषण, या हमारी आंतरिक सत्यापन टीम से आई है
नमूना डेटा
यहाँ डेटासेट से प्रविष्टियों का एक चयन है ताकि आप संरचना और विवरण का अंदाजा लगा सकें:
| food_id | food_name | category | country | calories_per_100g | protein_g | fat_g | carbs_g | fiber_g | serving_desc | serving_g |
|---|---|---|---|---|---|---|---|---|---|---|
| NF-001247 | चिकन ब्रेस्ट, कच्चा, बिना त्वचा के | पोल्ट्री > चिकन | US | 120 | 22.5 | 2.6 | 0.0 | 0.0 | 1 ब्रेस्ट (174g) | 174 |
| NF-008391 | फेज़ टोटल 0% ग्रीक योगर्ट | डेयरी > योगर्ट > ग्रीक | GR | 54 | 10.3 | 0.0 | 3.0 | 0.0 | 1 कंटेनर (150g) | 150 |
| NF-014205 | बासमती चावल, सफेद, पका हुआ | अनाज > चावल | IN | 130 | 2.7 | 0.3 | 28.2 | 0.4 | 1 कप (158g) | 158 |
| NF-022876 | एवोकाडो, हस, कच्चा | फल > उष्णकटिबंधीय | MX | 160 | 2.0 | 14.7 | 8.5 | 6.7 | 1/2 एवोकाडो (68g) | 68 |
| NF-031560 | बैरिला पेनने रिगेटे, सूखा | पास्ता > सूखा | IT | 359 | 12.5 | 2.0 | 71.2 | 3.0 | 2 oz (56g) | 56 |
| NF-045892 | किमची, पारंपरिक नापा गोभी | सब्जियाँ > किण्वित | KR | 15 | 1.1 | 0.5 | 2.4 | 1.6 | 1/2 कप (75g) | 75 |
| NF-053714 | सामन, अटलांटिक, कच्चा, फार्म किया हुआ | मछली > सामन | NO | 208 | 20.4 | 13.4 | 0.0 | 0.0 | 1 फिलेट (113g) | 113 |
| NF-067283 | चने, कैन्ड, छाने हुए | फलियाँ > बीन्स | US | 119 | 6.3 | 2.0 | 18.2 | 5.4 | 1/2 कप (120g) | 120 |
पूर्ण डेटासेट में माइक्रोन्यूट्रिएंट्स, वैकल्पिक सर्विंग साइज, बारकोड डेटा, और स्रोत टैग के लिए कई और कॉलम शामिल हैं। ऊपर की तालिका में मुख्य पोषण क्षेत्रों को दिखाया गया है।
डेटा प्रारूप
डेटासेट दो प्रारूपों में उपलब्ध है:
CSV
CSV फ़ाइल UTF-8 एन्कोडिंग का उपयोग करती है जिसमें अल्पविराम विभाजक होते हैं। पहली पंक्ति में कॉलम हेडर होते हैं। जिन फ़ील्ड में अल्पविराम होते हैं, उन्हें डबल कोट्स में रखा गया है। शून्य मानों को खाली फ़ील्ड के रूप में दर्शाया गया है।
CSV प्रारूप स्प्रेडशीट उपकरणों जैसे Excel और Google Sheets, सांख्यिकीय सॉफ़्टवेयर जैसे R और SPSS, और कमांड-लाइन उपकरणों जैसे csvkit या xsv के साथ त्वरित डेटा अन्वेषण के लिए आदर्श है।
फ़ाइल: nutrola-open-food-dataset-v3.csv (लगभग 210 MB अनकंप्रेस्ड, 48 MB gzipped)
JSON
JSON फ़ाइल में खाद्य प्रविष्टियों के लिए एक ऑब्जेक्ट्स की सूची होती है। संरचित फ़ील्ड्स जैसे सर्विंग साइज (जिसमें विवरण, ग्राम वजन, और जहां लागू हो, मिलीलीटर समकक्ष शामिल होते हैं) और माइक्रोन्यूट्रिएंट प्रोफाइल के लिए नेस्टेड ऑब्जेक्ट्स का उपयोग किया जाता है।
JSON प्रारूप एप्लिकेशन विकास, डेटाबेस आयात, और किसी भी कार्यप्रवाह के लिए बेहतर है जहाँ आपको सर्विंग साइज और पोषक तत्व समूहों की श्रेणीबद्ध संरचना को बनाए रखना होता है।
फ़ाइल: nutrola-open-food-dataset-v3.json (लगभग 340 MB अनकंप्रेस्ड, 62 MB gzipped)
दोनों फ़ाइलें डाउनलोड समय को कम करने के लिए gzip-संपीड़ित आर्काइव के रूप में भी उपलब्ध हैं।
डेटा स्कीमा
यहाँ डेटासेट में प्रत्येक फ़ील्ड के लिए विवरण के साथ पूरा स्कीमा है:
| Field Name | Type | Description |
|---|---|---|
food_id |
string | खाद्य प्रविष्टि के लिए अनूठा Nutrola पहचानकर्ता (फॉर्मेट: NF-XXXXXX) |
food_name |
string | खाद्य का सामान्य नाम, जिसमें ब्रांड शामिल है जहाँ लागू हो |
category_l1 |
string | शीर्ष स्तर की खाद्य श्रेणी (जैसे, डेयरी, अनाज, फल) |
category_l2 |
string | दूसरी स्तर की श्रेणी (जैसे, पनीर, चावल, उष्णकटिबंधीय) |
category_l3 |
string | जहाँ लागू हो, तीसरी स्तर की श्रेणी (जैसे, हार्ड पनीर, ब्राउन चावल) |
country |
string | प्राथमिक बाजार को इंगित करने वाला ISO 3166-1 अल्फा-2 देश कोड |
brand |
string | ब्रांडेड उत्पादों के लिए ब्रांड नाम; सामान्य खाद्य पदार्थों के लिए शून्य |
barcode |
string | UPC/EAN बारकोड; यदि लागू नहीं है तो शून्य |
calories_per_100g |
float | 100 ग्राम में ऊर्जा kcal में |
protein_g |
float | 100g में प्रोटीन ग्राम में |
fat_total_g |
float | 100g में कुल वसा ग्राम में |
fat_saturated_g |
float | 100g में संतृप्त वसा ग्राम में |
fat_trans_g |
float | 100g में ट्रांस वसा ग्राम में |
carbs_total_g |
float | 100g में कुल कार्बोहाइड्रेट ग्राम में |
fiber_g |
float | 100g में आहार फाइबर ग्राम में |
sugars_total_g |
float | 100g में कुल शर्करा ग्राम में |
sugars_added_g |
float | 100g में जोड़ी गई शर्करा ग्राम में |
sodium_mg |
float | 100g में सोडियम मिलीग्राम में |
cholesterol_mg |
float | 100g में कोलेस्ट्रॉल मिलीग्राम में |
vitamin_a_mcg |
float | 100g में विटामिन A माइक्रोग्राम RAE में |
vitamin_c_mg |
float | 100g में विटामिन C मिलीग्राम में |
vitamin_d_mcg |
float | 100g में विटामिन D माइक्रोग्राम में |
calcium_mg |
float | 100g में कैल्शियम मिलीग्राम में |
iron_mg |
float | 100g में आयरन मिलीग्राम में |
potassium_mg |
float | 100g में पोटेशियम मिलीग्राम में |
magnesium_mg |
float | 100g में मैग्नीशियम मिलीग्राम में |
zinc_mg |
float | 100g में जिंक मिलीग्राम में |
phosphorus_mg |
float | 100g में फास्फोरस मिलीग्राम में |
selenium_mcg |
float | 100g में सेलेनियम माइक्रोग्राम में |
vitamin_b6_mg |
float | 100g में विटामिन B6 मिलीग्राम में |
vitamin_b12_mcg |
float | 100g में विटामिन B12 माइक्रोग्राम में |
folate_mcg |
float | 100g में फोलेट माइक्रोग्राम DFE में |
vitamin_e_mg |
float | 100g में विटामिन E मिलीग्राम में |
vitamin_k_mcg |
float | 100g में विटामिन K माइक्रोग्राम में |
thiamin_mg |
float | 100g में थियामिन (B1) मिलीग्राम में |
riboflavin_mg |
float | 100g में राइबोफ्लेविन (B2) मिलीग्राम में |
niacin_mg |
float | 100g में नायसिन (B3) मिलीग्राम में |
copper_mg |
float | 100g में कॉपर मिलीग्राम में |
manganese_mg |
float | 100g में मैंगनीज मिलीग्राम में |
serving_1_desc |
string | प्राथमिक सर्विंग साइज विवरण (जैसे, "1 कप पका हुआ") |
serving_1_g |
float | प्राथमिक सर्विंग साइज का वजन ग्राम में |
serving_2_desc |
string | वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य |
serving_2_g |
float | वैकल्पिक सर्विंग साइज का वजन ग्राम में |
serving_3_desc |
string | दूसरी वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य |
serving_3_g |
float | दूसरी वैकल्पिक सर्विंग साइज का वजन ग्राम में |
data_source |
string | उत्पत्ति टैग: "government", "manufacturer", "laboratory", या "verified_community" |
last_verified |
string | ISO 8601 तिथि जब प्रविष्टि को अंतिम बार सत्यापित किया गया (YYYY-MM-DD) |
dataset_version |
string | डेटासेट संस्करण पहचानकर्ता (जैसे, "v3.0") |
सभी पोषक तत्व मान 100 ग्राम में व्यक्त किए गए हैं ताकि सुसंगत तुलना की जा सके। सर्विंग के लिए पोषक तत्वों की गणना करने के लिए, 100 ग्राम के लिए मान को सर्विंग के वजन से गुणा करें और 100 से विभाजित करें।
डाउनलोड कैसे करें
डेटासेट हमारे सार्वजनिक GitHub रिपॉजिटरी पर होस्ट किया गया है:
github.com/nutrola/open-food-nutrition-dataset
आप GitHub Releases पृष्ठ से फ़ाइलें सीधे डाउनलोड कर सकते हैं, या रिपॉजिटरी को क्लोन कर सकते हैं:
git clone https://github.com/nutrola/open-food-nutrition-dataset.git
संपीड़ित संस्करणों के लिए:
# CSV डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz
# JSON डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz
रिपॉजिटरी में भी शामिल हैं:
- त्वरित प्रारंभ निर्देशों के साथ एक विस्तृत
README.md - डेटासेट संस्करणों के बीच परिवर्तनों का दस्तावेजीकरण करने वाला
CHANGELOG.md - डेटा को लोड करने, फ़िल्टर करने और विश्लेषण करने के लिए Python और R उदाहरण स्क्रिप्ट के साथ
scripts/निर्देशिका - JSON स्कीमा और CSV व्याकरण परिभाषाएँ के साथ
schema/निर्देशिका
यदि आपको वास्तविक समय में अपडेट के साथ पूर्ण 3 मिलियन+ प्रविष्टियों का डेटाबेस चाहिए, तो हमारे Nutrition Data API को डेवलपर एक्सेस के लिए देखें।
उपयोग के मामले
अकादमिक शोध
पोषण शोधकर्ता इस डेटासेट का उपयोग आहार पैटर्न विश्लेषण, महामारी विज्ञान मॉडलिंग, और पोषक तत्व घनत्व अध्ययन के लिए कर सकते हैं बिना सरकारी डेटा फ़ाइलों को साफ करने में हफ्तों बर्बाद किए। श्रेणीबद्ध श्रेणी प्रणाली खाद्य समूहों के अनुसार फ़िल्टर करना आसान बनाती है, और देश का फ़ील्ड क्रॉस-सांस्कृतिक तुलना की अनुमति देता है।
प्रकाशित शोध में डेटासेट का संदर्भ देना चाहिए: Nutrola ओपन फूड न्यूट्रिशन डेटासेट, v3.0 (2026)। उपलब्ध है github.com/nutrola/open-food-nutrition-dataset। CC BY-SA 4.0 के तहत लाइसेंस प्राप्त।
एप्लिकेशन विकास
डेवलपर्स जो स्वास्थ्य, फिटनेस, या खाद्य संबंधित एप्लिकेशन बना रहे हैं, वे इस डेटासेट का उपयोग स्थानीय खाद्य डेटाबेस के रूप में कर सकते हैं। सुसंगत स्कीमा और सर्विंग साइज डेटा का अर्थ है कि आप एक कार्यात्मक खाद्य लॉगिंग फीचर बना सकते हैं बिना लाइव API कनेक्शन पर निर्भर किए। यह विशेष रूप से ऑफ़लाइन-प्रथम मोबाइल ऐप्स, प्रोटोटाइपिंग, और हैकाथन परियोजनाओं के लिए उपयोगी है।
CSV प्रारूप सीधे SQLite, PostgreSQL, या किसी भी संबंधात्मक डेटाबेस में लोड होता है। JSON प्रारूप दस्तावेज़ स्टोर्स जैसे MongoDB या Firestore के लिए साफ़ तरीके से मैप होता है।
डेटा विज्ञान और मशीन लर्निंग
यह डेटासेट खाद्य और पोषण से संबंधित मशीन लर्निंग मॉडल को प्रशिक्षित और मूल्यांकन करने के लिए उपयुक्त है। सामान्य अनुप्रयोगों में शामिल हैं:
- खाद्य वर्गीकरण मॉडल — नामों या पोषण प्रोफाइल से खाद्य श्रेणियों की भविष्यवाणी करने के लिए प्रशिक्षण लेबल के रूप में श्रेणी पदानुक्रम का उपयोग करें
- पोषण अनुमान — आंशिक जानकारी (जैसे, प्रोटीन, वसा, और कार्ब्स के अनुपात से कैलोरी का अनुमान लगाना) से कैलोरी या मैक्रो सामग्री की भविष्यवाणी करने के लिए रिग्रेशन मॉडल प्रशिक्षित करें
- सिफारिश प्रणाली — पोषण के समान विकल्प सुझाने वाले खाद्य सिफारिश इंजन बनाएं
- असामान्यता पहचान — असामान्य पोषण प्रोफाइल की पहचान करें जो अन्य डेटासेट में डेटा गुणवत्ता समस्याओं को इंगित कर सकती हैं
शिक्षा
पोषण विज्ञान के छात्र और शिक्षक इस डेटासेट का उपयोग पाठ्यक्रम, प्रयोगशालाओं, और असाइनमेंट के लिए कर सकते हैं। डेटा की व्यापकता — जो दर्जनों देशों से खाद्य पदार्थों को कवर करती है और हर प्रमुख खाद्य समूह में फैली हुई है — इसे मैक्रोन्यूट्रिएंट अनुपात, माइक्रोन्यूट्रिएंट घनत्व, और विभिन्न व्यंजनों और खाद्य प्रसंस्करण स्तरों के बीच पोषण प्रोफाइल कैसे भिन्न होते हैं, जैसे अवधारणाओं को सिखाने के लिए उपयोगी बनाती है।
सार्वजनिक स्वास्थ्य और नीति
सार्वजनिक स्वास्थ्य संगठन इस डेटा का उपयोग विशिष्ट खाद्य श्रेणियों या बाजारों के पोषण परिदृश्य का विश्लेषण करने के लिए कर सकते हैं। देश का फ़ील्ड क्षेत्र के अनुसार फ़िल्टरिंग की अनुमति देता है, और ब्रांड फ़ील्ड ब्रांडेड बनाम सामान्य खाद्य पोषण गुणवत्ता का विश्लेषण करने में मदद करता है।
डेटा गुणवत्ता पद्धति
एक ओपन डेटासेट जारी करना तब तक कोई मायने नहीं रखता जब तक डेटा विश्वसनीय न हो। हम इस रिलीज़ में 500,000+ प्रविष्टियों में गुणवत्ता सुनिश्चित करने के लिए निम्नलिखित तरीके अपनाते हैं।
मल्टी-सोर्स सत्यापन
डेटासेट में प्रत्येक प्रविष्टि को कम से कम दो स्वतंत्र स्रोतों के खिलाफ सत्यापित किया गया है। हमारे प्राथमिक डेटा स्रोतों में शामिल हैं:
- सरकारी पोषण डेटाबेस — USDA FoodData Central (संयुक्त राज्य अमेरिका), CoFID (यूनाइटेड किंगडम), NUTTAB (ऑस्ट्रेलिया), CNF (कनाडा), और 20+ देशों के समकक्ष डेटाबेस
- निर्माता द्वारा प्रदान किया गया डेटा — खाद्य निर्माताओं द्वारा सीधे हमारे ब्रांड साझेदारी कार्यक्रम के माध्यम से प्रस्तुत पोषण तथ्य पैनल
- प्रयोगशाला विश्लेषण — हमारे टीम द्वारा उच्च मात्रा वाले खाद्य पदार्थों के लिए स्वतंत्र प्रयोगशाला परीक्षण जहाँ स्रोत डेटा विवादास्पद या पुराना है
- सत्यापित सामुदायिक सबमिशन — उपयोगकर्ता द्वारा प्रस्तुत प्रविष्टियाँ जो हमारी तीन-चरण सत्यापन प्रक्रिया (स्वचालित क्रॉस-रेफेरेंसिंग, विशेषज्ञ समीक्षा, और सांख्यिकीय आउटलेयर पहचान) से गुजरी हैं
स्वचालित गुणवत्ता जांच
प्रत्येक प्रविष्टि डेटासेट में प्रवेश करने से पहले स्वचालित जांच की एक श्रृंखला से गुजरती है:
- ऊर्जा संतुलन सत्यापन — कैलोरी की गणना एटवाटर गणना (4 kcal/g प्रोटीन + 9 kcal/g वसा + 4 kcal/g कार्बोहाइड्रेट) के खिलाफ क्रॉस-चेक की जाती है। जिन प्रविष्टियों में निर्दिष्ट कैलोरी गणना के मान से 10% से अधिक भिन्न होती हैं, उन्हें मैनुअल समीक्षा के लिए चिह्नित किया जाता है।
- रेंज जांच — प्रत्येक पोषक तत्व मान को खाद्य श्रेणी के लिए शारीरिक रूप से संभावित रेंज के खिलाफ सत्यापित किया जाता है। एक पनीर प्रविष्टि जो 0 ग्राम वसा का दावा करती है या एक फल प्रविष्टि जो 50 ग्राम प्रोटीन का दावा करती है, तुरंत चिह्नित की जाती है।
- क्रॉस-प्रविष्टि स्थिरता — समान खाद्य पदार्थों की सांख्यिकीय तुलना की जाती है। यदि एक नया चिकन ब्रेस्ट प्रविष्टि मौजूदा चिकन ब्रेस्ट प्रविष्टियों के समूह से महत्वपूर्ण रूप से भिन्न मान दिखाती है, तो इसे समीक्षा के लिए रोका जाता है।
- सर्विंग साइज सत्यापन — सर्विंग वजन ज्ञात मानक भागों के खिलाफ जांचा जाता है। "1 मध्यम सेब" जो 500 ग्राम का दावा करता है, पास नहीं होता।
मानव समीक्षा
स्वचालित जांच द्वारा चिह्नित प्रविष्टियाँ हमारी डेटा टीम द्वारा मैनुअल समीक्षा से गुजरती हैं, जिसमें प्रमाणित पोषण विशेषज्ञ और खाद्य वैज्ञानिक शामिल हैं। लगभग 12% प्रविष्टियों को स्वीकृत होने से पहले किसी न किसी रूप में मैनुअल सुधार की आवश्यकता होती है।
निरंतर रखरखाव
डेटासेट एक बार का डंप नहीं है। हम प्रविष्टियों को एक रोलिंग आधार पर फिर से सत्यापित करते हैं, उच्च मात्रा वाले खाद्य पदार्थों (जो Nutrola उपयोगकर्ताओं द्वारा सबसे अधिक लॉग किए जाते हैं) और उन प्रविष्टियों को प्राथमिकता देते हैं जिनका स्रोत डेटा अपडेट किया गया है। जब एक खाद्य निर्माता एक उत्पाद को फिर से तैयार करता है, तो हम अपने बारकोड निगरानी प्रणाली के माध्यम से परिवर्तन को पकड़ते हैं और प्रविष्टि को तदनुसार अपडेट करते हैं।
अपडेट आवृत्ति
हम ओपन डेटासेट के नए संस्करण तिमाही में प्रकाशित करते हैं। प्रत्येक रिलीज़ में शामिल हैं:
- पिछले संस्करण के बाद जोड़े गए नए खाद्य प्रविष्टियाँ
- पिछले संस्करण के बाद पहचाने गए मौजूदा प्रविष्टियों में सुधार
- पुनः तैयार किए गए उत्पादों के लिए अपडेट की गई पोषण डेटा
- नए स्रोत डेटा उपलब्ध होने पर विस्तारित माइक्रोन्यूट्रिएंट कवरेज
वर्तमान संस्करण v3.0 है, जो मार्च 2026 में जारी किया गया था। संस्करण इतिहास और चेंज लॉग GitHub रिपॉजिटरी में उपलब्ध हैं।
यदि आपको तिमाही से अधिक बार अपडेट किया गया डेटा चाहिए, तो हमारा Nutrition Data API 48 घंटों के भीतर परिवर्तनों को दर्शाता है।
लाइसेंस
Nutrola ओपन फूड न्यूट्रिशन डेटासेट को क्रिएटिव कॉमन्स एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल (CC BY-SA 4.0) लाइसेंस के तहत जारी किया गया है।
इसका मतलब है कि आप स्वतंत्र रूप से:
- शेयर — डेटासेट को किसी भी माध्यम या प्रारूप में कॉपी और पुनर्वितरित करें
- एडाप्ट — डेटासेट को किसी भी उद्देश्य के लिए, जिसमें वाणिज्यिक उपयोग शामिल है, रिमिक्स, ट्रांसफॉर्म और निर्माण करें
निम्नलिखित शर्तों के तहत:
- एट्रिब्यूशन — आपको Nutrola को उचित श्रेय देना होगा, लाइसेंस का लिंक प्रदान करना होगा, और यह बताना होगा कि क्या परिवर्तन किए गए हैं
- शेयरअलाइक — यदि आप डेटासेट को रिमिक्स, ट्रांसफॉर्म, या निर्माण करते हैं, तो आपको अपने योगदान को उसी CC BY-SA 4.0 लाइसेंस के तहत वितरित करना होगा
हमने CC BY-SA 4.0 को चुना क्योंकि यह खुलापन और यह सुनिश्चित करने के बीच सही संतुलन बनाता है कि सुधार समुदाय में वापस प्रवाहित होते रहें। यदि आप इस डेटा का एक बेहतर संस्करण बनाते हैं, तो लाइसेंस यह सुनिश्चित करता है कि आपके सुधार सभी के लिए उपलब्ध रहें।
यह अन्य डेटासेट्स के साथ कैसे तुलना करता है
कई सार्वजनिक रूप से उपलब्ध पोषण डेटासेट हैं। यहाँ Nutrola ओपन फूड न्यूट्रिशन डेटासेट की तुलना दो सबसे व्यापक रूप से उपयोग किए जाने वाले विकल्पों से की गई है।
बनाम USDA FoodData Central
USDA FoodData Central संयुक्त राज्य अमेरिका में पोषण डेटा के लिए स्वर्ण मानक है। यह व्यापक, अच्छी तरह से प्रलेखित है, और प्रयोगशाला विश्लेषण द्वारा समर्थित है। हालाँकि, इसमें कुछ सीमाएँ हैं जिन्हें Nutrola डेटासेट संबोधित करता है:
| Dimension | USDA FoodData Central | Nutrola ओपन डेटासेट |
|---|---|---|
| कुल प्रविष्टियाँ | ~400,000 (फाउंडेशन, SR लेगेसी, ब्रांडेड मिलाकर) | 500,000+ |
| भौगोलिक कवरेज | मुख्य रूप से संयुक्त राज्य अमेरिका | 47 देश |
| ब्रांडेड उत्पाद | केवल अमेरिकी ब्रांड, अक्सर पुराने | अंतरराष्ट्रीय ब्रांड, त्रैमासिक सत्यापित |
| डेटा प्रारूप | कई असंगत फ़ाइल प्रारूप, जटिल संबंधात्मक संरचना | एकल CSV या JSON फ़ाइल, सपाट संरचना |
| सर्विंग साइज | उप-डेटाबेस में असंगत | मानकीकृत प्रारूप जिसमें प्रति खाद्य 3 सर्विंग तक |
| उपयोग में आसानी | उप-डेटाबेस को मिलाने के लिए महत्वपूर्ण डेटा इंजीनियरिंग की आवश्यकता होती है | एक फ़ाइल डाउनलोड करें और काम करना शुरू करें |
| अपडेट आवृत्ति | उप-डेटाबेस द्वारा भिन्न (कुछ के लिए वार्षिक) | त्रैमासिक |
यदि आपका काम विशेष रूप से अमेरिकी खाद्य पदार्थों पर केंद्रित है और आपको संभवतः गहरे पोषण प्रोफाइल की आवश्यकता है (USDA फाउंडेशन खाद्य पदार्थों के लिए 150+ पोषक तत्वों को कवर करता है), तो FoodData Central बेहतर विकल्प है। यदि आपको अंतरराष्ट्रीय कवरेज, सुसंगत प्रारूपिंग, और एक डेटासेट चाहिए जो तुरंत काम करे, तो Nutrola डेटासेट मजबूत विकल्प है।
दोनों डेटासेट पूरक हैं। कई शोधकर्ता USDA फाउंडेशन डेटा का उपयोग विस्तृत अमेरिकी पोषण विश्लेषण के लिए करते हैं और इसे Nutrola डेटा के साथ अंतरराष्ट्रीय कवरेज और ब्रांडेड उत्पादों के लिए पूरक करते हैं।
बनाम Open Food Facts
Open Food Facts एक क्राउडसोर्स्ड डेटाबेस है जिसमें 3 मिलियन से अधिक प्रविष्टियाँ हैं। इसके पास प्रभावशाली पैमाना है और यह कई देशों के उत्पादों को कवर करता है। हालाँकि, इसकी क्राउडसोर्स्ड प्रकृति डेटा गुणवत्ता की चुनौतियाँ पेश करती है:
| Dimension | Open Food Facts | Nutrola ओपन डेटासेट |
|---|---|---|
| कुल प्रविष्टियाँ | 3M+ | 500,000+ |
| डेटा गुणवत्ता | परिवर्तनशील — क्राउडसोर्स्ड स्वचालित जांच के साथ | सत्यापित — मल्टी-सोर्स, मानव-समीक्षित |
| पूर्णता | कई प्रविष्टियों में मैक्रो/माइक्रो डेटा गायब है | सभी प्रविष्टियों में पूर्ण मैक्रो डेटा है; 90%+ में पूर्ण माइक्रो प्रोफाइल हैं |
| सर्विंग साइज | असंगत, अक्सर गायब | मानकीकृत, हमेशा मौजूद |
| श्रेणी वर्गीकरण | क्राउडसोर्स्ड टैग, असंगत | श्रेणीबद्ध, क्यूरेटेड वर्गीकरण |
| पोषक तत्व कवरेज | प्रविष्टि के अनुसार व्यापक रूप से भिन्न | सभी प्रविष्टियों में सुसंगत 40+ पोषक तत्व |
| डेटा प्रारूप | MongoDB डंप, जटिल नेस्टेड JSON | साफ़ CSV और JSON |
| लाइसेंस | ओपन डेटाबेस लाइसेंस (ODbL) | CC BY-SA 4.0 |
Open Food Facts व्यापकता में उत्कृष्ट है — यदि आपको किसी विशेष अज्ञात उत्पाद को बारकोड द्वारा देखना है, तो उनके पास संभवतः यह होगा। Nutrola डेटासेट गहराई और स्थिरता में उत्कृष्ट है — प्रत्येक प्रविष्टि एक ही गुणवत्ता मानक को पूरा करती है, जिससे यह मात्रात्मक विश्लेषण के लिए अधिक विश्वसनीय बनाता है जहाँ डेटा गैप या त्रुटियाँ परिणामों को विकृत कर सकती हैं।
यदि आप एक बारकोड स्कैनर ऐप बना रहे हैं और अधिकतम उत्पाद कवरेज की आवश्यकता है, तो Open Food Facts एक अच्छा प्रारंभिक बिंदु है। यदि आप एक मशीन लर्निंग मॉडल को प्रशिक्षित कर रहे हैं, सांख्यिकीय शोध कर रहे हैं, या एक ऐप बना रहे हैं जहाँ पोषण सटीकता महत्वपूर्ण है, तो Nutrola डेटासेट का सत्यापित डेटा आपको एक मजबूत आधार प्रदान करेगा।
शुरुआत कैसे करें
एक बार जब आप डेटासेट डाउनलोड कर लें, तो यहाँ Python में इसे लोड करने और अन्वेषण करने का एक त्वरित उदाहरण है:
import pandas as pd
# डेटासेट लोड करें
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")
# बुनियादी अवलोकन
print(f"कुल प्रविष्टियाँ: {len(df):,}")
print(f"कवरेज वाले देश: {df['country'].nunique()}")
print(f"खाद्य श्रेणियाँ (L1): {df['category_l1'].nunique()}")
# उच्च प्रोटीन, कम कैलोरी वाले खाद्य पदार्थ खोजें
high_protein = df[
(df["protein_g"] > 20) &
(df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)
print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# खाद्य श्रेणी के अनुसार औसत मैक्रोज़ का विश्लेषण करें
category_macros = df.groupby("category_l1").agg({
"calories_per_100g": "mean",
"protein_g": "mean",
"fat_total_g": "mean",
"carbs_total_g": "mean"
}).round(1)
print(category_macros.sort_values("calories_per_100g", ascending=False))
अधिक उदाहरण — जिनमें R स्क्रिप्ट, SQL आयात गाइड, और Jupyter नोटबुक शामिल हैं — GitHub रिपॉजिटरी के scripts/ निर्देशिका में उपलब्ध हैं।
अक्सर पूछे जाने वाले प्रश्न
क्या डेटासेट वास्तव में उपयोग के लिए मुफ्त है?
हाँ। Nutrola ओपन फूड न्यूट्रिशन डेटासेट CC BY-SA 4.0 लाइसेंस के तहत जारी किया गया है, जो वाणिज्यिक और गैर-वाणिज्यिक उपयोग की अनुमति देता है। केवल आवश्यकताएँ हैं कि आप Nutrola को स्रोत के रूप में श्रेय दें और यदि आप वितरित करते हैं तो किसी भी व्युत्पन्न डेटासेट को उसी लाइसेंस के तहत लाइसेंसित करें। फ़ाइलें डाउनलोड करने के लिए कोई API कुंजी, कोई उपयोग सीमा, और कोई पंजीकरण आवश्यक नहीं है।
डेटासेट कितनी बार अपडेट किया जाता है?
हम नए संस्करण त्रैमासिक में प्रकाशित करते हैं। प्रत्येक रिलीज़ में नए खाद्य प्रविष्टियाँ जोड़ी जाती हैं, पिछले संस्करण के बाद पहचाने गए किसी भी त्रुटियों को सही किया जाता है, और उन प्रविष्टियों के लिए अपडेट किया जाता है जो पुनः तैयार की गई हैं। GitHub रिपॉजिटरी के Releases पृष्ठ पर पूर्ण संस्करण इतिहास है, और आप नए संस्करण प्रकाशित होने पर सूचित होने के लिए रिपॉजिटरी को देख सकते हैं।
क्या मैं इस डेटासेट का उपयोग एक वाणिज्यिक ऐप बनाने के लिए कर सकता हूँ?
हाँ। CC BY-SA 4.0 लाइसेंस स्पष्ट रूप से वाणिज्यिक उपयोग की अनुमति देता है। आप डेटा का उपयोग एक भुगतान ऐप, एक SaaS उत्पाद, या किसी अन्य वाणिज्यिक संदर्भ में कर सकते हैं। आपको अपने ऐप या दस्तावेज़ में Nutrola को श्रेय देना होगा, और यदि आप डेटासेट का एक संशोधित संस्करण वितरित करते हैं, तो संशोधित संस्करण को भी CC BY-SA 4.0 के तहत लाइसेंसित करना होगा। अपने ऐप के भीतर डेटा का उपयोग (कच्चे डेटासेट को पुनर्वितरित किए बिना) शेयरअलाइक आवश्यकता को सक्रिय नहीं करता है।
Nutrola का पूरा डेटाबेस 3 मिलियन+ प्रविष्टियों में केवल 500K प्रविष्टियाँ क्यों हैं?
ओपन डेटासेट में वे प्रविष्टियाँ शामिल हैं जिन्हें हम बिना किसी प्रतिबंध के एक ओपन लाइसेंस के तहत जारी कर सकते हैं। हमारा पूरा डेटाबेस ऐसे डेटा को शामिल करता है जो स्वामित्व वाले स्रोतों से आता है — सीधे निर्माता साझेदारियों, लाइसेंस प्राप्त प्रयोगशाला डेटा, और अन्य स्रोतों से जिनमें पुनर्वितरण पर संविदात्मक सीमाएँ हैं। ओपन डेटासेट में 500K प्रविष्टियाँ सरकारी डेटाबेस, हमारे अपने प्रयोगशाला विश्लेषण, और सामुदायिक सबमिशन से आती हैं जहाँ योगदानकर्ताओं ने ओपन लाइसेंसिंग पर सहमति दी। यदि आपको पूर्ण डेटाबेस तक पहुँच की आवश्यकता है, तो हमारा Nutrition Data API इसे अलग वाणिज्यिक शर्तों के तहत प्रदान करता है।
यदि मैं डेटासेट में कोई त्रुटि पाता हूँ तो मुझे क्या करना चाहिए?
GitHub रिपॉजिटरी पर उस प्रविष्टि के food_id और त्रुटि का विवरण के साथ एक समस्या खोलें। यदि आपके पास कोई स्रोत लिंक है (जैसे, एक निर्माता की वेबसाइट जो विभिन्न पोषण तथ्यों को दिखाती है), तो उसे शामिल करें। हमारी डेटा टीम साप्ताहिक रूप से रिपोर्ट की गई समस्याओं की समीक्षा करती है, और पुष्टि की गई सुधारों को अगले त्रैमासिक रिलीज़ में शामिल किया जाता है। तत्काल सुधारों के लिए, हम त्रैमासिक अपडेट के बीच एक पैच रिलीज़ को धकेल सकते हैं।
यह Nutrola न्यूट्रिशन डेटा API से कैसे संबंधित है?
ओपन डेटासेट हमारे डेटाबेस का एक स्थिर त्रैमासिक स्नैपशॉट है। API पूर्ण 3 मिलियन+ प्रविष्टियों के डेटाबेस तक वास्तविक समय में पहुँच प्रदान करता है जिसमें खोज, फ़िल्टरिंग, बारकोड लुकअप, और अन्य सुविधाएँ शामिल हैं। ओपन डेटासेट को ऑफ़लाइन या बैच उपयोग के मामलों के लिए आधार के रूप में सोचें, और API को उत्पादन अनुप्रयोगों के लिए लाइव डेटा की आवश्यकता के समाधान के रूप में। कई डेवलपर्स प्रोटोटाइपिंग के लिए ओपन डेटासेट के साथ शुरू करते हैं और जब वे उत्पादन में जाते हैं तो API पर माइग्रेट करते हैं।
क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?
उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!