Nutrola का ओपन फूड न्यूट्रिशन डेटासेट: 500K+ खाद्य पदार्थ डाउनलोड के लिए उपलब्ध

12 मार्च 2026

Nutrola का ओपन फूड न्यूट्रिशन डेटासेट डाउनलोड करें जिसमें 500K+ सत्यापित प्रविष्टियाँ शामिल हैं, जिनमें कैलोरी, मैक्रोज़, माइक्रोन्यूट्रिएंट्स और सर्विंग साइज शामिल हैं। शोध, विकास और शिक्षा के लिए CSV और JSON में उपलब्ध।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

अच्छे न्यूट्रिशन डेटा को खोजना मुश्किल है। शोधकर्ता सरकारी डेटाबेस को साफ करने में हफ्तों बर्बाद करते हैं। डेवलपर्स ऐसे स्क्रैपर्स लिखते हैं जो हर महीने टूट जाते हैं। थिसिस पेपर लिखने वाले छात्र छोटे, पुराने नमूनों पर निर्भर रहते हैं क्योंकि एक व्यापक डेटासेट को खड़ा करना शैक्षणिक समयसीमा में वास्तविकता नहीं है।

हमने Nutrola का फूड डेटाबेस अपने कैलोरी ट्रैकिंग ऐप को शक्ति देने के लिए बनाया, और पिछले तीन वर्षों में हमने उस डेटा को सटीक, व्यापक और अच्छी तरह से संरचित बनाने में भारी निवेश किया है। आज हम उस डेटाबेस का एक क्यूरेटेड उपसमुच्चय एक ओपन डेटासेट के रूप में जारी कर रहे हैं: 500,000 से अधिक सत्यापित खाद्य प्रविष्टियाँ जो CSV और JSON प्रारूपों में मुफ्त डाउनलोड के लिए उपलब्ध हैं।

यह पोस्ट आपको डेटासेट के बारे में जानने के लिए आवश्यक सभी जानकारी प्रदान करती है — इसमें क्या है, इसे कैसे डाउनलोड करें, स्कीमा, लाइसेंसिंग, गुणवत्ता पद्धति, और यह अन्य सार्वजनिक रूप से उपलब्ध न्यूट्रिशन डेटा स्रोतों के साथ कैसे तुलना करता है।

डेटासेट में क्या है

Nutrola ओपन फूड न्यूट्रिशन डेटासेट में 500,000+ खाद्य प्रविष्टियाँ शामिल हैं, जो कच्चे सामग्री, सामान्य खाद्य पदार्थ, ब्रांडेड उपभोक्ता उत्पादों और सामान्य रेस्तरां आइटमों को कवर करती हैं। प्रत्येक प्रविष्टि को हमारे मल्टी-लेयर गुणवत्ता नियंत्रण पाइपलाइन के माध्यम से सत्यापित किया गया है, वही प्रणाली जिसे हमने कैसे हमने अपना फूड डेटाबेस बनाया पर विस्तार से बताया है।

प्रत्येक खाद्य प्रविष्टि में निम्नलिखित डेटा बिंदु शामिल हैं:

खाद्य नाम — खाद्य आइटम का सामान्य नाम अंग्रेजी में, जहाँ ब्रांड नाम लागू हो
कैलोरी — 100 ग्राम और प्रति सर्विंग में ऊर्जा सामग्री किलो कैलोरी (kcal) में
मैक्रोन्यूट्रिएंट्स — प्रोटीन, कुल वसा, संतृप्त वसा, ट्रांस वसा, कुल कार्बोहाइड्रेट, आहार फाइबर, कुल शर्करा, और जोड़ी गई शर्करा, सभी ग्राम में
माइक्रोन्यूट्रिएंट्स — 30+ विटामिन और खनिज जैसे विटामिन A, विटामिन C, विटामिन D, विटामिन E, विटामिन K, थियामिन, राइबोफ्लेविन, नियासिन, विटामिन B6, फोलेट, विटामिन B12, कैल्शियम, आयरन, मैग्नीशियम, फास्फोरस, पोटेशियम, सोडियम, जिंक, कॉपर, मैंगनीज, सेलेनियम, और अधिक
सर्विंग साइज — मानक सर्विंग साइज विवरण (जैसे, "1 मध्यम सेब," "1 कप पका हुआ"), सर्विंग का वजन ग्राम में, और प्रति खाद्य तीन वैकल्पिक सर्विंग साइज तक
खाद्य श्रेणी — हमारी आंतरिक वर्गीकरण प्रणाली का उपयोग करके श्रेणीबद्ध वर्गीकरण (जैसे, डेयरी > पनीर > हार्ड पनीर)
उत्पत्ति देश — वह मुख्य देश या क्षेत्र जहाँ खाद्य उत्पाद बेचा जाता है या सामग्री का सामान्य उपभोग होता है
बारकोड (जहाँ उपलब्ध) — ब्रांडेड उत्पादों के लिए UPC या EAN कोड
डेटा स्रोत टैग — उत्पत्ति संकेतक जो दिखाते हैं कि प्रविष्टि सरकारी डेटाबेस, निर्माता डेटा, प्रयोगशाला विश्लेषण, या हमारी आंतरिक सत्यापन टीम से आई है

नमूना डेटा

यहाँ डेटासेट से प्रविष्टियों का एक चयन है ताकि आप संरचना और विवरण का अंदाजा लगा सकें:

food_id	food_name	category	country	calories_per_100g	protein_g	fat_g	carbs_g	fiber_g	serving_desc	serving_g
NF-001247	चिकन ब्रेस्ट, कच्चा, बिना त्वचा के	पोल्ट्री > चिकन	US	120	22.5	2.6	0.0	0.0	1 ब्रेस्ट (174g)	174
NF-008391	फेज़ टोटल 0% ग्रीक योगर्ट	डेयरी > योगर्ट > ग्रीक	GR	54	10.3	0.0	3.0	0.0	1 कंटेनर (150g)	150
NF-014205	बासमती चावल, सफेद, पका हुआ	अनाज > चावल	IN	130	2.7	0.3	28.2	0.4	1 कप (158g)	158
NF-022876	एवोकाडो, हस, कच्चा	फल > उष्णकटिबंधीय	MX	160	2.0	14.7	8.5	6.7	1/2 एवोकाडो (68g)	68
NF-031560	बैरिला पेनने रिगेटे, सूखा	पास्ता > सूखा	IT	359	12.5	2.0	71.2	3.0	2 oz (56g)	56
NF-045892	किमची, पारंपरिक नापा गोभी	सब्जियाँ > किण्वित	KR	15	1.1	0.5	2.4	1.6	1/2 कप (75g)	75
NF-053714	सामन, अटलांटिक, कच्चा, फार्म किया हुआ	मछली > सामन	NO	208	20.4	13.4	0.0	0.0	1 फिलेट (113g)	113
NF-067283	चने, कैन्ड, छाने हुए	फलियाँ > बीन्स	US	119	6.3	2.0	18.2	5.4	1/2 कप (120g)	120

पूर्ण डेटासेट में माइक्रोन्यूट्रिएंट्स, वैकल्पिक सर्विंग साइज, बारकोड डेटा, और स्रोत टैग के लिए कई और कॉलम शामिल हैं। ऊपर की तालिका में मुख्य पोषण क्षेत्रों को दिखाया गया है।

डेटा प्रारूप

डेटासेट दो प्रारूपों में उपलब्ध है:

CSV

CSV फ़ाइल UTF-8 एन्कोडिंग का उपयोग करती है जिसमें अल्पविराम विभाजक होते हैं। पहली पंक्ति में कॉलम हेडर होते हैं। जिन फ़ील्ड में अल्पविराम होते हैं, उन्हें डबल कोट्स में रखा गया है। शून्य मानों को खाली फ़ील्ड के रूप में दर्शाया गया है।

CSV प्रारूप स्प्रेडशीट उपकरणों जैसे Excel और Google Sheets, सांख्यिकीय सॉफ़्टवेयर जैसे R और SPSS, और कमांड-लाइन उपकरणों जैसे csvkit या xsv के साथ त्वरित डेटा अन्वेषण के लिए आदर्श है।

फ़ाइल: nutrola-open-food-dataset-v3.csv (लगभग 210 MB अनकंप्रेस्ड, 48 MB gzipped)

JSON

JSON फ़ाइल में खाद्य प्रविष्टियों के लिए एक ऑब्जेक्ट्स की सूची होती है। संरचित फ़ील्ड्स जैसे सर्विंग साइज (जिसमें विवरण, ग्राम वजन, और जहां लागू हो, मिलीलीटर समकक्ष शामिल होते हैं) और माइक्रोन्यूट्रिएंट प्रोफाइल के लिए नेस्टेड ऑब्जेक्ट्स का उपयोग किया जाता है।

JSON प्रारूप एप्लिकेशन विकास, डेटाबेस आयात, और किसी भी कार्यप्रवाह के लिए बेहतर है जहाँ आपको सर्विंग साइज और पोषक तत्व समूहों की श्रेणीबद्ध संरचना को बनाए रखना होता है।

फ़ाइल: nutrola-open-food-dataset-v3.json (लगभग 340 MB अनकंप्रेस्ड, 62 MB gzipped)

दोनों फ़ाइलें डाउनलोड समय को कम करने के लिए gzip-संपीड़ित आर्काइव के रूप में भी उपलब्ध हैं।

डेटा स्कीमा

यहाँ डेटासेट में प्रत्येक फ़ील्ड के लिए विवरण के साथ पूरा स्कीमा है:

Field Name	Type	Description
`food_id`	string	खाद्य प्रविष्टि के लिए अनूठा Nutrola पहचानकर्ता (फॉर्मेट: NF-XXXXXX)
`food_name`	string	खाद्य का सामान्य नाम, जिसमें ब्रांड शामिल है जहाँ लागू हो
`category_l1`	string	शीर्ष स्तर की खाद्य श्रेणी (जैसे, डेयरी, अनाज, फल)
`category_l2`	string	दूसरी स्तर की श्रेणी (जैसे, पनीर, चावल, उष्णकटिबंधीय)
`category_l3`	string	जहाँ लागू हो, तीसरी स्तर की श्रेणी (जैसे, हार्ड पनीर, ब्राउन चावल)
`country`	string	प्राथमिक बाजार को इंगित करने वाला ISO 3166-1 अल्फा-2 देश कोड
`brand`	string	ब्रांडेड उत्पादों के लिए ब्रांड नाम; सामान्य खाद्य पदार्थों के लिए शून्य
`barcode`	string	UPC/EAN बारकोड; यदि लागू नहीं है तो शून्य
`calories_per_100g`	float	100 ग्राम में ऊर्जा kcal में
`protein_g`	float	100g में प्रोटीन ग्राम में
`fat_total_g`	float	100g में कुल वसा ग्राम में
`fat_saturated_g`	float	100g में संतृप्त वसा ग्राम में
`fat_trans_g`	float	100g में ट्रांस वसा ग्राम में
`carbs_total_g`	float	100g में कुल कार्बोहाइड्रेट ग्राम में
`fiber_g`	float	100g में आहार फाइबर ग्राम में
`sugars_total_g`	float	100g में कुल शर्करा ग्राम में
`sugars_added_g`	float	100g में जोड़ी गई शर्करा ग्राम में
`sodium_mg`	float	100g में सोडियम मिलीग्राम में
`cholesterol_mg`	float	100g में कोलेस्ट्रॉल मिलीग्राम में
`vitamin_a_mcg`	float	100g में विटामिन A माइक्रोग्राम RAE में
`vitamin_c_mg`	float	100g में विटामिन C मिलीग्राम में
`vitamin_d_mcg`	float	100g में विटामिन D माइक्रोग्राम में
`calcium_mg`	float	100g में कैल्शियम मिलीग्राम में
`iron_mg`	float	100g में आयरन मिलीग्राम में
`potassium_mg`	float	100g में पोटेशियम मिलीग्राम में
`magnesium_mg`	float	100g में मैग्नीशियम मिलीग्राम में
`zinc_mg`	float	100g में जिंक मिलीग्राम में
`phosphorus_mg`	float	100g में फास्फोरस मिलीग्राम में
`selenium_mcg`	float	100g में सेलेनियम माइक्रोग्राम में
`vitamin_b6_mg`	float	100g में विटामिन B6 मिलीग्राम में
`vitamin_b12_mcg`	float	100g में विटामिन B12 माइक्रोग्राम में
`folate_mcg`	float	100g में फोलेट माइक्रोग्राम DFE में
`vitamin_e_mg`	float	100g में विटामिन E मिलीग्राम में
`vitamin_k_mcg`	float	100g में विटामिन K माइक्रोग्राम में
`thiamin_mg`	float	100g में थियामिन (B1) मिलीग्राम में
`riboflavin_mg`	float	100g में राइबोफ्लेविन (B2) मिलीग्राम में
`niacin_mg`	float	100g में नायसिन (B3) मिलीग्राम में
`copper_mg`	float	100g में कॉपर मिलीग्राम में
`manganese_mg`	float	100g में मैंगनीज मिलीग्राम में
`serving_1_desc`	string	प्राथमिक सर्विंग साइज विवरण (जैसे, "1 कप पका हुआ")
`serving_1_g`	float	प्राथमिक सर्विंग साइज का वजन ग्राम में
`serving_2_desc`	string	वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य
`serving_2_g`	float	वैकल्पिक सर्विंग साइज का वजन ग्राम में
`serving_3_desc`	string	दूसरी वैकल्पिक सर्विंग साइज विवरण; यदि उपलब्ध नहीं है तो शून्य
`serving_3_g`	float	दूसरी वैकल्पिक सर्विंग साइज का वजन ग्राम में
`data_source`	string	उत्पत्ति टैग: "government", "manufacturer", "laboratory", या "verified_community"
`last_verified`	string	ISO 8601 तिथि जब प्रविष्टि को अंतिम बार सत्यापित किया गया (YYYY-MM-DD)
`dataset_version`	string	डेटासेट संस्करण पहचानकर्ता (जैसे, "v3.0")

सभी पोषक तत्व मान 100 ग्राम में व्यक्त किए गए हैं ताकि सुसंगत तुलना की जा सके। सर्विंग के लिए पोषक तत्वों की गणना करने के लिए, 100 ग्राम के लिए मान को सर्विंग के वजन से गुणा करें और 100 से विभाजित करें।

डाउनलोड कैसे करें

डेटासेट हमारे सार्वजनिक GitHub रिपॉजिटरी पर होस्ट किया गया है:

github.com/nutrola/open-food-nutrition-dataset

आप GitHub Releases पृष्ठ से फ़ाइलें सीधे डाउनलोड कर सकते हैं, या रिपॉजिटरी को क्लोन कर सकते हैं:

git clone https://github.com/nutrola/open-food-nutrition-dataset.git

संपीड़ित संस्करणों के लिए:

# CSV डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz

# JSON डाउनलोड करें (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz

रिपॉजिटरी में भी शामिल हैं:

त्वरित प्रारंभ निर्देशों के साथ एक विस्तृत README.md
डेटासेट संस्करणों के बीच परिवर्तनों का दस्तावेजीकरण करने वाला CHANGELOG.md
डेटा को लोड करने, फ़िल्टर करने और विश्लेषण करने के लिए Python और R उदाहरण स्क्रिप्ट के साथ scripts/ निर्देशिका
JSON स्कीमा और CSV व्याकरण परिभाषाएँ के साथ schema/ निर्देशिका

यदि आपको वास्तविक समय में अपडेट के साथ पूर्ण 3 मिलियन+ प्रविष्टियों का डेटाबेस चाहिए, तो हमारे Nutrition Data API को डेवलपर एक्सेस के लिए देखें।

उपयोग के मामले

अकादमिक शोध

पोषण शोधकर्ता इस डेटासेट का उपयोग आहार पैटर्न विश्लेषण, महामारी विज्ञान मॉडलिंग, और पोषक तत्व घनत्व अध्ययन के लिए कर सकते हैं बिना सरकारी डेटा फ़ाइलों को साफ करने में हफ्तों बर्बाद किए। श्रेणीबद्ध श्रेणी प्रणाली खाद्य समूहों के अनुसार फ़िल्टर करना आसान बनाती है, और देश का फ़ील्ड क्रॉस-सांस्कृतिक तुलना की अनुमति देता है।

प्रकाशित शोध में डेटासेट का संदर्भ देना चाहिए: Nutrola ओपन फूड न्यूट्रिशन डेटासेट, v3.0 (2026)। उपलब्ध है github.com/nutrola/open-food-nutrition-dataset। CC BY-SA 4.0 के तहत लाइसेंस प्राप्त।

एप्लिकेशन विकास

डेवलपर्स जो स्वास्थ्य, फिटनेस, या खाद्य संबंधित एप्लिकेशन बना रहे हैं, वे इस डेटासेट का उपयोग स्थानीय खाद्य डेटाबेस के रूप में कर सकते हैं। सुसंगत स्कीमा और सर्विंग साइज डेटा का अर्थ है कि आप एक कार्यात्मक खाद्य लॉगिंग फीचर बना सकते हैं बिना लाइव API कनेक्शन पर निर्भर किए। यह विशेष रूप से ऑफ़लाइन-प्रथम मोबाइल ऐप्स, प्रोटोटाइपिंग, और हैकाथन परियोजनाओं के लिए उपयोगी है।

CSV प्रारूप सीधे SQLite, PostgreSQL, या किसी भी संबंधात्मक डेटाबेस में लोड होता है। JSON प्रारूप दस्तावेज़ स्टोर्स जैसे MongoDB या Firestore के लिए साफ़ तरीके से मैप होता है।

डेटा विज्ञान और मशीन लर्निंग

यह डेटासेट खाद्य और पोषण से संबंधित मशीन लर्निंग मॉडल को प्रशिक्षित और मूल्यांकन करने के लिए उपयुक्त है। सामान्य अनुप्रयोगों में शामिल हैं:

खाद्य वर्गीकरण मॉडल — नामों या पोषण प्रोफाइल से खाद्य श्रेणियों की भविष्यवाणी करने के लिए प्रशिक्षण लेबल के रूप में श्रेणी पदानुक्रम का उपयोग करें
पोषण अनुमान — आंशिक जानकारी (जैसे, प्रोटीन, वसा, और कार्ब्स के अनुपात से कैलोरी का अनुमान लगाना) से कैलोरी या मैक्रो सामग्री की भविष्यवाणी करने के लिए रिग्रेशन मॉडल प्रशिक्षित करें
सिफारिश प्रणाली — पोषण के समान विकल्प सुझाने वाले खाद्य सिफारिश इंजन बनाएं
असामान्यता पहचान — असामान्य पोषण प्रोफाइल की पहचान करें जो अन्य डेटासेट में डेटा गुणवत्ता समस्याओं को इंगित कर सकती हैं

शिक्षा

पोषण विज्ञान के छात्र और शिक्षक इस डेटासेट का उपयोग पाठ्यक्रम, प्रयोगशालाओं, और असाइनमेंट के लिए कर सकते हैं। डेटा की व्यापकता — जो दर्जनों देशों से खाद्य पदार्थों को कवर करती है और हर प्रमुख खाद्य समूह में फैली हुई है — इसे मैक्रोन्यूट्रिएंट अनुपात, माइक्रोन्यूट्रिएंट घनत्व, और विभिन्न व्यंजनों और खाद्य प्रसंस्करण स्तरों के बीच पोषण प्रोफाइल कैसे भिन्न होते हैं, जैसे अवधारणाओं को सिखाने के लिए उपयोगी बनाती है।

सार्वजनिक स्वास्थ्य और नीति

सार्वजनिक स्वास्थ्य संगठन इस डेटा का उपयोग विशिष्ट खाद्य श्रेणियों या बाजारों के पोषण परिदृश्य का विश्लेषण करने के लिए कर सकते हैं। देश का फ़ील्ड क्षेत्र के अनुसार फ़िल्टरिंग की अनुमति देता है, और ब्रांड फ़ील्ड ब्रांडेड बनाम सामान्य खाद्य पोषण गुणवत्ता का विश्लेषण करने में मदद करता है।

डेटा गुणवत्ता पद्धति

एक ओपन डेटासेट जारी करना तब तक कोई मायने नहीं रखता जब तक डेटा विश्वसनीय न हो। हम इस रिलीज़ में 500,000+ प्रविष्टियों में गुणवत्ता सुनिश्चित करने के लिए निम्नलिखित तरीके अपनाते हैं।

मल्टी-सोर्स सत्यापन

डेटासेट में प्रत्येक प्रविष्टि को कम से कम दो स्वतंत्र स्रोतों के खिलाफ सत्यापित किया गया है। हमारे प्राथमिक डेटा स्रोतों में शामिल हैं:

सरकारी पोषण डेटाबेस — USDA FoodData Central (संयुक्त राज्य अमेरिका), CoFID (यूनाइटेड किंगडम), NUTTAB (ऑस्ट्रेलिया), CNF (कनाडा), और 20+ देशों के समकक्ष डेटाबेस
निर्माता द्वारा प्रदान किया गया डेटा — खाद्य निर्माताओं द्वारा सीधे हमारे ब्रांड साझेदारी कार्यक्रम के माध्यम से प्रस्तुत पोषण तथ्य पैनल
प्रयोगशाला विश्लेषण — हमारे टीम द्वारा उच्च मात्रा वाले खाद्य पदार्थों के लिए स्वतंत्र प्रयोगशाला परीक्षण जहाँ स्रोत डेटा विवादास्पद या पुराना है
सत्यापित सामुदायिक सबमिशन — उपयोगकर्ता द्वारा प्रस्तुत प्रविष्टियाँ जो हमारी तीन-चरण सत्यापन प्रक्रिया (स्वचालित क्रॉस-रेफेरेंसिंग, विशेषज्ञ समीक्षा, और सांख्यिकीय आउटलेयर पहचान) से गुजरी हैं

स्वचालित गुणवत्ता जांच

प्रत्येक प्रविष्टि डेटासेट में प्रवेश करने से पहले स्वचालित जांच की एक श्रृंखला से गुजरती है:

ऊर्जा संतुलन सत्यापन — कैलोरी की गणना एटवाटर गणना (4 kcal/g प्रोटीन + 9 kcal/g वसा + 4 kcal/g कार्बोहाइड्रेट) के खिलाफ क्रॉस-चेक की जाती है। जिन प्रविष्टियों में निर्दिष्ट कैलोरी गणना के मान से 10% से अधिक भिन्न होती हैं, उन्हें मैनुअल समीक्षा के लिए चिह्नित किया जाता है।
रेंज जांच — प्रत्येक पोषक तत्व मान को खाद्य श्रेणी के लिए शारीरिक रूप से संभावित रेंज के खिलाफ सत्यापित किया जाता है। एक पनीर प्रविष्टि जो 0 ग्राम वसा का दावा करती है या एक फल प्रविष्टि जो 50 ग्राम प्रोटीन का दावा करती है, तुरंत चिह्नित की जाती है।
क्रॉस-प्रविष्टि स्थिरता — समान खाद्य पदार्थों की सांख्यिकीय तुलना की जाती है। यदि एक नया चिकन ब्रेस्ट प्रविष्टि मौजूदा चिकन ब्रेस्ट प्रविष्टियों के समूह से महत्वपूर्ण रूप से भिन्न मान दिखाती है, तो इसे समीक्षा के लिए रोका जाता है।
सर्विंग साइज सत्यापन — सर्विंग वजन ज्ञात मानक भागों के खिलाफ जांचा जाता है। "1 मध्यम सेब" जो 500 ग्राम का दावा करता है, पास नहीं होता।

मानव समीक्षा

स्वचालित जांच द्वारा चिह्नित प्रविष्टियाँ हमारी डेटा टीम द्वारा मैनुअल समीक्षा से गुजरती हैं, जिसमें प्रमाणित पोषण विशेषज्ञ और खाद्य वैज्ञानिक शामिल हैं। लगभग 12% प्रविष्टियों को स्वीकृत होने से पहले किसी न किसी रूप में मैनुअल सुधार की आवश्यकता होती है।

निरंतर रखरखाव

डेटासेट एक बार का डंप नहीं है। हम प्रविष्टियों को एक रोलिंग आधार पर फिर से सत्यापित करते हैं, उच्च मात्रा वाले खाद्य पदार्थों (जो Nutrola उपयोगकर्ताओं द्वारा सबसे अधिक लॉग किए जाते हैं) और उन प्रविष्टियों को प्राथमिकता देते हैं जिनका स्रोत डेटा अपडेट किया गया है। जब एक खाद्य निर्माता एक उत्पाद को फिर से तैयार करता है, तो हम अपने बारकोड निगरानी प्रणाली के माध्यम से परिवर्तन को पकड़ते हैं और प्रविष्टि को तदनुसार अपडेट करते हैं।

अपडेट आवृत्ति

हम ओपन डेटासेट के नए संस्करण तिमाही में प्रकाशित करते हैं। प्रत्येक रिलीज़ में शामिल हैं:

पिछले संस्करण के बाद जोड़े गए नए खाद्य प्रविष्टियाँ
पिछले संस्करण के बाद पहचाने गए मौजूदा प्रविष्टियों में सुधार
पुनः तैयार किए गए उत्पादों के लिए अपडेट की गई पोषण डेटा
नए स्रोत डेटा उपलब्ध होने पर विस्तारित माइक्रोन्यूट्रिएंट कवरेज

वर्तमान संस्करण v3.0 है, जो मार्च 2026 में जारी किया गया था। संस्करण इतिहास और चेंज लॉग GitHub रिपॉजिटरी में उपलब्ध हैं।

यदि आपको तिमाही से अधिक बार अपडेट किया गया डेटा चाहिए, तो हमारा Nutrition Data API 48 घंटों के भीतर परिवर्तनों को दर्शाता है।

लाइसेंस

Nutrola ओपन फूड न्यूट्रिशन डेटासेट को क्रिएटिव कॉमन्स एट्रिब्यूशन-शेयरअलाइक 4.0 इंटरनेशनल (CC BY-SA 4.0) लाइसेंस के तहत जारी किया गया है।

इसका मतलब है कि आप स्वतंत्र रूप से:

शेयर — डेटासेट को किसी भी माध्यम या प्रारूप में कॉपी और पुनर्वितरित करें
एडाप्ट — डेटासेट को किसी भी उद्देश्य के लिए, जिसमें वाणिज्यिक उपयोग शामिल है, रिमिक्स, ट्रांसफॉर्म और निर्माण करें

निम्नलिखित शर्तों के तहत:

एट्रिब्यूशन — आपको Nutrola को उचित श्रेय देना होगा, लाइसेंस का लिंक प्रदान करना होगा, और यह बताना होगा कि क्या परिवर्तन किए गए हैं
शेयरअलाइक — यदि आप डेटासेट को रिमिक्स, ट्रांसफॉर्म, या निर्माण करते हैं, तो आपको अपने योगदान को उसी CC BY-SA 4.0 लाइसेंस के तहत वितरित करना होगा

हमने CC BY-SA 4.0 को चुना क्योंकि यह खुलापन और यह सुनिश्चित करने के बीच सही संतुलन बनाता है कि सुधार समुदाय में वापस प्रवाहित होते रहें। यदि आप इस डेटा का एक बेहतर संस्करण बनाते हैं, तो लाइसेंस यह सुनिश्चित करता है कि आपके सुधार सभी के लिए उपलब्ध रहें।

यह अन्य डेटासेट्स के साथ कैसे तुलना करता है

कई सार्वजनिक रूप से उपलब्ध पोषण डेटासेट हैं। यहाँ Nutrola ओपन फूड न्यूट्रिशन डेटासेट की तुलना दो सबसे व्यापक रूप से उपयोग किए जाने वाले विकल्पों से की गई है।

बनाम USDA FoodData Central

USDA FoodData Central संयुक्त राज्य अमेरिका में पोषण डेटा के लिए स्वर्ण मानक है। यह व्यापक, अच्छी तरह से प्रलेखित है, और प्रयोगशाला विश्लेषण द्वारा समर्थित है। हालाँकि, इसमें कुछ सीमाएँ हैं जिन्हें Nutrola डेटासेट संबोधित करता है:

Dimension	USDA FoodData Central	Nutrola ओपन डेटासेट
कुल प्रविष्टियाँ	~400,000 (फाउंडेशन, SR लेगेसी, ब्रांडेड मिलाकर)	500,000+
भौगोलिक कवरेज	मुख्य रूप से संयुक्त राज्य अमेरिका	47 देश
ब्रांडेड उत्पाद	केवल अमेरिकी ब्रांड, अक्सर पुराने	अंतरराष्ट्रीय ब्रांड, त्रैमासिक सत्यापित
डेटा प्रारूप	कई असंगत फ़ाइल प्रारूप, जटिल संबंधात्मक संरचना	एकल CSV या JSON फ़ाइल, सपाट संरचना
सर्विंग साइज	उप-डेटाबेस में असंगत	मानकीकृत प्रारूप जिसमें प्रति खाद्य 3 सर्विंग तक
उपयोग में आसानी	उप-डेटाबेस को मिलाने के लिए महत्वपूर्ण डेटा इंजीनियरिंग की आवश्यकता होती है	एक फ़ाइल डाउनलोड करें और काम करना शुरू करें
अपडेट आवृत्ति	उप-डेटाबेस द्वारा भिन्न (कुछ के लिए वार्षिक)	त्रैमासिक

यदि आपका काम विशेष रूप से अमेरिकी खाद्य पदार्थों पर केंद्रित है और आपको संभवतः गहरे पोषण प्रोफाइल की आवश्यकता है (USDA फाउंडेशन खाद्य पदार्थों के लिए 150+ पोषक तत्वों को कवर करता है), तो FoodData Central बेहतर विकल्प है। यदि आपको अंतरराष्ट्रीय कवरेज, सुसंगत प्रारूपिंग, और एक डेटासेट चाहिए जो तुरंत काम करे, तो Nutrola डेटासेट मजबूत विकल्प है।

दोनों डेटासेट पूरक हैं। कई शोधकर्ता USDA फाउंडेशन डेटा का उपयोग विस्तृत अमेरिकी पोषण विश्लेषण के लिए करते हैं और इसे Nutrola डेटा के साथ अंतरराष्ट्रीय कवरेज और ब्रांडेड उत्पादों के लिए पूरक करते हैं।

बनाम Open Food Facts

Open Food Facts एक क्राउडसोर्स्ड डेटाबेस है जिसमें 3 मिलियन से अधिक प्रविष्टियाँ हैं। इसके पास प्रभावशाली पैमाना है और यह कई देशों के उत्पादों को कवर करता है। हालाँकि, इसकी क्राउडसोर्स्ड प्रकृति डेटा गुणवत्ता की चुनौतियाँ पेश करती है:

Dimension	Open Food Facts	Nutrola ओपन डेटासेट
कुल प्रविष्टियाँ	3M+	500,000+
डेटा गुणवत्ता	परिवर्तनशील — क्राउडसोर्स्ड स्वचालित जांच के साथ	सत्यापित — मल्टी-सोर्स, मानव-समीक्षित
पूर्णता	कई प्रविष्टियों में मैक्रो/माइक्रो डेटा गायब है	सभी प्रविष्टियों में पूर्ण मैक्रो डेटा है; 90%+ में पूर्ण माइक्रो प्रोफाइल हैं
सर्विंग साइज	असंगत, अक्सर गायब	मानकीकृत, हमेशा मौजूद
श्रेणी वर्गीकरण	क्राउडसोर्स्ड टैग, असंगत	श्रेणीबद्ध, क्यूरेटेड वर्गीकरण
पोषक तत्व कवरेज	प्रविष्टि के अनुसार व्यापक रूप से भिन्न	सभी प्रविष्टियों में सुसंगत 40+ पोषक तत्व
डेटा प्रारूप	MongoDB डंप, जटिल नेस्टेड JSON	साफ़ CSV और JSON
लाइसेंस	ओपन डेटाबेस लाइसेंस (ODbL)	CC BY-SA 4.0

Open Food Facts व्यापकता में उत्कृष्ट है — यदि आपको किसी विशेष अज्ञात उत्पाद को बारकोड द्वारा देखना है, तो उनके पास संभवतः यह होगा। Nutrola डेटासेट गहराई और स्थिरता में उत्कृष्ट है — प्रत्येक प्रविष्टि एक ही गुणवत्ता मानक को पूरा करती है, जिससे यह मात्रात्मक विश्लेषण के लिए अधिक विश्वसनीय बनाता है जहाँ डेटा गैप या त्रुटियाँ परिणामों को विकृत कर सकती हैं।

यदि आप एक बारकोड स्कैनर ऐप बना रहे हैं और अधिकतम उत्पाद कवरेज की आवश्यकता है, तो Open Food Facts एक अच्छा प्रारंभिक बिंदु है। यदि आप एक मशीन लर्निंग मॉडल को प्रशिक्षित कर रहे हैं, सांख्यिकीय शोध कर रहे हैं, या एक ऐप बना रहे हैं जहाँ पोषण सटीकता महत्वपूर्ण है, तो Nutrola डेटासेट का सत्यापित डेटा आपको एक मजबूत आधार प्रदान करेगा।

शुरुआत कैसे करें

एक बार जब आप डेटासेट डाउनलोड कर लें, तो यहाँ Python में इसे लोड करने और अन्वेषण करने का एक त्वरित उदाहरण है:

import pandas as pd

# डेटासेट लोड करें
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")

# बुनियादी अवलोकन
print(f"कुल प्रविष्टियाँ: {len(df):,}")
print(f"कवरेज वाले देश: {df['country'].nunique()}")
print(f"खाद्य श्रेणियाँ (L1): {df['category_l1'].nunique()}")

# उच्च प्रोटीन, कम कैलोरी वाले खाद्य पदार्थ खोजें
high_protein = df[
    (df["protein_g"] > 20) &
    (df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)

print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))

# खाद्य श्रेणी के अनुसार औसत मैक्रोज़ का विश्लेषण करें
category_macros = df.groupby("category_l1").agg({
    "calories_per_100g": "mean",
    "protein_g": "mean",
    "fat_total_g": "mean",
    "carbs_total_g": "mean"
}).round(1)

print(category_macros.sort_values("calories_per_100g", ascending=False))

अधिक उदाहरण — जिनमें R स्क्रिप्ट, SQL आयात गाइड, और Jupyter नोटबुक शामिल हैं — GitHub रिपॉजिटरी के scripts/ निर्देशिका में उपलब्ध हैं।

अक्सर पूछे जाने वाले प्रश्न

क्या डेटासेट वास्तव में उपयोग के लिए मुफ्त है?

हाँ। Nutrola ओपन फूड न्यूट्रिशन डेटासेट CC BY-SA 4.0 लाइसेंस के तहत जारी किया गया है, जो वाणिज्यिक और गैर-वाणिज्यिक उपयोग की अनुमति देता है। केवल आवश्यकताएँ हैं कि आप Nutrola को स्रोत के रूप में श्रेय दें और यदि आप वितरित करते हैं तो किसी भी व्युत्पन्न डेटासेट को उसी लाइसेंस के तहत लाइसेंसित करें। फ़ाइलें डाउनलोड करने के लिए कोई API कुंजी, कोई उपयोग सीमा, और कोई पंजीकरण आवश्यक नहीं है।

डेटासेट कितनी बार अपडेट किया जाता है?

हम नए संस्करण त्रैमासिक में प्रकाशित करते हैं। प्रत्येक रिलीज़ में नए खाद्य प्रविष्टियाँ जोड़ी जाती हैं, पिछले संस्करण के बाद पहचाने गए किसी भी त्रुटियों को सही किया जाता है, और उन प्रविष्टियों के लिए अपडेट किया जाता है जो पुनः तैयार की गई हैं। GitHub रिपॉजिटरी के Releases पृष्ठ पर पूर्ण संस्करण इतिहास है, और आप नए संस्करण प्रकाशित होने पर सूचित होने के लिए रिपॉजिटरी को देख सकते हैं।

क्या मैं इस डेटासेट का उपयोग एक वाणिज्यिक ऐप बनाने के लिए कर सकता हूँ?

हाँ। CC BY-SA 4.0 लाइसेंस स्पष्ट रूप से वाणिज्यिक उपयोग की अनुमति देता है। आप डेटा का उपयोग एक भुगतान ऐप, एक SaaS उत्पाद, या किसी अन्य वाणिज्यिक संदर्भ में कर सकते हैं। आपको अपने ऐप या दस्तावेज़ में Nutrola को श्रेय देना होगा, और यदि आप डेटासेट का एक संशोधित संस्करण वितरित करते हैं, तो संशोधित संस्करण को भी CC BY-SA 4.0 के तहत लाइसेंसित करना होगा। अपने ऐप के भीतर डेटा का उपयोग (कच्चे डेटासेट को पुनर्वितरित किए बिना) शेयरअलाइक आवश्यकता को सक्रिय नहीं करता है।

Nutrola का पूरा डेटाबेस 3 मिलियन+ प्रविष्टियों में केवल 500K प्रविष्टियाँ क्यों हैं?

ओपन डेटासेट में वे प्रविष्टियाँ शामिल हैं जिन्हें हम बिना किसी प्रतिबंध के एक ओपन लाइसेंस के तहत जारी कर सकते हैं। हमारा पूरा डेटाबेस ऐसे डेटा को शामिल करता है जो स्वामित्व वाले स्रोतों से आता है — सीधे निर्माता साझेदारियों, लाइसेंस प्राप्त प्रयोगशाला डेटा, और अन्य स्रोतों से जिनमें पुनर्वितरण पर संविदात्मक सीमाएँ हैं। ओपन डेटासेट में 500K प्रविष्टियाँ सरकारी डेटाबेस, हमारे अपने प्रयोगशाला विश्लेषण, और सामुदायिक सबमिशन से आती हैं जहाँ योगदानकर्ताओं ने ओपन लाइसेंसिंग पर सहमति दी। यदि आपको पूर्ण डेटाबेस तक पहुँच की आवश्यकता है, तो हमारा Nutrition Data API इसे अलग वाणिज्यिक शर्तों के तहत प्रदान करता है।

यदि मैं डेटासेट में कोई त्रुटि पाता हूँ तो मुझे क्या करना चाहिए?

GitHub रिपॉजिटरी पर उस प्रविष्टि के food_id और त्रुटि का विवरण के साथ एक समस्या खोलें। यदि आपके पास कोई स्रोत लिंक है (जैसे, एक निर्माता की वेबसाइट जो विभिन्न पोषण तथ्यों को दिखाती है), तो उसे शामिल करें। हमारी डेटा टीम साप्ताहिक रूप से रिपोर्ट की गई समस्याओं की समीक्षा करती है, और पुष्टि की गई सुधारों को अगले त्रैमासिक रिलीज़ में शामिल किया जाता है। तत्काल सुधारों के लिए, हम त्रैमासिक अपडेट के बीच एक पैच रिलीज़ को धकेल सकते हैं।

यह Nutrola न्यूट्रिशन डेटा API से कैसे संबंधित है?

ओपन डेटासेट हमारे डेटाबेस का एक स्थिर त्रैमासिक स्नैपशॉट है। API पूर्ण 3 मिलियन+ प्रविष्टियों के डेटाबेस तक वास्तविक समय में पहुँच प्रदान करता है जिसमें खोज, फ़िल्टरिंग, बारकोड लुकअप, और अन्य सुविधाएँ शामिल हैं। ओपन डेटासेट को ऑफ़लाइन या बैच उपयोग के मामलों के लिए आधार के रूप में सोचें, और API को उत्पादन अनुप्रयोगों के लिए लाइव डेटा की आवश्यकता के समाधान के रूप में। कई डेवलपर्स प्रोटोटाइपिंग के लिए ओपन डेटासेट के साथ शुरू करते हैं और जब वे उत्पादन में जाते हैं तो API पर माइग्रेट करते हैं।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!