Nutrolas offener Lebensmittel-Nährstoff-Datensatz: 500.000+ Lebensmittel zum Download
Laden Sie Nutrolas offenen Lebensmittel-Nährstoff-Datensatz mit über 500.000 verifizierten Einträgen herunter, einschließlich Kalorien, Makros, Mikronährstoffen und Portionsgrößen. Verfügbar in CSV und JSON für Forschung, Entwicklung und Bildung.
Gute Nährstoffdaten sind schwer zu finden. Forscher verschwenden Wochen mit der Bereinigung staatlicher Datenbanken. Entwickler schreiben fragile Scraper, die jeden Monat kaputtgehen. Studierende, die Abschlussarbeiten schreiben, begnügen sich mit kleinen, veralteten Stichproben, weil das Zusammenstellen eines umfassenden Datensatzes von Grund auf innerhalb eines akademischen Zeitrahmens nicht realistisch ist.
Wir haben Nutrolas Lebensmitteldatenbank für unsere Kalorienzähler-App entwickelt, und in den letzten drei Jahren haben wir stark darin investiert, diese Daten genau, umfassend und gut strukturiert zu machen. Heute veröffentlichen wir einen kuratierten Teilbestand dieser Datenbank als offenen Datensatz: über 500.000 verifizierte Lebensmitteleinträge, die kostenlos in CSV- und JSON-Formaten heruntergeladen werden können.
Dieser Beitrag behandelt alles, was Sie über den Datensatz wissen müssen — was er enthält, wie Sie ihn herunterladen, das Schema, die Lizenzierung, die Qualitätsmethodik und wie er sich im Vergleich zu anderen öffentlich verfügbaren Nährstoffdatenquellen schlägt.
Was im Datensatz enthalten ist
Der Nutrola Open Food Nutrition Dataset enthält über 500.000 Lebensmitteleinträge, die Rohzutaten, generische Lebensmittel, Markenprodukte und gängige Restaurantgerichte umfassen. Jeder Eintrag wurde durch unsere mehrschichtige Qualitätskontroll-Pipeline verifiziert — dasselbe System, das in unserem Beitrag Wie wir unsere Lebensmitteldatenbank aufgebaut haben ausführlich beschrieben wird.
Jeder Lebensmitteleintrag enthält folgende Datenpunkte:
- Lebensmittelname — der gebräuchliche Name des Lebensmittels auf Englisch, mit Markennamen wo zutreffend
- Kalorien — Energiegehalt in Kilokalorien (kcal) pro 100 Gramm und pro Portion
- Makronährstoffe — Protein, Gesamtfett, gesättigtes Fett, Transfett, Gesamtkohlenhydrate, Ballaststoffe, Gesamtzucker und zugesetzter Zucker, alles in Gramm
- Mikronährstoffe — 30+ Vitamine und Mineralstoffe einschließlich Vitamin A, Vitamin C, Vitamin D, Vitamin E, Vitamin K, Thiamin, Riboflavin, Niacin, Vitamin B6, Folat, Vitamin B12, Calcium, Eisen, Magnesium, Phosphor, Kalium, Natrium, Zink, Kupfer, Mangan, Selen und mehr
- Portionsgrößen — Standardportionsgrößenbeschreibung (z. B. „1 mittelgroßer Apfel", „1 Tasse gekocht"), Portionsgewicht in Gramm und bis zu drei alternative Portionsgrößen pro Lebensmittel
- Lebensmittelkategorie — hierarchische Klassifizierung unter Verwendung unserer internen Taxonomie (z. B. Milchprodukte > Käse > Hartkäse)
- Herkunftsland — das Hauptland oder die Region, in dem/der das Lebensmittel verkauft wird oder die Zutat üblicherweise konsumiert wird
- Barcode (sofern verfügbar) — UPC- oder EAN-Codes für Markenprodukte
- Datenquellen-Tags — Herkunftsindikatoren, die anzeigen, ob der Eintrag aus staatlichen Datenbanken, Herstellerdaten, Laboranalysen oder unserem internen Verifizierungsteam stammt
Beispieldaten
Hier ist eine Auswahl von Einträgen aus dem Datensatz, um Ihnen einen Eindruck von der Struktur und dem Detailgrad zu vermitteln:
| food_id | food_name | category | country | calories_per_100g | protein_g | fat_g | carbs_g | fiber_g | serving_desc | serving_g |
|---|---|---|---|---|---|---|---|---|---|---|
| NF-001247 | Chicken Breast, Raw, Skinless | Poultry > Chicken | US | 120 | 22.5 | 2.6 | 0.0 | 0.0 | 1 breast (174g) | 174 |
| NF-008391 | Fage Total 0% Greek Yogurt | Dairy > Yogurt > Greek | GR | 54 | 10.3 | 0.0 | 3.0 | 0.0 | 1 container (150g) | 150 |
| NF-014205 | Basmati Rice, White, Cooked | Grains > Rice | IN | 130 | 2.7 | 0.3 | 28.2 | 0.4 | 1 cup (158g) | 158 |
| NF-022876 | Avocado, Hass, Raw | Fruits > Tropical | MX | 160 | 2.0 | 14.7 | 8.5 | 6.7 | 1/2 avocado (68g) | 68 |
| NF-031560 | Barilla Penne Rigate, Dry | Pasta > Dried | IT | 359 | 12.5 | 2.0 | 71.2 | 3.0 | 2 oz (56g) | 56 |
| NF-045892 | Kimchi, Traditional Napa Cabbage | Vegetables > Fermented | KR | 15 | 1.1 | 0.5 | 2.4 | 1.6 | 1/2 cup (75g) | 75 |
| NF-053714 | Salmon, Atlantic, Raw, Farmed | Fish > Salmon | NO | 208 | 20.4 | 13.4 | 0.0 | 0.0 | 1 fillet (113g) | 113 |
| NF-067283 | Chickpeas, Canned, Drained | Legumes > Beans | US | 119 | 6.3 | 2.0 | 18.2 | 5.4 | 1/2 cup (120g) | 120 |
Der vollständige Datensatz enthält viele weitere Spalten für Mikronährstoffe, alternative Portionsgrößen, Barcode-Daten und Quellen-Tags. Die obige Tabelle zeigt die wichtigsten Nährwertfelder.
Datenformate
Der Datensatz ist in zwei Formaten verfügbar:
CSV
Die CSV-Datei verwendet UTF-8-Kodierung mit Komma-Trennzeichen. Die erste Zeile enthält Spaltenüberschriften. Felder, die Kommas enthalten, werden in doppelte Anführungszeichen eingeschlossen. Null-Werte werden als leere Felder dargestellt.
Das CSV-Format ist ideal für Tabellenkalkulationstools wie Excel und Google Sheets, Statistiksoftware wie R und SPSS sowie für die schnelle Datenexploration mit Befehlszeilentools wie csvkit oder xsv.
Datei: nutrola-open-food-dataset-v3.csv (ca. 210 MB unkomprimiert, 48 MB gzipped)
JSON
Die JSON-Datei enthält ein Array von Objekten, eines pro Lebensmitteleintrag. Verschachtelte Objekte werden für strukturierte Felder wie Portionsgrößen (die eine Beschreibung, ein Grammgewicht und gegebenenfalls ein Milliliter-Äquivalent enthalten) und Mikronährstoffprofile verwendet.
Das JSON-Format eignet sich besser für die Anwendungsentwicklung, Datenbankimporte und jeden Workflow, bei dem Sie die hierarchische Struktur von Portionsgrößen und Nährstoffgruppen beibehalten müssen.
Datei: nutrola-open-food-dataset-v3.json (ca. 340 MB unkomprimiert, 62 MB gzipped)
Beide Dateien sind auch als gzip-komprimierte Archive verfügbar, um die Downloadzeiten zu reduzieren.
Datenschema
Hier ist das vollständige Schema mit Beschreibungen für jedes Feld im Datensatz:
| Feldname | Typ | Beschreibung |
|---|---|---|
food_id |
string | Eindeutige Nutrola-Kennung für den Lebensmitteleintrag (Format: NF-XXXXXX) |
food_name |
string | Gebräuchlicher Name des Lebensmittels, einschließlich Marke wo zutreffend |
category_l1 |
string | Lebensmittelkategorie der obersten Ebene (z. B. Milchprodukte, Getreide, Obst) |
category_l2 |
string | Kategorie der zweiten Ebene (z. B. Käse, Reis, Tropisch) |
category_l3 |
string | Kategorie der dritten Ebene wo zutreffend (z. B. Hartkäse, Brauner Reis) |
country |
string | ISO 3166-1 alpha-2 Ländercode für den Hauptmarkt |
brand |
string | Markenname für Markenprodukte; null für generische Lebensmittel |
barcode |
string | UPC/EAN-Barcode; null wenn nicht zutreffend |
calories_per_100g |
float | Energie in kcal pro 100 Gramm |
protein_g |
float | Protein in Gramm pro 100g |
fat_total_g |
float | Gesamtfett in Gramm pro 100g |
fat_saturated_g |
float | Gesättigtes Fett in Gramm pro 100g |
fat_trans_g |
float | Transfett in Gramm pro 100g |
carbs_total_g |
float | Gesamtkohlenhydrate in Gramm pro 100g |
fiber_g |
float | Ballaststoffe in Gramm pro 100g |
sugars_total_g |
float | Gesamtzucker in Gramm pro 100g |
sugars_added_g |
float | Zugesetzter Zucker in Gramm pro 100g |
sodium_mg |
float | Natrium in Milligramm pro 100g |
cholesterol_mg |
float | Cholesterin in Milligramm pro 100g |
vitamin_a_mcg |
float | Vitamin A in Mikrogramm RAE pro 100g |
vitamin_c_mg |
float | Vitamin C in Milligramm pro 100g |
vitamin_d_mcg |
float | Vitamin D in Mikrogramm pro 100g |
calcium_mg |
float | Calcium in Milligramm pro 100g |
iron_mg |
float | Eisen in Milligramm pro 100g |
potassium_mg |
float | Kalium in Milligramm pro 100g |
magnesium_mg |
float | Magnesium in Milligramm pro 100g |
zinc_mg |
float | Zink in Milligramm pro 100g |
phosphorus_mg |
float | Phosphor in Milligramm pro 100g |
selenium_mcg |
float | Selen in Mikrogramm pro 100g |
vitamin_b6_mg |
float | Vitamin B6 in Milligramm pro 100g |
vitamin_b12_mcg |
float | Vitamin B12 in Mikrogramm pro 100g |
folate_mcg |
float | Folat in Mikrogramm DFE pro 100g |
vitamin_e_mg |
float | Vitamin E in Milligramm pro 100g |
vitamin_k_mcg |
float | Vitamin K in Mikrogramm pro 100g |
thiamin_mg |
float | Thiamin (B1) in Milligramm pro 100g |
riboflavin_mg |
float | Riboflavin (B2) in Milligramm pro 100g |
niacin_mg |
float | Niacin (B3) in Milligramm pro 100g |
copper_mg |
float | Kupfer in Milligramm pro 100g |
manganese_mg |
float | Mangan in Milligramm pro 100g |
serving_1_desc |
string | Primäre Portionsgrößenbeschreibung (z. B. „1 Tasse gekocht") |
serving_1_g |
float | Gewicht der primären Portionsgröße in Gramm |
serving_2_desc |
string | Alternative Portionsgrößenbeschreibung; null wenn nicht verfügbar |
serving_2_g |
float | Gewicht der alternativen Portionsgröße in Gramm |
serving_3_desc |
string | Zweite alternative Portionsgrößenbeschreibung; null wenn nicht verfügbar |
serving_3_g |
float | Gewicht der zweiten alternativen Portionsgröße in Gramm |
data_source |
string | Herkunfts-Tag: „government", „manufacturer", „laboratory" oder „verified_community" |
last_verified |
string | ISO 8601-Datum der letzten Verifizierung des Eintrags (JJJJ-MM-TT) |
dataset_version |
string | Datensatz-Versionskennung (z. B. „v3.0") |
Alle Nährwerte werden pro 100 Gramm angegeben, um konsistente Vergleiche zu ermöglichen. Um Nährstoffe pro Portion zu berechnen, multiplizieren Sie den Pro-100g-Wert mit dem Portionsgewicht in Gramm und teilen Sie durch 100.
Herunterladen
Der Datensatz wird auf unserem öffentlichen GitHub-Repository gehostet:
github.com/nutrola/open-food-nutrition-dataset
Sie können die Dateien direkt von der GitHub-Releases-Seite herunterladen oder das Repository klonen:
git clone https://github.com/nutrola/open-food-nutrition-dataset.git
Für die komprimierten Versionen:
# Download CSV (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz
# Download JSON (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz
Das Repository enthält außerdem:
- Eine detaillierte
README.mdmit Schnellstart-Anleitungen - Eine
CHANGELOG.md, die Änderungen zwischen Datensatzversionen dokumentiert - Ein
scripts/-Verzeichnis mit Python- und R-Beispielskripten zum Laden, Filtern und Analysieren der Daten - Ein
schema/-Verzeichnis mit JSON Schema- und CSV-Dialekt-Definitionen
Wenn Sie die vollständige Datenbank mit über 3 Millionen Einträgen und Echtzeit-Updates statt periodischer Snapshots benötigen, finden Sie in unserem Beitrag zur Nutrition Data API Informationen zum Entwicklerzugang.
Anwendungsfälle
Akademische Forschung
Ernährungsforscher können den Datensatz für Ernährungsmusteranalysen, epidemiologische Modellierung und Nährstoffdichtestudien verwenden, ohne Wochen mit der Bereinigung und Zusammenführung staatlicher Datendateien zu verbringen. Das hierarchische Kategoriesystem erleichtert das Filtern nach Lebensmittelgruppen, und das Länderfeld ermöglicht interkulturelle Vergleiche.
Veröffentlichte Forschung, die den Datensatz verwendet, sollte wie folgt zitiert werden: Nutrola Open Food Nutrition Dataset, v3.0 (2026). Verfügbar unter github.com/nutrola/open-food-nutrition-dataset. Lizenziert unter CC BY-SA 4.0.
Anwendungsentwicklung
Entwickler, die Gesundheits-, Fitness- oder ernährungsbezogene Anwendungen erstellen, können den Datensatz als lokale Lebensmitteldatenbank nutzen. Das konsistente Schema und die Portionsgrößendaten bedeuten, dass Sie eine funktionale Lebensmittelprotokollierungsfunktion erstellen können, ohne auf eine Live-API-Verbindung angewiesen zu sein. Dies ist besonders nützlich für Offline-first-Mobile-Apps, Prototyping und Hackathon-Projekte.
Das CSV-Format lässt sich direkt in SQLite, PostgreSQL oder jede relationale Datenbank laden. Das JSON-Format passt sauber in Dokumentdatenbanken wie MongoDB oder Firestore.
Data Science und maschinelles Lernen
Der Datensatz eignet sich gut für das Training und die Evaluierung von Machine-Learning-Modellen im Bereich Lebensmittel und Ernährung. Häufige Anwendungen umfassen:
- Lebensmittelklassifizierungsmodelle — verwenden Sie die Kategoriehierarchie als Trainingslabels, um Klassifikatoren zu erstellen, die Lebensmittelkategorien anhand von Namen oder Nährwertprofilen vorhersagen
- Nährwertschätzung — trainieren Sie Regressionsmodelle, die den Kalorien- oder Makrogehalt aus Teilinformationen vorhersagen (z. B. Schätzung von Kalorien aus Protein-, Fett- und Kohlenhydratverhältnissen)
- Empfehlungssysteme — erstellen Sie Lebensmittelempfehlungsmaschinen, die ernährungsphysiologisch ähnliche Alternativen vorschlagen
- Anomalieerkennung — identifizieren Sie ungewöhnliche Nährwertprofile, die auf Datenqualitätsprobleme in anderen Datensätzen hinweisen könnten
Bildung
Ernährungswissenschaftsstudierende und Lehrende können den Datensatz für Studienarbeiten, Praktika und Aufgaben verwenden. Die Breite der Daten — die Lebensmittel aus Dutzenden von Ländern abdecken und jede wichtige Lebensmittelgruppe umfassen — macht ihn nützlich für die Vermittlung von Konzepten wie Makronährstoffverhältnissen, Mikronährstoffdichte und wie sich Nährwertprofile über verschiedene Küchen und Lebensmittelverarbeitungsstufen hinweg unterscheiden.
Öffentliche Gesundheit und Politik
Organisationen des öffentlichen Gesundheitswesens können die Daten verwenden, um die Ernährungslandschaft bestimmter Lebensmittelkategorien oder Märkte zu analysieren. Das Länderfeld ermöglicht die Filterung nach Region, und das Markenfeld ermöglicht die Analyse der Nährwertqualität von Marken- im Vergleich zu generischen Lebensmitteln.
Datenqualitätsmethodik
Die Veröffentlichung eines offenen Datensatzes hat keinen Wert, wenn die Daten nicht vertrauenswürdig sind. So stellen wir die Qualität der über 500.000 Einträge in dieser Veröffentlichung sicher.
Mehrquellen-Verifizierung
Jeder Eintrag im Datensatz wurde gegen mindestens zwei unabhängige Quellen verifiziert. Unsere primären Datenquellen umfassen:
- Staatliche Nährstoffdatenbanken — USDA FoodData Central (Vereinigte Staaten), CoFID (Vereinigtes Königreich), NUTTAB (Australien), CNF (Kanada) und gleichwertige Datenbanken aus 20+ Ländern
- Vom Hersteller bereitgestellte Daten — Nährwertangaben, die direkt von Lebensmittelherstellern über unser Markenpartnerschaftsprogramm eingereicht wurden
- Laboranalysen — unabhängige Labortests, die von unserem Team für häufig verwendete Lebensmittel durchgeführt werden, bei denen Quelldaten widersprüchlich oder veraltet sind
- Verifizierte Community-Einreichungen — von Nutzern eingereichte Einträge, die unseren dreistufigen Verifizierungsprozess bestanden haben (automatisierter Quervergleich, Expertenprüfung und statistische Ausreißererkennung)
Automatisierte Qualitätsprüfungen
Jeder Eintrag durchläuft eine Reihe automatisierter Prüfungen, bevor er in den Datensatz aufgenommen wird:
- Energiebilanz-Validierung — der Kalorienwert wird gegen die Atwater-Berechnung (4 kcal/g Protein + 9 kcal/g Fett + 4 kcal/g Kohlenhydrate) gegengeprüft. Einträge, bei denen die angegebenen Kalorien um mehr als 10 % vom berechneten Wert abweichen, werden zur manuellen Überprüfung markiert.
- Bereichsprüfungen — jeder Nährwert wird gegen physiologisch plausible Bereiche für die Lebensmittelkategorie validiert. Ein Käseeintrag, der 0 Gramm Fett behauptet, oder ein Obsteintrag, der 50 Gramm Protein beansprucht, wird sofort markiert.
- Eintragsübergreifende Konsistenz — ähnliche Lebensmittel werden statistisch verglichen. Wenn ein neuer Hähnchenbrust-Eintrag deutlich andere Werte aufweist als der bestehende Cluster von Hähnchenbrust-Einträgen, wird er zur Überprüfung zurückgehalten.
- Portionsgrößen-Validierung — Portionsgewichte werden gegen bekannte Standardportionen geprüft. Ein „1 mittelgroßer Apfel", der angeblich 500 Gramm wiegt, besteht die Prüfung nicht.
Manuelle Überprüfung
Einträge, die von automatisierten Prüfungen markiert werden, durchlaufen eine manuelle Überprüfung durch unser Datenteam, das qualifizierte Ernährungswissenschaftler und Lebensmittelwissenschaftler umfasst. Etwa 12 % der Einträge erfordern eine Form der manuellen Korrektur, bevor sie genehmigt werden.
Laufende Wartung
Der Datensatz ist kein einmaliger Datenauszug. Wir re-verifizieren Einträge fortlaufend, wobei wir häufig verwendete Lebensmittel (diejenigen, die am häufigsten von Nutrola-Nutzern protokolliert werden) und Einträge, deren Quelldaten aktualisiert wurden, priorisieren. Wenn ein Lebensmittelhersteller ein Produkt reformuliert, erkennen wir die Änderung über unser Barcode-Überwachungssystem und aktualisieren den Eintrag entsprechend.
Aktualisierungshäufigkeit
Wir veröffentlichen vierteljährlich neue Versionen des offenen Datensatzes. Jede Veröffentlichung umfasst:
- Neue Lebensmitteleinträge, die seit der vorherigen Version hinzugefügt wurden
- Korrekturen bestehender Einträge, die durch unsere Qualitätsüberwachung identifiziert wurden
- Aktualisierte Nährstoffdaten für reformulierte Produkte
- Erweiterte Mikronährstoffabdeckung, wenn neue Quelldaten verfügbar werden
Die aktuelle Version ist v3.0, veröffentlicht im März 2026. Versionshistorie und Änderungsprotokolle sind im GitHub-Repository verfügbar.
Wenn Sie Daten benötigen, die häufiger als vierteljährlich aktualisiert werden, spiegelt unsere Nutrition Data API Änderungen innerhalb von 48 Stunden wider.
Lizenz
Der Nutrola Open Food Nutrition Dataset wird unter der Creative Commons Namensnennung-Weitergabe unter gleichen Bedingungen 4.0 International (CC BY-SA 4.0)-Lizenz veröffentlicht.
Das bedeutet, Sie dürfen:
- Teilen — den Datensatz in jedem Medium oder Format kopieren und weiterverbreiten
- Bearbeiten — den Datensatz remixen, transformieren und darauf aufbauen, für jeden Zweck, einschließlich kommerzieller Nutzung
Unter folgenden Bedingungen:
- Namensnennung — Sie müssen Nutrola angemessen nennen, einen Link zur Lizenz angeben und angeben, ob Änderungen vorgenommen wurden
- Weitergabe unter gleichen Bedingungen — wenn Sie den Datensatz remixen, transformieren oder darauf aufbauen, müssen Sie Ihre Beiträge unter der gleichen CC BY-SA 4.0-Lizenz verbreiten
Wir haben CC BY-SA 4.0 gewählt, weil es die richtige Balance zwischen Offenheit und der Sicherstellung findet, dass Verbesserungen an die Community zurückfließen. Wenn Sie eine bessere Version dieser Daten erstellen, stellt die Lizenz sicher, dass Ihre Verbesserungen auch für alle anderen verfügbar bleiben.
Vergleich mit anderen Datensätzen
Es gibt mehrere öffentlich verfügbare Nährstoffdatensätze. So schneidet der Nutrola Open Food Nutrition Dataset im Vergleich zu den zwei am häufigsten verwendeten Alternativen ab.
vs. USDA FoodData Central
USDA FoodData Central ist der Goldstandard für Nährstoffdaten in den Vereinigten Staaten. Es ist gründlich, gut dokumentiert und durch Laboranalysen gestützt. Es hat jedoch Einschränkungen, die der Nutrola-Datensatz adressiert:
| Dimension | USDA FoodData Central | Nutrola Open Dataset |
|---|---|---|
| Gesamteinträge | ~400.000 (Foundation, SR Legacy, Branded kombiniert) | 500.000+ |
| Geografische Abdeckung | Hauptsächlich Vereinigte Staaten | 47 Länder |
| Markenprodukte | Nur US-Marken, oft veraltet | Internationale Marken, vierteljährlich verifiziert |
| Datenformat | Mehrere inkompatible Dateiformate, komplexe relationale Struktur | Einzelne CSV- oder JSON-Datei, flache Struktur |
| Portionsgrößen | Inkonsistent über Unterdatenbanken hinweg | Standardisiertes Format mit bis zu 3 Portionen pro Lebensmittel |
| Benutzerfreundlichkeit | Erfordert erhebliches Data Engineering zum Zusammenführen der Unterdatenbanken | Eine Datei herunterladen und loslegen |
| Aktualisierungshäufigkeit | Variiert je nach Unterdatenbank (jährlich für einige) | Vierteljährlich |
Wenn Ihre Arbeit sich ausschließlich auf US-Lebensmittel konzentriert und Sie das tiefstmögliche Nährstoffprofil benötigen (USDA deckt 150+ Nährstoffe für Foundation-Lebensmittel ab), ist FoodData Central die bessere Wahl. Wenn Sie internationale Abdeckung, konsistente Formatierung und einen Datensatz benötigen, der sofort einsatzbereit ist, ist der Nutrola-Datensatz die stärkere Option.
Die beiden Datensätze ergänzen sich. Viele Forscher verwenden USDA Foundation-Daten für detaillierte US-Nährstoffanalysen und ergänzen sie mit Nutrola-Daten für internationale Abdeckung und Markenprodukte.
vs. Open Food Facts
Open Food Facts ist eine crowdgesourcte Datenbank mit über 3 Millionen Einträgen. Sie hat eine beeindruckende Skalierung und deckt Produkte aus vielen Ländern ab. Ihre crowdgesourcte Natur bringt jedoch Herausforderungen bei der Datenqualität mit sich:
| Dimension | Open Food Facts | Nutrola Open Dataset |
|---|---|---|
| Gesamteinträge | 3M+ | 500.000+ |
| Datenqualität | Variabel — crowdgesourct mit automatisierten Prüfungen | Verifiziert — mehrere Quellen, von Menschen überprüft |
| Vollständigkeit | Vielen Einträgen fehlen Makro-/Mikrodaten | Alle Einträge haben vollständige Makrodaten; 90%+ haben vollständige Mikroprofile |
| Portionsgrößen | Inkonsistent, oft fehlend | Standardisiert, immer vorhanden |
| Kategorie-Taxonomie | Crowdgesourcte Tags, inkonsistent | Hierarchische, kuratierte Taxonomie |
| Nährstoffabdeckung | Variiert stark pro Eintrag | Konsistente 40+ Nährstoffe über alle Einträge |
| Datenformat | MongoDB-Dump, komplexes verschachteltes JSON | Sauberes CSV und JSON |
| Lizenz | Open Database License (ODbL) | CC BY-SA 4.0 |
Open Food Facts glänzt bei der Breite — wenn Sie ein bestimmtes obskures Produkt per Barcode nachschlagen müssen, haben sie es wahrscheinlich. Der Nutrola-Datensatz glänzt bei Tiefe und Konsistenz — jeder Eintrag erfüllt denselben Qualitätsstandard, was ihn zuverlässiger für quantitative Analysen macht, bei denen Datenlücken oder Fehler die Ergebnisse verzerren können.
Wenn Sie eine Barcode-Scanner-App erstellen und maximale Produktabdeckung benötigen, ist Open Food Facts ein guter Ausgangspunkt. Wenn Sie ein Machine-Learning-Modell trainieren, statistische Forschung betreiben oder eine App erstellen, bei der Nährstoffgenauigkeit wichtig ist, bietet Ihnen die verifizierten Daten des Nutrola-Datensatzes eine stärkere Grundlage.
Erste Schritte
Nachdem Sie den Datensatz heruntergeladen haben, finden Sie hier ein kurzes Beispiel zum Laden und Erkunden in Python:
import pandas as pd
# Load the dataset
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")
# Basic overview
print(f"Total entries: {len(df):,}")
print(f"Countries covered: {df['country'].nunique()}")
print(f"Food categories (L1): {df['category_l1'].nunique()}")
# Find high-protein, low-calorie foods
high_protein = df[
(df["protein_g"] > 20) &
(df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)
print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# Analyze average macros by food category
category_macros = df.groupby("category_l1").agg({
"calories_per_100g": "mean",
"protein_g": "mean",
"fat_total_g": "mean",
"carbs_total_g": "mean"
}).round(1)
print(category_macros.sort_values("calories_per_100g", ascending=False))
Weitere Beispiele — einschließlich R-Skripte, SQL-Import-Anleitungen und Jupyter-Notebooks — sind im scripts/-Verzeichnis des GitHub-Repositorys verfügbar.
Häufig gestellte Fragen
Ist der Datensatz wirklich kostenlos nutzbar?
Ja. Der Nutrola Open Food Nutrition Dataset wird unter der CC BY-SA 4.0-Lizenz veröffentlicht, die kommerzielle und nicht-kommerzielle Nutzung erlaubt. Die einzigen Anforderungen sind, dass Sie Nutrola als Quelle angeben und dass alle abgeleiteten Datensätze, die Sie verbreiten, die gleiche Lizenz verwenden. Es gibt keine API-Schlüssel, keine Nutzungslimits und keine Registrierung erforderlich, um die Dateien herunterzuladen.
Wie oft wird der Datensatz aktualisiert?
Wir veröffentlichen vierteljährlich neue Versionen. Jede Veröffentlichung fügt neue Lebensmitteleinträge hinzu, korrigiert seit der vorherigen Version identifizierte Fehler und aktualisiert Einträge für Produkte, die reformuliert wurden. Die Releases-Seite des GitHub-Repositorys enthält die vollständige Versionshistorie, und Sie können das Repository beobachten, um benachrichtigt zu werden, wenn neue Versionen veröffentlicht werden.
Kann ich diesen Datensatz für den Bau einer kommerziellen App verwenden?
Ja. Die CC BY-SA 4.0-Lizenz erlaubt ausdrücklich die kommerzielle Nutzung. Sie können die Daten in einer kostenpflichtigen App, einem SaaS-Produkt oder jedem anderen kommerziellen Kontext verwenden. Sie müssen eine Namensnennung von Nutrola in Ihrer App oder Dokumentation aufnehmen, und wenn Sie eine modifizierte Version des Datensatzes selbst verbreiten, muss die modifizierte Version ebenfalls unter CC BY-SA 4.0 lizenziert sein. Die Verwendung der Daten innerhalb Ihrer App (ohne Weiterverteilung des Rohdatensatzes) löst nicht die Weitergabe-unter-gleichen-Bedingungen-Anforderung aus.
Warum nur 500.000 Einträge, wenn Nutrolas vollständige Datenbank über 3 Millionen hat?
Der offene Datensatz enthält Einträge, die wir ohne Einschränkungen unter einer offenen Lizenz veröffentlichen können. Unsere vollständige Datenbank umfasst Daten aus proprietären Quellen — direkte Herstellerpartnerschaften, lizenzierte Labordaten und andere Quellen mit vertraglichen Beschränkungen bei der Weiterverbreitung. Die 500.000 Einträge im offenen Datensatz stammen aus staatlichen Datenbanken, unseren eigenen Laboranalysen und Community-Einreichungen, bei denen die Mitwirkenden einer offenen Lizenzierung zugestimmt haben. Wenn Sie Zugang zur vollständigen Datenbank benötigen, stellt unsere Nutrition Data API diese unter separaten kommerziellen Bedingungen bereit.
Was soll ich tun, wenn ich einen Fehler im Datensatz finde?
Eröffnen Sie ein Issue im GitHub-Repository mit der food_id des betroffenen Eintrags und einer Beschreibung des Fehlers. Fügen Sie einen Quelllink hinzu, falls vorhanden (z. B. eine Herstellerwebsite mit abweichenden Nährwertangaben). Unser Datenteam überprüft gemeldete Probleme wöchentlich, und bestätigte Korrekturen werden in die nächste vierteljährliche Veröffentlichung aufgenommen. Bei dringenden Korrekturen können wir zwischen den vierteljährlichen Updates eine Patch-Version veröffentlichen.
In welcher Beziehung steht dies zur Nutrola Nutrition Data API?
Der offene Datensatz ist ein statischer vierteljährlicher Snapshot eines kuratierten Teilbestands unserer Datenbank. Die API bietet Echtzeitzugang zur vollständigen Datenbank mit über 3 Millionen Einträgen mit Suche, Filterung, Barcode-Suche und anderen Funktionen. Betrachten Sie den offenen Datensatz als Grundlage für Offline- oder Batch-Anwendungsfälle und die API als Lösung für Produktionsanwendungen, die Live-Daten benötigen. Viele Entwickler beginnen mit dem offenen Datensatz für das Prototyping und wechseln zur API, wenn sie in die Produktion gehen.
Bereit, Ihr Ernährungstracking zu transformieren?
Schließen Sie sich Tausenden an, die ihre Gesundheitsreise mit Nutrola transformiert haben!