Δεδομένα Διατροφής Nutrola: 500K+ Τρόφιμα Διαθέσιμα για Λήψη
Κατεβάστε τα ανοιχτά δεδομένα διατροφής της Nutrola με 500K+ επαληθευμένες καταχωρίσεις που περιλαμβάνουν θερμίδες, μακροθρεπτικά συστατικά, μικροθρεπτικά συστατικά και μερίδες. Διαθέσιμα σε μορφές CSV και JSON για έρευνα, ανάπτυξη και εκπαίδευση.
Η εύρεση αξιόπιστων δεδομένων διατροφής είναι δύσκολη υπόθεση. Οι ερευνητές ξοδεύουν εβδομάδες καθαρίζοντας κυβερνητικές βάσεις δεδομένων. Οι προγραμματιστές γράφουν ευαίσθητους scrapers που χαλάνε κάθε μήνα. Οι φοιτητές που γράφουν διπλωματικές εργασίες καταλήγουν σε μικρά, παρωχημένα δείγματα, καθώς η συγκέντρωση ενός ολοκληρωμένου συνόλου δεδομένων από το μηδέν δεν είναι ρεαλιστική σε ακαδημαϊκό χρονοδιάγραμμα.
Δημιουργήσαμε τη βάση δεδομένων τροφίμων Nutrola για να υποστηρίξουμε την εφαρμογή παρακολούθησης θερμίδων μας, και τα τελευταία τρία χρόνια έχουμε επενδύσει σημαντικά για να διασφαλίσουμε ότι αυτά τα δεδομένα είναι ακριβή, ολοκληρωμένα και καλά δομημένα. Σήμερα, απελευθερώνουμε ένα επιμελημένο υποσύνολο αυτής της βάσης δεδομένων ως ανοιχτό σύνολο δεδομένων: πάνω από 500.000 επαληθευμένες καταχωρίσεις τροφίμων διαθέσιμες για δωρεάν λήψη σε μορφές CSV και JSON.
Αυτή η ανάρτηση καλύπτει όλα όσα χρειάζεστε να γνωρίζετε για το σύνολο δεδομένων — τι περιέχει, πώς να το κατεβάσετε, το σχήμα, την άδεια, τη μεθοδολογία ποιότητας και πώς συγκρίνεται με άλλες δημόσια διαθέσιμες πηγές δεδομένων διατροφής.
Τι Περιέχει το Σύνολο Δεδομένων
Το Nutrola Open Food Nutrition Dataset περιέχει πάνω από 500.000 καταχωρίσεις τροφίμων που περιλαμβάνουν ωμά υλικά, γενικά τρόφιμα, επώνυμα καταναλωτικά προϊόντα και κοινά εστιατόρια. Κάθε καταχώριση έχει επαληθευτεί μέσω της πολυεπίπεδης διαδικασίας ελέγχου ποιότητας μας, το ίδιο σύστημα που περιγράφεται λεπτομερώς στην ανάρτησή μας για το πώς δημιουργήσαμε τη βάση δεδομένων τροφίμων μας.
Κάθε καταχώριση τροφίμου περιλαμβάνει τα εξής δεδομένα:
- Όνομα τροφίμου — η κοινή ονομασία του τροφίμου στα Αγγλικά, με επωνυμίες όπου είναι απαραίτητο
- Θερμίδες — περιεχόμενο ενέργειας σε κιλοθερμίδες (kcal) ανά 100 γραμμάρια και ανά μερίδα
- Μακροθρεπτικά συστατικά — πρωτεΐνη, συνολικά λιπαρά, κορεσμένα λιπαρά, τρανς λιπαρά, συνολικοί υδατάνθρακες, διαιτητικές ίνες, συνολικά σάκχαρα και προστιθέμενα σάκχαρα, όλα σε γραμμάρια
- Μικροθρεπτικά συστατικά — 30+ βιταμίνες και μέταλλα, συμπεριλαμβανομένων των βιταμινών A, C, D, E, K, θειαμίνης, ριβοφλαβίνης, νιασίνης, βιταμίνης B6, φολικού οξέος, βιταμίνης B12, ασβεστίου, σιδήρου, μαγνησίου, φωσφόρου, καλίου, νατρίου, ψευδαργύρου, χαλκού, μαγγανίου, σεληνίου και άλλων
- Μερίδες — περιγραφή τυπικής μερίδας (π.χ., "1 μέτριο μήλο," "1 φλιτζάνι μαγειρεμένο"), βάρος μερίδας σε γραμμάρια και έως τρεις εναλλακτικές μερίδες ανά τρόφιμο
- Κατηγορία τροφίμου — ιεραρχική ταξινόμηση χρησιμοποιώντας την εσωτερική μας ταξονομία (π.χ., Γαλακτοκομικά > Τυρί > Σκληρό Τυρί)
- Χώρα προέλευσης — η κύρια χώρα ή περιοχή όπου πωλείται το προϊόν τροφίμου ή καταναλώνεται το συστατικό
- Barcode (όπου είναι διαθέσιμο) — UPC ή EAN κωδικοί για επώνυμα προϊόντα
- Ετικέτες πηγής δεδομένων — δείκτες προέλευσης που δείχνουν αν η καταχώριση προήλθε από κυβερνητικές βάσεις δεδομένων, δεδομένα κατασκευαστών, εργαστηριακή ανάλυση ή την εσωτερική μας ομάδα επαλήθευσης
Δείγμα Δεδομένων
Ακολουθεί μια επιλογή καταχωρίσεων από το σύνολο δεδομένων για να πάρετε μια αίσθηση της δομής και της λεπτομέρειας:
| food_id | food_name | category | country | calories_per_100g | protein_g | fat_g | carbs_g | fiber_g | serving_desc | serving_g |
|---|---|---|---|---|---|---|---|---|---|---|
| NF-001247 | Στήθος Κοτόπουλου, Ωμό, Χωρίς Δέρμα | Πουλερικά > Κοτόπουλο | ΗΠΑ | 120 | 22.5 | 2.6 | 0.0 | 0.0 | 1 στήθος (174g) | 174 |
| NF-008391 | Fage Total 0% Ελληνικό Γιαούρτι | Γαλακτοκομικά > Γιαούρτι > Ελληνικό | ΕΛ | 54 | 10.3 | 0.0 | 3.0 | 0.0 | 1 δοχείο (150g) | 150 |
| NF-014205 | Ρύζι Basmati, Λευκό, Μαγειρεμένο | Δημητριακά > Ρύζι | ΙΝ | 130 | 2.7 | 0.3 | 28.2 | 0.4 | 1 φλιτζάνι (158g) | 158 |
| NF-022876 | Αβοκάντο, Hass, Ωμό | Φρούτα > Τροπικά | ΜΧ | 160 | 2.0 | 14.7 | 8.5 | 6.7 | 1/2 αβοκάντο (68g) | 68 |
| NF-031560 | Barilla Penne Rigate, Ξηρό | Ζυμαρικά > Ξηρά | ΙΤ | 359 | 12.5 | 2.0 | 71.2 | 3.0 | 2 oz (56g) | 56 |
| NF-045892 | Kimchi, Παραδοσιακό Napa Cabbage | Λαχανικά > Ζυμωμένα | ΚΟ | 15 | 1.1 | 0.5 | 2.4 | 1.6 | 1/2 φλιτζάνι (75g) | 75 |
| NF-053714 | Σολομός, Ατλαντικός, Ωμός, Εκτρεφόμενος | Ψάρια > Σολομός | ΝΟ | 208 | 20.4 | 13.4 | 0.0 | 0.0 | 1 φιλέτο (113g) | 113 |
| NF-067283 | Ρεβίθια, Κονσέρβα, Στραγγισμένα | Όσπρια > Φασόλια | ΗΠΑ | 119 | 6.3 | 2.0 | 18.2 | 5.4 | 1/2 φλιτζάνι (120g) | 120 |
Το πλήρες σύνολο δεδομένων περιλαμβάνει πολλές περισσότερες στήλες για μικροθρεπτικά συστατικά, εναλλακτικές μερίδες, δεδομένα barcode και ετικέτες πηγής. Ο πίνακας παραπάνω δείχνει τα βασικά διατροφικά πεδία.
Μορφές Δεδομένων
Το σύνολο δεδομένων είναι διαθέσιμο σε δύο μορφές:
CSV
Το αρχείο CSV χρησιμοποιεί κωδικοποίηση UTF-8 με διαχωριστικά κόμματα. Η πρώτη γραμμή περιέχει επικεφαλίδες στηλών. Τα πεδία που περιέχουν κόμματα είναι περικλεισμένα σε διπλά εισαγωγικά. Οι κενές τιμές αναπαρίστανται ως κενά πεδία.
Η μορφή CSV είναι ιδανική για εργαλεία υπολογιστικών φύλλων όπως το Excel και το Google Sheets, στατιστικά λογισμικά όπως το R και το SPSS, και γρήγορη εξερεύνηση δεδομένων με εργαλεία γραμμής εντολών όπως το csvkit ή το xsv.
Αρχείο: nutrola-open-food-dataset-v3.csv (περίπου 210 MB αποσυμπιεσμένο, 48 MB gzipped)
JSON
Το αρχείο JSON περιέχει έναν πίνακα αντικειμένων, ένα για κάθε καταχώριση τροφίμου. Χρησιμοποιούνται εσωτερικά αντικείμενα για δομημένα πεδία όπως οι μερίδες (που περιλαμβάνουν περιγραφή, βάρος σε γραμμάρια και ισοδύναμο σε χιλιοστόλιτρα όπου είναι απαραίτητο) και προφίλ μικροθρεπτικών συστατικών.
Η μορφή JSON είναι καλύτερα προσαρμοσμένη για ανάπτυξη εφαρμογών, εισαγωγές βάσεων δεδομένων και οποιαδήποτε ροή εργασίας όπου χρειάζεστε να διατηρήσετε τη ιεραρχική δομή των μερίδων και των ομάδων θρεπτικών συστατικών.
Αρχείο: nutrola-open-food-dataset-v3.json (περίπου 340 MB αποσυμπιεσμένο, 62 MB gzipped)
Και τα δύο αρχεία είναι επίσης διαθέσιμα ως συμπιεσμένα αρχεία gzip για να μειώσουν τους χρόνους λήψης.
Σχήμα Δεδομένων
Ακολουθεί το πλήρες σχήμα με περιγραφές για κάθε πεδίο στο σύνολο δεδομένων:
| Field Name | Type | Description |
|---|---|---|
food_id |
string | Μοναδικός αναγνωριστικός αριθμός Nutrola για την καταχώριση τροφίμου (μορφή: NF-XXXXXX) |
food_name |
string | Κοινή ονομασία του τροφίμου, συμπεριλαμβανομένης της επωνυμίας όπου είναι απαραίτητο |
category_l1 |
string | Κατηγορία τροφίμου πρώτου επιπέδου (π.χ., Γαλακτοκομικά, Δημητριακά, Φρούτα) |
category_l2 |
string | Κατηγορία δεύτερου επιπέδου (π.χ., Τυρί, Ρύζι, Τροπικά) |
category_l3 |
string | Κατηγορία τρίτου επιπέδου όπου είναι απαραίτητο (π.χ., Σκληρό Τυρί, Καφέ Ρύζι) |
country |
string | Κωδικός χώρας ISO 3166-1 alpha-2 που υποδεικνύει την κύρια αγορά |
brand |
string | Όνομα επωνυμίας για επώνυμα προϊόντα; null για γενικά τρόφιμα |
barcode |
string | UPC/EAN barcode; null αν δεν ισχύει |
calories_per_100g |
float | Ενέργεια σε kcal ανά 100 γραμμάρια |
protein_g |
float | Πρωτεΐνη σε γραμμάρια ανά 100g |
fat_total_g |
float | Συνολικά λιπαρά σε γραμμάρια ανά 100g |
fat_saturated_g |
float | Κορεσμένα λιπαρά σε γραμμάρια ανά 100g |
fat_trans_g |
float | Τρανς λιπαρά σε γραμμάρια ανά 100g |
carbs_total_g |
float | Συνολικοί υδατάνθρακες σε γραμμάρια ανά 100g |
fiber_g |
float | Διαιτητικές ίνες σε γραμμάρια ανά 100g |
sugars_total_g |
float | Συνολικά σάκχαρα σε γραμμάρια ανά 100g |
sugars_added_g |
float | Προστιθέμενα σάκχαρα σε γραμμάρια ανά 100g |
sodium_mg |
float | Νάτριο σε χιλιοστόγραμμα ανά 100g |
cholesterol_mg |
float | Χοληστερόλη σε χιλιοστόγραμμα ανά 100g |
vitamin_a_mcg |
float | Βιταμίνη A σε μικρογραμμάρια RAE ανά 100g |
vitamin_c_mg |
float | Βιταμίνη C σε χιλιοστόγραμμα ανά 100g |
vitamin_d_mcg |
float | Βιταμίνη D σε μικρογραμμάρια ανά 100g |
calcium_mg |
float | Ασβέστιο σε χιλιοστόγραμμα ανά 100g |
iron_mg |
float | Σίδηρος σε χιλιοστόγραμμα ανά 100g |
potassium_mg |
float | Κάλιο σε χιλιοστόγραμμα ανά 100g |
magnesium_mg |
float | Μαγνήσιο σε χιλιοστόγραμμα ανά 100g |
zinc_mg |
float | Ψευδάργυρος σε χιλιοστόγραμμα ανά 100g |
phosphorus_mg |
float | Φώσφορος σε χιλιοστόγραμμα ανά 100g |
selenium_mcg |
float | Σελήνιο σε μικρογραμμάρια ανά 100g |
vitamin_b6_mg |
float | Βιταμίνη B6 σε χιλιοστόγραμμα ανά 100g |
vitamin_b12_mcg |
float | Βιταμίνη B12 σε μικρογραμμάρια ανά 100g |
folate_mcg |
float | Φολικό οξύ σε μικρογραμμάρια DFE ανά 100g |
vitamin_e_mg |
float | Βιταμίνη E σε χιλιοστόγραμμα ανά 100g |
vitamin_k_mcg |
float | Βιταμίνη K σε μικρογραμμάρια ανά 100g |
thiamin_mg |
float | Θειαμίνη (B1) σε χιλιοστόγραμμα ανά 100g |
riboflavin_mg |
float | Ριβοφλαβίνη (B2) σε χιλιοστόγραμμα ανά 100g |
niacin_mg |
float | Νιασίνη (B3) σε χιλιοστόγραμμα ανά 100g |
copper_mg |
float | Χαλκός σε χιλιοστόγραμμα ανά 100g |
manganese_mg |
float | Μαγγάνιο σε χιλιοστόγραμμα ανά 100g |
serving_1_desc |
string | Περιγραφή κύριας μερίδας (π.χ., "1 φλιτζάνι μαγειρεμένο") |
serving_1_g |
float | Βάρος κύριας μερίδας σε γραμμάρια |
serving_2_desc |
string | Περιγραφή εναλλακτικής μερίδας; null αν δεν είναι διαθέσιμη |
serving_2_g |
float | Βάρος εναλλακτικής μερίδας σε γραμμάρια |
serving_3_desc |
string | Περιγραφή δεύτερης εναλλακτικής μερίδας; null αν δεν είναι διαθέσιμη |
serving_3_g |
float | Βάρος δεύτερης εναλλακτικής μερίδας σε γραμμάρια |
data_source |
string | Ετικέτα προέλευσης: "κυβερνητική", "κατασκευαστής", "εργαστήριο" ή "επαληθευμένη_κοινότητα" |
last_verified |
string | Ημερομηνία ISO 8601 κατά την οποία η καταχώριση επαληθεύτηκε τελευταία (YYYY-MM-DD) |
dataset_version |
string | Αναγνωριστικός αριθμός έκδοσης του συνόλου δεδομένων (π.χ., "v3.0") |
Όλες οι τιμές θρεπτικών συστατικών εκφράζονται ανά 100 γραμμάρια για να επιτρέπουν συνεπείς συγκρίσεις. Για να υπολογίσετε τα θρεπτικά συστατικά ανά μερίδα, πολλαπλασιάστε την τιμή ανά 100g με το βάρος της μερίδας σε γραμμάρια και διαιρέστε δια 100.
Πώς να Κατεβάσετε
Το σύνολο δεδομένων φιλοξενείται στο δημόσιο αποθετήριο GitHub μας:
github.com/nutrola/open-food-nutrition-dataset
Μπορείτε να κατεβάσετε τα αρχεία απευθείας από τη σελίδα Releases του GitHub ή να κλωνοποιήσετε το αποθετήριο:
git clone https://github.com/nutrola/open-food-nutrition-dataset.git
Για τις συμπιεσμένες εκδόσεις:
# Κατεβάστε CSV (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz
# Κατεβάστε JSON (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz
Το αποθετήριο περιέχει επίσης:
- Ένα λεπτομερές
README.mdμε οδηγίες γρήγορης εκκίνησης - Ένα
CHANGELOG.mdπου καταγράφει τις αλλαγές μεταξύ των εκδόσεων του συνόλου δεδομένων - Ένα φάκελο
scripts/με παραδείγματα Python και R για φόρτωση, φιλτράρισμα και ανάλυση των δεδομένων - Ένα φάκελο
schema/με ορισμούς JSON Schema και διαλέκτους CSV
Αν χρειάζεστε τη πλήρη βάση δεδομένων με πάνω από 3 εκατομμύρια καταχωρίσεις με πραγματικές ενημερώσεις αντί για περιοδικές στιγμιότυπες, δείτε την API Δεδομένων Διατροφής για πρόσβαση προγραμματιστών.
Χρήσεις
Ακαδημαϊκή Έρευνα
Οι ερευνητές διατροφής μπορούν να χρησιμοποιήσουν το σύνολο δεδομένων για ανάλυση διατροφικών προτύπων, επιδημιολογική μοντελοποίηση και μελέτες πυκνότητας θρεπτικών συστατικών χωρίς να ξοδεύουν εβδομάδες καθαρίζοντας και συγχωνεύοντας κυβερνητικά αρχεία δεδομένων. Το ιεραρχικό σύστημα κατηγοριών διευκολύνει τη φιλτράρισμα κατά ομάδες τροφίμων, και το πεδίο χώρας επιτρέπει διαπολιτισμικές συγκρίσεις.
Η δημοσιευμένη έρευνα που χρησιμοποιεί το σύνολο δεδομένων θα πρέπει να το αναφέρει ως: Nutrola Open Food Nutrition Dataset, v3.0 (2026). Διαθέσιμο στο github.com/nutrola/open-food-nutrition-dataset. Άδεια CC BY-SA 4.0.
Ανάπτυξη Εφαρμογών
Οι προγραμματιστές που δημιουργούν εφαρμογές υγείας, φυσικής κατάστασης ή τροφίμων μπορούν να χρησιμοποιήσουν το σύνολο δεδομένων ως τοπική βάση δεδομένων τροφίμων. Το συνεπές σχήμα και τα δεδομένα μερίδας σημαίνουν ότι μπορείτε να δημιουργήσετε μια λειτουργική δυνατότητα καταγραφής τροφίμων χωρίς να βασίζεστε σε ζωντανή σύνδεση API. Αυτό είναι ιδιαίτερα χρήσιμο για εφαρμογές κινητών που λειτουργούν εκτός σύνδεσης, πρωτοτυπίες και έργα hackathon.
Η μορφή CSV φορτώνεται απευθείας σε SQLite, PostgreSQL ή οποιαδήποτε σχεσιακή βάση δεδομένων. Η μορφή JSON χαρτογραφείται καθαρά σε αποθηκευτικούς χώρους εγγράφων όπως το MongoDB ή το Firestore.
Επιστήμη Δεδομένων και Μηχανική Μάθηση
Το σύνολο δεδομένων είναι κατάλληλο για εκπαίδευση και αξιολόγηση μοντέλων μηχανικής μάθησης που σχετίζονται με τρόφιμα και διατροφή. Κοινές εφαρμογές περιλαμβάνουν:
- Μοντέλα ταξινόμησης τροφίμων — χρησιμοποιήστε την ιεραρχία κατηγοριών ως ετικέτες εκπαίδευσης για να δημιουργήσετε ταξινομητές που προβλέπουν κατηγορίες τροφίμων από ονόματα ή προφίλ διατροφής
- Εκτίμηση διατροφής — εκπαιδεύστε μοντέλα παλινδρόμησης που προβλέπουν περιεχόμενο θερμίδων ή μακροθρεπτικών από μερικές πληροφορίες (π.χ., εκτίμηση θερμίδων από αναλογίες πρωτεΐνης, λιπαρών και υδατανθράκων)
- Συστήματα συστάσεων — δημιουργήστε μηχανές συστάσεων τροφίμων που προτείνουν διατροφικά παρόμοιες εναλλακτικές
- Ανίχνευση ανωμαλιών — εντοπίστε ασυνήθιστα προφίλ διατροφής που μπορεί να υποδεικνύουν προβλήματα ποιότητας δεδομένων σε άλλα σύνολα δεδομένων
Εκπαίδευση
Οι φοιτητές και οι εκπαιδευτές επιστήμης διατροφής μπορούν να χρησιμοποιήσουν το σύνολο δεδομένων για μαθήματα, εργαστήρια και αναθέσεις. Η ποικιλία των δεδομένων — που καλύπτει τρόφιμα από δεκάδες χώρες και εκτείνεται σε κάθε κύρια ομάδα τροφίμων — το καθιστά χρήσιμο για τη διδασκαλία εννοιών όπως οι αναλογίες μακροθρεπτικών, η πυκνότητα μικροθρεπτικών και πώς τα προφίλ διατροφής διαφέρουν μεταξύ κουζινών και επιπέδων επεξεργασίας τροφίμων.
Δημόσια Υγεία και Πολιτική
Οι οργανισμοί δημόσιας υγείας μπορούν να χρησιμοποιήσουν τα δεδομένα για να αναλύσουν το διατροφικό τοπίο συγκεκριμένων κατηγοριών τροφίμων ή αγορών. Το πεδίο χώρας επιτρέπει το φιλτράρισμα κατά περιοχή, και το πεδίο επωνυμίας επιτρέπει την ανάλυση της ποιότητας διατροφής επώνυμων έναντι γενικών τροφίμων.
Μεθοδολογία Ποιότητας Δεδομένων
Η απελευθέρωση ενός ανοιχτού συνόλου δεδομένων δεν έχει νόημα αν τα δεδομένα δεν είναι αξιόπιστα. Ακολουθούν οι τρόποι με τους οποίους διασφαλίζουμε την ποιότητα σε πάνω από 500.000 καταχωρίσεις σε αυτήν την έκδοση.
Επαλήθευση Πολλαπλών Πηγών
Κάθε καταχώριση στο σύνολο δεδομένων έχει επαληθευτεί από τουλάχιστον δύο ανεξάρτητες πηγές. Οι κύριες πηγές δεδομένων μας περιλαμβάνουν:
- Κυβερνητικές βάσεις δεδομένων διατροφής — USDA FoodData Central (Ηνωμένες Πολιτείες), CoFID (Ηνωμένο Βασίλειο), NUTTAB (Αυστραλία), CNF (Καναδάς) και ισοδύναμες βάσεις δεδομένων από 20+ χώρες
- Δεδομένα που παρέχονται από κατασκευαστές — πίνακες διατροφής που υποβάλλονται απευθείας από κατασκευαστές τροφίμων μέσω του προγράμματος συνεργασίας μας
- Εργαστηριακή ανάλυση — ανεξάρτητη εργαστηριακή δοκιμή που διεξάγεται από την ομάδα μας για τρόφιμα υψηλού όγκου όπου τα δεδομένα προέλευσης είναι αντιφατικά ή παρωχημένα
- Επαληθευμένες υποβολές από την κοινότητα — καταχωρίσεις που υποβάλλονται από χρήστες που έχουν περάσει τη διαδικασία επαλήθευσης τριών σταδίων μας (αυτοματοποιημένη διασταύρωση, έλεγχος από ειδικούς και ανίχνευση στατιστικών εκτροπών)
Αυτοματοποιημένοι Έλεγχοι Ποιότητας
Κάθε καταχώριση περνά από μια σειρά αυτοματοποιημένων ελέγχων πριν εισέλθει στο σύνολο δεδομένων:
- Επικύρωση ισορροπίας ενέργειας — η καταμέτρηση θερμίδων διασταυρώνεται με τον υπολογισμό Atwater (4 kcal/g πρωτεΐνη + 9 kcal/g λιπαρά + 4 kcal/g υδατάνθρακες). Καταχωρίσεις όπου οι δηλωμένες θερμίδες αποκλίνουν από την υπολογισμένη τιμή κατά περισσότερο από 10% επισημαίνονται για χειροκίνητο έλεγχο.
- Έλεγχοι εύρους — κάθε τιμή θρεπτικών συστατικών επικυρώνεται σε σχέση με φυσιολογικά λογικά εύρη για την κατηγορία τροφίμου. Μια καταχώριση τυριού που δηλώνει 0 γραμμάρια λιπαρών ή μια καταχώριση φρούτου που δηλώνει 50 γραμμάρια πρωτεΐνης επισημαίνεται αμέσως.
- Συγκριτική συνέπεια καταχωρίσεων — παρόμοια τρόφιμα συγκρίνονται στατιστικά. Αν μια νέα καταχώριση στήθους κοτόπουλου έχει σημαντικά διαφορετικές τιμές από την υπάρχουσα ομάδα καταχωρίσεων στήθους κοτόπουλου, κρατείται για έλεγχο.
- Επικύρωση μερίδας — τα βάρη μερίδας ελέγχονται σε σχέση με γνωστές τυπικές μερίδες. Ένα "1 μέτριο μήλο" που δηλώνει ότι ζυγίζει 500 γραμμάρια δεν περνά.
Ανθρώπινη Εξέταση
Καταχωρίσεις που επισημαίνονται από αυτοματοποιημένους ελέγχους περνούν από χειροκίνητη εξέταση από την ομάδα δεδομένων μας, η οποία περιλαμβάνει πιστοποιημένους διατροφολόγους και επιστήμονες τροφίμων. Περίπου το 12% των καταχωρίσεων απαιτεί κάποια μορφή χειροκίνητης διόρθωσης πριν εγκριθούν.
Συνεχιζόμενη Συντήρηση
Το σύνολο δεδομένων δεν είναι μια εφάπαξ εκδοχή. Επαληθεύουμε ξανά τις καταχωρίσεις σε συνεχή βάση, δίνοντας προτεραιότητα σε τρόφιμα υψηλού όγκου (εκείνα που καταγράφονται πιο συχνά από τους χρήστες της Nutrola) και σε καταχωρίσεις των οποίων τα δεδομένα προέλευσης έχουν ενημερωθεί. Όταν ένας κατασκευαστής τροφίμων αναμορφώνει ένα προϊόν, εντοπίζουμε την αλλαγή μέσω του συστήματος παρακολούθησης barcode μας και ενημερώνουμε την καταχώριση αναλόγως.
Συχνότητα Ενημέρωσης
Δημοσιεύουμε νέες εκδόσεις του ανοιχτού συνόλου δεδομένων κάθε τρίμηνο. Κάθε έκδοση περιλαμβάνει:
- Νέες καταχωρίσεις τροφίμων που προστέθηκαν από την προηγούμενη έκδοση
- Διορθώσεις σε υπάρχουσες καταχωρίσεις που εντοπίστηκαν μέσω της παρακολούθησης ποιότητας μας
- Ενημερωμένα δεδομένα διατροφής για προϊόντα που έχουν αναμορφωθεί
- Επεκταμένη κάλυψη μικροθρεπτικών όπου γίνονται διαθέσιμα νέα δεδομένα προέλευσης
Η τρέχουσα έκδοση είναι η v3.0, που κυκλοφόρησε τον Μάρτιο του 2026. Η ιστορία εκδόσεων και τα changelogs είναι διαθέσιμα στο αποθετήριο GitHub.
Αν χρειάζεστε δεδομένα που ενημερώνονται πιο συχνά από κάθε τρίμηνο, η API Δεδομένων Διατροφής αντικατοπτρίζει τις αλλαγές εντός 48 ωρών.
Άδεια
Το Nutrola Open Food Nutrition Dataset κυκλοφορεί υπό την άδεια Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0).
Αυτό σημαίνει ότι έχετε το δικαίωμα να:
- Κοινοποιείτε — να αντιγράφετε και να αναδιανέμετε το σύνολο δεδομένων σε οποιοδήποτε μέσο ή μορφή
- Προσαρμόζετε — να αναμειγνύετε, να μεταμορφώνετε και να βασίζεστε στο σύνολο δεδομένων για οποιονδήποτε σκοπό, συμπεριλαμβανομένης της εμπορικής χρήσης
Με τους παρακάτω όρους:
- Αναγνώριση — πρέπει να δώσετε κατάλληλη πίστωση στη Nutrola, να παρέχετε σύνδεσμο στην άδεια και να υποδείξετε αν έγιναν αλλαγές
- ShareAlike — αν αναμειγνύετε, μεταμορφώνετε ή βασίζεστε στο σύνολο δεδομένων, πρέπει να διανείμετε τις συνεισφορές σας υπό την ίδια άδεια CC BY-SA 4.0
Επιλέξαμε την CC BY-SA 4.0 γιατί διασφαλίζει τη σωστή ισορροπία μεταξύ ανοιχτότητας και διασφάλισης ότι οι βελτιώσεις επιστρέφουν στην κοινότητα. Αν δημιουργήσετε μια καλύτερη έκδοση αυτών των δεδομένων, η άδεια διασφαλίζει ότι οι βελτιώσεις σας παραμένουν διαθέσιμες σε όλους τους άλλους.
Πώς Συγκρίνεται με Άλλα Σύνολα Δεδομένων
Υπάρχουν αρκετά δημόσια διαθέσιμα σύνολα δεδομένων διατροφής. Ακολουθεί πώς συγκρίνεται το Nutrola Open Food Nutrition Dataset με τις δύο πιο ευρέως χρησιμοποιούμενες εναλλακτικές.
vs. USDA FoodData Central
Το USDA FoodData Central είναι το χρυσό πρότυπο για δεδομένα διατροφής στις Ηνωμένες Πολιτείες. Είναι λεπτομερές, καλά τεκμηριωμένο και υποστηριζόμενο από εργαστηριακή ανάλυση. Ωστόσο, έχει περιορισμούς που αντιμετωπίζει το σύνολο δεδομένων Nutrola:
| Διάσταση | USDA FoodData Central | Nutrola Open Dataset |
|---|---|---|
| Συνολικές καταχωρίσεις | ~400.000 (Foundation, SR Legacy, Branded συνδυασμένα) | 500.000+ |
| Γεωγραφική κάλυψη | Κυρίως Ηνωμένες Πολιτείες | 47 χώρες |
| Επωνυμικά προϊόντα | Μόνο αμερικανικές μάρκες, συχνά παρωχημένες | Διεθνείς μάρκες, επαληθευμένες τριμηνιαίως |
| Μορφή δεδομένων | Πολλές ασύμβατες μορφές αρχείων, πολύπλοκη σχεσιακή δομή | Ενιαίο αρχείο CSV ή JSON, επίπεδη δομή |
| Μερίδες | Ασυνεπείς σε υποκατηγορίες βάσεων δεδομένων | Τυποποιημένη μορφή με έως 3 μερίδες ανά τρόφιμο |
| Ευκολία χρήσης | Απαιτεί σημαντική μηχανική δεδομένων για συγχώνευση υποκατηγοριών | Κατεβάστε ένα αρχείο και ξεκινήστε να εργάζεστε |
| Συχνότητα ενημέρωσης | Διαφέρει ανά υποκατηγορία (ετησίως για ορισμένες) | Τριμηνιαίως |
Αν η εργασία σας επικεντρώνεται αποκλειστικά σε αμερικανικά τρόφιμα και χρειάζεστε την πιο βαθιά δυνατή θρεπτική ανάλυση (το USDA καλύπτει 150+ θρεπτικά συστατικά για τα Foundation foods), το FoodData Central είναι η καλύτερη επιλογή. Αν χρειάζεστε διεθνή κάλυψη, συνεπή μορφοποίηση και ένα σύνολο δεδομένων που λειτουργεί από το κουτί, το Nutrola dataset είναι η ισχυρότερη επιλογή.
Τα δύο σύνολα δεδομένων είναι συμπληρωματικά. Πολλοί ερευνητές χρησιμοποιούν τα δεδομένα Foundation του USDA για λεπτομερή ανάλυση θρεπτικών συστατικών των ΗΠΑ και τα συμπληρώνουν με τα δεδομένα Nutrola για διεθνή κάλυψη και επώνυμα προϊόντα.
vs. Open Food Facts
Το Open Food Facts είναι μια crowdsourced βάση δεδομένων με πάνω από 3 εκατομμύρια καταχωρίσεις. Έχει εντυπωσιακή κλίμακα και καλύπτει προϊόντα από πολλές χώρες. Ωστόσο, η crowdsourced φύση της εισάγει προκλήσεις ποιότητας δεδομένων:
| Διάσταση | Open Food Facts | Nutrola Open Dataset |
|---|---|---|
| Συνολικές καταχωρίσεις | 3M+ | 500.000+ |
| Ποιότητα δεδομένων | Μεταβλητή — crowdsourced με αυτοματοποιημένους ελέγχους | Επαληθευμένη — πολλαπλές πηγές, ελέγχεται από ανθρώπους |
| Πληρότητα | Πολλές καταχωρίσεις λείπουν μακρο/μικρο δεδομένα | Όλες οι καταχωρίσεις έχουν πλήρη μακρο δεδομένα; 90%+ έχουν πλήρη μικρο προφίλ |
| Μερίδες | Ασυνεπείς, συχνά λείπουν | Τυποποιημένες, πάντα παρούσες |
| Ταξινόμηση κατηγορίας | Crowdsourced ετικέτες, ασυνεπείς | Ιεραρχική, επιμελημένη ταξινόμηση |
| Κάλυψη θρεπτικών συστατικών | Διαφέρει ευρέως ανά καταχώριση | Συνεπής 40+ θρεπτικά συστατικά σε όλες τις καταχωρίσεις |
| Μορφή δεδομένων | Dump MongoDB, πολύπλοκο νested JSON | Καθαρό CSV και JSON |
| Άδεια | Open Database License (ODbL) | CC BY-SA 4.0 |
Το Open Food Facts διαπρέπει στην έκταση — αν χρειάζεστε να αναζητήσετε ένα συγκεκριμένο άγνωστο προϊόν με barcode, πιθανότατα το έχουν. Το Nutrola dataset διαπρέπει στην βάθος και την συνέπεια — κάθε καταχώριση πληροί την ίδια ποιότητα, καθιστώντας το πιο αξιόπιστο για ποσοτική ανάλυση όπου τα κενά δεδομένων ή τα σφάλματα μπορούν να παραμορφώσουν τα αποτελέσματα.
Αν δημιουργείτε μια εφαρμογή σάρωσης barcode και χρειάζεστε μέγιστη κάλυψη προϊόντων, το Open Food Facts είναι μια καλή αρχή. Αν εκπαιδεύετε ένα μοντέλο μηχανικής μάθησης, διεξάγετε στατιστική έρευνα ή δημιουργείτε μια εφαρμογή όπου η ακρίβεια διατροφής έχει σημασία, τα επαληθευμένα δεδομένα του Nutrola dataset θα σας δώσουν μια ισχυρότερη βάση.
Ξεκινώντας
Αφού κατεβάσετε το σύνολο δεδομένων, ακολουθεί ένα γρήγορο παράδειγμα φόρτωσης και εξερεύνησής του σε Python:
import pandas as pd
# Φόρτωση του συνόλου δεδομένων
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")
# Βασική επισκόπηση
print(f"Συνολικές καταχωρίσεις: {len(df):,}")
print(f"Καλυμμένες χώρες: {df['country'].nunique()}")
print(f"Κατηγορίες τροφίμων (L1): {df['category_l1'].nunique()}")
# Βρείτε τρόφιμα υψηλής πρωτεΐνης, χαμηλών θερμίδων
high_protein = df[
(df["protein_g"] > 20) &
(df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)
print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# Αναλύστε τους μέσους μακροθρεπτικούς ανά κατηγορία τροφίμου
category_macros = df.groupby("category_l1").agg({
"calories_per_100g": "mean",
"protein_g": "mean",
"fat_total_g": "mean",
"carbs_total_g": "mean"
}).round(1)
print(category_macros.sort_values("calories_per_100g", ascending=False))
Περισσότερα παραδείγματα — συμπεριλαμβανομένων σεναρίων R, οδηγών εισαγωγής SQL και σημειωματάριων Jupyter — είναι διαθέσιμα στο φάκελο scripts/ του αποθετηρίου GitHub.
Συχνές Ερωτήσεις
Είναι το σύνολο δεδομένων πραγματικά δωρεάν προς χρήση;
Ναι. Το Nutrola Open Food Nutrition Dataset κυκλοφορεί υπό την άδεια CC BY-SA 4.0, η οποία επιτρέπει εμπορική και μη εμπορική χρήση. Οι μόνοι όροι είναι ότι πρέπει να αναγνωρίσετε τη Nutrola ως πηγή και ότι οποιαδήποτε παράγωγα σύνολα δεδομένων που διανέμετε θα πρέπει να χρησιμοποιούν την ίδια άδεια. Δεν υπάρχουν κλειδιά API, όρια χρήσης ή απαιτήσεις εγγραφής για να κατεβάσετε τα αρχεία.
Πόσο συχνά ενημερώνεται το σύνολο δεδομένων;
Δημοσιεύουμε νέες εκδόσεις τριμηνιαίως. Κάθε έκδοση προσθέτει νέες καταχωρίσεις τροφίμων, διορθώνει τυχόν σφάλματα που εντοπίστηκαν από την προηγούμενη έκδοση και ενημερώνει καταχωρίσεις για προϊόντα που έχουν αναμορφωθεί. Η σελίδα Releases του αποθετηρίου GitHub έχει την πλήρη ιστορία εκδόσεων, και μπορείτε να παρακολουθήσετε το αποθετήριο για να ειδοποιηθείτε όταν δημοσιεύονται νέες εκδόσεις.
Μπορώ να χρησιμοποιήσω αυτό το σύνολο δεδομένων για να δημιουργήσω μια εμπορική εφαρμογή;
Ναι. Η άδεια CC BY-SA 4.0 επιτρέπει ρητά την εμπορική χρήση. Μπορείτε να χρησιμοποιήσετε τα δεδομένα σε μια πληρωμένη εφαρμογή, ένα προϊόν SaaS ή οποιοδήποτε άλλο εμπορικό πλαίσιο. Πρέπει να συμπεριλάβετε αναγνώριση στη Nutrola στην εφαρμογή ή την τεκμηρίωσή σας, και αν διανείμετε μια τροποποιημένη έκδοση του ίδιου του συνόλου δεδομένων, η τροποποιημένη έκδοση πρέπει επίσης να αδειοδοτηθεί υπό την CC BY-SA 4.0. Η χρήση των δεδομένων μέσα στην εφαρμογή σας (χωρίς να αναδιανείμετε το αρχικό σύνολο δεδομένων) δεν ενεργοποιεί την απαίτηση ShareAlike.
Γιατί μόνο 500K καταχωρίσεις όταν η πλήρης βάση δεδομένων της Nutrola έχει πάνω από 3 εκατομμύρια;
Το ανοιχτό σύνολο δεδομένων περιέχει καταχωρίσεις που μπορούμε να απελευθερώσουμε υπό ανοιχτη άδεια χωρίς περιορισμούς. Η πλήρης βάση δεδομένων μας περιλαμβάνει δεδομένα από ιδιωτικές πηγές — άμεσες συνεργασίες με κατασκευαστές, δεδομένα εργαστηρίων που έχουν αδειοδοτηθεί και άλλες πηγές με συμβατικές περιορισμούς στην αναδιανομή. Οι 500K καταχωρίσεις στο ανοιχτό σύνολο δεδομένων προέρχονται από κυβερνητικές βάσεις δεδομένων, την δική μας εργαστηριακή ανάλυση και υποβολές από την κοινότητα όπου οι συνεισφέροντες συμφώνησαν σε ανοιχτές άδειες. Αν χρειάζεστε πρόσβαση στη πλήρη βάση δεδομένων, η API Δεδομένων Διατροφής την παρέχει υπό ξεχωριστούς εμπορικούς όρους.
Τι πρέπει να κάνω αν βρω ένα σφάλμα στο σύνολο δεδομένων;
Ανοίξτε ένα ζήτημα στο αποθετήριο GitHub με το food_id της επηρεαζόμενης καταχώρισης και μια περιγραφή του σφάλματος. Συμπεριλάβετε έναν σύνδεσμο πηγής αν έχετε (π.χ., μια ιστοσελίδα κατασκευαστή που δείχνει διαφορετικά διατροφικά στοιχεία). Η ομάδα δεδομένων μας εξετάζει τα αναφερόμενα ζητήματα εβδομαδιαίως, και οι επιβεβαιωμένες διορθώσεις περιλαμβάνονται στην επόμενη τριμηνιαία έκδοση. Για επείγουσες διορθώσεις, μπορεί να προχωρήσουμε σε μια έκδοση patch μεταξύ των τριμηνιαίων ενημερώσεων.
Πώς σχετίζεται αυτό με την API Δεδομένων Διατροφής Nutrola;
Το ανοιχτό σύνολο δεδομένων είναι μια στατική τριμηνιαία στιγμιότυπη ενός επιμελημένου υποσυνόλου της βάσης δεδομένων μας. Η API παρέχει πρόσβαση σε πραγματικό χρόνο στη πλήρη βάση δεδομένων με πάνω από 3 εκατομμύρια καταχωρίσεις με αναζητήσεις, φιλτράρισμα, αναζήτηση barcode και άλλες δυνατότητες. Σκεφτείτε το ανοιχτό σύνολο δεδομένων ως θεμέλιο για περιπτώσεις χρήσης εκτός σύνδεσης ή παρτίδας, και την API ως λύση για παραγωγικές εφαρμογές που χρειάζονται ζωντανά δεδομένα. Πολλοί προγραμματιστές ξεκινούν με το ανοιχτό σύνολο δεδομένων για πρωτοτυπίες και μεταβαίνουν στην API όταν πάνε στην παραγωγή.
Έτοιμοι να Μεταμορφώσετε την Παρακολούθηση της Διατροφής σας;
Εγγραφείτε σε χιλιάδες που έχουν μεταμορφώσει το ταξίδι της υγείας τους με το Nutrola!