Nutrolan Avoin Ruokaravintotietoaineisto: Yli 500K Ruokaa Lataukseen
Lataa Nutrolan avoin ruokaravintotietoaineisto, joka sisältää yli 500K varmennettua merkintää, mukaan lukien kalorit, makrot, mikro ravinteet ja annoskoot. Saatavilla CSV- ja JSON-muodoissa tutkimusta, kehitystä ja koulutusta varten.
Hyvän ravintotiedon löytäminen on haastavaa. Tutkijat käyttävät viikkoja puhdistaakseen hallituksen tietokantoja. Kehittäjät kirjoittavat haavoittuvia skriptejä, jotka rikkoutuvat joka kuukausi. Opiskelijat, jotka kirjoittavat opinnäytetöitä, tyytyvät vanhentuneisiin ja pieniin otoksiin, koska kattavan aineiston kokoaminen alusta alkaen ei ole realistista akateemisessa aikarajassa.
Rakensimme Nutrolan ruokadatabaasin tukemaan kaloriseurantasovellustamme, ja viimeisten kolmen vuoden aikana olemme investoineet voimakkaasti sen datan tarkkuuteen, kattavuuteen ja hyvin rakenteeseen. Tänään julkaisemmekin kuratoidun osan tästä tietokannasta avoimena aineistona: yli 500 000 varmennettua ruokamerkintää, jotka ovat saatavilla ilmaiseksi ladattavaksi CSV- ja JSON-muodoissa.
Tässä artikkelissa käsitellään kaikkea, mitä sinun tarvitsee tietää aineistosta — mitä se sisältää, miten se ladataan, sen rakenne, lisensointi, laadunvalvontamenetelmät ja miten se vertautuu muihin julkisesti saatavilla oleviin ravintotietolähteisiin.
Mitä Aineisto Sisältää
Nutrolan Avoin Ruokaravintotietoaineisto sisältää yli 500 000 ruokamerkintää, jotka kattavat raaka-aineet, yleiset ruoat, brändätyt kuluttajatuotteet ja yleiset ravintolaruoat. Jokainen merkintä on varmennettu monivaiheisen laadunvalvontaprosessimme kautta, sama järjestelmä, joka on kuvattu yksityiskohtaisesti artikkelissamme kuinka rakensimme ruokadatabaasin.
Jokainen ruokamerkintä sisältää seuraavat tiedot:
- Ruokanimike — ruoan yleinen nimi englanniksi, brändin nimi, jos sovellettavissa
- Kalorit — energiasisältö kilokaloreina (kcal) per 100 grammaa ja per annos
- Makroravinteet — proteiini, kokonaisrasva, tyydyttynyt rasva, transrasva, kokonaishiilihydraatit, ravintokuitu, kokonaisokerit ja lisätyt sokerit, kaikki grammoina
- Mikroravinteet — yli 30 vitamiinia ja mineraalia, mukaan lukien A-vitamiini, C-vitamiini, D-vitamiini, E-vitamiini, K-vitamiini, tiamiini, riboflaviini, niasiini, B6-vitamiini, foolihappo, B12-vitamiini, kalsium, rauta, magnesium, fosfori, kalium, natrium, sinkki, kupari, mangaani, seleeni ja muita
- Annoskoot — standardin mukainen annoskuvaus (esim. "1 keskikokoinen omena", "1 kuppi kypsennettynä"), annoksen paino grammoina ja jopa kolme vaihtoehtoista annoskokoa per ruoka
- Ruokakategoria — hierarkkinen luokittelu sisäisen taksonomiamme mukaan (esim. Maitotuotteet > Juusto > Kovajuusto)
- Alkuperämaa — ensisijainen maa tai alue, jossa ruokatuote myydään tai raaka-ainetta kulutetaan yleisesti
- Viivakoodi (jos saatavilla) — UPC- tai EAN-koodit brändätyille tuotteille
- Tietolähteiden tunnisteet — alkuperätunnisteet, jotka osoittavat, onko merkintä peräisin hallituksen tietokannoista, valmistajatiedoista, laboratoriotutkimuksista tai sisäisestä varmennusryhmästämme
Esimerkkitietoja
Tässä on valikoima merkintöjä aineistosta, jotta saat käsityksen rakenteesta ja yksityiskohdista:
| food_id | food_name | category | country | calories_per_100g | protein_g | fat_g | carbs_g | fiber_g | serving_desc | serving_g |
|---|---|---|---|---|---|---|---|---|---|---|
| NF-001247 | Kanarinta, Raaka, Nahaton | Linnut > Kana | US | 120 | 22.5 | 2.6 | 0.0 | 0.0 | 1 rinta (174g) | 174 |
| NF-008391 | Fage Total 0% Kreikkalainen Jogurtti | Maitotuotteet > Jogurtti > Kreikkalainen | GR | 54 | 10.3 | 0.0 | 3.0 | 0.0 | 1 purkki (150g) | 150 |
| NF-014205 | Basmati Riisi, Valkoinen, Kypsennetty | Viljat > Riisi | IN | 130 | 2.7 | 0.3 | 28.2 | 0.4 | 1 kuppi (158g) | 158 |
| NF-022876 | Avokado, Hass, Raaka | Hedelmät > Trooppiset | MX | 160 | 2.0 | 14.7 | 8.5 | 6.7 | 1/2 avokado (68g) | 68 |
| NF-031560 | Barilla Penne Rigate, Kuiva | Pasta > Kuivattu | IT | 359 | 12.5 | 2.0 | 71.2 | 3.0 | 2 oz (56g) | 56 |
| NF-045892 | Kimchi, Perinteinen Napa-kaali | Vihannekset > Fermentoidut | KR | 15 | 1.1 | 0.5 | 2.4 | 1.6 | 1/2 kuppia (75g) | 75 |
| NF-053714 | Lohi, Atlantin, Raaka, Viljelty | Kala > Lohi | NO | 208 | 20.4 | 13.4 | 0.0 | 0.0 | 1 filee (113g) | 113 |
| NF-067283 | Kikherneet, Säilykkeet, Valutettu | Palkokasvit > Pavut | US | 119 | 6.3 | 2.0 | 18.2 | 5.4 | 1/2 kuppia (120g) | 120 |
Koko aineisto sisältää paljon enemmän sarakkeita mikroravinteista, vaihtoehtoisista annoskokoista, viivakooditiedoista ja lähdetunnisteista. Yllä oleva taulukko näyttää keskeiset ravitsemustiedot.
Tietomuodot
Aineisto on saatavilla kahdessa muodossa:
CSV
CSV-tiedosto käyttää UTF-8-koodausta ja pilkkuerottimia. Ensimmäinen rivi sisältää sarakeotsikot. Kentät, jotka sisältävät pilkkuja, on suljettu kaksoislainausmerkkeihin. Tyhjät arvot esitetään tyhjillä kentillä.
CSV-muoto on ihanteellinen taulukkolaskentaohjelmille, kuten Excel ja Google Sheets, tilastolliselle ohjelmistolle, kuten R ja SPSS, sekä nopealle tietojen tutkimiselle komentorivityökaluilla, kuten csvkit tai xsv.
Tiedosto: nutrola-open-food-dataset-v3.csv (noin 210 MB purkamaton, 48 MB gzipped)
JSON
JSON-tiedosto sisältää taulukon objekteista, yksi jokaiselle ruokamerkinnälle. Sisäkkäisiä objekteja käytetään rakenteellisiin kenttiin, kuten annoskoot (jotka sisältävät kuvauksen, grammapainon ja millilitraekvivalentin, jos sovellettavissa) ja mikroravinteiden profiilit.
JSON-muoto sopii paremmin sovelluskehitykseen, tietokannan tuontiin ja kaikkiin työprosesseihin, joissa on tarpeen säilyttää annoskoon ja ravintoryhmien hierarkkinen rakenne.
Tiedosto: nutrola-open-food-dataset-v3.json (noin 340 MB purkamaton, 62 MB gzipped)
Molemmat tiedostot ovat myös saatavilla gzip-puristettuina arkistoina latausaikojen vähentämiseksi.
Tietorakenne
Tässä on täydellinen rakenne kuvauksineen jokaiselle kentälle aineistossa:
| Kentän nimi | Tyyppi | Kuvaus |
|---|---|---|
food_id |
merkkijono | Yksilöllinen Nutrolan tunnus ruokamerkinnälle (muoto: NF-XXXXXX) |
food_name |
merkkijono | Ruokamerkinnän yleinen nimi, mukaan lukien brändi, jos sovellettavissa |
category_l1 |
merkkijono | Ensimmäinen tason ruokakategoria (esim. Maitotuotteet, Viljat, Hedelmät) |
category_l2 |
merkkijono | Toisen tason kategoria (esim. Juusto, Riisi, Trooppiset) |
category_l3 |
merkkijono | Kolmannen tason kategoria, jos sovellettavissa (esim. Kovajuusto, Ruskea Riisi) |
country |
merkkijono | ISO 3166-1 alpha-2 maan koodi, joka osoittaa ensisijaisen markkinan |
brand |
merkkijono | Brändin nimi brändätyille tuotteille; null yleisille ruoille |
barcode |
merkkijono | UPC/EAN viivakoodi; null, jos ei sovellettavissa |
calories_per_100g |
liukuluku | Energia kcal per 100 grammaa |
protein_g |
liukuluku | Proteiini grammoina per 100g |
fat_total_g |
liukuluku | Kokonaisrasva grammoina per 100g |
fat_saturated_g |
liukuluku | Tyydyttynyt rasva grammoina per 100g |
fat_trans_g |
liukuluku | Transrasva grammoina per 100g |
carbs_total_g |
liukuluku | Kokonaishiilihydraatit grammoina per 100g |
fiber_g |
liukuluku | Ravintokuitu grammoina per 100g |
sugars_total_g |
liukuluku | Kokonaisokerit grammoina per 100g |
sugars_added_g |
liukuluku | Lisätyt sokerit grammoina per 100g |
sodium_mg |
liukuluku | Natrium milligrammoina per 100g |
cholesterol_mg |
liukuluku | Kolesteroli milligrammoina per 100g |
vitamin_a_mcg |
liukuluku | A-vitamiini mikrogrammoina RAE per 100g |
vitamin_c_mg |
liukuluku | C-vitamiini milligrammoina per 100g |
vitamin_d_mcg |
liukuluku | D-vitamiini mikrogrammoina per 100g |
calcium_mg |
liukuluku | Kalsium milligrammoina per 100g |
iron_mg |
liukuluku | Rauta milligrammoina per 100g |
potassium_mg |
liukuluku | Kalium milligrammoina per 100g |
magnesium_mg |
liukuluku | Magnesium milligrammoina per 100g |
zinc_mg |
liukuluku | Sinkki milligrammoina per 100g |
phosphorus_mg |
liukuluku | Fosfori milligrammoina per 100g |
selenium_mcg |
liukuluku | Seleeni mikrogrammoina per 100g |
vitamin_b6_mg |
liukuluku | B6-vitamiini milligrammoina per 100g |
vitamin_b12_mcg |
liukuluku | B12-vitamiini mikrogrammoina per 100g |
folate_mcg |
liukuluku | Foolihappo mikrogrammoina DFE per 100g |
vitamin_e_mg |
liukuluku | E-vitamiini milligrammoina per 100g |
vitamin_k_mcg |
liukuluku | K-vitamiini mikrogrammoina per 100g |
thiamin_mg |
liukuluku | Tiamiini (B1) milligrammoina per 100g |
riboflavin_mg |
liukuluku | Riboflaviini (B2) milligrammoina per 100g |
niacin_mg |
liukuluku | Niasiini (B3) milligrammoina per 100g |
copper_mg |
liukuluku | Kupari milligrammoina per 100g |
manganese_mg |
liukuluku | Mangaani milligrammoina per 100g |
serving_1_desc |
merkkijono | Ensisijaisen annoksen kuvaus (esim. "1 kuppi kypsennettynä") |
serving_1_g |
liukuluku | Ensisijaisen annoksen paino grammoina |
serving_2_desc |
merkkijono | Vaihtoehtoisen annoksen kuvaus; null, jos ei saatavilla |
serving_2_g |
liukuluku | Vaihtoehtoisen annoksen paino grammoina |
serving_3_desc |
merkkijono | Toinen vaihtoehtoinen annoksen kuvaus; null, jos ei saatavilla |
serving_3_g |
liukuluku | Toinen vaihtoehtoisen annoksen paino grammoina |
data_source |
merkkijono | Alkuperätunniste: "government", "manufacturer", "laboratory" tai "verified_community" |
last_verified |
merkkijono | ISO 8601 -päivämäärä, jolloin merkintä viimeksi vahvistettiin (YYYY-MM-DD) |
dataset_version |
merkkijono | Aineiston version tunnus (esim. "v3.0") |
Kaikki ravintoarvot ilmoitetaan per 100 grammaa, jotta vertailut ovat johdonmukaisia. Laskettaessa ravintoarvoja per annos, kerro per 100 g arvo annoksen painolla grammoina ja jaa 100:lla.
Miten Ladataan
Aineisto on isännöity julkisessa GitHub-repositoriossamme:
github.com/nutrola/open-food-nutrition-dataset
Voit ladata tiedostot suoraan GitHubin Julkaisut-sivulta tai kloonata repositorion:
git clone https://github.com/nutrola/open-food-nutrition-dataset.git
Puristettujen versioiden lataamiseen:
# Lataa CSV (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz
# Lataa JSON (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz
Repositoriossa on myös:
- Yksityiskohtainen
README.mdnopean aloituksen ohjeilla CHANGELOG.md, joka dokumentoi muutokset aineistoversioiden välilläscripts/-hakemisto, jossa on esimerkkiskriptejä Pythonilla ja R:llä tietojen lataamiseen, suodattamiseen ja analysoimiseenschema/-hakemisto, jossa on JSON Schema ja CSV-dialektin määritelmät
Jos tarvitset koko 3 miljoonan+ merkinnän tietokannan reaaliaikaisilla päivityksillä sen sijaan, että saisit vain satunnaisia otoksia, katso Ravintotietojen API kehittäjätukea varten.
Käyttötapaukset
Akateeminen Tutkimus
Ravitsemustutkijat voivat käyttää aineistoa ruokavalion analysoimiseen, epidemiologiseen mallintamiseen ja ravinteiden tiheystutkimuksiin ilman, että heidän tarvitsee käyttää viikkoja hallituksen tietotiedostojen puhdistamiseen ja yhdistämiseen. Hierarkkinen luokitusjärjestelmä helpottaa suodattamista ruokaryhmien mukaan, ja maa-kenttä mahdollistaa kulttuurienväliset vertailut.
Julkaistun tutkimuksen, joka käyttää aineistoa, tulisi viitata siihen seuraavasti: Nutrola Avoin Ruokaravintotietoaineisto, v3.0 (2026). Saatavilla osoitteessa github.com/nutrola/open-food-nutrition-dataset. Lisensoitu CC BY-SA 4.0 -lisenssillä.
Sovelluskehitys
Kehittäjät, jotka rakentavat terveys-, kunto- tai ruokasovelluksia, voivat käyttää aineistoa paikallisena ruokadatabaasina. Johdonmukainen rakenne ja annoskoot tarkoittavat, että voit rakentaa toimivan ruokakirjausominaisuuden ilman, että sinun tarvitsee luottaa live-API-yhteyteen. Tämä on erityisen hyödyllistä offline-ensimmäisissä mobiilisovelluksissa, prototyyppien rakentamisessa ja hackathon-projekteissa.
CSV-muoto latautuu suoraan SQLiteen, PostgreSQL:ään tai mihin tahansa relaatiotietokantaan. JSON-muoto soveltuu hyvin asiakirjatallennuksiin, kuten MongoDB:hen tai Firestoreen.
Tietotiede ja Koneoppiminen
Aineisto sopii hyvin koneoppimismallien kouluttamiseen ja arvioimiseen, jotka liittyvät ruokaan ja ravitsemukseen. Yleisiä sovelluksia ovat:
- Ruokaluokitusmallit — käytä kategoriahierarkiaa koulutusmerkkeinä rakentaaksesi luokittajia, jotka ennustavat ruokakategorioita nimistä tai ravintoprofiileista
- Ravitsemusarviointi — kouluta regressiomalleja, jotka ennustavat kalori- tai makro sisältöä osittaisista tiedoista (esim. kalorien arvioiminen proteiinin, rasvan ja hiilihydraattien suhteista)
- Suositusjärjestelmät — rakenna ruokasuositusmoottoreita, jotka ehdottavat ravitsemuksellisesti samanlaisia vaihtoehtoja
- Poikkeavuuksien havaitseminen — tunnista epätavallisia ravintoprofiileja, jotka saattavat viitata tietolaatuongelmiin muissa aineistoissa
Koulutus
Ravitsemustieteen opiskelijat ja opettajat voivat käyttää aineistoa kurssitöissä, laboratorioissa ja tehtävissä. Aineiston laajuus — kattaen ruokia kymmenistä maista ja jokaisesta pääruokaryhmästä — tekee siitä hyödyllisen opettaessa käsitteitä, kuten makroravinteiden suhteet, mikroravinteiden tiheys ja miten ravintoprofiilit vaihtelevat eri keittiöiden ja ruokaprosessointitasojen välillä.
Julkinen Terveys ja Politiikka
Julkiset terveysorganisaatiot voivat käyttää aineistoa analysoidakseen tietyn ruokakategorian tai markkinoiden ravitsemuksellista maisemaa. Maa-kenttä mahdollistaa suodattamisen alueittain, ja brändikenttä mahdollistaa brändättyjen ja yleisten ruokien ravitsemuslaadun analysoinnin.
Tietojen Laadunvalvontamenetelmät
Avoimen aineiston julkaiseminen ei merkitse mitään, jos tiedot eivät ole luotettavia. Tässä on, miten varmistamme laadun yli 500 000 merkinnässä tässä julkaisussa.
Monilähteinen Varmennus
Jokainen merkintä aineistossa on vahvistettu vähintään kahdesta itsenäisestä lähteestä. Pääasialliset tietolähteemme ovat:
- Hallitusravintotietokannat — USDA FoodData Central (Yhdysvallat), CoFID (Yhdistynyt kuningaskunta), NUTTAB (Australia), CNF (Kanada) ja vastaavat tietokannat yli 20 maasta
- Valmistajien tarjoamat tiedot — ravintotietopaneelit, jotka on toimitettu suoraan elintarvikkeiden valmistajilta brändikumppanuusohjelmamme kautta
- Laboratoriotutkimukset — itsenäinen laboratoriotestaus, jota tiimimme on suorittanut suurten ruokien osalta, joissa lähdetiedot ovat ristiriitaisia tai vanhentuneita
- Vahvistetut yhteisöjen lähetykset — käyttäjien lähettämät merkinnät, jotka ovat läpäisseet kolmiportaisen varmennusprosessimme (automaattinen ristiinviittaus, asiantuntijakatsaus ja tilastollinen poikkeavuuksien havaitseminen)
Automaattiset Laadun Tarkastukset
Jokainen merkintä käy läpi joukon automaattisia tarkastuksia ennen kuin se pääsee aineistoon:
- Energiatasapainon vahvistus — kalorien määrä tarkistetaan Atwater-laskentaa vastaan (4 kcal/g proteiinia + 9 kcal/g rasvaa + 4 kcal/g hiilihydraattia). Merkinnät, joiden ilmoitetut kalorit poikkeavat lasketusta arvosta yli 10 %, merkitään manuaalista tarkastusta varten.
- Arvojen tarkistukset — jokainen ravintoarvo vahvistetaan fysiologisesti mahdollisten arvojen mukaan ruokakategorian osalta. Juustomerkintä, joka väittää, että rasvaa on 0 grammaa, tai hedelmämerkintä, joka väittää, että proteiinia on 50 grammaa, merkitään heti.
- Ristiinmerkintöjen johdonmukaisuus — samankaltaisia ruokia verrataan tilastollisesti. Jos uusi kanarinta-merkintä on merkittävästi erilainen arvoiltaan olemassa olevasta kanarinta-merkintäryhmästä, se pidetään tarkastettavana.
- Annoskoon vahvistus — annospainot tarkistetaan tunnettuja standardiannoksia vastaan. "1 keskikokoinen omena", joka väittää painavansa 500 grammaa, ei läpäise.
Ihmisen Tarkastus
Automaattisten tarkastusten merkitsemät merkinnät käyvät läpi manuaalisen tarkastuksen tietotiimimme toimesta, johon kuuluu päteviä ravitsemusterapeutteja ja elintarviketieteilijöitä. Noin 12 % merkinnöistä vaatii jonkinlaista manuaalista korjausta ennen hyväksymistä.
Jatkuva Huolto
Aineisto ei ole kertaluonteinen julkaisu. Varmistamme merkintöjä jatkuvasti, priorisoiden suuria ruokia (joita Nutrola-käyttäjät kirjaavat useimmin) ja merkintöjä, joiden lähdetiedot on päivitetty. Kun elintarvikkeiden valmistaja muuttaa tuotettaan, huomaamme muutoksen viivakoodien valvontajärjestelmämme kautta ja päivitämme merkinnän vastaavasti.
Päivitys Taajuus
Julkaisemme uusia versioita avoimesta aineistosta neljännesvuosittain. Jokainen julkaisu sisältää:
- Uudet ruokamerkinnät, jotka on lisätty edellisen version jälkeen
- Korjaukset olemassa oleviin merkintöihin, jotka on tunnistettu laadunvalvonnan kautta
- Päivitetyt ravintotiedot reformuloiduista tuotteista
- Laajennettua mikroravinteiden kattavuutta, kun uusia lähdetietoja tulee saataville
Nykyinen versio on v3.0, julkaistu maaliskuussa 2026. Versiohistoria ja muutospäiväkirjat ovat saatavilla GitHub-repositoriossa.
Jos tarvitset tietoja, joita päivitetään useammin kuin neljännesvuosittain, Ravintotietojen API heijastaa muutoksia 48 tunnin sisällä.
Lisenssi
Nutrolan Avoin Ruokaravintotietoaineisto on julkaistu Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -lisenssin alaisena.
Tämä tarkoittaa, että sinulla on oikeus:
- Jakaa — kopioida ja jakaa aineistoa missä tahansa mediassa tai muodossa
- Muuttaa — remiksata, muuttaa ja rakentaa aineiston pohjalta mihin tahansa tarkoitukseen, mukaan lukien kaupallinen käyttö
Seuraavin ehdoin:
- Viittaus — sinun on annettava asianmukainen tunnustus Nutrolalle, tarjottava linkki lisenssiin ja ilmoitettava, jos muutoksia on tehty
- ShareAlike — jos remiksat, muutat tai rakennat aineiston pohjalta, sinun on jaettava omat panoksesi saman CC BY-SA 4.0 -lisenssin alaisena
Valitsimme CC BY-SA 4.0 -lisenssin, koska se tarjoaa oikean tasapainon avoimuuden ja varmistamisen välillä, että parannukset palautuvat yhteisölle. Jos rakennat paremman version tästä datasta, lisenssi varmistaa, että parannuksesi pysyvät kaikkien muiden saatavilla.
Miten Se Vertautuu Muiden Aineistojen Kanssa
Julkisesti saatavilla on useita ravintotietoaineistoja. Tässä on, miten Nutrolan Avoin Ruokaravintotietoaineisto vertautuu kahteen eniten käytettyyn vaihtoehtoon.
vs. USDA FoodData Central
USDA FoodData Central on kultastandardi ravintotiedoille Yhdysvalloissa. Se on perusteellinen, hyvin dokumentoitu ja laboratoriotutkimusten tukema. Siinä on kuitenkin rajoituksia, joita Nutrolan aineisto käsittelee:
| Ulottuvuus | USDA FoodData Central | Nutrolan Avoin Aineisto |
|---|---|---|
| Yhteensä merkintöjä | ~400 000 (Foundation, SR Legacy, Branded yhteensä) | Yli 500 000 |
| Maantieteellinen kattavuus | Pääasiassa Yhdysvallat | 47 maata |
| Brändätyt tuotteet | Vain Yhdysvaltain brändit, usein vanhentuneet | Kansainväliset brändit, varmennettu neljännesvuosittain |
| Tietomuoto | Useita yhteensopimattomia tiedostomuotoja, monimutkainen relaatiostruktuuri | Yksi CSV- tai JSON-tiedosto, tasainen rakenne |
| Annoskoot | Epäjohdonmukaisia alaluokissa | Standardoitu muoto, jossa on jopa 3 annosta per ruoka |
| Käytön helppous | Vaatii merkittävää tietotekniikkaa alaluokkien yhdistämiseksi | Lataa yksi tiedosto ja aloita työskentely |
| Päivitystaajuus | Vaihtelee alaluokan mukaan (vuosittain joillekin) | Neljännesvuosittain |
Jos työsi keskittyy yksinomaan Yhdysvaltojen ruokiin ja tarvitset syvimmän mahdollisen ravintoprofiilin (USDA kattaa yli 150 ravintoainetta Foundation-ruoille), FoodData Central on parempi valinta. Jos tarvitset kansainvälistä kattavuutta, johdonmukaista muotoilua ja aineistoa, joka toimii heti, Nutrolan aineisto on vahvempi vaihtoehto.
Molemmat aineistot ovat täydentäviä. Monet tutkijat käyttävät USDA Foundation -dataa yksityiskohtaiselle Yhdysvaltain ravintoanalyysille ja täydentävät sitä Nutrolan datalla kansainvälisen kattavuuden ja brändättyjen tuotteiden osalta.
vs. Open Food Facts
Open Food Facts on yhteisöltä kerätty tietokanta, jossa on yli 3 miljoonaa merkintää. Siinä on vaikuttava laajuus ja se kattaa tuotteita monista maista. Sen yhteisöltä kerätty luonteenpiirre tuo kuitenkin mukanaan tietolaatuongelmia:
| Ulottuvuus | Open Food Facts | Nutrolan Avoin Aineisto |
|---|---|---|
| Yhteensä merkintöjä | 3M+ | Yli 500 000 |
| Tietolaatu | Vaihteleva — yhteisöltä kerätty, automaattiset tarkastukset | Varmennettu — monilähteinen, ihmisten tarkastama |
| Täydellisyys | Monet merkinnät puuttuvat makro/mikro tiedoista | Kaikilla merkinnöillä on täydelliset makrotiedot; yli 90 %:lla on täydelliset mikropäivitykset |
| Annoskoot | Epäjohdonmukaisia, usein puuttuvia | Standardoitu, aina läsnä |
| Kategorian taksonomia | Yhteisöltä kerättyjä tageja, epäjohdonmukaisia | Hierarkkinen, kuratoitu taksonomia |
| Ravinteiden kattavuus | Vaihtelee merkinnän mukaan | Johdonmukaiset 40+ ravintoainetta kaikissa merkinnöissä |
| Tietomuoto | MongoDB-dump, monimutkainen sisäkkäinen JSON | Siisti CSV ja JSON |
| Lisenssi | Avoin tietokanta lisenssi (ODbL) | CC BY-SA 4.0 |
Open Food Facts loistaa laajuudessaan — jos sinun tarvitsee etsiä tiettyä tuntematonta tuotetta viivakoodin perusteella, heillä on todennäköisesti se. Nutrolan aineisto loistaa syvyydessä ja johdonmukaisuudessa — jokainen merkintä täyttää saman laadun tason, mikä tekee siitä luotettavampaa kvantitatiiviselle analyysille, jossa tietovajeet tai virheet voivat vääristää tuloksia.
Jos rakennat viivakoodin skannerisovellusta ja tarvitset maksimaalista tuotteen kattavuutta, Open Food Facts on hyvä lähtökohta. Jos koulutat koneoppimismallia, teet tilastollista tutkimusta tai rakennat sovellusta, jossa ravitsemuksen tarkkuus on tärkeää, Nutrolan aineiston varmennetut tiedot tarjoavat vahvemman perustan.
Aloittaminen
Kun olet ladannut aineiston, tässä on nopea esimerkki sen lataamisesta ja tutkimisesta Pythonissa:
import pandas as pd
# Lataa aineisto
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")
# Perustiedot
print(f"Yhteensä merkintöjä: {len(df):,}")
print(f"Kattavat maat: {df['country'].nunique()}")
print(f"Ruokakategoriat (L1): {df['category_l1'].nunique()}")
# Etsi korkean proteiinin, matalan kalorimäärän ruoat
high_protein = df[
(df["protein_g"] > 20) &
(df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)
print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# Analysoi keskimääräiset makrot ruokakategorian mukaan
category_macros = df.groupby("category_l1").agg({
"calories_per_100g": "mean",
"protein_g": "mean",
"fat_total_g": "mean",
"carbs_total_g": "mean"
}).round(1)
print(category_macros.sort_values("calories_per_100g", ascending=False))
Lisää esimerkkejä — mukaan lukien R-skriptejä, SQL-tuontiohjeita ja Jupyter-muistiinpanoja — on saatavilla scripts/ -hakemistossa GitHub-repositoriossa.
Usein Kysytyt Kysymykset
Onko aineisto todella ilmainen käyttää?
Kyllä. Nutrolan Avoin Ruokaravintotietoaineisto on julkaistu CC BY-SA 4.0 -lisenssin alaisena, joka sallii kaupallisen ja ei-kaupallisen käytön. Ainoat vaatimukset ovat, että annat tunnustuksen Nutrolalle lähteenä ja että jakamasi johdannaiset aineistot käyttävät samaa lisenssiä. Tiedostojen lataamiseen ei tarvita API-avaimia, käyttörajoja tai rekisteröitymistä.
Kuinka usein aineistoa päivitetään?
Julkaisemme uusia versioita neljännesvuosittain. Jokainen julkaisu lisää uusia ruokamerkintöjä, korjaa virheitä, jotka on tunnistettu edellisen version jälkeen, ja päivittää merkintöjä tuotteista, jotka on reformuloitu. GitHub-repositoriossa on täydellinen versiohistoria, ja voit seurata repositoriota saadaksesi ilmoituksia uusista julkaisuista.
Voinko käyttää tätä aineistoa kaupallisen sovelluksen rakentamiseen?
Kyllä. CC BY-SA 4.0 -lisenssi sallii nimenomaan kaupallisen käytön. Voit käyttää tietoja maksullisessa sovelluksessa, SaaS-tuotteessa tai missä tahansa muussa kaupallisessa kontekstissa. Sinun on sisällytettävä viittaus Nutrolaan sovellukseesi tai dokumentaatioosi, ja jos jaat muokattua versiota aineistosta, muokattu versio on myös lisensoitava CC BY-SA 4.0 -lisenssin alaisena. Tietojen käyttäminen sovelluksessasi (ilman raakatiedoston jakamista) ei laukaise ShareAlike-vaatimusta.
Miksi vain 500K merkintää, kun Nutrolan koko tietokanta sisältää yli 3 miljoonaa?
Avoin aineisto sisältää merkintöjä, jotka voimme julkaista avoimella lisenssillä ilman rajoituksia. Koko tietokantamme sisältää tietoja omista lähteistä — suoraan valmistajilta, lisensoiduista laboratoriotiedoista ja muista lähteistä, joilla on sopimuksellisia rajoituksia jakamiselle. Avoimessa aineistossa olevat 500K merkintää ovat peräisin hallituksen tietokannoista, omista laboratoriotutkimuksistamme ja yhteisöltä kerätyistä lähetyksistä, joissa osallistujat ovat suostuneet avoimeen lisensointiin. Jos tarvitset pääsyn koko tietokantaan, Ravintotietojen API tarjoaa sen erillisten kaupallisten ehtojen alaisena.
Mitä minun pitäisi tehdä, jos löydän virheen aineistosta?
Avaa ongelma GitHub-repositoriossa, jossa on food_id vaikuttavasta merkinnästä ja kuvaus virheestä. Liitä mukaan lähdelinkki, jos sinulla on sellainen (esim. valmistajan verkkosivusto, joka näyttää eri ravintotiedot). Tietotiimimme tarkistaa ilmoitettuja ongelmia viikoittain, ja vahvistetut korjaukset sisällytetään seuraavaan neljännesvuosittaiseen julkaisuun. Kiireellisiä korjauksia varten saatamme julkaista korjausjulkaisun neljännesvuosittaisten päivitysten välillä.
Miten tämä liittyy Nutrolan Ravintotietojen API:in?
Avoin aineisto on staattinen neljännesvuosittainen otos kuratoidusta osasta tietokantaamme. API tarjoaa reaaliaikaisen pääsyn koko 3 miljoonan+ merkinnän tietokantaan, jossa on haku, suodatus, viivakoodin tarkistus ja muita ominaisuuksia. Ajattele avointa aineistoa perustana offline- tai eräkäyttötapauksille, ja API:ta ratkaisuna tuotantosovelluksille, jotka tarvitsevat elävää dataa. Monet kehittäjät aloittavat avoimesta aineistosta prototyyppien rakentamiseksi ja siirtyvät API:in, kun he siirtyvät tuotantoon.
Valmis muuttamaan ravitsemusseurantaasi?
Liity tuhansien joukkoon, jotka ovat muuttaneet terveysmatkansa Nutrola avulla!