Nutrolan Avoin Ruokaravintotietoaineisto: Yli 500K Ruokaa Lataukseen

Lataa Nutrolan avoin ruokaravintotietoaineisto, joka sisältää yli 500K varmennettua merkintää, mukaan lukien kalorit, makrot, mikro ravinteet ja annoskoot. Saatavilla CSV- ja JSON-muodoissa tutkimusta, kehitystä ja koulutusta varten.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Hyvän ravintotiedon löytäminen on haastavaa. Tutkijat käyttävät viikkoja puhdistaakseen hallituksen tietokantoja. Kehittäjät kirjoittavat haavoittuvia skriptejä, jotka rikkoutuvat joka kuukausi. Opiskelijat, jotka kirjoittavat opinnäytetöitä, tyytyvät vanhentuneisiin ja pieniin otoksiin, koska kattavan aineiston kokoaminen alusta alkaen ei ole realistista akateemisessa aikarajassa.

Rakensimme Nutrolan ruokadatabaasin tukemaan kaloriseurantasovellustamme, ja viimeisten kolmen vuoden aikana olemme investoineet voimakkaasti sen datan tarkkuuteen, kattavuuteen ja hyvin rakenteeseen. Tänään julkaisemmekin kuratoidun osan tästä tietokannasta avoimena aineistona: yli 500 000 varmennettua ruokamerkintää, jotka ovat saatavilla ilmaiseksi ladattavaksi CSV- ja JSON-muodoissa.

Tässä artikkelissa käsitellään kaikkea, mitä sinun tarvitsee tietää aineistosta — mitä se sisältää, miten se ladataan, sen rakenne, lisensointi, laadunvalvontamenetelmät ja miten se vertautuu muihin julkisesti saatavilla oleviin ravintotietolähteisiin.

Mitä Aineisto Sisältää

Nutrolan Avoin Ruokaravintotietoaineisto sisältää yli 500 000 ruokamerkintää, jotka kattavat raaka-aineet, yleiset ruoat, brändätyt kuluttajatuotteet ja yleiset ravintolaruoat. Jokainen merkintä on varmennettu monivaiheisen laadunvalvontaprosessimme kautta, sama järjestelmä, joka on kuvattu yksityiskohtaisesti artikkelissamme kuinka rakensimme ruokadatabaasin.

Jokainen ruokamerkintä sisältää seuraavat tiedot:

  • Ruokanimike — ruoan yleinen nimi englanniksi, brändin nimi, jos sovellettavissa
  • Kalorit — energiasisältö kilokaloreina (kcal) per 100 grammaa ja per annos
  • Makroravinteet — proteiini, kokonaisrasva, tyydyttynyt rasva, transrasva, kokonaishiilihydraatit, ravintokuitu, kokonaisokerit ja lisätyt sokerit, kaikki grammoina
  • Mikroravinteet — yli 30 vitamiinia ja mineraalia, mukaan lukien A-vitamiini, C-vitamiini, D-vitamiini, E-vitamiini, K-vitamiini, tiamiini, riboflaviini, niasiini, B6-vitamiini, foolihappo, B12-vitamiini, kalsium, rauta, magnesium, fosfori, kalium, natrium, sinkki, kupari, mangaani, seleeni ja muita
  • Annoskoot — standardin mukainen annoskuvaus (esim. "1 keskikokoinen omena", "1 kuppi kypsennettynä"), annoksen paino grammoina ja jopa kolme vaihtoehtoista annoskokoa per ruoka
  • Ruokakategoria — hierarkkinen luokittelu sisäisen taksonomiamme mukaan (esim. Maitotuotteet > Juusto > Kovajuusto)
  • Alkuperämaa — ensisijainen maa tai alue, jossa ruokatuote myydään tai raaka-ainetta kulutetaan yleisesti
  • Viivakoodi (jos saatavilla) — UPC- tai EAN-koodit brändätyille tuotteille
  • Tietolähteiden tunnisteet — alkuperätunnisteet, jotka osoittavat, onko merkintä peräisin hallituksen tietokannoista, valmistajatiedoista, laboratoriotutkimuksista tai sisäisestä varmennusryhmästämme

Esimerkkitietoja

Tässä on valikoima merkintöjä aineistosta, jotta saat käsityksen rakenteesta ja yksityiskohdista:

food_id food_name category country calories_per_100g protein_g fat_g carbs_g fiber_g serving_desc serving_g
NF-001247 Kanarinta, Raaka, Nahaton Linnut > Kana US 120 22.5 2.6 0.0 0.0 1 rinta (174g) 174
NF-008391 Fage Total 0% Kreikkalainen Jogurtti Maitotuotteet > Jogurtti > Kreikkalainen GR 54 10.3 0.0 3.0 0.0 1 purkki (150g) 150
NF-014205 Basmati Riisi, Valkoinen, Kypsennetty Viljat > Riisi IN 130 2.7 0.3 28.2 0.4 1 kuppi (158g) 158
NF-022876 Avokado, Hass, Raaka Hedelmät > Trooppiset MX 160 2.0 14.7 8.5 6.7 1/2 avokado (68g) 68
NF-031560 Barilla Penne Rigate, Kuiva Pasta > Kuivattu IT 359 12.5 2.0 71.2 3.0 2 oz (56g) 56
NF-045892 Kimchi, Perinteinen Napa-kaali Vihannekset > Fermentoidut KR 15 1.1 0.5 2.4 1.6 1/2 kuppia (75g) 75
NF-053714 Lohi, Atlantin, Raaka, Viljelty Kala > Lohi NO 208 20.4 13.4 0.0 0.0 1 filee (113g) 113
NF-067283 Kikherneet, Säilykkeet, Valutettu Palkokasvit > Pavut US 119 6.3 2.0 18.2 5.4 1/2 kuppia (120g) 120

Koko aineisto sisältää paljon enemmän sarakkeita mikroravinteista, vaihtoehtoisista annoskokoista, viivakooditiedoista ja lähdetunnisteista. Yllä oleva taulukko näyttää keskeiset ravitsemustiedot.

Tietomuodot

Aineisto on saatavilla kahdessa muodossa:

CSV

CSV-tiedosto käyttää UTF-8-koodausta ja pilkkuerottimia. Ensimmäinen rivi sisältää sarakeotsikot. Kentät, jotka sisältävät pilkkuja, on suljettu kaksoislainausmerkkeihin. Tyhjät arvot esitetään tyhjillä kentillä.

CSV-muoto on ihanteellinen taulukkolaskentaohjelmille, kuten Excel ja Google Sheets, tilastolliselle ohjelmistolle, kuten R ja SPSS, sekä nopealle tietojen tutkimiselle komentorivityökaluilla, kuten csvkit tai xsv.

Tiedosto: nutrola-open-food-dataset-v3.csv (noin 210 MB purkamaton, 48 MB gzipped)

JSON

JSON-tiedosto sisältää taulukon objekteista, yksi jokaiselle ruokamerkinnälle. Sisäkkäisiä objekteja käytetään rakenteellisiin kenttiin, kuten annoskoot (jotka sisältävät kuvauksen, grammapainon ja millilitraekvivalentin, jos sovellettavissa) ja mikroravinteiden profiilit.

JSON-muoto sopii paremmin sovelluskehitykseen, tietokannan tuontiin ja kaikkiin työprosesseihin, joissa on tarpeen säilyttää annoskoon ja ravintoryhmien hierarkkinen rakenne.

Tiedosto: nutrola-open-food-dataset-v3.json (noin 340 MB purkamaton, 62 MB gzipped)

Molemmat tiedostot ovat myös saatavilla gzip-puristettuina arkistoina latausaikojen vähentämiseksi.

Tietorakenne

Tässä on täydellinen rakenne kuvauksineen jokaiselle kentälle aineistossa:

Kentän nimi Tyyppi Kuvaus
food_id merkkijono Yksilöllinen Nutrolan tunnus ruokamerkinnälle (muoto: NF-XXXXXX)
food_name merkkijono Ruokamerkinnän yleinen nimi, mukaan lukien brändi, jos sovellettavissa
category_l1 merkkijono Ensimmäinen tason ruokakategoria (esim. Maitotuotteet, Viljat, Hedelmät)
category_l2 merkkijono Toisen tason kategoria (esim. Juusto, Riisi, Trooppiset)
category_l3 merkkijono Kolmannen tason kategoria, jos sovellettavissa (esim. Kovajuusto, Ruskea Riisi)
country merkkijono ISO 3166-1 alpha-2 maan koodi, joka osoittaa ensisijaisen markkinan
brand merkkijono Brändin nimi brändätyille tuotteille; null yleisille ruoille
barcode merkkijono UPC/EAN viivakoodi; null, jos ei sovellettavissa
calories_per_100g liukuluku Energia kcal per 100 grammaa
protein_g liukuluku Proteiini grammoina per 100g
fat_total_g liukuluku Kokonaisrasva grammoina per 100g
fat_saturated_g liukuluku Tyydyttynyt rasva grammoina per 100g
fat_trans_g liukuluku Transrasva grammoina per 100g
carbs_total_g liukuluku Kokonaishiilihydraatit grammoina per 100g
fiber_g liukuluku Ravintokuitu grammoina per 100g
sugars_total_g liukuluku Kokonaisokerit grammoina per 100g
sugars_added_g liukuluku Lisätyt sokerit grammoina per 100g
sodium_mg liukuluku Natrium milligrammoina per 100g
cholesterol_mg liukuluku Kolesteroli milligrammoina per 100g
vitamin_a_mcg liukuluku A-vitamiini mikrogrammoina RAE per 100g
vitamin_c_mg liukuluku C-vitamiini milligrammoina per 100g
vitamin_d_mcg liukuluku D-vitamiini mikrogrammoina per 100g
calcium_mg liukuluku Kalsium milligrammoina per 100g
iron_mg liukuluku Rauta milligrammoina per 100g
potassium_mg liukuluku Kalium milligrammoina per 100g
magnesium_mg liukuluku Magnesium milligrammoina per 100g
zinc_mg liukuluku Sinkki milligrammoina per 100g
phosphorus_mg liukuluku Fosfori milligrammoina per 100g
selenium_mcg liukuluku Seleeni mikrogrammoina per 100g
vitamin_b6_mg liukuluku B6-vitamiini milligrammoina per 100g
vitamin_b12_mcg liukuluku B12-vitamiini mikrogrammoina per 100g
folate_mcg liukuluku Foolihappo mikrogrammoina DFE per 100g
vitamin_e_mg liukuluku E-vitamiini milligrammoina per 100g
vitamin_k_mcg liukuluku K-vitamiini mikrogrammoina per 100g
thiamin_mg liukuluku Tiamiini (B1) milligrammoina per 100g
riboflavin_mg liukuluku Riboflaviini (B2) milligrammoina per 100g
niacin_mg liukuluku Niasiini (B3) milligrammoina per 100g
copper_mg liukuluku Kupari milligrammoina per 100g
manganese_mg liukuluku Mangaani milligrammoina per 100g
serving_1_desc merkkijono Ensisijaisen annoksen kuvaus (esim. "1 kuppi kypsennettynä")
serving_1_g liukuluku Ensisijaisen annoksen paino grammoina
serving_2_desc merkkijono Vaihtoehtoisen annoksen kuvaus; null, jos ei saatavilla
serving_2_g liukuluku Vaihtoehtoisen annoksen paino grammoina
serving_3_desc merkkijono Toinen vaihtoehtoinen annoksen kuvaus; null, jos ei saatavilla
serving_3_g liukuluku Toinen vaihtoehtoisen annoksen paino grammoina
data_source merkkijono Alkuperätunniste: "government", "manufacturer", "laboratory" tai "verified_community"
last_verified merkkijono ISO 8601 -päivämäärä, jolloin merkintä viimeksi vahvistettiin (YYYY-MM-DD)
dataset_version merkkijono Aineiston version tunnus (esim. "v3.0")

Kaikki ravintoarvot ilmoitetaan per 100 grammaa, jotta vertailut ovat johdonmukaisia. Laskettaessa ravintoarvoja per annos, kerro per 100 g arvo annoksen painolla grammoina ja jaa 100:lla.

Miten Ladataan

Aineisto on isännöity julkisessa GitHub-repositoriossamme:

github.com/nutrola/open-food-nutrition-dataset

Voit ladata tiedostot suoraan GitHubin Julkaisut-sivulta tai kloonata repositorion:

git clone https://github.com/nutrola/open-food-nutrition-dataset.git

Puristettujen versioiden lataamiseen:

# Lataa CSV (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.csv.gz

# Lataa JSON (gzipped)
wget https://github.com/nutrola/open-food-nutrition-dataset/releases/latest/download/nutrola-open-food-dataset-v3.json.gz

Repositoriossa on myös:

  • Yksityiskohtainen README.md nopean aloituksen ohjeilla
  • CHANGELOG.md, joka dokumentoi muutokset aineistoversioiden välillä
  • scripts/ -hakemisto, jossa on esimerkkiskriptejä Pythonilla ja R:llä tietojen lataamiseen, suodattamiseen ja analysoimiseen
  • schema/ -hakemisto, jossa on JSON Schema ja CSV-dialektin määritelmät

Jos tarvitset koko 3 miljoonan+ merkinnän tietokannan reaaliaikaisilla päivityksillä sen sijaan, että saisit vain satunnaisia otoksia, katso Ravintotietojen API kehittäjätukea varten.

Käyttötapaukset

Akateeminen Tutkimus

Ravitsemustutkijat voivat käyttää aineistoa ruokavalion analysoimiseen, epidemiologiseen mallintamiseen ja ravinteiden tiheystutkimuksiin ilman, että heidän tarvitsee käyttää viikkoja hallituksen tietotiedostojen puhdistamiseen ja yhdistämiseen. Hierarkkinen luokitusjärjestelmä helpottaa suodattamista ruokaryhmien mukaan, ja maa-kenttä mahdollistaa kulttuurienväliset vertailut.

Julkaistun tutkimuksen, joka käyttää aineistoa, tulisi viitata siihen seuraavasti: Nutrola Avoin Ruokaravintotietoaineisto, v3.0 (2026). Saatavilla osoitteessa github.com/nutrola/open-food-nutrition-dataset. Lisensoitu CC BY-SA 4.0 -lisenssillä.

Sovelluskehitys

Kehittäjät, jotka rakentavat terveys-, kunto- tai ruokasovelluksia, voivat käyttää aineistoa paikallisena ruokadatabaasina. Johdonmukainen rakenne ja annoskoot tarkoittavat, että voit rakentaa toimivan ruokakirjausominaisuuden ilman, että sinun tarvitsee luottaa live-API-yhteyteen. Tämä on erityisen hyödyllistä offline-ensimmäisissä mobiilisovelluksissa, prototyyppien rakentamisessa ja hackathon-projekteissa.

CSV-muoto latautuu suoraan SQLiteen, PostgreSQL:ään tai mihin tahansa relaatiotietokantaan. JSON-muoto soveltuu hyvin asiakirjatallennuksiin, kuten MongoDB:hen tai Firestoreen.

Tietotiede ja Koneoppiminen

Aineisto sopii hyvin koneoppimismallien kouluttamiseen ja arvioimiseen, jotka liittyvät ruokaan ja ravitsemukseen. Yleisiä sovelluksia ovat:

  • Ruokaluokitusmallit — käytä kategoriahierarkiaa koulutusmerkkeinä rakentaaksesi luokittajia, jotka ennustavat ruokakategorioita nimistä tai ravintoprofiileista
  • Ravitsemusarviointi — kouluta regressiomalleja, jotka ennustavat kalori- tai makro sisältöä osittaisista tiedoista (esim. kalorien arvioiminen proteiinin, rasvan ja hiilihydraattien suhteista)
  • Suositusjärjestelmät — rakenna ruokasuositusmoottoreita, jotka ehdottavat ravitsemuksellisesti samanlaisia vaihtoehtoja
  • Poikkeavuuksien havaitseminen — tunnista epätavallisia ravintoprofiileja, jotka saattavat viitata tietolaatuongelmiin muissa aineistoissa

Koulutus

Ravitsemustieteen opiskelijat ja opettajat voivat käyttää aineistoa kurssitöissä, laboratorioissa ja tehtävissä. Aineiston laajuus — kattaen ruokia kymmenistä maista ja jokaisesta pääruokaryhmästä — tekee siitä hyödyllisen opettaessa käsitteitä, kuten makroravinteiden suhteet, mikroravinteiden tiheys ja miten ravintoprofiilit vaihtelevat eri keittiöiden ja ruokaprosessointitasojen välillä.

Julkinen Terveys ja Politiikka

Julkiset terveysorganisaatiot voivat käyttää aineistoa analysoidakseen tietyn ruokakategorian tai markkinoiden ravitsemuksellista maisemaa. Maa-kenttä mahdollistaa suodattamisen alueittain, ja brändikenttä mahdollistaa brändättyjen ja yleisten ruokien ravitsemuslaadun analysoinnin.

Tietojen Laadunvalvontamenetelmät

Avoimen aineiston julkaiseminen ei merkitse mitään, jos tiedot eivät ole luotettavia. Tässä on, miten varmistamme laadun yli 500 000 merkinnässä tässä julkaisussa.

Monilähteinen Varmennus

Jokainen merkintä aineistossa on vahvistettu vähintään kahdesta itsenäisestä lähteestä. Pääasialliset tietolähteemme ovat:

  • Hallitusravintotietokannat — USDA FoodData Central (Yhdysvallat), CoFID (Yhdistynyt kuningaskunta), NUTTAB (Australia), CNF (Kanada) ja vastaavat tietokannat yli 20 maasta
  • Valmistajien tarjoamat tiedot — ravintotietopaneelit, jotka on toimitettu suoraan elintarvikkeiden valmistajilta brändikumppanuusohjelmamme kautta
  • Laboratoriotutkimukset — itsenäinen laboratoriotestaus, jota tiimimme on suorittanut suurten ruokien osalta, joissa lähdetiedot ovat ristiriitaisia tai vanhentuneita
  • Vahvistetut yhteisöjen lähetykset — käyttäjien lähettämät merkinnät, jotka ovat läpäisseet kolmiportaisen varmennusprosessimme (automaattinen ristiinviittaus, asiantuntijakatsaus ja tilastollinen poikkeavuuksien havaitseminen)

Automaattiset Laadun Tarkastukset

Jokainen merkintä käy läpi joukon automaattisia tarkastuksia ennen kuin se pääsee aineistoon:

  • Energiatasapainon vahvistus — kalorien määrä tarkistetaan Atwater-laskentaa vastaan (4 kcal/g proteiinia + 9 kcal/g rasvaa + 4 kcal/g hiilihydraattia). Merkinnät, joiden ilmoitetut kalorit poikkeavat lasketusta arvosta yli 10 %, merkitään manuaalista tarkastusta varten.
  • Arvojen tarkistukset — jokainen ravintoarvo vahvistetaan fysiologisesti mahdollisten arvojen mukaan ruokakategorian osalta. Juustomerkintä, joka väittää, että rasvaa on 0 grammaa, tai hedelmämerkintä, joka väittää, että proteiinia on 50 grammaa, merkitään heti.
  • Ristiinmerkintöjen johdonmukaisuus — samankaltaisia ruokia verrataan tilastollisesti. Jos uusi kanarinta-merkintä on merkittävästi erilainen arvoiltaan olemassa olevasta kanarinta-merkintäryhmästä, se pidetään tarkastettavana.
  • Annoskoon vahvistus — annospainot tarkistetaan tunnettuja standardiannoksia vastaan. "1 keskikokoinen omena", joka väittää painavansa 500 grammaa, ei läpäise.

Ihmisen Tarkastus

Automaattisten tarkastusten merkitsemät merkinnät käyvät läpi manuaalisen tarkastuksen tietotiimimme toimesta, johon kuuluu päteviä ravitsemusterapeutteja ja elintarviketieteilijöitä. Noin 12 % merkinnöistä vaatii jonkinlaista manuaalista korjausta ennen hyväksymistä.

Jatkuva Huolto

Aineisto ei ole kertaluonteinen julkaisu. Varmistamme merkintöjä jatkuvasti, priorisoiden suuria ruokia (joita Nutrola-käyttäjät kirjaavat useimmin) ja merkintöjä, joiden lähdetiedot on päivitetty. Kun elintarvikkeiden valmistaja muuttaa tuotettaan, huomaamme muutoksen viivakoodien valvontajärjestelmämme kautta ja päivitämme merkinnän vastaavasti.

Päivitys Taajuus

Julkaisemme uusia versioita avoimesta aineistosta neljännesvuosittain. Jokainen julkaisu sisältää:

  • Uudet ruokamerkinnät, jotka on lisätty edellisen version jälkeen
  • Korjaukset olemassa oleviin merkintöihin, jotka on tunnistettu laadunvalvonnan kautta
  • Päivitetyt ravintotiedot reformuloiduista tuotteista
  • Laajennettua mikroravinteiden kattavuutta, kun uusia lähdetietoja tulee saataville

Nykyinen versio on v3.0, julkaistu maaliskuussa 2026. Versiohistoria ja muutospäiväkirjat ovat saatavilla GitHub-repositoriossa.

Jos tarvitset tietoja, joita päivitetään useammin kuin neljännesvuosittain, Ravintotietojen API heijastaa muutoksia 48 tunnin sisällä.

Lisenssi

Nutrolan Avoin Ruokaravintotietoaineisto on julkaistu Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA 4.0) -lisenssin alaisena.

Tämä tarkoittaa, että sinulla on oikeus:

  • Jakaa — kopioida ja jakaa aineistoa missä tahansa mediassa tai muodossa
  • Muuttaa — remiksata, muuttaa ja rakentaa aineiston pohjalta mihin tahansa tarkoitukseen, mukaan lukien kaupallinen käyttö

Seuraavin ehdoin:

  • Viittaus — sinun on annettava asianmukainen tunnustus Nutrolalle, tarjottava linkki lisenssiin ja ilmoitettava, jos muutoksia on tehty
  • ShareAlike — jos remiksat, muutat tai rakennat aineiston pohjalta, sinun on jaettava omat panoksesi saman CC BY-SA 4.0 -lisenssin alaisena

Valitsimme CC BY-SA 4.0 -lisenssin, koska se tarjoaa oikean tasapainon avoimuuden ja varmistamisen välillä, että parannukset palautuvat yhteisölle. Jos rakennat paremman version tästä datasta, lisenssi varmistaa, että parannuksesi pysyvät kaikkien muiden saatavilla.

Miten Se Vertautuu Muiden Aineistojen Kanssa

Julkisesti saatavilla on useita ravintotietoaineistoja. Tässä on, miten Nutrolan Avoin Ruokaravintotietoaineisto vertautuu kahteen eniten käytettyyn vaihtoehtoon.

vs. USDA FoodData Central

USDA FoodData Central on kultastandardi ravintotiedoille Yhdysvalloissa. Se on perusteellinen, hyvin dokumentoitu ja laboratoriotutkimusten tukema. Siinä on kuitenkin rajoituksia, joita Nutrolan aineisto käsittelee:

Ulottuvuus USDA FoodData Central Nutrolan Avoin Aineisto
Yhteensä merkintöjä ~400 000 (Foundation, SR Legacy, Branded yhteensä) Yli 500 000
Maantieteellinen kattavuus Pääasiassa Yhdysvallat 47 maata
Brändätyt tuotteet Vain Yhdysvaltain brändit, usein vanhentuneet Kansainväliset brändit, varmennettu neljännesvuosittain
Tietomuoto Useita yhteensopimattomia tiedostomuotoja, monimutkainen relaatiostruktuuri Yksi CSV- tai JSON-tiedosto, tasainen rakenne
Annoskoot Epäjohdonmukaisia alaluokissa Standardoitu muoto, jossa on jopa 3 annosta per ruoka
Käytön helppous Vaatii merkittävää tietotekniikkaa alaluokkien yhdistämiseksi Lataa yksi tiedosto ja aloita työskentely
Päivitystaajuus Vaihtelee alaluokan mukaan (vuosittain joillekin) Neljännesvuosittain

Jos työsi keskittyy yksinomaan Yhdysvaltojen ruokiin ja tarvitset syvimmän mahdollisen ravintoprofiilin (USDA kattaa yli 150 ravintoainetta Foundation-ruoille), FoodData Central on parempi valinta. Jos tarvitset kansainvälistä kattavuutta, johdonmukaista muotoilua ja aineistoa, joka toimii heti, Nutrolan aineisto on vahvempi vaihtoehto.

Molemmat aineistot ovat täydentäviä. Monet tutkijat käyttävät USDA Foundation -dataa yksityiskohtaiselle Yhdysvaltain ravintoanalyysille ja täydentävät sitä Nutrolan datalla kansainvälisen kattavuuden ja brändättyjen tuotteiden osalta.

vs. Open Food Facts

Open Food Facts on yhteisöltä kerätty tietokanta, jossa on yli 3 miljoonaa merkintää. Siinä on vaikuttava laajuus ja se kattaa tuotteita monista maista. Sen yhteisöltä kerätty luonteenpiirre tuo kuitenkin mukanaan tietolaatuongelmia:

Ulottuvuus Open Food Facts Nutrolan Avoin Aineisto
Yhteensä merkintöjä 3M+ Yli 500 000
Tietolaatu Vaihteleva — yhteisöltä kerätty, automaattiset tarkastukset Varmennettu — monilähteinen, ihmisten tarkastama
Täydellisyys Monet merkinnät puuttuvat makro/mikro tiedoista Kaikilla merkinnöillä on täydelliset makrotiedot; yli 90 %:lla on täydelliset mikropäivitykset
Annoskoot Epäjohdonmukaisia, usein puuttuvia Standardoitu, aina läsnä
Kategorian taksonomia Yhteisöltä kerättyjä tageja, epäjohdonmukaisia Hierarkkinen, kuratoitu taksonomia
Ravinteiden kattavuus Vaihtelee merkinnän mukaan Johdonmukaiset 40+ ravintoainetta kaikissa merkinnöissä
Tietomuoto MongoDB-dump, monimutkainen sisäkkäinen JSON Siisti CSV ja JSON
Lisenssi Avoin tietokanta lisenssi (ODbL) CC BY-SA 4.0

Open Food Facts loistaa laajuudessaan — jos sinun tarvitsee etsiä tiettyä tuntematonta tuotetta viivakoodin perusteella, heillä on todennäköisesti se. Nutrolan aineisto loistaa syvyydessä ja johdonmukaisuudessa — jokainen merkintä täyttää saman laadun tason, mikä tekee siitä luotettavampaa kvantitatiiviselle analyysille, jossa tietovajeet tai virheet voivat vääristää tuloksia.

Jos rakennat viivakoodin skannerisovellusta ja tarvitset maksimaalista tuotteen kattavuutta, Open Food Facts on hyvä lähtökohta. Jos koulutat koneoppimismallia, teet tilastollista tutkimusta tai rakennat sovellusta, jossa ravitsemuksen tarkkuus on tärkeää, Nutrolan aineiston varmennetut tiedot tarjoavat vahvemman perustan.

Aloittaminen

Kun olet ladannut aineiston, tässä on nopea esimerkki sen lataamisesta ja tutkimisesta Pythonissa:

import pandas as pd

# Lataa aineisto
df = pd.read_csv("nutrola-open-food-dataset-v3.csv")

# Perustiedot
print(f"Yhteensä merkintöjä: {len(df):,}")
print(f"Kattavat maat: {df['country'].nunique()}")
print(f"Ruokakategoriat (L1): {df['category_l1'].nunique()}")

# Etsi korkean proteiinin, matalan kalorimäärän ruoat
high_protein = df[
    (df["protein_g"] > 20) &
    (df["calories_per_100g"] < 150)
].sort_values("protein_g", ascending=False)

print(high_protein[["food_name", "calories_per_100g", "protein_g"]].head(10))
# Analysoi keskimääräiset makrot ruokakategorian mukaan
category_macros = df.groupby("category_l1").agg({
    "calories_per_100g": "mean",
    "protein_g": "mean",
    "fat_total_g": "mean",
    "carbs_total_g": "mean"
}).round(1)

print(category_macros.sort_values("calories_per_100g", ascending=False))

Lisää esimerkkejä — mukaan lukien R-skriptejä, SQL-tuontiohjeita ja Jupyter-muistiinpanoja — on saatavilla scripts/ -hakemistossa GitHub-repositoriossa.

Usein Kysytyt Kysymykset

Onko aineisto todella ilmainen käyttää?

Kyllä. Nutrolan Avoin Ruokaravintotietoaineisto on julkaistu CC BY-SA 4.0 -lisenssin alaisena, joka sallii kaupallisen ja ei-kaupallisen käytön. Ainoat vaatimukset ovat, että annat tunnustuksen Nutrolalle lähteenä ja että jakamasi johdannaiset aineistot käyttävät samaa lisenssiä. Tiedostojen lataamiseen ei tarvita API-avaimia, käyttörajoja tai rekisteröitymistä.

Kuinka usein aineistoa päivitetään?

Julkaisemme uusia versioita neljännesvuosittain. Jokainen julkaisu lisää uusia ruokamerkintöjä, korjaa virheitä, jotka on tunnistettu edellisen version jälkeen, ja päivittää merkintöjä tuotteista, jotka on reformuloitu. GitHub-repositoriossa on täydellinen versiohistoria, ja voit seurata repositoriota saadaksesi ilmoituksia uusista julkaisuista.

Voinko käyttää tätä aineistoa kaupallisen sovelluksen rakentamiseen?

Kyllä. CC BY-SA 4.0 -lisenssi sallii nimenomaan kaupallisen käytön. Voit käyttää tietoja maksullisessa sovelluksessa, SaaS-tuotteessa tai missä tahansa muussa kaupallisessa kontekstissa. Sinun on sisällytettävä viittaus Nutrolaan sovellukseesi tai dokumentaatioosi, ja jos jaat muokattua versiota aineistosta, muokattu versio on myös lisensoitava CC BY-SA 4.0 -lisenssin alaisena. Tietojen käyttäminen sovelluksessasi (ilman raakatiedoston jakamista) ei laukaise ShareAlike-vaatimusta.

Miksi vain 500K merkintää, kun Nutrolan koko tietokanta sisältää yli 3 miljoonaa?

Avoin aineisto sisältää merkintöjä, jotka voimme julkaista avoimella lisenssillä ilman rajoituksia. Koko tietokantamme sisältää tietoja omista lähteistä — suoraan valmistajilta, lisensoiduista laboratoriotiedoista ja muista lähteistä, joilla on sopimuksellisia rajoituksia jakamiselle. Avoimessa aineistossa olevat 500K merkintää ovat peräisin hallituksen tietokannoista, omista laboratoriotutkimuksistamme ja yhteisöltä kerätyistä lähetyksistä, joissa osallistujat ovat suostuneet avoimeen lisensointiin. Jos tarvitset pääsyn koko tietokantaan, Ravintotietojen API tarjoaa sen erillisten kaupallisten ehtojen alaisena.

Mitä minun pitäisi tehdä, jos löydän virheen aineistosta?

Avaa ongelma GitHub-repositoriossa, jossa on food_id vaikuttavasta merkinnästä ja kuvaus virheestä. Liitä mukaan lähdelinkki, jos sinulla on sellainen (esim. valmistajan verkkosivusto, joka näyttää eri ravintotiedot). Tietotiimimme tarkistaa ilmoitettuja ongelmia viikoittain, ja vahvistetut korjaukset sisällytetään seuraavaan neljännesvuosittaiseen julkaisuun. Kiireellisiä korjauksia varten saatamme julkaista korjausjulkaisun neljännesvuosittaisten päivitysten välillä.

Miten tämä liittyy Nutrolan Ravintotietojen API:in?

Avoin aineisto on staattinen neljännesvuosittainen otos kuratoidusta osasta tietokantaamme. API tarjoaa reaaliaikaisen pääsyn koko 3 miljoonan+ merkinnän tietokantaan, jossa on haku, suodatus, viivakoodin tarkistus ja muita ominaisuuksia. Ajattele avointa aineistoa perustana offline- tai eräkäyttötapauksille, ja API:ta ratkaisuna tuotantosovelluksille, jotka tarvitsevat elävää dataa. Monet kehittäjät aloittavat avoimesta aineistosta prototyyppien rakentamiseksi ja siirtyvät API:in, kun he siirtyvät tuotantoon.

Valmis muuttamaan ravitsemusseurantaasi?

Liity tuhansien joukkoon, jotka ovat muuttaneet terveysmatkansa Nutrola avulla!