AI-reseptin poiminnan tiede: Kuinka NLP ja tietokonenäkö lukevat ruoanlaittovideoita

Tutustu tekniseen prosessiin, joka mahdollistaa AI:n poimia reseptejä ruoanlaittovideoista yhdistämällä puheentunnistuksen, OCR:n, visuaalisen ainesosatunnistuksen ja NLP:n tarkkojen ravintotietojen automaattiseen tuottamiseen.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Ruoanlaittovideot ovat nousseet hallitsevaksi muodoksi reseptien jakamisessa. Yksin YouTubessa on yli 1 miljardi ruoanlaittovideon katselukertaa kuukaudessa, TikTokin ruoka-aiheinen sisältö kerää kymmeniä miljardeja katselukertoja vuosittain, ja Instagram Reels on muuttanut jokaisen kotikokin potentiaaliseksi sisällöntuottajaksi. Silti on edelleen merkittävä kuilu reseptin katsomisen ja sen ravintosisällön ymmärtämisen välillä.

Tämän kuilun ylittämiseksi tarvitaan monivaiheinen AI-prosessi, joka yhdistää automaattisen puheentunnistuksen, optisen merkkien tunnistuksen, tietokonenäön ja luonnollisen kielen käsittelyn. Tämä artikkeli purkaa teknisen prosessin jokaisen vaiheen, selittää mallit ja tutkimukset, jotka tekevät sen mahdolliseksi, ja tarkastelee, kuinka nämä teknologiat yhdistyvät muuntamaan ruoanlaittovideon rakenteiseksi ravintotiedoksi.

Reseptin poiminnan ongelma: Miksi videot ovat haastavia

Verkkosivujen tekstireseptit ovat suhteellisen helppoja purkaa. Ne noudattavat ennakoitavia rakenteita, joissa on ainesosalistoja, määriä ja vaiheittaisia ohjeita. HTML-merkintä ja schema.org-reseptimerkinnät tarjoavat lisärakenteita koneellista lukemista varten.

Ruoanlaittovideot esittävät kuitenkin täysin erilaisen haasteen. Reseptitiedot jakautuvat useisiin eri muotoihin samanaikaisesti:

  • Puhuttu kerronta kuvaa ainesosia, määriä ja tekniikoita
  • Näytön teksti näyttää ainesosalistoja, lämpötiloja ja aikarajoja
  • Visuaalinen sisältö näyttää ainesosien lisäämistä, sekoittamista ja muuntamista
  • Implisiittinen tieto edellyttää, että katsojat ymmärtävät mainitsemattomat vaiheet, kuten uunin esilämmittämisen tai riisin huuhtelemisen

Yksikään muoto ei sisällä täydellistä reseptiä. Esimerkiksi luoja saattaa sanoa "lisää hieman oliiviöljyä", kun taas näytöllä näkyy kaato, joka viittaa noin kahteen ruokalusikalliseen, ja myöhemmin näytön tekstissä lukee "2 rkl oliiviöljyä." Täydellisen reseptin poimiminen vaatii tietojen yhdistämistä kaikista näistä lähteistä ja ristiriitojen ratkaisemista niiden välillä.

Monimuotoinen poimintaprosessi

Kokonaisprosessi raakavideosta rakenteiseksi ravintotiedoksi sisältää viisi päävaihetta:

Vaihe Syöte Teknologia Tuotos
1. Äänilähteen poiminta Videotiedosto ASR (Whisper) Aikaleimattu transkripti
2. Visuaalisen tekstin poiminta Videokehyksiä OCR (PaddleOCR, EasyOCR) Näytön teksti aikaleimoineen
3. Visuaalinen ainesosatunnistus Videokehyksiä CNN/Vision Transformers (CLIP, ViT) Tunnistetut ainesosat ja toiminnot
4. NLP-analyysi ja yhdistäminen Transkripti + OCR + visuaaliset tiedot Transformer-mallit (BERT, LLM:t) Rakenteinen resepti määriä myöten
5. Ravintotietokannan vertailu Rakenteinen resepti Epätarkka vertailu + tietokannan haku Täydellinen ravintosisältö

Jokaisessa vaiheessa on omat tekniset haasteensa, ja ne perustuvat erilaisiin koneoppimisen tutkimusalueisiin.

Vaihe 1: Automaattinen puheentunnistus reseptin kertomiseen

Ensimmäinen askel reseptin poimimisessa ruoanlaittovideosta on puhutun kerronnan muuntaminen tekstiksi. Tämä kuuluu automaattisen puheentunnistuksen (ASR) alueeseen.

Whisperin vallankumous

OpenAI:n Whisper-malli, joka esiteltiin Radfordin ym. vuonna 2022 julkaisemassa artikkelissa, muutti perusteellisesti puheentunnistuksen kenttää reseptin poiminnassa. Malli on koulutettu 680 000 tuntia monikielistä ja monitehtäväistä valvottua dataa, joka on kerätty verkosta, ja se saavutti lähes ihmistasoista transkriptiotarkkuutta laajalla äänikentällä.

Miksi Whisper on erityisen arvokas ruoanlaittovideoiden transkription kannalta:

Melunkestävyys. Keittiöympäristöt ovat meluisia. Paistinpannujen tirinät, juokseva vesi, pilkkomisäänet ja taustamusiikki kilpailevat kertojan äänen kanssa. Whisperin koulutus monenlaisissa äänikentissä tarkoittaa, että se käsittelee näitä päällekkäisiä ääniä paremmin kuin aikaisemmat ASR-mallit.

Monikielisyys. Ruoanlaittovideoita tuotetaan käytännössä kaikilla kielillä. Whisper tukee transkriptiota 915 kielellä ja voi kääntää englanniksi, mikä mahdollistaa reseptin poiminnan sisällöstä riippumatta alkuperäisestä kielestä.

Punktuointi ja muotoilu. Toisin kuin aikaisemmat ASR-järjestelmät, jotka tuottivat tasaisia tekstivirtoja, Whisper luo pisteytettyjä, muotoiltuja transkriptioita, jotka säilyttävät lauseiden rajat. Tämä rakenne on kriittinen myöhempää NLP-analyysiä varten.

Sana-asteen aikaleimat. Whisper voi tuottaa aikaleimoja sanatasolla, mikä mahdollistaa tarkan kohdistamisen sen välillä, mitä sanotaan ja mitä näytetään näytöllä tietyllä hetkellä.

Ruoanlaittokerrontaan liittyvät haasteet

Vaikka Whisperin kyvyt ovat erinomaisia, ruoanlaittovideot esittävät ASR-haasteita, joita ei esiinny tavanomaisissa puheentunnistustesteissä:

Aluekohtainen sanasto. Ainesosien nimet kattavat tuhansia tuotteita eri keittiöistä. Termit kuten "gochujang", "za'atar", "tahini" tai "panko" eivät välttämättä esiinny usein yleisessä koulutusdatassa. Erityiset ruoan sanastomallit tai jälkikäsittelysanastot ovat tarpeen systemaattisten virheiden korjaamiseksi.

Määrien epäselvyys. Puhutut määrät ovat usein epätarkkoja. "Hyvä määrä suolaa", "splash etikkaa" tai "noin näin paljon jauhoja" vaativat kontekstuaalista tulkintaa, joka ylittää transkription.

Kielivaihtelu. Monet ruoanlaittajat vaihtavat kieliä, käyttäen englantia yleisessä kerronnassa, mutta äidinkieltään ruokalajien nimissä tai perinteisissä tekniikoissa. Monikielisen ASR:n on käsiteltävä näitä siirtymiä sujuvasti.

Ei-verbaalinen viestintä. Luoja saattaa viitata ainesosaan ilman sen nimeämistä tai sanoa "tätä" samalla kun pitää pulloa ylhäällä. Nämä deiktiset viittaukset vaativat ristimuotoista ratkaisua visuaalisen virran kanssa.

Transkriptin jälkikäsittely

Raaka ASR-tulos vaatii useita jälkikäsittelyvaiheita ennen kuin se on hyödyllinen reseptin poiminnassa:

  1. Ruoan entiteettien korjaus käyttää aluekohtaista sanastoa korjatakseen yleisiä virheitä (esim. "kumina" kuultuna "coming").
  2. Määrien normalisointi muuntaa puhutut numerot ja murtoluvut standardoiduiksi numeerisiksi muodoiksi.
  3. Segmentointi jakaa jatkuvan transkriptin loogisiin reseptivaiheisiin aikapysähdysten, siirtymäfraasien ja toimintaverbien rajojen perusteella.
  4. Luottamussuodatus tunnistaa ja merkitsee matalan luottamuksen segmentit mahdollista ristimuotoista vahvistusta varten.

Vaihe 2: Optinen merkkien tunnistus näytön tekstille

Monet ruoanlaittovideot näyttävät ainesosalistoja, mittasuhteita, lämpötiloja ja ohjeita näytön tekstinä. Tämä teksti on usein tarkempaa kuin puhuttu kerronta ja noudattaa enemmän standardisoitua muotoilua.

Kuinka OCR toimii videokehyksissä

Tekstin poimiminen videokehyksistä sisältää kaksi alatehtävää: tekstin tunnistus (löytää, missä teksti esiintyy kehyksessä) ja tekstin tunnistus (lukea, mitä teksti sanoo).

Tekstin tunnistus paikantaa alueet kuvassa, jotka sisältävät tekstiä. Modernit tunnistimet, kuten CRAFT (Character Region Awareness for Text Detection) ja DBNet (Differentiable Binarization Network), voivat tunnistaa tekstiä riippumatta sen suunnasta, koosta tai taustan monimutkaisuudesta. Nämä mallit tuottavat rajalaatikkoja tai monikulmioita tekstialueiden ympärille.

Tekstin tunnistus muuntaa tunnistetut tekstialueet merkkijonoiksi. Konvoluutio- ja toistuvien hermoverkkojen pohjalta rakennetut arkkitehtuurit, usein CTC (Connectionist Temporal Classification) -dekoodauksen kanssa, käsittelevät leikattuja tekstialueita ja tuottavat merkkijonoja. Uudemmat lähestymistavat käyttävät transformeri-pohjaisia arkkitehtuureja tarkkuuden parantamiseksi tyylitellyissä fonteissa.

Ruoanlaittovideoiden OCR:n erityishaasteet

Ruoanlaittovideoiden näytön teksti eroaa huomattavasti asiakirjateksistä, joihin useimmat OCR-järjestelmät on optimoitu:

Animoidut tekstikerrokset. Teksti animoituu usein sisään ja ulos, mikä vaatii aikarajojen aggregointia useiden kehyksien yli täydellisen tekstin kaappaamiseksi. Liukuvan animaation aikana teksti saattaa paljastua merkki merkiltä useiden kehyksien aikana.

Koristeelliset fontit. Ruoan sisällöntuottajat käyttävät usein tyyliteltyjä, käsin kirjoitettuja tai koristeellisia fontteja, jotka eroavat siisteistä fonteista, joita käytetään standardoiduissa OCR-koulutusdatoissa. Fine-tuning ruoan erityisiin fonttidatastoihin parantaa tunnistusasteita.

Monimutkaiset taustat. Teksti on usein päällekkäin vilkkaiden visuaalisten taustojen kanssa, jotka näyttävät ruokaa, keittiöitä ja käsiä. Korkeaa kontrastia tekstin ja taustan välillä ei voida olettaa. Tekstin viivan, varjon ja taustan sumeuden tunnistus auttaa eristämään tekstikerroksen.

Monikieliset ja sekoitetut skriptit. Yhdessä kehyksessä voi olla tekstiä useilla skripteillä, kuten englanninkielisiä mittasuhteita japanilaisten ruokalajien nimien rinnalla. Moniscript OCR -mallit tai skriptin tunnistus, jota seuraa kielikohtaiset tunnistusputket, käsittelevät tätä vaihtelua.

Aikaduplication ja aggregointi

Koska videokehyksiä näytetään useita kertoja sekunnissa, sama näytön teksti havaitaan monissa peräkkäisissä kehyksissä. OCR-putken on:

  1. Näytettävä kehyksiä sopivalla taajuudella (tyypillisesti 1–2 kehystä sekunnissa tekstin tunnistusta varten)
  2. Seurattava tekstialueita kehyksissä tunnistaakseen pysyvän ja ohimenevän tekstin
  3. Poistettava toistuvat havainnot samasta tekstistä
  4. Yhdistettävä osittaiset havainnot animoiduista tekstin paljastuksista
  5. Liitettävä jokainen tekstielementti sen aikarajaan myöhempää yhdistämistä varten ääni- ja visuaalisten tietojen kanssa

Tämän vaiheen tuloksena on aikaleimattu lista näytön tekstielementeistä, joista jokainen on liitetty näkyvyysaikaansa ja spatiaaliseen sijaintiinsa kehyksessä.

Vaihe 3: Visuaalinen ainesosatunnistus tietokonenäön avulla

Tekstin lisäksi ruoanlaittovideon visuaalinen sisältö sisältää runsaasti tietoa ainesosista, määristä ja valmistusmenetelmistä. Tietokonenäön mallit voivat tunnistaa ainesosia niiden ilmestyessä, arvioida määriä visuaalisten vihjeiden perusteella ja tunnistaa ruoanlaitto-toimintoja.

Ainesosatunnistus Vision Transformersilla ja CLIP:llä

Moderni visuaalinen ainesosatunnistus perustuu kahteen keskeiseen edistykseen: Vision Transformers (ViT) ja kontrastiivinen kieli-kuva esikoulutus (CLIP).

Vision Transformers, jotka esiteltiin Dosovitskiyn ym. vuonna 2020, soveltavat transformer-arkkitehtuuria kuvantunnistukseen. Sen sijaan, että käytettäisiin konvoluutio-kerroksia, ViT jakaa kuvan paloiksi ja käsittelee niitä sekvensseinä, aivan kuten transformerit käsittelevät sanoja lauseessa. Tämä lähestymistapa on osoittautunut erityisen tehokkaaksi hienojakoisissa visuaalisissa tunnistustehtävissä, kuten ainesosien tunnistuksessa, joissa hienovaraiset erot väreissä, tekstuureissa ja muodoissa erottavat samankaltaisia tuotteita.

CLIP, joka on kehitetty Radfordin ym. toimesta OpenAI:lla vuonna 2021, oppii visuaalisia käsitteitä luonnollisen kielen ohjauksesta. Koulutettu 400 miljoonalla kuva-teksti-parilla, CLIP voi tunnistaa esineitä, joita kuvataan tekstissä, ilman että niitä on nimenomaisesti koulutettu merkittyjen esimerkkien avulla. Ainesosatunnistuksessa tämä tarkoittaa, että CLIP-pohjainen järjestelmä voi tunnistaa ainesosan, vaikka se ei olisi ollut koulutusdatassa, kunhan se voi yhdistää visuaalisen ilmeen tekstikuvaukseen.

CLIP:n käytännön etu reseptin poiminnassa on sen zero-shot ja few-shot kyky. Ruoka kattaa valtavan monenlaisia ainesosia, valmistustapoja ja kulttuurisia esityksiä. Perinteinen luokittelumalli tarvitsisi merkittyjä koulutus-esimerkkejä jokaiselle ainesosalle jokaisessa valmistustilassa. CLIP voi yleistää laajasta esikoulutuksestaan tunnistaakseen uusia ainesosia, joita kuvataan tekstimuodossa.

Ruoanlaitto-toimintojen tunnistaminen

Toimintojen tunnistaminen on yhtä tärkeää kuin ainesosien tunnistaminen. Toimintojen tunnistus kertoo järjestelmälle, onko ainesosaa pilkottu, paistettu, sekoitettu tai paistettu, mikä vaikuttaa suoraan lopulliseen ravintosisältöön.

Tutkimus videotoimintojen tunnistamisessa on tuottanut malleja, jotka analysoivat aikajanoja kehyksistä luokitellakseen toimintoja. Lähestymistavat, kuten SlowFast-verkot (Feichtenhofer ym., 2019), käsittelevät videota kahdella aikatasolla samanaikaisesti: hidas reitti tallentaa tilallista yksityiskohtaa, kun taas nopea reitti tallentaa liikettä. Ruoanlaittovideoihin sovellettuna nämä mallit voivat erottaa sekoittamisen, vatkaamisen, taittamisen ja vaivaamisen, joilla kaikilla on erilaisia vaikutuksia reseptin rakenteeseen.

Food-101 ja Recipe1M+ -datan (Marin ym., 2019) on ollut keskeinen rooli ruoka-spesifisten tietokonenäkömallien kouluttamisessa ja arvioimisessa. Recipe1M+ sisältää yli 1 miljoonaa ruoanlaittoreseptiä ja 13 miljoonaa ruokakuvaa, tarjoten mittakaavan, joka on tarpeen mallien kouluttamiseksi, jotka yleistävät eri keittiöiden ja valmistustapojen välillä.

Visuaalinen määrän arviointi

Yksi visuaalisen reseptin poiminnan haastavimmista osa-alueista on arvioida ainesosien määriä videosta. Kun luoja kaataa öljyä pannulle tai kauhoo jauhoja kulhoon, visuaalinen tieto sisältää vihjeitä määrästä, mutta näiden vihjeiden kääntäminen tarkkoihin mittauksiin vaatii kehittynyttä tilallista päättelyä.

Nykyiset lähestymistavat yhdistävät:

  • Viiteobjektin skaalaus: Käyttämällä kehyksessä olevia tunnettuja esineitä (standardikokoisia kattiloita, mittakuppeja, leikkuulautoja) mittakaavan määrittämiseksi
  • Tilavuuden arviointi kaatodynamiikasta: Analysoimalla kaadettujen nesteiden kestoa ja virtausta tilavuuden arvioimiseksi
  • Syvyyden arviointi: Monokulaariset syvyyden arviointimallit, kuten MiDaS (Ranftl ym., 2020), voivat arvioida ainesosien syvyyttä astioissa, mikä auttaa arvioimaan tilavuutta 2D-kuvasta
  • Vertailuoppiminen: Mallit, jotka on koulutettu paritelluilla kuvilla tunnetuista määristä, oppivat arvioimaan määriä visuaalisen vertailun avulla

Visuaalinen määrän arviointi on edelleen vähemmän tarkkaa kuin puheesta tai tekstistä saadut eksplisiittiset mittaukset, tyypillisesti saavuttaen tarkkuuden 20–30 prosentin sisällä. Kuitenkin se tarjoaa hyödyllisen ristivarmistuksen ja täyttää aukkoja, kun määriä ei ilmoiteta eksplisiittisesti.

Vaihe 4: Luonnollinen kielen käsittely reseptin analysoimiseksi ja yhdistämiseksi

Kun transkriptit, näytön tekstit ja visuaaliset merkinnät ovat käsillä, NLP-vaihe kohtaa haasteen yhdistää nämä monimuotoiset signaalit yhdeksi, johdonmukaiseksi, rakenteiseksi reseptiksi.

Nimettömien entiteettien tunnistus ruoasta

Ensimmäinen NLP-tehtävä on tunnistaa ruoka-aiheiset entiteetit transkriptista ja OCR-tekstistä. Tämä on erikoistunut nimettömien entiteettien tunnistus (NER), joka on tunnistettava:

  • Ainesosat: "kanafilee", "extra virgin oliiviöljy", "koshersuola"
  • Määrät: "kaksi kuppia", "350 grammaa", "ripaus"
  • Yksiköt: "ruokalusikallista", "millilitraa", "keskikokoinen"
  • Valmistusmuuttujat: "kuutioitu", "silputtu", "huoneenlämpöinen"
  • Ruoanlaitto-toiminnot: "paista", "paista 375 asteessa", "hauduta 20 minuuttia"
  • Välineet: "valurautapannu", "pöytämikseri", "uunipelti"

Transformer-pohjaiset NER-mallit, jotka on hienosäädetty ruoka-korpuksille, saavuttavat yli 90 prosentin F1-pisteet standardoiduissa ruoka-NER-testeissä. FoodBase-korpus (Popovski ym., 2019) ja TASTEset-dataset tarjoavat merkittyä ruokatietoa erityisesti näiden mallien kouluttamiseen.

Riippuvuusanalyysi ainesosien ja määrien yhdistämiseksi

Entiteettien tunnistaminen yksinään ei riitä. Järjestelmän on määritettävä, mitkä määrät kuuluvat millekin ainesosalle. Lauseessa "Lisää kaksi kuppia jauhoja ja teelusikallinen suolaa" järjestelmän on oikein yhdistettävä "kaksi kuppia" "jauhoihin" ja "teelusikallinen" "suolaan".

Tämä vaatii riippuvuusanalyysiä, joka analysoi lauseiden kielioppirakenteen tunnistaakseen sanojen väliset suhteet. Modernit riippuvuusanalyysimallit, jotka perustuvat BERT-arkkitehtuuriin (Devlin ym., 2019), käsittelevät ruoanlaitto-ohjeiden syntaktista monimutkaisuutta, mukaan lukien yhdisteiden kuvaus, kuten "tuorepuristettu sitruunamehu" ja sisäkkäiset modifierit, kuten "yksi 14 unssin purkki kuutioituja tulipaloja".

Ristimuotoinen yhdistäminen: ristiriitojen ratkaiseminen ja aukkojen täyttäminen

NLP-vaiheen teknisesti haastavin osa-alue on yhdistää tiedot kaikista kolmesta muodosta (ääni, teksti, visuaalinen) yhdeksi johdonmukaiseksi reseptiksi. Tämä yhdistäminen on käsiteltävä:

Sopimuksen vahvistaminen. Kun transkriptissa sanotaan "kaksi ruokalusikallista soijakastiketta", näytön teksti näyttää "2 rkl soijakastiketta", ja visuaalinen virta näyttää tummaa nestettä kaadettavan, kaikki kolme lähdettä ovat samaa mieltä ja järjestelmällä on korkea luottamus.

Ristiriitojen ratkaiseminen. Kun transkriptissa sanotaan "kuppi sokeria", mutta näytön teksti sanoo "3/4 kuppia sokeria", järjestelmän on päätettävä, mihin lähteeseen luottaa. Yleisesti ottaen näytön tekstiä priorisoidaan tarkkojen mittausten osalta, koska luojat lisäävät yleensä tekstikerroksia korjauksiksi tai selvennyksiksi kerrontaan.

Aukkojen täyttäminen. Kun kertoja sanoo "mausta maun mukaan" ilman määriä, järjestelmä voi käyttää visuaalista arviointia maustetoiminnasta yhdistettynä tietokannan tietoon tyypillisistä maustemääristä kyseisen ruokalajin tyypille saadakseen kohtuullisia arvoja.

Aikallinen kohdistaminen. Tietojen yhdistäminen eri muodoista vaatii aikallista kohdistamista. Puhuttu ainesosaviittaus aikaleimalla 2:34 tulisi yhdistää näytön tekstiin, joka on näkyvissä aikavälin 2:30–2:40, ja visuaaliseen ainesosatunnistukseen samalta aikavälin. Dynaaminen aikavälin muuntaminen ja huomiopohjaiset kohdistusmekanismit käsittelevät puutteellista synkronointia puheen, tekstin ja visuaalisten tapahtumien välillä.

Suuret kielimallit reseptin jäsentämiseksi

Viimeisimmät edistykset suurissa kielimalleissa (LLM) ovat tuoneet tehokkaan uuden lähestymistavan reseptin jäsentämiseen. Sen sijaan, että rakennettaisiin erilliset mallit NER:lle, riippuvuusanalyysille ja yhdistämiselle, LLM voi käsitellä yhdistettyä transkriptiota ja OCR-tulosta ja tuottaa rakenteisen reseptin yhdellä kertaa.

Malli saa syötteen, joka sisältää transkriptin, OCR-tekstin ja visuaalisten havaintojen kuvaukset, sekä ohjeet tuottaa rakenteinen resepti määritellyssä muodossa. LLM:t ovat erinomaisia tässä tehtävässä, koska ne koodavat laajaa maailmantietoa ruoanlaitosta, mukaan lukien tyypilliset ainesosamäärät, yleiset ainesosayhdistelmät ja standardoidut valmistustekniikat.

Tällä lähestymistavalla on useita etuja:

  • Se käsittelee epäselvyyksiä luonnollisesti hyödyntäen maailmantietoa
  • Se ratkaisee viittaukset (esim. ymmärtäen, että "se" lauseessa "sekoita sitä välillä" viittaa kastikkeeseen, joka mainittiin kolme lausetta aiemmin)
  • Se voi päätellä mainitsemattomia vaiheita ruoanlaittotiedon perusteella
  • Se normalisoi ainesosien nimet kanonisiin muotoihin, jotka sopivat tietokannan hakuun

Pääasiallinen rajoitus on se, että LLM:n tulokset vaativat vahvistamista. Hallusinaatio, jossa malli tuottaa uskottavaa mutta virheellistä tietoa, on estettävä ristiviittaamalla lähdemuotoihin ja ravintotietokannan rajoituksiin.

Vaihe 5: Ravintotietokannan vertailu ja laskenta

Viimeinen vaihe muuntaa rakenteisen reseptin täydelliseksi ravintosisältöksi. Tämä vaatii jokaisen poimitun ainesosan yhdistämistä kattavaan ravintotietokantaan ja per annos -ravintotietojen laskemista.

Vertailun haaste

Ruoanlaittovideoista poimitut ainesosien nimet harvoin vastaavat tarkasti tietokannan merkintöjä. Video saattaa viitata "suureen kouralliseen vauvasalaattia", kun taas tietokannassa on merkintöjä "salaatti, raaka" grammoissa. Vertailujärjestelmän on käsiteltävä:

  • Synonyymien ratkaisu: "korianteri" ja "korianterin lehdet" ovat sama ainesosa
  • Valmistustilan kartoitus: "paahdetut mantelit" vastaavat eri ravintoprofiilia kuin "raakamanteleita"
  • Brändin ja lajikkeen normalisointi: "Barilla penne" vastaa "pasta, penne, kuiva" brändikohtaisilla säädöksillä
  • Kansankielisestä tekniseen käännökseen: "voin pala" vastaa "voi, suolattu, 113g"
  • Yksikkömuunnos: "kuppi jauhoja" on muunnettava grammoiksi ainesosakohtaisia tiheysarvoja käyttäen, sillä kuppi jauhoja painaa noin 120g, kun taas kuppi sokeria painaa noin 200g

Epätarkka merkkijonovertailu, kuten Levenshteinin etäisyys ja TF-IDF-kosinisimilariteetti, tarjoavat perustason vertailua. Kehittyneemmät lähestymistavat käyttävät upotuspohjaista samankaltaisuutta, jossa sekä poimitut ainesostekstit että tietokannan merkinnät koodataan vektoriesityksiin käyttämällä malleja, kuten Sentence-BERT (Reimers ja Gurevych, 2019), ja lähin vastaavuus upotustilassa valitaan.

Ravintotietokannat ja niiden kattavuus

Useat suuret ravintotietokannat toimivat ravintolaskentojen perustana:

Tietokanta Kattavuus Ylläpitää Avainvahvuus
USDA FoodData Central 370 000+ ruokaa Yhdysvaltain maatalousministeriö Kattavat ravintoprofiilit
Open Food Facts 3 000 000+ tuotetta Yhteisön osallistujat Globaali pakattujen ruokien kattavuus
COFID (McCance ja Widdowson) 3 000+ ruokaa Iso-Britannian elintarvikestandardivirasto Iso-Britannia-spesifiset ruoan koostumukset
Australian Food Composition Database 2 500+ ruokaa Elintarvikestandardit Australia ja Uusi-Seelanti Alueellinen ruoan kattavuus

Vankka reseptin poimintajärjestelmä kysyy useita tietokantoja ja soveltaa luottamuspainotettua keskiarvoa, kun merkinnät eroavat. Ruokien, joita ei löydy standardoiduista tietokannoista, ravintosisältö voidaan arvioida purkamalla ruoka sen osiin ja summaamalla niiden yksittäiset panokset.

Ruoanlaittoprosessien käsittely

Kriittinen vivahde, joka erottaa tarkan ja arvioidun ravintolaskennan, on ruoanlaittoprosessien huomioiminen. Kun ruokaa kypsennetään, sen ravintosisältö muuttuu:

  • Veden häviäminen: Liha menettää 20–35 prosenttia painostaan kypsennyksen aikana, mikä tiivistää ravinteita gramman kypsennettyä ruokaa kohti
  • Rasvan imeytyminen: Paistetut ruoat imevät keittoöljyä, mikä lisää kaloreita, jotka eivät ole osa raaka-aineprofiilia
  • Ravinteiden hajoaminen: Lämpöherkät vitamiinit, kuten C-vitamiini ja B-vitamiinit, hajoavat kypsennyksen aikana
  • Tärkkelyksen geelin muodostuminen: Kypsennys muuttaa tärkkelysruokien glykeemistä indeksiä
  • Rasvan sulaminen: Rasvaiset lihat kypsennettäessä rasva sulaa, mikä vähentää kulutetun osan kaloripitoisuutta

USDA tarjoaa säilyvyystekijöitä yleisille ravinteille eri kypsennysmenetelmien mukaan. Näiden tekijöiden soveltaminen raaka-aineiden ravintotietoihin tuottaa tarkemman arvion lopullisesta kypsennetystä ruoasta.

Nutrolan ravintomoottori ottaa huomioon nämä kypsennysprosessimallit, säätämällä raaka-aineiden tietokannan arvoja tunnistettujen kypsennysmenetelmien perusteella videoanalyysiprosessin aikana. Kun järjestelmä havaitsee, että kanaa grillataan sen sijaan, että se paistettaisiin, se soveltaa asianmukaisia kosteuden häviämisen ja rasvan säilyttämisen tekijöitä tuottaakseen tarkan kalorilaskelman valmiista ruoasta.

Kuinka Nutrola toteuttaa tämän prosessin

Nutrola tuo tämän monivaiheisen teknisen prosessin käytännön kuluttajakokemukseen. Kun käyttäjä jakaa ruoanlaittovideon tai liittää linkin reseptivideoon, Nutrolan taustajärjestelmä käsittelee videon yllä kuvatun poimintaprosessin läpi ja palauttaa rakenteellisen reseptin täydellisine ravintotietoineen.

Käytännön toteutus sisältää useita teknisiä päätöksiä, jotka tasapainottavat tarkkuutta, nopeutta ja käyttäjäkokemusta:

Valikoiva kehysnäytön otto. Sen sijaan, että käsiteltäisiin jokaista kehystä, Nutrolan järjestelmä tunnistaa avainkehykset, joissa tapahtuu merkittäviä visuaalisia muutoksia, kuten uusien ainesosien ilmestyminen, ruoanlaitto-toimintojen muuttuminen tai näytön tekstin päivitys. Tämä vähentää laskentakustannuksia 80–90 prosenttia samalla, kun se kaappaa olennaisen visuaalisen tiedon.

Luottamuspisteytys. Jokaisella poimitulla elementillä on luottamuspiste, joka on saatu eri muotojen yhteensopivuudesta. Ainesosat, jotka on vahvistettu puheen, tekstin ja visuaalisen tunnistuksen avulla, saavat korkean luottamuksen. Yhdisteet, jotka havaitaan vain yhdellä muodolla, merkitään käyttäjän vahvistettavaksi.

Käyttäjän korjausprosessi. Kun järjestelmä on epävarma ainesosasta tai määrästä, se esittää parhaan arvionsa käyttäjälle mahdollisuudella korjata. Nämä korjaukset palautuvat malliin, parantaen poiminnan tarkkuutta ajan myötä ihmisen osallistumisen kautta.

Tietokanta-pohjainen vahvistus. Poimitut reseptit validoidaan ravintotietojen uskottavuusrajojen mukaan. Jos järjestelmä poimii määrän, joka johtaisi epäuskottavaan korkeaan tai matalaan kalorimäärään ruokalajityypille, se merkitään tarkistettavaksi.

Tämä lähestymistapa muuttaa passiivisen kokemuksen ruoanlaittovideon katsomisesta toiminnalliseksi ravintotiedoksi, joka integroituu suoraan käyttäjän päivittäiseen seurantaan. Sen sijaan, että käyttäjät etsivät manuaalisesti jokaista ainesosaa ja arvioivat annoksia, he saavat täydellisen ravintotiedon suoraan videon sisällöstä.

Tutkimuksen raja: Mitä seuraavaksi

Monimuotoinen reseptin poiminta kehittyy nopeasti. Useat tutkimussuunnat lupaavat parantaa tarkkuutta ja kykyä entisestään.

Päättäväiset monimuotoiset mallit

Nykyiset prosessit käsittelevät kutakin muotoa erikseen ennen niiden yhdistämistä. Uudet monimuotoiset arkkitehtuurit käsittelevät videota, ääntä ja tekstiä samanaikaisesti yhdessä mallissa. Googlen Gemini ja vastaavat monimuotoiset perustamallit voivat ottaa videota suoraan ja järkeillä eri muotojen välillä ilman erillisiä välivaiheita. Nämä mallit lupaavat yksinkertaisempia prosesseja ja parempaa ristimuotoista päättelyä, vaikka ne vaativat merkittäviä laskentatehoja.

Menettelyllinen ymmärrys

Nykyiset järjestelmät poimivat tasaisen listan ainesosia ja vaiheita. Tulevaisuuden järjestelmät rakentavat rikkaampia menettelyllisiä esityksiä, jotka kaappaavat reseptin graafirakenteen: mitkä vaiheet riippuvat toisistaan, mitkä ainesosat käytetään missä vaiheessa ja kuinka välitulokset yhdistyvät. Tämä menettelyllinen ymmärrys mahdollistaa tarkemman ravintolaskennan seuraamalla, kuinka ainesosat muuttuvat jokaisessa vaiheessa.

Henkilökohtainen ravintotietojen arviointi

Kun reseptin poimintajärjestelmät käsittelevät enemmän dataa, ne voivat oppia yksilöllisiä luojamalleja. Järjestelmä, joka on analysoinut 100 videota samalta luojalta, oppii, että kun tämä luoja sanoo "loraus oliiviöljyä", he käyttävät tyypillisesti noin yhtä ruokalusikallista. Tämä henkilökohtainen kalibrointi parantaa määrän arviointia merkittävästi.

Kulttuurinen ja alueellinen ruokatieto

Reseptin poiminnan laajentaminen globaalin keittiön täyteen monimuotoisuuteen vaatii syvällistä kulttuurista ruokatietoa. Tietäen, että "lautanen injeraa wotilla" etiopialaisessa ruoanlaitossa seuraa tiettyjä suhteellisia konventioita tai että "kulhollinen pho" vietnamilaisessa keittiössä sisältää tyypillisiä ainesosien suhteita, mahdollistaa järjestelmän tehdä perusteltuja arvioita, vaikka eksplisiittisiä määriä ei annettaisi.

Usein kysytyt kysymykset

Kuinka tarkkaa AI:n reseptin poiminta ruoanlaittovideoista on verrattuna manuaaliseen tekstireseptin lukemiseen?

Nykyiset monimuotoiset poimintaprosessit saavuttavat 85–92 prosentin tarkkuuden ainesosien tunnistuksessa ja 75–85 prosentin tarkkuuden määrän poiminnassa verrattuna videoiden luojien kirjoittamiin totuusteksteihin. Virheiden pääasiallinen lähde on määrän arviointi, kun luojat eivät ilmoita eksplisiittisiä mittauksia. Vertailun vuoksi ihmisten manuaalinen transkripti tuottaa noin 90–95 prosentin tarkkuuden, mikä tarkoittaa, että AI:n poiminta lähestyy ihmistasoista suorituskykyä tässä tehtävässä. Nutrolan toteutus sisältää käyttäjän vahvistusvaiheen matalan luottamuksen poiminnassa, mikä nostaa tehokkaan tarkkuuden yli 95 prosenttiin käytännössä.

Mitä tapahtuu, kun ruoanlaittovideossa ei ilmoiteta eksplisiittisiä ainesosmääriä?

Kun määriä ei ilmoiteta eksplisiittisesti puheessa tai näytön tekstissä, järjestelmä turvautuu arviointimenetelmien hierarkiaan. Ensinnäkin se yrittää arvioida visuaalista määrää videokehyksistä käyttäen syvyyden arviointia ja viiteobjektin skaalausta. Toiseksi se konsultoi tietopankkia tyypillisistä määristä ruokalajityypille. Kolmanneksi se käyttää tilastollisia keskiarvoja aiemmin poimituista resepteistä samasta ruokalajista. Tuloksena oleva arvio merkitään matalammalla luottamuspisteellä, ja Nutrola esittää sen käyttäjälle huomautuksella, että määrä oli arvioitu eikä ilmoitettu eksplisiittisesti.

Voiko AI poimia reseptejä ruoanlaittovideoista muilla kielillä kuin englanniksi?

Kyllä. Nykyiset ASR-mallit, kuten Whisper, tukevat transkriptiota 915 kielellä, ja OCR-järjestelmät käsittelevät useita skriptejä, mukaan lukien latinalaiset, CJK, kyrilliset, arabialaiset ja devanagari. NLP-analyysivaihe voi toimia useilla kielillä, vaikka tarkkuus on yleensä korkeinta kielillä, joilla on eniten koulutusdataa. Whisper voi myös kääntää ei-englanninkielisen puheen suoraan englanniksi, mikä mahdollistaa alavirran prosessin toimimisen englanniksi, vaikka videot olisivat muilla kielillä. Nutrola tukee reseptin poimintaa videoista yli 30 kielellä.

Kuinka järjestelmä käsittelee reseptejä, joissa luoja tekee korvauksia tai virheitä kuvaamisen aikana?

Videon analyysin aikaluonne auttaa itse asiassa tässä skenaariossa. Kun luoja sanoo "Aion käyttää voita, mutta minulla on vain oliiviöljyä", järjestelmän NLP-kerros tunnistaa korjauksen ja käyttää lopullisessa reseptissä oliiviöljyä voin sijaan. Samoin kun luoja lisää ainesosan ja sanoo "itse asiassa, se on liian paljon, otan vähän pois", järjestelmä seuraa korjausta. Huomiopohjaiset mallit, jotka käsittelevät koko transkriptiota, voivat tunnistaa nämä itsekorjaukset tunnistamalla keskustelupatternit, jotka liittyvät muutoksiin.

Mikä on ero reseptin poiminnan välillä videosta ja verkkosivulta?

Verkkoreseptin poiminta perustuu pääasiassa rakenteelliseen datan analysointiin. Useimmat reseptisivustot käyttävät schema.org-reseptimerkintää, joka tarjoaa koneellisesti luettavia ainesosalistoja, määriä ja ohjeita. Videoreseptin poiminta on perustavanlaatuisesti vaikeampaa, koska tieto on epäjärjestäytynyttä ja jakautuu ääni-, visuaali- ja tekstimuotoihin, jotka on yhdistettävä. Kuitenkin videon poiminnalla on etu, että se voi kaapata valmistustietoja ja visuaalisia määrävihjeitä, joita ei ole tekstiresepteissä. Monet luojat jakavat myös vinkkejä, korvauksia ja kontekstitietoa kerronnassaan, joka ei koskaan esiinny kirjoitetussa reseptissä.

Kuinka ruoanlaittotavan tunnistaminen vaikuttaa poimittujen reseptien ravintotarkkuuteen?

Ruoanlaittotavan tunnistaminen vaikuttaa merkittävästi ravintotarkkuuteen. Paistaminen öljyssä lisää noin 60–100 kaloria kananrintaan verrattuna grillaukseen. Vihannesten keittäminen voi vähentää niiden C-vitamiinipitoisuutta 30–50 prosenttia. AI-putki käyttää toimintojen tunnistusmalleja tunnistaakseen ruoanlaittotavat (grillaus, paistaminen, leivonta, höyrytys, raaka valmistus) ja soveltaa USDA:n ravinteiden säilyvyystekijöitä vastaavasti. Tämä ruoanlaittotapa-tietoisen laskennan käyttö parantaa kalorilaskennan tarkkuutta tyypillisesti 10–15 prosenttia verrattuna pelkästään raaka-ainearvojen käyttöön.

Yhteenveto

Reseptin poiminta ruoanlaittovideosta on mikrocosmos laajemmasta haasteesta tekoälyssä: epäjärjestäytyneen, monimuotoisen, reaalimaailman tiedon ymmärtämisestä. Se vaatii puheentunnistusta, joka toimii meluisissa keittiöissä, tietokonenäköä, joka voi tunnistaa satoja ainesosia eri valmistustiloissa, OCR:ää, joka lukee tyyliteltyä tekstiä sekavilla taustoilla, ja NLP:tä, joka yhdistää kaiken tämän johdonmukaiseksi ravintotiedoksi.

Tässä artikkelissa kuvattu prosessi Whisper-pohjaisesta transkriptiosta CLIP-pohjaiseen visuaaliseen tunnistukseen ja LLM-pohjaiseen reseptin jäsentämiseen edustaa nykyistä huipputekniikkaa. Jokainen komponentti rakentuu vuosien koneoppimisen tutkimuksen varaan, perusasioista CNN:istä ja RNN:istä transformerivallankumoukseen, joka yhdisti NLP:n ja tietokonenäön yhdeksi arkkitehtuuriseksi paradigmaksi.

Nutrolan toteutus tästä prosessista tuo nämä tutkimus-edistykset jokapäiväiseen käyttöön. Automaattisesti poimimalla reseptejä ruoanlaittovideoista, joita käyttäjät jo katsovat, se eliminoi kuilun reseptin löytämisen ja sen ravintovaikutuksen ymmärtämisen välillä. Tuloksena on ravintoseurantakokemus, joka kohtaa käyttäjät siellä, missä he jo ovat, muuttaen passiivisen videon kulutuksen aktiiviseksi ravintotietoisuudeksi ilman manuaalista tietojen syöttämistä.

Kun monimuotoiset AI-mallit jatkuvasti paranevat, reseptin poiminnan tarkkuus ja nopeus tulevat vain lisääntymään. Visio siitä, että osoitat puhelimesi mihin tahansa ruoanlaittosisältöön ja saat heti täydellisen ravintotiedon, ei enää ole tutkimusunelma. Se on toimiva teknologia, ja se paranee jokaisen edistyksen myötä taustalla olevassa tieteessä.

Valmis muuttamaan ravitsemusseurantaasi?

Liity tuhansien joukkoon, jotka ovat muuttaneet terveysmatkansa Nutrola avulla!