Vetenskapen bakom AI-receptutvinning: Hur NLP och datorseende läser matlagningsvideor

14 mars 2026

Utforska den tekniska processen som gör det möjligt för AI att extrahera recept från matlagningsvideor, genom att kombinera taligenkänning, OCR, visuell ingredienskänning och NLP för att automatiskt generera exakt näringsdata.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Matlagningsvideor har blivit det dominerande formatet för att dela recept. Bara på YouTube finns det över 1 miljard visningar av matlagningsvideor varje månad, TikTok:s matinnehåll genererar tiotals miljarder visningar årligen, och Instagram Reels har förvandlat varje hemmakock till en potentiell innehållsskapare. Ändå finns det en bestående klyfta mellan att titta på ett recept och att veta vad det faktiskt innehåller näringsmässigt.

För att överbrygga denna klyfta krävs en flerleds AI-process som kombinerar automatisk taligenkänning, optisk teckenigenkänning, datorseende och naturlig språkbehandling. Denna artikel bryter ner varje steg i den tekniska processen, förklarar modellerna och forskningen som gör det möjligt, och undersöker hur dessa teknologier samverkar för att omvandla en matlagningsvideo till strukturerad näringsdata.

Problemet med receptutvinning: Varför videor är svåra

Textrecept på webbplatser är relativt enkla att bearbeta. De följer förutsägbara strukturer med ingredienslistor, mängder och steg-för-steg-instruktioner. HTML-markup och schema.org-receptanoteringar ger ytterligare maskinläsbar struktur.

Matlagningsvideor presenterar en fundamentalt annan utmaning. Receptinformationen är fördelad över flera modaliteter samtidigt:

Talad berättelse beskriver ingredienser, mängder och tekniker
Text på skärmen visar ingredienslistor, temperaturer och tidpunkter
Visuellt innehåll visar ingredienser som tillsätts, blandas och transformeras
Implicit kunskap förutsätter att tittarna förstår underförstådda steg som att förvärma en ugn eller skölja ris

Ingen enskild modalitet innehåller det kompletta receptet. En skapare kan säga "tillsätt lite olivolja" medan skärmen visar en synlig hällning som antyder ungefär två matskedar, och texten på skärmen visar senare "2 msk olivolja." Att extrahera det kompletta receptet kräver att information från alla dessa källor sammanfogas och konflikter mellan dem löses.

Den multimodala utvinningsprocessen

Den kompletta processen från rå video till strukturerad näringsdata involverar fem huvudsteg:

Steg	Inmatning	Teknologi	Utmatning
1. Ljudutvinning	Videofil	ASR (Whisper)	Tidsstämplad transkription
2. Visuell texteutvinning	Videobilder	OCR (PaddleOCR, EasyOCR)	Text på skärmen med tidsstämplar
3. Visuell ingredienskänning	Videobilder	CNN/Vision Transformers (CLIP, ViT)	Identifierade ingredienser och åtgärder
4. NLP-parsing och fusion	Transkription + OCR + visuell data	Transformermodeller (BERT, LLMs)	Strukturerat recept med mängder
5. Matchning med näringsdatabas	Strukturerat recept	Fuzzy matching + databasuppslag	Komplett näringsanalys

Varje steg presenterar distinkta tekniska utmaningar och bygger på olika områden inom maskininlärningsforskning.

Steg 1: Automatisk taligenkänning för receptberättelse

Det första steget i att extrahera ett recept från en matlagningsvideo är att omvandla den talade berättelsen till text. Detta är området för automatisk taligenkänning, eller ASR.

Whisper-revolutionen

OpenAI:s Whisper-modell, som introducerades i en artikel från 2022 av Radford et al., förändrade grundligt landskapet för tal-till-text för receptutvinning. Tränad på 680 000 timmar av flerspråkig och multitasking-supervised data insamlad från webben, uppnådde Whisper nästan mänsklig transkriptionsnoggrannhet över ett brett spektrum av ljudförhållanden.

Vad som gör Whisper särskilt värdefull för transkribering av matlagningsvideor:

Bullertålighet. Kök är bullriga miljöer. Sizzlande pannor, rinnande vatten, hackljud och bakgrundsmusik konkurrerar alla med berättarens röst. Whispers träning på olika ljudförhållanden innebär att den hanterar dessa överlappande ljudkällor bättre än tidigare ASR-modeller.

Flerspråkig kapacitet. Matlagningsvideor produceras på praktiskt taget alla språk. Whisper stöder transkription på 915 språk och kan översätta till engelska, vilket möjliggör receptutvinning från innehåll oavsett originalspråk.

Interpunktion och formatering. Till skillnad från tidigare ASR-system som producerade platta textströmmar, genererar Whisper punktuerade, formaterade transkriptioner som bevarar meningsgränser. Denna struktur är avgörande för efterföljande NLP-parsing.

Tidsstämplar på ordnivå. Whisper kan producera tidsstämplar på ordnivå, vilket möjliggör exakt anpassning mellan vad som sägs och vad som visas på skärmen vid varje given tidpunkt.

Utmaningar specifika för matlagningsberättelser

Även med Whispers kapabiliteter presenterar matlagningsvideor ASR-utmaningar som inte förekommer i standardiserade taligenkänningsbenchmarkar:

Domänspecifik vokabulär. Ingrediensnamn sträcker sig över tusentals objekt från globala kök. Termer som "gochujang," "za'atar," "tahini," eller "panko" kanske inte förekommer ofta i allmän träningdata. Specialiserade livsmedelsvokabulärmodeller eller efterbehandlingsordlistor är nödvändiga för att korrigera systematiska feltolkningar.

Mängdambiguitet. Talade mängder är ofta otydliga. "En bra mängd salt," "ett stänk vinäger," eller "ungefär så här mycket mjöl" kräver kontextuell tolkning som går bortom transkription.

Kodväxling. Många matlagningsskapare växlar mellan språk, använder engelska för allmän berättelse men sitt modersmål för maträtter eller traditionella tekniker. Flerspråkig ASR måste hantera dessa övergångar smidigt.

Icke-verbal kommunikation. En skapare kan gestikulera mot en ingrediens utan att namnge den, eller säga "detta" medan de håller upp en flaska. Dessa deiktiska referenser kräver korsmodal lösning med det visuella flödet.

Efterbehandling av transkriptionen

Rå ASR-utdata kräver flera efterbehandlingssteg innan det är användbart för receptutvinning:

Korrigering av livsmedelsentiteter använder en domänspecifik ordlista för att åtgärda vanliga feltolkningar (t.ex. "kummin" som misstolkas som "kommande")
Normalisering av mängder konverterar talade siffror och bråk till standardiserade numeriska format
Segmentering delar den kontinuerliga transkriptionen i logiska receptsteg baserat på temporära pauser, övergångsfraser och handlingsverbgränser
Konfidensfiltrering identifierar och flaggar lågkonfidentsegment för potentiell korsmodal verifiering

Steg 2: Optisk teckenigenkänning för text på skärmen

Många matlagningsvideor visar ingredienslistor, mått, temperaturer och instruktioner som textöverlägg på skärmen. Denna text är ofta mer exakt än den talade berättelsen och följer mer standardiserad formatering.

Hur OCR fungerar på videobilder

Att extrahera text från videobilder involverar två deluppgifter: textdetektering (att hitta var text visas i bilden) och textigenkänning (att läsa vad texten säger).

Textdetektering lokaliserar områden i bilden som innehåller text. Moderna detektorer som CRAFT (Character Region Awareness for Text Detection) och DBNet (Differentiable Binarization Network) kan identifiera text oavsett orientering, storlek eller bakgrundskomplexitet. Dessa modeller ger ut bounding boxes eller polygoner runt textområden.

Textigenkänning konverterar de detekterade textområdena till teckensträngar. Arkitekturer baserade på konvolutionella och rekurrenta neurala nätverk, ofta med CTC (Connectionist Temporal Classification) avkodning, bearbetar de beskurna textområdena och ger ut teckenföljder. Nyare tillvägagångssätt använder transformerbaserade arkitekturer för förbättrad noggrannhet på stiliserade typsnitt.

De unika utmaningarna med OCR i matlagningsvideor

Text på skärmen i matlagningsvideor skiljer sig avsevärt från dokumenttext som de flesta OCR-system är optimerade för:

Animerade textöverlägg. Text animeras ofta in och ut, vilket kräver temporär aggregering över flera bilder för att fånga den kompletta texten. En glidande animation kan avslöja texten tecken för tecken över flera bilder.

Dekorativa typsnitt. Matinnehållsskapare använder ofta stiliserade, handskrivna eller dekorativa typsnitt som skiljer sig från de rena typsnitten i standard OCR-träningsdata. Finjustering på matlagningsspecifika typsnittsdatasets förbättrar igenkänningsgraden.

Komplexa bakgrunder. Text överlagras ofta på livliga visuella bakgrunder som visar mat, kök och händer. Hög kontrast mellan text och bakgrund kan inte antas. Textstroke, skugga och bakgrundsoskärpa hjälper till att isolera textlagret.

Flerspråkiga och blandade skript. En enda bild kan innehålla text på flera skript, som engelska mått bredvid japanska maträttnamn. Flerskripts OCR-modeller eller skriptidentifiering följt av språk-specifika igenkänningsprocesser hanterar denna variation.

Temporär deduplicering och aggregering

Eftersom videobilder samplas flera gånger per sekund kommer samma text på skärmen att detekteras över många på varandra följande bilder. OCR-processen måste:

Sampla bilder med en lämplig hastighet (vanligtvis 1 till 2 bilder per sekund för textdetektering)
Spåra textområden över bilder för att identifiera beständig versus tillfällig text
Deduplicera upprepade detektioner av samma text
Sammanfoga delvisa detektioner från animerade textavslöjanden
Koppla varje textelement till sitt temporära fönster för senare fusion med ljud- och visuell data

Utdata från detta steg är en tidsstämplad lista över textelement på skärmen, var och en kopplad till sin synlighetstid och rumsliga position i bilden.

Steg 3: Visuell ingredienskänning med datorseende

Utöver text innehåller det visuella innehållet i en matlagningsvideo rik information om ingredienser, mängder och tillagningsmetoder. Datorseendemodeller kan identifiera ingredienser när de dyker upp, uppskatta mängder utifrån visuella ledtrådar och känna igen matlagningsåtgärder.

Ingredienskänning med Vision Transformers och CLIP

Modern visuell ingredienskänning bygger på två viktiga framsteg: Vision Transformers (ViT) och kontrastiv språk-bild förträning (CLIP).

Vision Transformers, introducerade av Dosovitskiy et al. 2020, tillämpar transformerarkitekturen på bildigenkänning. Istället för att använda konvolutionella lager, delar ViT en bild i patchar och bearbetar dem som en sekvens, liknande hur transformatorer bearbetar ord i en mening. Detta tillvägagångssätt har visat sig särskilt effektivt för finfördelad visuell igenkänning, som ingredienskänning, där subtila skillnader i färg, textur och form särskiljer liknande objekt.

CLIP, utvecklat av Radford et al. på OpenAI 2021, lär sig visuella koncept från naturlig språkövervakning. Tränad på 400 miljoner bild-text-par, kan CLIP känna igen objekt som beskrivs i text utan att ha blivit uttryckligen tränad på märkta exempel av dessa objekt. För ingredienskänning innebär detta att ett CLIP-baserat system kan identifiera en ingrediens även om den inte fanns i träningsuppsättningen, så länge den kan matcha det visuella utseendet med en textuell beskrivning.

Den praktiska fördelen med CLIP för receptutvinning är dess zero-shot och few-shot kapabilitet. Mat sträcker sig över en enorm variation av ingredienser, tillagningsmetoder och kulturella presentationer. En traditionell klassificeringsmodell skulle behöva märkta tränings exempel för varje ingrediens i varje tillagningsstatus. CLIP kan generalisera från sin breda förträning för att känna igen nya ingredienser som beskrivs i textform.

Känna igen matlagningsåtgärder

Att identifiera vilka åtgärder som utförs är lika viktigt som att identifiera ingredienserna själva. Åtgärdigenkänning talar om för systemet huruvida en ingrediens hackas, sauteras, blandas eller grillas, vilket direkt påverkar det slutliga näringsinnehållet.

Forskning inom videoåtgärdigenkänning har producerat modeller som analyserar temporära sekvenser av bilder för att klassificera åtgärder. Tillvägagångssätt som SlowFast-nätverk (Feichtenhofer et al., 2019) bearbetar video vid två temporala upplösningar samtidigt: en långsam väg fångar rumslig detalj medan en snabb väg fångar rörelse. Tillämpade på matlagningsvideor kan dessa modeller särskilja mellan att röra, vispa, vika och knåda, var och en med olika implikationer för receptstrukturen.

Dataseten Food-101 och Recipe1M+ (Marin et al., 2019) har varit avgörande för träning och utvärdering av livsmedelsspecifika datorseendemodeller. Recipe1M+ innehåller över 1 miljon matlagningsrecept med 13 miljoner matbilder, vilket ger den skala som behövs för att träna modeller som generaliserar över kök och tillagningsstilar.

Visuell mängd uppskattning

En av de mest utmanande aspekterna av visuell receptutvinning är att uppskatta ingrediensernas mängder från video. När en skapare häller olja i en panna eller skopar mjöl i en skål, innehåller den visuella informationen ledtrådar om mängden, men att översätta dessa ledtrådar till exakta mått kräver sofistikerad rumslig resonemang.

Nuvarande tillvägagångssätt kombinerar:

Referensobjekt skalning: Använder kända objekt i bilden (standardpannor, mätkoppar, skärbrädor) för att etablera en skala referens
Volymuppskattning från hälldynamik: Analyserar varaktigheten och flödeshastigheten av hällda vätskor för att uppskatta volym
Djupuppskattning: Monokulära djupuppskattningsmodeller som MiDaS (Ranftl et al., 2020) kan uppskatta djupet av ingredienser i behållare, vilket hjälper till att uppskatta volym från en 2D-bild
Jämförande lärande: Modeller som tränats på par av bilder med kända mängder lär sig att uppskatta mängder genom visuell jämförelse

Visuell mängd uppskattning förblir mindre exakt än explicita mått från tal eller text, vanligtvis med en noggrannhet inom 20 till 30 procent. Men det ger en användbar korskontroll och fyller luckor när mängder inte anges uttryckligen.

Steg 4: Naturlig språkbehandling för receptparsing och fusion

Med transkriptioner, text på skärmen och visuella anteckningar i handen står NLP-steget inför uppgiften att sammanfoga dessa multimodala signaler till ett enda, sammanhängande, strukturerat recept.

Namngiven entitetsigenkänning för livsmedel

Den första NLP-uppgiften är att identifiera livsmedelsrelaterade entiteter i transkriptionen och OCR-texten. Detta är en specialiserad form av namngiven entitetsigenkänning (NER) som måste identifiera:

Ingredienser: "kycklingbröst," "extra jungfruolivolja," "kosher salt"
Mängder: "två koppar," "350 gram," "ett nypa"
Enheter: "matskedar," "milliliter," "medelstor"
Tillagningsmodifierare: "tärnad," "hackad," "rumstemperatur"
Matlagningsåtgärder: "sautera," "grilla vid 375," "sjuda i 20 minuter"
Utrustning: "gjutjärnspanna," "stativblandare," "plåt"

Transformerbasierade NER-modeller som finjusterats på livsmedelskorpor uppnår F1-poäng över 90 procent på standard livsmedels NER-benchmarkar. FoodBase-korpuset (Popovski et al., 2019) och TASTEset-datasetet tillhandahåller annoterad livsmedelstext specifikt för träning av dessa modeller.

Beroendeparsing för ingrediens-mängd-association

Att identifiera entiteter ensam är otillräckligt. Systemet måste avgöra vilka mängder som hör till vilka ingredienser. I meningen "Tillsätt två koppar mjöl och en tesked salt" måste systemet korrekt koppla "två koppar" med "mjöl" och "en tesked" med "salt."

Detta kräver beroendeparsing, som analyserar den grammatiska strukturen av meningar för att identifiera relationer mellan ord. Moderna beroendeparsers baserade på BERT-arkitekturen (Devlin et al., 2019) hanterar den syntaktiska komplexiteten i matlagningsinstruktioner, inklusive sammansatta ingredienser som "färskpressad citronsaft" och nästlade modifierare som "en 14-ounce burk med tärnade eldrostade tomater."

Korsmodal fusion: Lösa konflikter och fylla luckor

Den mest tekniskt utmanande aspekten av NLP-steget är att sammanfoga information från alla tre modaliteter (ljud, text, visuell) till ett enda konsekvent recept. Denna fusion måste hantera:

Överenskommelseförstärkning. När transkriptionen säger "två matskedar soja," visar texten på skärmen "2 msk soja," och det visuella flödet visar en mörk vätska som hälls, är alla tre källor överens och systemet har hög konfident.

Konfliktlösning. När transkriptionen säger "en kopp socker" men texten på skärmen säger "3/4 kopp socker," måste systemet avgöra vilken källa som ska litas på. Generellt prioriteras texten på skärmen för exakta mått eftersom skapare vanligtvis lägger till textöverlägg som korrigeringar eller förtydliganden till sin berättelse.

Luckfyllning. När berättaren säger "smaka av" utan att specificera mängder, kan systemet använda visuell uppskattning av kryddningsåtgärden kombinerat med databasens kunskap om typiska kryddningsmängder för maträttstypen för att dra rimliga värden.

Temporär anpassning. Att matcha information över modaliteter kräver temporär anpassning. En talad ingrediensreferens vid tidsstämpel 2:34 bör matchas med text på skärmen synlig från 2:30 till 2:40 och visuell ingredienskänning från samma tidsfönster. Dynamisk tidskrig och uppmärksamhetsbaserade anpassningsmekanismer hanterar den osäkra synkroniseringen mellan tal, text och visuella händelser.

Stora språkmodeller för receptstrukturering

Nyliga framsteg inom stora språkmodeller (LLMs) har introducerat ett kraftfullt nytt tillvägagångssätt för receptstrukturering. Istället för att bygga separata modeller för NER, beroendeparsing och fusion, kan en LLM bearbeta den kombinerade transkriptionen och OCR-utdata och generera ett strukturerat recept i ett enda steg.

Modellen får en prompt som innehåller transkriptionen, OCR-texten och beskrivningar av visuella observationer, tillsammans med instruktioner att producera ett strukturerat recept i ett definierat format. LLM:er är särskilt bra på denna uppgift eftersom de kodar omfattande världskunskap om matlagning, inklusive typiska ingredienser, vanliga ingredienskombinationer och standard tillagningsmetoder.

Detta tillvägagångssätt har flera fördelar:

Det hanterar tvetydighet naturligt genom att dra på världskunskap
Det löser samreferenser (t.ex. att förstå att "det" i "rör om det ibland" hänvisar till såsen som nämndes tre meningar tidigare)
Det kan dra slutsatser om underförstådda steg baserat på matlagningskunskap
Det normaliserar ingrediensnamn till kanoniska former som är lämpliga för databasuppslag

Den primära begränsningen är att LLM-utdata kräver validering. Hallucination, där modellen genererar plausibel men felaktig information, måste skyddas mot genom korsreferens med källmodaliteterna och näringsdatabasens begränsningar.

Steg 5: Matchning och beräkning med näringsdatabas

Det sista steget omvandlar det strukturerade receptet till en komplett näringsanalys. Detta kräver att varje extraherad ingrediens matchas med en post i en omfattande näringsdatabas och att de per portion näringsvärdena beräknas.

Matchningsutmaningen

Ingrediensnamn som extraheras från matlagningsvideor matchar sällan databasposter exakt. En video kan referera till "en stor handfull babyspenat" medan databasen innehåller poster för "spenat, rå" mätt i gram. Matchningssystemet måste hantera:

Synonymupplösning: "koriander" och "korianderblad" är samma ingrediens
Tillagningsstatuskartläggning: "rostade mandlar" kartläggs till en annan näringsprofil än "råa mandlar"
Märke och sortnormalisering: "Barilla penne" kartläggs till "pasta, penne, torr" med märke-specifika justeringar
Umgänges till teknisk översättning: "en bit smör" kartläggs till "smör, saltat, 113g"
Enhetskonvertering: "en kopp mjöl" måste konverteras till gram med hjälp av ingrediensspecifika densitetsvärden, eftersom en kopp mjöl väger ungefär 120g medan en kopp socker väger ungefär 200g

Fuzzy string matching-algoritmer som Levenshtein-avstånd och TF-IDF kosinuslikhet ger grundläggande matchning. Mer avancerade tillvägagångssätt använder inbäddningsbaserad likhet, där både den extraherade ingredienstexten och databasposterna kodas till vektorrepräsentationer med modeller som Sentence-BERT (Reimers och Gurevych, 2019), och den närmaste matchningen i inbäddningsutrymmet väljs.

Näringsdatabaser och deras täckning

Flera stora näringsdatabaser fungerar som grund för näringsberäkningar:

Databas	Täckning	Underhålls av	Nyckelstyrka
USDA FoodData Central	370 000+ livsmedel	U.S. Department of Agriculture	Omfattande näringsprofiler
Open Food Facts	3 000 000+ produkter	Gemenskapsbidragsgivare	Global täckning av förpackad mat
COFID (McCance och Widdowson)	3 000+ livsmedel	UK Food Standards Agency	UK-specifika livsmedelskompositioner
Australian Food Composition Database	2 500+ livsmedel	Food Standards Australia New Zealand	Regional täckning av livsmedel

Ett robust receptutvinningssystem frågar flera databaser och tillämpar konfidensviktad genomsnittlig beräkning när posterna skiljer sig. För livsmedel som inte finns i standarddatabaser kan systemet uppskatta näringsinnehållet genom att bryta ner livsmedlet i sina beståndsdelar och summera deras individuella bidrag.

Hantering av tillagningsförändringar

En kritisk nyans som skiljer noggranna från approximativa näringsberäkningar är att ta hänsyn till tillagningsförändringar. När mat lagas förändras dess näringsinnehåll:

Vattenförlust: Kött förlorar 20 till 35 procent av sin vikt under tillagning, vilket koncentrerar näringsämnen per gram av den tillagade maten
Fettabsorption: Friterade livsmedel absorberar matolja, vilket lägger till kalorier som inte ingår i den råa ingrediensprofilen
Nutrientnedbrytning: Värmekänsliga vitaminer som vitamin C och B-vitaminer bryts ner under tillagning
Stärkelsegelatinisering: Tillagning förändrar glykemiskt index för stärkelsebaserade livsmedel
Fettutvinning: Tillagning av feta köttstycken gör att fettet rinner ut, vilket minskar kaloriinnehållet i den konsumerade portionen

USDA tillhandahåller retentionfaktorer för vanliga näringsämnen över olika tillagningsmetoder. Att tillämpa dessa faktorer på de råa ingrediensers näringsvärden ger en mer exakt uppskattning av den slutliga tillagade rätten.

Nutrolas näringsmotor inkorporerar dessa modeller för tillagningsförändringar, vilket justerar värdena i den råa ingrediensdatabasen baserat på de tillagningsmetoder som identifierats under videoanalysprocessen. När systemet upptäcker att kyckling grillas istället för att friteras, tillämpar det lämpliga faktorer för fuktförlust och fettbevarande för att producera en exakt kaloriuppskattning för den färdiga rätten.

Hur Nutrola implementerar denna process

Nutrola tar denna flerleds tekniska process till en praktisk konsumentupplevelse. När en användare delar en matlagningsvideo eller klistrar in en länk till en receptvideo, bearbetar Nutrolas backend videon genom den beskrivna utvinningsprocessen och returnerar ett strukturerat recept med fullständig näringsdata.

Den praktiska implementeringen involverar flera ingenjörsbeslut som balanserar noggrannhet, hastighet och användarupplevelse:

Selektiv bildsampling. Istället för att bearbeta varje bild identifierar Nutrolas system nyckelbilder där betydande visuella förändringar sker, såsom nya ingredienser som dyker upp, matlagningsåtgärder som förändras eller text på skärmen som uppdateras. Detta minskar den beräkningsmässiga kostnaden med 80 till 90 procent samtidigt som den relevanta visuella informationen fångas.

Konfidensbedömning. Varje extraherat element bär en konfidenspoäng som härstammar från överenskommelse mellan modaliteter. Ingredienser som bekräftas av tal, text och visuell igenkänning får hög konfident. Ingredienser som endast detekteras av en modalitet flaggas för användarverifiering.

Användarkorrigeringsloop. När systemet är osäkert på en ingrediens eller mängd, presenterar det sin bästa uppskattning för användaren med möjlighet att korrigera. Dessa korrigeringar matas tillbaka till modellen, vilket förbättrar utvinningsnoggrannheten över tid genom en människa-i-loopen lärandeprocess.

Databasstödd validering. Extraherade recept valideras mot näringsmässiga rimlighetsbegränsningar. Om systemet extraherar en mängd som skulle resultera i en osannolik hög eller låg kaloriantal för maträttstypen flaggar det extraktionen för granskning.

Denna metod förvandlar den passiva upplevelsen av att titta på en matlagningsvideo till handlingsbar näringsdata som integreras direkt i en användares dagliga spårning. Istället för att manuellt söka efter varje ingrediens och uppskatta portioner får användarna en komplett näringsanalys som härstammar direkt från videoinnehållet.

Forskningsgränsen: Vad kommer härnäst

Fältet för multimodal receptutvinning utvecklas snabbt. Flera forskningsriktningar lovar att ytterligare förbättra noggrannhet och kapabilitet.

End-to-End multimodala modeller

Nuvarande processer bearbetar varje modalitet separat innan de sammanfogas. Framväxande multimodala arkitekturer bearbetar video, ljud och text samtidigt i en enda modell. Googles Gemini och liknande multimodala grundmodeller kan ta emot video direkt och resonera över modaliteter utan explicita mellanliggande representationer. Dessa modeller lovar enklare processer och bättre korsmodal resonemang, även om de kräver betydande beräkningsresurser.

Procedural förståelse

Nuvarande system extraherar en platt lista av ingredienser och steg. Framtida system kommer att bygga rikare procedurala representationer som fångar grafstrukturen av ett recept: vilka steg som beror på vilka andra, vilka ingredienser som används i vilket skede, och hur mellanresultat kombineras. Denna procedurala förståelse möjliggör mer exakta näringsberäkningar genom att spåra hur ingredienser transformeras genom varje steg.

Personlig näringsuppskattning

När receptutvinningssystem bearbetar mer data kan de lära sig individuella skaparmönster. Ett system som har analyserat 100 videor från samma skapare lär sig att när denna skapare säger "ett stänk olivolja," använder de vanligtvis ungefär en matsked. Denna personliga kalibrering förbättrar mängduppskattningen avsevärt.

Kulturell och regional livsmedelskunskap

Att utvidga receptutvinning till den fulla mångfalden av globala kök kräver djup kulturell livsmedelskunskap. Att veta att "en tallrik injera med wot" i etiopisk matlagning följer specifika proportionella konventioner, eller att "en skål pho" i vietnamesisk matlagning har typiska ingredienser, gör att systemet kan göra informerade uppskattningar även när explicita mängder inte anges.

Vanliga frågor

Hur noggrant är AI-receptutvinning från matlagningsvideor jämfört med att manuellt läsa ett textrecept?

Nuvarande multimodala utvinningsprocesser uppnår 85 till 92 procent noggrannhet på ingrediensidentifiering och 75 till 85 procent noggrannhet på mängdutvinning när de jämförs med verkliga recept skrivna av videokreatörerna. Den primära källan till fel är mängduppskattning när skapare inte anger explicita mått. För jämförelse uppnår manuell transkription av mänskliga tittare ungefär 90 till 95 procent noggrannhet, vilket innebär att AI-utvinning närmar sig mänsklig nivå av prestanda för denna uppgift. Nutrolas implementering inkluderar ett användarverifieringssteg för lågkonfidentutvinningar, vilket höjer den effektiva noggrannheten över 95 procent i praktiken.

Vad händer när en matlagningsvideo inte anger explicita ingredienser?

När mängder inte anges uttryckligen i tal eller text på skärmen, faller systemet tillbaka på en hierarki av uppskattningsmetoder. Först försöker det visuell mängd uppskattning från videobilderna med hjälp av djupuppskattning och referensobjektskalning. För det andra konsulterar det en kunskapsbas med typiska mängder för maträttstypen. För det tredje använder det statistiska genomsnitt från tidigare extraherade recept av samma maträtt. Den resulterande uppskattningen flaggas med en lägre konfidenspoäng, och Nutrola presenterar den för användaren med en notis om att mängden uppskattades snarare än uttryckligen angavs.

Kan AI extrahera recept från matlagningsvideor på andra språk än engelska?

Ja. Moderna ASR-modeller som Whisper stöder transkription på 915 språk, och OCR-system hanterar flera skript inklusive latinska, CJK, kyrilliska, arabiska och devanagari. NLP-parsinglagret kan fungera på flera språk, även om noggrannheten generellt är högst för språk med mest träningdata. Whisper kan också översätta icke-engelskt tal direkt till engelska, vilket gör att den efterföljande processen kan fungera på engelska även för videor på andra språk. Nutrola stöder receptutvinning från videor på över 30 språk.

Hur hanterar systemet recept där skaparen gör substitutioner eller misstag under filmningen?

Den temporära naturen av videoanalys hjälper faktiskt i detta scenario. När en skapare säger "Jag skulle använda smör men jag har bara olivolja," identifierar systemets NLP-lager korrigeringen och använder olivolja istället för smör i det slutliga receptet. På samma sätt, när en skapare lägger till en ingrediens och sedan säger "egentligen, det är för mycket, låt mig ta bort lite," spårar systemet korrigeringen. Uppmärksamhetsbaserade modeller som bearbetar hela transkriptionen kan identifiera dessa självkorrektioner genom att känna igen diskursmönster kopplade till revideringar.

Vad är skillnaden mellan receptutvinning från video och receptutvinning från en webbsida?

Webbreceptutvinning förlitar sig främst på strukturerad databehandling. De flesta receptwebbplatser använder schema.org-receptmarkering, vilket ger maskinläsbara ingredienslistor, mängder och instruktioner. Video receptutvinning är fundamentalt svårare eftersom informationen är ostrukturerad och fördelad över ljud-, visuell- och textmodaliteter som måste sammanfogas. Men videoutvinning har fördelen av att fånga tillagningsdetaljer och visuella mängdledtrådar som saknas i textrecept. Många skapare delar också tips, substitutioner och kontextuell information i sin berättelse som aldrig förekommer i ett skriftligt recept.

Hur påverkar tillagningsmetoddetektion den näringsmässiga noggrannheten i extraherade recept?

Detektion av tillagningsmetoder påverkar betydligt den näringsmässiga noggrannheten. Att fritera ett kycklingbröst i olja lägger till ungefär 60 till 100 kalorier jämfört med att grilla samma bröst på grund av oljeabsorption. Att koka grönsaker kan minska deras vitamin C-innehåll med 30 till 50 procent. AI-processen använder åtgärdigenkänningsmodeller för att identifiera tillagningsmetoder (grillning, fritering, bakning, ångkokning, rå tillagning) och tillämpar USDA:s näringsretentionsfaktorer i enlighet med detta. Denna beräkning som tar hänsyn till tillagningsmetoder förbättrar vanligtvis kaloriuppskattningens noggrannhet med 10 till 15 procent jämfört med att använda råa ingrediensvärden ensam.

Slutsats

Att extrahera ett recept från en matlagningsvideo är en mikrokosmos av den bredare utmaningen inom artificiell intelligens: att förstå ostrukturerad, multimodal, verklig information. Det kräver taligenkänning som fungerar i bullriga kök, datorseende som kan identifiera hundratals ingredienser i varierande tillstånd av tillagning, OCR som läser stiliserad text på röriga bakgrunder och NLP som sammanfogar allt detta till en sammanhängande näringsbild.

Processen som beskrivs i denna artikel, från Whisper-baserad transkription genom CLIP-driven visuell igenkänning till LLM-baserad receptstrukturering, representerar den nuvarande teknikens spets. Varje komponent bygger på år av maskininlärningsforskning, från det grundläggande arbetet med CNN och RNN till transformerrevolutionen som förenade NLP och datorseende under en enda arkitektonisk paradigm.

Nutrolas implementering av denna process tar dessa forskningsframsteg till vardaglig användning. Genom att automatiskt extrahera recept från de matlagningsvideor som användarna redan tittar på, eliminerar det klyftan mellan att upptäcka ett recept och förstå dess näringsmässiga påverkan. Resultatet är en näringsspårningsupplevelse som möter användarna där de redan är, och förvandlar passiv videokonsumtion till aktiv näringsmedvetenhet utan att kräva manuell datainmatning.

Allteftersom multimodala AI-modeller fortsätter att förbättras kommer noggrannheten och hastigheten för receptutvinning endast att öka. Visionen om att rikta din telefon mot vilket matlagningsinnehåll som helst och omedelbart få en komplett näringsanalys är inte längre en forskningsambition. Det är en fungerande teknik, och den blir bättre med varje framsteg inom den underliggande vetenskapen.

Redo att förvandla din näringsspårning?

Gå med tusentals som har förvandlat sin hälsoresa med Nutrola!

Download on theApp Store

GET IT ONGoogle Play