Hvordan AI Estimerer Portionsstørrelser fra Fotos: En Teknisk Dybdegående Analyse
En detaljeret gennemgang af, hvordan AI bruger dybdeestimering, referenceobjekter og volumemodellering til at estimere portionsstørrelser fra et enkelt fotografi.
At identificere, hvad der er på din tallerken, er kun halvdelen af udfordringen ved AI-drevet kalorieregistrering. Den anden halvdel, og måske den sværere, er at finde ud af, hvor meget mad der er. En portion pasta kan være 200 kalorier eller 800 kalorier afhængigt af størrelsen. At få denne estimering korrekt er det, der adskiller et nyttigt ernæringssporingsværktøj fra en sjov gadget.
Denne artikel dykker ned i, hvordan AI-systemer estimerer portionsstørrelser fra fotografier ved at dække dybdeestimering, referenceobjektskalering, volumemodellering og de udfordringer, forskere og ingeniører fortsat står overfor for at gøre disse estimater mere præcise.
Hvorfor Portionsestimering Er Sværere End Madgenkendelse
Madgenkendelse er grundlæggende et klassifikationsproblem. Systemet skal vælge fra et begrænset sæt af madkategorier. Portionsestimering er derimod et regressionsproblem. Systemet skal forudsige en kontinuerlig værdi (gram eller milliliter) udelukkende baseret på visuel information.
Flere faktorer gør dette særligt udfordrende:
- 2D-til-3D-problemet: Et fotografi komprimerer den tredimensionelle virkelighed til et todimensionelt billede. Dybdeinformation går tabt, hvilket gør det svært at skelne mellem et tyndt lag mad og en tyk bunke.
- Variabel tæthed: En kop bladgrønt og en kop granola har samme volumen, men vidt forskellige vægte og kalorieindhold. Systemet skal estimere både volumen og tæthed.
- Perspektivforvrængning: Den vinkel, hvorfra et foto tages, påvirker, hvor store madvarer ser ud. En tallerken taget direkte ovenfra ser anderledes ud end den samme tallerken taget fra en 45-graders vinkel.
- Uklar skalering: Uden et kendt referenceobjekt i billedet er der ingen måde at bestemme den absolutte størrelse på. Et nærbillede af en lille småkage kan se identisk ud med et foto af en stor pizza taget fra længere væk.
Dybdeestimering fra Et Enkelt Billede
En af de vigtigste gennembrud, der muliggør portionsestimering fra fotos, er monokulær dybdeestimering, evnen til at udlede dybdeinformation fra et enkelt billede i stedet for at kræve stereokameraer eller specialiseret hardware.
Hvordan Monokulær Dybdeestimering Fungerer
Det menneskelige visuelle system udleder dybde fra mange cues: objektoverlap (nærmere objekter dækker længere væk), relativ størrelse (mindre objekter er normalt længere væk), teksturgradienter (teksturer bliver finere på større afstande) og atmosfærisk perspektiv (fjerne objekter ser mere tågede ud).
Deep learning-modeller kan lære disse samme cues fra store datasæt af billeder parret med dybdekort. Når de anvendes på madfotografi, kan disse modeller estimere, hvilke dele af en madvare der er tættere på kameraet, og hvilke der er længere væk, hvilket effektivt rekonstruerer den tredimensionelle form af maden fra et fladt billede.
Dybdekort og Madvolumen
Et dybdekort tildeler en afstandsværdi til hver pixel i billedet. For madestimering betyder det, at systemet kan bestemme, at midten af en skål suppe er i en dybde, mens kanten af skålen er i en anden dybde. Forskellen mellem disse dybder, kombineret med de registrerede grænser af maden, gør det muligt for systemet at estimere volumen.
Moderne smartphone-kameraer med LiDAR-sensorer (tilgængelige på de seneste iPhone Pro og iPad Pro-modeller) kan indfange faktisk dybdedata sammen med farvebilledet, hvilket giver meget mere præcise dybdeoplysninger end algoritmisk estimering alene. Madsporingsapps kan udnytte denne hardware, når den er tilgængelig, mens de falder tilbage på monokulær estimering på enheder uden dybdesensorer.
Referenceobjekt Skalering
Uden et kendt referencepunkt er den absolutte størrelse af objekter i et fotografi uklar. Referenceobjektskalering løser dette problem ved at bruge objekter med kendte dimensioner til at etablere en størrelsesskala for hele billedet.
Almindelige Referenceobjekter
| Referenceobjekt | Kendt Dimension | Præcisionsfordel |
|---|---|---|
| Standard middagstallerken | 25-27 cm diameter | Etablerer den overordnede skala for måltidet |
| Gaffel eller ske | ~19 cm længde | Giver skala selv i nærbilleder |
| Kreditkort | 8.56 x 5.4 cm | Præcist og universelt standardiseret |
| Smartphone | Varierer efter model, men kendt | Kan detekteres og måles algoritmisk |
| Hånd | Varierer, men kan estimeres ud fra demografi | Omtrentlig skalering når der ikke er andre referencer tilgængelige |
Automatisk Reference Detektion
I stedet for at kræve, at brugerne placerer et referencekort ved siden af deres mad (hvilket tilføjer friktion og afskrækker brugen), forsøger moderne systemer at detektere almindelige referenceobjekter automatisk. Tallerkener, skåle, bestik og borde vises ofte i madfotos og kan fungere som størrelsesreferencer, hvis systemet kan identificere dem.
Nutrolas portionsestimeringssystem søger automatisk efter tallerkener, skåle og bestik i billedet for at etablere skala. Når disse objekter detekteres, bruger systemet deres typiske dimensioner til at kalibrere størrelsen på madvarer. Når der ikke findes noget referenceobjekt, er systemet afhængigt af lærte priorer om typiske portionsstørrelser og kan bede brugeren om at bekræfte.
Tallerken-Baseret Kalibrering
En særligt effektiv tilgang er tallerken-baseret kalibrering. Standard middagstallerkener i de fleste lande falder inden for et snævert størrelsesområde (25 til 27 cm i diameter). Ved at detektere den elliptiske kontur af en tallerken i billedet og antage en standardstørrelse kan systemet etablere en pålidelig skala for alt på tallerkenen.
Denne tilgang fungerer godt, fordi tallerkener næsten altid er til stede i måltidsfotos, deres elliptiske form er let at detektere uanset kameravinkel, og perspektivforvrængningen af ellipsen faktisk indeholder information om kameravinklen, hvilket hjælper med at korrigere for perspektivvirkninger på maden.
Volumenestimeringsteknikker
Når systemet har identificeret maden, estimeret dybden og etableret skala, skal det kombinere disse oplysninger for at estimere volumen af hver madvare.
Geometriske Primitiver
En tilgang er at tilnærme madvarer som kombinationer af enkle geometriske former:
- Cylindre for høje fødevarer som drikkevarer, stablede pandekager eller lagkager
- Halvkugler for runde fødevarer som skefulde ris, klumper af kartoffelmos eller portioner af is
- Rektangulære prismer for skiver af brød, blokke af ost eller barer
- Truncated cones for skåle med suppe eller morgenmad (skålens form hjælper med at definere volumen)
- Uregelmæssige polyedre for fødevarer med komplekse former som kyllingelår eller hele frugter
Systemet passer en eller flere af disse primitivere til det registrerede madområde og beregner volumen ud fra de tilpassede former og den etablerede skala.
Voxel-Baseret Rekonstruktion
En mere sofistikeret tilgang involverer voxel-baseret rekonstruktion, hvor madvaren modelleres som et tredimensionelt gitter af små terninger (voxels). Hver voxel klassificeres som enten indeholdende mad eller være tom baseret på dybdekortet og segmenteringsmasken. Det samlede volumen er derefter summen af alle madholdige voxels.
Denne metode håndterer uregelmæssige former bedre end geometriske primitivere, men kræver flere beregningsressourcer. Den er særligt nyttig til fødevarer, der ikke overholder enkle former, såsom et revet stykke brød eller et uregelmæssigt skåret stykke frugt.
Neural Volumenestimering
Den nyeste tilgang springer helt over eksplicit geometrisk modellering. I stedet trænes et neuralt netværk end-to-end til at forudsige madvolumen direkte fra billedet. Disse modeller lærer implicitte repræsentationer af madgeometri fra store datasæt af madbilleder parret med faktiske vægtmålinger.
Denne tilgang har vist lovende resultater, fordi den kan fange subtile visuelle cues, der korrelerer med volumen, såsom måden lys reflekterer af overfladen af en væske eller skygge mønsteret kastet af en bunke mad. Den undgår også fejlakkumulering, der kan opstå, når dybdeestimering, segmentering og geometrisk tilpasning udføres som separate trin.
Fra Volumen til Vægt til Kalorier
At estimere volumen er ikke det sidste skridt. For at beregne kalorier skal systemet konvertere volumen til vægt (ved hjælp af madens tæthed) og vægt til kalorier (ved hjælp af ernæringskompositionsdata).
Madens Tæthedsdatabaser
Forskellige fødevarer har meget forskellige tætheder. En kop olie vejer cirka 220 gram, mens en kop mel vejer cirka 120 gram, og en kop popcorn vejer cirka 8 gram. Nøjagtige tæthedsdata er essentielle for at konvertere volumenestimater til vægtestimater.
Produktionssystemer opretholder databaser, der kortlægger madvarer til deres tæthed, idet der tages højde for variationer i tilberedningsmetode (kogt vs. rå, hakket vs. hel) og almindelige serveringsstile.
| Madvare | Tæthed (g/mL) | Vægt pr. Kop (g) | Kalorier pr. Kop |
|---|---|---|---|
| Vand | 1.00 | 237 | 0 |
| Sødmælk | 1.03 | 244 | 149 |
| Kogt hvid ris | 0.74 | 175 | 205 |
| Rå spinat | 0.13 | 30 | 7 |
| Peanutbutter | 1.09 | 258 | 1517 |
| Olivenolie | 0.92 | 218 | 1909 |
Ernæringskomposition
Når systemet har et vægtestimat i gram, slår det op i den ernæringsmæssige sammensætning pr. gram fra en omfattende fødevaredatabase. Disse databaser er typisk afledt af autoritative kilder som USDA FoodData Central, suppleret med data fra fødevareproducenter og regionale ernæringsdatabaser.
Nutrolas database dækker mere end 1,3 millioner fødevarer, herunder mærkevarer, restaurantmenuer og generiske fødevarer med fulde makro- og mikronæringsprofiler. Denne omfattende dækning sikrer, at når en madvare og portion er identificeret, er den ernæringsmæssige beregning præcis.
Præcisionsudfordringer og Hvordan De Adresseres
På trods af sofistikationen af disse teknikker forbliver portionsestimering fra fotos en ufuldkommen videnskab. At forstå kilderne til fejl hjælper med at sætte realistiske forventninger og fremhæver de løbende forbedringer inden for feltet.
Kendte Kilder til Fejl
Variation i kameravinkel: Den samme portion ser anderledes ud afhængigt af, om fotoet tages ovenfra, fra en 45-graders vinkel eller fra nær bordniveau. Top-down fotos giver generelt de mest præcise estimater, fordi de minimerer perspektivforvrængning, men mange brugere holder naturligt deres telefon i en vinkel.
Skjult mad: Mad, der er skjult under saucer, ost eller andre toppings, kan ikke måles direkte visuelt. Systemet skal udlede den skjulte portion baseret på den synlige skåltype og typisk tilberedning.
Uregelmæssige beholdere: Ikke-standard skåle, krus og beholdere gør tallerkenbaseret skalering mindre pålidelig. En lille portion i en stor skål ser anderledes ud end en stor portion i en lille skål, selvom madområdet ser ens ud.
Individuelle tilberedningsforskelle: To personer, der laver "en skål havregryn", kan bruge vidt forskellige mængder havre og vand, hvilket resulterer i samme tilsyneladende volumen, men forskellige kalorieindhold.
Strategier til Forbedring af Præcision
Multi-vinkel optagelse: Nogle systemer beder brugerne om at tage fotos fra flere vinkler, hvilket muliggør stereorekonstruktion og mere præcis volumestimering. Dette forbedrer nøjagtigheden betydeligt, men tilføjer friktion til registreringsprocessen.
Brugerfeedbacksløjfer: Når brugere vejer deres mad og bekræfter eller retter den estimerede portion, skaber dette træningsdata, der forbedrer modellen over tid. Nutrola opfordrer brugere til lejlighedsvis at bekræfte portioner med en køkkenvægt for at kalibrere både AI'en og brugerens egen portionsbevidsthed.
Kontekstuelle priorer: Systemet kan bruge kontekstuel information til at forfine estimater. Hvis en bruger er på en bestemt restaurantkæde, kan systemet bruge kendte serveringsstørrelser. Hvis en bruger regelmæssigt registrerer en bestemt morgenmad, kan systemet lære deres typiske portion.
Tillidsbevidste estimater: I stedet for at præsentere et enkelt tal giver sofistikerede systemer et tillidsinterval. Hvis systemet er usikkert på portionen, kan det præsentere estimatet som et interval (for eksempel 300 til 450 kalorier) og bede brugeren om at give yderligere information.
Nuværende Præcisionsbenchmark
Forskning fra den Internationale Konference om Billedanalyse og Behandling har vist, at state-of-the-art systemer til madvolumenestimering opnår gennemsnitlige absolutte procentfejl mellem 15 og 25 procent. For kontekst har undersøgelser vist, at uddannede diætister, der estimerer portioner fra fotos, opnår fejl på omkring 10 til 15 procent, mens utrænede personer i gennemsnit har fejl på 30 til 50 procent.
Dette betyder, at AI portionsestimering allerede er betydeligt bedre end hvad de fleste kan gøre uden hjælp og nærmer sig nøjagtigheden af uddannede fagfolk. Kombineret med hastighed og bekvemmelighed gør dette AI-assisteret registrering til en væsentlig forbedring i forhold til manuel registrering for de fleste brugere.
Bruger Kalibreringens Rolle
En ofte undervurderet aspekt af AI portionsestimering er bruger kalibreringens rolle over tid. Når en bruger registrerer måltider og lejlighedsvis giver korrektioner, bygger systemet en profil af deres typiske portionsstørrelser og madpræferencer.
For regelmæssige brugere betyder dette, at systemet bliver progressivt mere præcist. Hvis du har tendens til at servere dig selv større portioner ris end gennemsnittet, lærer systemet at justere opad for dine risestimater. Hvis du typisk bruger mindre olie end standardopskriften, kan systemet tage højde for det.
Nutrola udnytter denne personalisering til at give stadig mere skræddersyede portionsestimater, jo længere du bruger appen. Nye brugere drager fordel af befolkningsniveau gennemsnit, mens erfarne brugere modtager personlige estimater kalibreret til deres specifikke vaner.
Praktiske Tips til Mere Præcise Portionsestimater
Mens AI håndterer det meste af det hårde arbejde, kan brugere forbedre nøjagtigheden ved at følge nogle enkle retningslinjer:
- Tag billeder ovenfra, når det er muligt. Top-down fotos giver den mest information om madens overfladeareal og minimerer perspektivforvrængning.
- Inkluder hele tallerkenen i billedet. Tallerkenens kant fungerer som et vigtigt referenceobjekt for skalering.
- Undgå ekstreme nærbilleder. Systemet har brug for kontekst for at bedømme størrelse. Et foto, der kun viser maden uden omgivende objekter, tilbyder ingen skaleringsreference.
- Tag billeder før blanding. En salat med synlige separate ingredienser er lettere at analysere end en, der er blevet blandet sammen.
- Brug godt lys. Skygger og lavt lys kan skjule madgrænser og dybdecues.
- Bekræft eller ret lejlighedsvis. At bruge en køkkenvægt en gang om ugen til at bekræfte AI-estimatet hjælper med at kalibrere både systemet og din egen intuition.
FAQ
Hvor præcis er AI portionsestimering sammenlignet med brugen af en fødevarevægt?
En fødevarevægt giver nøjagtighed inden for 1 til 2 gram, hvilket er langt mere præcist end enhver visuel estimeringsmetode. AI portionsestimering fra fotos opnår typisk nøjagtighed inden for 15 til 25 procent af den faktiske vægt. Dog betyder bekvemmeligheden ved AI-estimering (som tager 2 sekunder mod 30 sekunder eller mere med en vægt), at flere mennesker faktisk registrerer konsekvent, hvilket ofte betyder mere for langsigtede resultater end perfekt præcision.
Påvirker kameravinklen portionsestimeringsnøjagtigheden?
Ja, betydeligt. Top-down fotos (ser direkte ned på tallerkenen) giver den bedste nøjagtighed, fordi de viser hele madens overfladeareal med minimal perspektivforvrængning. Fotos taget fra en 45-graders vinkel er de mest almindelige og giver stadig gode estimater. Meget lave vinkler (nær bordniveau) er de mindst præcise, fordi det meste af maden er skjult af tallerkenens forkant.
Kan AI estimere portioner for væsker som supper og smoothies?
Væsker præsenterer en unik udfordring, fordi deres volumen bestemmes af deres beholder snarere end deres egen form. AI-systemer estimerer væskeportioner ved at identificere beholderens type og fyldningsniveau. En skål suppe fyldt til randen har et andet volumen end en, der er fyldt halvt op. Nøjagtigheden er generelt god, når beholderen har en standardform, men mindre pålidelig med usædvanlige beholdere.
Hvorfor overestimerer eller underestimerer AI nogle gange min portion?
Almindelige årsager til overestimering inkluderer tæt anretning, der ser større ud end den er, pynt der tilføjer visuel volumen uden betydelige kalorier, og brugen af store tallerkener, der får systemet til at antage, at der er mere mad til stede. Almindelige årsager til underestimering inkluderer mad skjult under anden mad, tætte kalorierige fødevarer, der ser små ud, og usædvanlige serveringsstile. At give feedback, når estimaterne er forkerte, hjælper systemet med at forbedre sig.
Skal jeg have en telefon med en LiDAR-sensor for præcis portionssporing?
Nej. Selvom LiDAR-udstyrede telefoner kan give mere præcise dybdeoplysninger, kan moderne AI-modeller estimere dybde ganske godt fra et standardkamera billede alene. Nøjagtighedsforskellen mellem LiDAR-udstyrede og standardtelefoner er blevet mindre, efterhånden som softwarebaseret dybdeestimering er blevet forbedret. Nutrola fungerer præcist på enhver moderne smartphone.
Hvordan håndterer systemet fødevarer, der er stablede eller lagdelte?
For synligt stabelde fødevarer som pandekager eller lagdelte sandwiches kan systemet tælle lagene og estimere tykkelsen ud fra sideprofilen. For fødevarer med skjulte lag som lasagne eller burritos er systemet afhængigt af lærte sammensætningsmodeller, der estimerer den typiske interne struktur baseret på den synlige ydre og skåltype.
Klar til at forvandle din ernæringsregistrering?
Bliv en del af de tusindvis, der har forvandlet deres sundhedsrejse med Nutrola!