Hur AI Beräknar Portionsstorlekar Utifrån Fotografi: En Teknisk Djupdykning

En detaljerad genomgång av hur AI använder djupberäkning, referensobjekt och volymmodellering för att uppskatta portionsstorlekar från en enda fotografi.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Att identifiera vad som finns på din tallrik är bara hälften av utmaningen med AI-driven kaloriövervakning. Den andra hälften, och kanske den svårare, är att räkna ut hur mycket mat som faktiskt finns där. En portion pasta kan innehålla 200 kalorier eller 800 kalorier beroende på storleken. Att få denna uppskattning rätt är vad som skiljer ett användbart verktyg för näringsspårning från enbart en nyhet.

Den här artikeln ger en djup teknisk inblick i hur AI-system uppskattar portionsstorlekar från fotografier, med fokus på djupberäkning, skalning med referensobjekt, volymmodellering och de pågående utmaningarna som forskare och ingenjörer står inför för att göra dessa uppskattningar mer exakta.

Varför Portionsuppskattning Är Svårare Än Matigenkänning

Matigenkänning är i grunden ett klassificeringsproblem. Systemet måste välja från en begränsad uppsättning livsmedelskategorier. Å andra sidan är portionsuppskattning ett regressionsproblem. Systemet måste förutsäga ett kontinuerligt värde (gram eller milliliter) utifrån enbart visuell information.

Flera faktorer gör detta särskilt utmanande:

  • 2D-till-3D-problemet: Ett fotografi komprimerar den tredimensionella verkligheten till en tvådimensionell bild. Djupinformation går förlorad, vilket gör det svårt att särskilja mellan en tunn utbredning av mat och en tjock hög.
  • Variabel densitet: En kopp bladgrönsaker och en kopp granola har samma volym men helt olika vikter och kaloriinnehåll. Systemet måste uppskatta både volym och densitet.
  • Perspektivförvrängning: Vinkeln från vilken ett foto tas påverkar hur stora matföremål ser ut. En tallrik fotograferad rakt ovanifrån ser annorlunda ut än samma tallrik fotograferad i 45 graders vinkel.
  • Otydlig skalning: Utan ett känt referensobjekt i bilden går det inte att bestämma absolut storlek. En närbild av en liten kaka kan se identisk ut med ett foto av en stor pizza tagen på avstånd.

Djupberäkning Från En Enda Bild

En av de viktigaste genombrotten som möjliggör portionsuppskattning från foton är monokulär djupberäkning, förmågan att härleda djupinformation från en enda bild istället för att kräva stereokameror eller specialiserad hårdvara.

Hur Monokulär Djupberäkning Fungerar

Det mänskliga synsystemet härleder djup från många ledtrådar: objektöverlagring (närmare objekt döljer avlägsnare), relativ storlek (mindre objekt är vanligtvis längre bort), texturgradienter (texturer blir finare på större avstånd) och atmosfärisk perspektiv (avlägsna objekt ser suddigare ut).

Djupinlärningsmodeller kan lära sig dessa ledtrådar från stora dataset av bilder kopplade till djupkartor. När de tillämpas på matfotografi kan dessa modeller uppskatta vilka delar av ett livsmedelsföremål som är närmare kameran och vilka som är längre bort, vilket effektivt återskapar den tredimensionella formen av maten från en platt bild.

Djupkartor och Livsmedelsvolym

En djupkarta tilldelar ett avståndsvärde till varje pixel i bilden. För livsmedelsuppskattning innebär detta att systemet kan avgöra att mitten av en skål med soppa är på ett djup medan kanten av skålen är på ett annat djup. Skillnaden mellan dessa djup, tillsammans med de upptäckta gränserna för maten, gör att systemet kan uppskatta volymen.

Moderna smartphone-kameror med LiDAR-sensorer (tillgängliga på nyare iPhone Pro- och iPad Pro-modeller) kan fånga faktisk djupdata tillsammans med färgbilden, vilket ger mycket mer exakt djupinformation än algoritmisk uppskattning ensam. Matspårningsappar kan utnyttja denna hårdvara när den är tillgänglig, medan de faller tillbaka på monokulär uppskattning på enheter utan djupsensorer.

Skalning med Referensobjekt

Utan en känd referenspunkt är den absoluta storleken på föremål i ett fotografi otydlig. Skalning med referensobjekt löser detta problem genom att använda föremål med kända dimensioner för att etablera en storleksskala för hela bilden.

Vanliga Referensobjekt

Referensobjekt Kända Dimensioner Noggrannhetsfördel
Standard middagstallrik 25-27 cm i diameter Etablerar övergripande skala för måltiden
Gaffel eller sked ~19 cm längd Ger skala även i närbilder
Kreditkort 8.56 x 5.4 cm Precist och universellt standardiserat
Smartphone Varierar beroende på modell men känd Kan detekteras och mätas algoritmiskt
Hand Varierar men kan uppskattas utifrån demografi Ungefärlig skalning när inget annat referensobjekt är tillgängligt

Automatisk Referensdetektion

Istället för att kräva att användare placerar ett referenskort bredvid sin mat (vilket skapar friktion och avskräcker användning), försöker moderna system att automatiskt detektera vanliga referensobjekt. Tallrikar, skålar, bestick och bord förekommer ofta i matfoton och kan fungera som storleksreferenser om systemet kan identifiera dem.

Nutrolas portionsuppskattningssystem letar automatiskt efter tallrikar, skålar och bestick i bilden för att etablera skala. När dessa objekt detekteras använder systemet deras typiska dimensioner för att kalibrera storleken på livsmedelsföremålen. När inget referensobjekt hittas, förlitar sig systemet på inlärda priorer om typiska portionsstorlekar och kan be användaren att bekräfta.

Tallrikbaserad Kalibrering

En särskilt effektiv metod är tallrikbaserad kalibrering. Standard middagstallrikar i de flesta länder ligger inom ett smalt storleksintervall (25 till 27 cm i diameter). Genom att detektera den elliptiska konturen av en tallrik i bilden och anta en standardstorlek kan systemet etablera en pålitlig skala för allt på tallriken.

Denna metod fungerar bra eftersom tallrikar nästan alltid är närvarande i måltidsfoton, deras elliptiska form är lätt att detektera oavsett kameravinkel, och perspektivförvrängningen av ellipsen kodar faktiskt information om kameravinkeln, vilket hjälper till att korrigera för perspektiveffekter på maten.

Volymuppskattningstekniker

När systemet har identifierat maten, uppskattat djupet och etablerat skala, måste det kombinera denna information för att uppskatta volymen av varje livsmedelsföremål.

Geometriska Primitiver

En metod är att approximera livsmedelsföremål som kombinationer av enkla geometriska former:

  • Cylindrar för höga livsmedel som drycker, staplade pannkakor eller lagerkakor
  • Halvsfärer för rundade livsmedel som skopor av ris, högar av potatismos eller portioner av glass
  • Rektangulära prismor för skivat bröd, ostblock eller bars
  • Trunkerade koner för skålar med soppa eller flingor (skålformen hjälper till att definiera volymen)
  • Oregelbundna polyedrar för livsmedel med komplexa former som kycklingben eller hela frukter

Systemet passar en eller flera av dessa primitiva former till det upptäckta matområdet och beräknar volymen utifrån de anpassade formerna och den etablerade skalan.

Voxelbaserad Rekonstruktion

En mer sofistikerad metod involverar voxelbaserad rekonstruktion, där livsmedelsföremålet modelleras som ett tredimensionellt gitter av små kuber (voxlar). Varje voxel klassificeras som antingen innehållande mat eller tom utifrån djupkartan och segmenteringsmasken. Den totala volymen är sedan summan av alla mat-innehållande voxlar.

Denna metod hanterar oregelbundna former bättre än geometriska primitiva men kräver mer beräkningsresurser. Den är särskilt användbar för livsmedel som inte följer enkla former, som en trasig bit bröd eller en oregelbundet skuren frukt.

Neurala Volymuppskattningar

Den senaste metoden hoppar över explicit geometrisk modellering helt och hållet. Istället tränas ett neuralt nätverk end-to-end för att direkt förutsäga livsmedelsvolymen från bilden. Dessa modeller lär sig implicita representationer av livsmedelsgeometri från stora dataset av matbilder kopplade till faktiska viktmått.

Denna metod har visat lovande resultat eftersom den kan fånga subtila visuella ledtrådar som korrelerar med volym, såsom hur ljus reflekteras från ytan av en vätska eller skuggmönstret som kastas av en hög mat. Den undviker också felackumulering som kan uppstå när djupberäkning, segmentering och geometrisk anpassning utförs som separata steg.

Från Volym Till Vikt Till Kalorier

Att uppskatta volym är inte det sista steget. För att beräkna kalorier måste systemet omvandla volym till vikt (med hjälp av livsmedelsdensitet) och vikt till kalorier (med hjälp av näringskompositionsdata).

Livsmedelsdensitetsdatabaser

Olika livsmedel har mycket olika densiteter. En kopp olja väger cirka 220 gram, medan en kopp mjöl väger cirka 120 gram, och en kopp popcorn väger cirka 8 gram. Noggrann densitetsdata är avgörande för att omvandla volymuppskattningar till viktuppskattningar.

Produktionssystem underhåller databaser som kartlägger livsmedelsföremål till deras densiteter, med hänsyn till variationer i tillagningsmetod (kokt vs. rå, hackad vs. hel) och vanliga serveringsstilar.

Livsmedelsföremål Densitet (g/mL) Vikt per 1 kopp (g) Kalorier per kopp
Vatten 1.00 237 0
Helmjölk 1.03 244 149
Kokt vit ris 0.74 175 205
Rå spenat 0.13 30 7
Jordnötssmör 1.09 258 1517
Olivolja 0.92 218 1909

Näringskomposition

När systemet har en viktuppskattning i gram, slår det upp den näringsmässiga sammansättningen per gram från en omfattande livsmedelsdatabas. Dessa databaser härstammar vanligtvis från auktoritativa källor som USDA FoodData Central, kompletterat med data från livsmedelstillverkare och regionala näringsdatabaser.

Nutrolas databas täcker mer än 1.3 miljoner livsmedel, inklusive varumärkesprodukter, restaurangmenyobjekt och generiska livsmedelsföremål med fullständiga makro- och mikronäringsprofiler. Denna omfattande täckning säkerställer att när ett livsmedelsföremål och en portion identifieras, är den näringsmässiga beräkningen exakt.

Noggrannhetsutmaningar och Hur De Adresseras

Trots sofistikeringen hos dessa tekniker förblir portionsuppskattning från foton en ofullkomlig vetenskap. Att förstå källorna till fel hjälper till att sätta realistiska förväntningar och belyser de pågående förbättringarna inom området.

Kända Felkällor

Variation i kameravinkel: Samma portion ser annorlunda ut beroende på om fotot tas ovanifrån, i 45 graders vinkel eller nära bordsnivå. Top-down-foton ger generellt de mest exakta uppskattningarna eftersom de minimerar perspektivförvrängning, men många användare håller naturligt sin telefon i en vinkel.

Dold mat: Mat som döljs under såser, ost eller andra pålägg kan inte mätas direkt visuellt. Systemet måste härleda den dolda portionen baserat på den synliga maträtten och typisk tillagning.

Oregelbundna behållare: Icke-standardiserade skålar, muggar och behållare gör tallrikbaserad skalning mindre tillförlitlig. En liten portion i en stor skål ser annorlunda ut än en stor portion i en liten skål, även om matytan verkar liknande.

Individuella tillagningsskillnader: Två personer som gör "en skål havregryn" kan använda helt olika mängder havre och vatten, vilket resulterar i samma uppenbara volym men olika kaloriinnehåll.

Strategier För Att Förbättra Noggrannheten

Flera vinklar: Vissa system ber användare att ta foton från flera vinklar, vilket möjliggör stereorekonstruering och mer exakt volymuppskattning. Detta förbättrar noggrannheten avsevärt men ökar friktionen i registreringsprocessen.

Användarfeedbackloopar: När användare väger sin mat och bekräftar eller korrigerar den uppskattade portionen, skapas träningsdata som förbättrar modellen över tid. Nutrola uppmuntrar användare att ibland verifiera portioner med en köksvåg för att kalibrera både AI:n och användarens egen portionsmedvetenhet.

Kontextuella priorer: Systemet kan använda kontextuell information för att förfina uppskattningar. Om en användare är på en specifik restaurangkedja kan systemet använda kända serveringsstorlekar. Om en användare regelbundet loggar en specifik frukost kan systemet lära sig deras typiska portion.

Självsäkerhetsmedvetna uppskattningar: Istället för att presentera ett enda nummer, ger sofistikerade system en säkerhetsintervall. Om systemet är osäkert på portionen kan det presentera uppskattningen som ett intervall (till exempel 300 till 450 kalorier) och be användaren att ge ytterligare information.

Nuvarande Noggrannhetsbenchmarkar

Forskning från den internationella konferensen om bildanalys och bearbetning har visat att toppmoderna system för livsmedelsvolymuppskattning uppnår medelabsoluta procentuella fel mellan 15 och 25 procent. För kontext har studier visat att utbildade dietister som uppskattar portioner från foton uppnår fel på cirka 10 till 15 procent, medan otränade individer i genomsnitt har fel på 30 till 50 procent.

Detta innebär att AI-portionuppskattning redan är betydligt bättre än vad de flesta människor kan göra utan hjälp och närmar sig noggrannheten hos utbildade yrkesverksamma. Tillsammans med hastigheten och bekvämligheten gör detta AI-assisterad spårning till en betydande förbättring jämfört med manuell registrering för majoriteten av användarna.

Användarens Kalibreringsroll

En ofta underskattad aspekt av AI-portionuppskattning är användarens kalibrering över tid. När en användare loggar måltider och ibland ger korrigeringar, bygger systemet en profil av deras typiska portionsstorlekar och matpreferenser.

För regelbundna användare innebär detta att systemet blir allt mer exakt. Om du tenderar att servera dig själv större portioner ris än genomsnittet, lär sig systemet att justera uppåt för dina risuppskattningar. Om du vanligtvis använder mindre olja än standardreceptet kan systemet ta hänsyn till det.

Nutrola utnyttjar denna personalisering för att ge alltmer skräddarsydda portionsuppskattningar ju längre du använder appen. Nya användare drar nytta av befolkningsnivåer, medan erfarna användare får personliga uppskattningar kalibrerade efter deras specifika vanor.

Praktiska Tips För Mer Exakta Portionsuppskattningar

Även om AI hanterar det mesta av det tunga lyftet kan användare förbättra noggrannheten genom att följa några enkla riktlinjer:

  1. Fotografera ovanifrån när det är möjligt. Top-down-foton ger mest information om matens yta och minimerar perspektivförvrängning.
  2. Inkludera hela tallriken i bilden. Tallrikens kant fungerar som ett avgörande referensobjekt för skalning.
  3. Undvik extrema närbilder. Systemet behöver kontext för att bedöma storlek. Ett foto som endast visar maten utan några omgivande objekt erbjuder ingen skala.
  4. Fotografera innan du blandar. En sallad med synliga separata ingredienser är lättare att analysera än en som har blandats ihop.
  5. Använd bra belysning. Skuggor och svagt ljus kan dölja matgränser och djupledtrådar.
  6. Bekräfta eller korrigera ibland. Att använda en köksvåg en gång i veckan för att verifiera AI-uppskattningen hjälper till att kalibrera både systemet och din egen intuition.

FAQ

Hur noggrann är AI-portionuppskattning jämfört med att använda en livsmedelsskala?

En livsmedelsskala ger noggrannhet inom 1 till 2 gram, vilket är mycket mer precist än någon visuell uppskattningsmetod. AI-portionuppskattning från foton uppnår vanligtvis noggrannhet inom 15 till 25 procent av den faktiska vikten. Men bekvämlighetsfördelen med AI-uppskattning (som tar 2 sekunder jämfört med 30 sekunder eller mer med en skala) innebär att fler människor faktiskt spårar konsekvent, vilket ofta spelar större roll för långsiktiga resultat än perfekt precision.

Påverkar kameravinkeln noggrannheten i portionsuppskattningen?

Ja, betydligt. Top-down-foton (som ser rakt ner på tallriken) ger den bästa noggrannheten eftersom de visar hela matytan med minimal perspektivförvrängning. Foton tagna i 45 graders vinkel är de vanligaste och ger fortfarande bra uppskattningar. Mycket låga vinklar (nära bordsnivå) är de minst exakta eftersom det mesta av maten döljs av tallrikens främre kant.

Kan AI uppskatta portioner för vätskor som soppor och smoothies?

Vätskor utgör en unik utmaning eftersom deras volym bestäms av deras behållare snarare än deras egen form. AI-system uppskattar vätskeportioner genom att identifiera behållartypen och fyllnivån. En skål med soppa fylld till kanten har en annan volym än en som är fylld halvvägs. Noggrannheten är vanligtvis god när behållaren är av standardform men mindre tillförlitlig med ovanliga behållare.

Varför över- eller underskattar AI ibland min portion?

Vanliga orsaker till överuppskattning inkluderar tät uppläggning som ser större ut än den är, garneringar som tillför visuell volym utan betydande kalorier, och användning av stora tallrikar som får systemet att anta att mer mat är närvarande. Vanliga orsaker till underuppskattning inkluderar mat som döljs under annan mat, täta kaloririka livsmedel som ser små ut, och ovanliga serveringsstilar. Att ge feedback när uppskattningarna är felaktiga hjälper systemet att förbättras.

Måste jag ha en telefon med LiDAR-sensor för noggrann portionsspårning?

Nej. Även om telefoner med LiDAR kan ge mer exakt djupinformation, kan moderna AI-modeller uppskatta djup ganska bra från en standardkamera bild ensam. Noggrannhetsdifferensen mellan LiDAR-utrustade och standardtelefoner har minskat i takt med att mjukvarubaserad djupberäkning har förbättrats. Nutrola fungerar noggrant på vilken modern smartphone som helst.

Hur hanterar systemet livsmedel som är staplade eller lager?

För synligt staplade livsmedel som pannkakor eller lagerlagda smörgåsar kan systemet räkna lager och uppskatta tjocklek från sidoprofilen. För livsmedel med dolda lager som lasagne eller burritos förlitar sig systemet på inlärda sammansättningsmodeller som uppskattar den typiska interna strukturen baserat på den synliga utsidan och maträttstypen.

Redo att förvandla din näringsspårning?

Gå med tusentals som har förvandlat sin hälsoresa med Nutrola!