Hallusinerer AI-en din? Faren ved å bruke generiske LLM-er for kostholdsråd

ChatGPT og Gemini kan skrive poesi, men kan de telle kaloriene dine? Vi testet generiske LLM-er mot verifiserte ernæringsdata, og resultatene bør bekymre alle som bruker dem til kostholdssporing.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

"Hei ChatGPT, hvor mange kalorier er det i min kyllingwok?"

Svaret kommer raskt og med selvtillit: "En typisk kyllingwok inneholder omtrent 350 til 450 kalorier per porsjon." Det høres rimelig ut. Det bryter til og med ned makroene. Men det er et problem: tallet er oppdiktet. Ikke estimert, ikke omtrent, men generert fra statistiske mønstre i tekstdata uten forbindelse til en faktisk ernæringsdatabase.

Dette er hva AI-forskere kaller en hallusinasjon, og når det skjer i konteksten av ernæring, går konsekvensene utover en dårlig oppgave eller et feil trivia-svar. Folk tar reelle kostholdsbeslutninger basert på disse tallene, og disse beslutningene påvirker helsen deres.

Hva "Hallusinasjon" Betyr i Ernæringskontekst

I terminologien til store språkmodeller skjer en hallusinasjon når modellen genererer informasjon som høres plausibel ut, men som er faktuelt feil. LLM-er ser ikke opp fakta i en database. De forutsier det neste mest sannsynlige ordet i en sekvens basert på mønstre lært under trening.

Når du spør ChatGPT om kaloriinnholdet i en matvare, spør den ikke i USDA FoodData Central-databasen eller kryssrefererer med NCCDB. Den genererer et svar som statistisk ligner på den typen svar som ville dukket opp i treningsdataene. Noen ganger er svaret nær korrekt. Andre ganger er det helt feil.

Faren er at selvtilliten er identisk i begge tilfeller. Et hallusinerende kaloritall ser nøyaktig ut som et nøyaktig.

Hvor Generiske LLM-er Tar Feil i Ernæring

Vi gjennomførte en serie tester der vi ba ChatGPT (GPT-4o), Gemini og Claude om å estimere næringsinnholdet i vanlige måltider. Vi sammenlignet deretter disse estimatene med USDA-verifiserte referanseverdier og Nutrolas ernæringsfaglig gjennomgåtte database. Feilmønstrene var konsistente og avslørende.

Oppdiktet Presisjon

Spør en LLM "hvor mange kalorier er det i en spiseskje olivenolje?" og du vil ofte få et korrekt svar: omtrent 119 kalorier. Dette er fordi det spesifikke faktumet ofte dukker opp i treningsdataene.

Men spør "hvor mange kalorier er det i hjemmelaget kylling tikka masala med naan?" og modellen må improvisere. I våre tester ga GPT-4o estimater som varierte fra 450 til 750 kalorier for det samme beskrevne måltidet i forskjellige samtaler. Den faktiske verdien, beregnet fra en standardoppskrift med verifiserte ingrediensdata, var 685 kalorier. Ett svar var nært. Andre var feil med over 200 kalorier.

Modellen har ingen måte å signalisere hvilke svar som er pålitelige oppslag og hvilke som er improviserte gjetninger.

Blindhet for Tilberedningsmetode

LLM-er har en grunnleggende blindhet rundt hvordan mat tilberedes. "Grillet kyllingbryst" og "stekt kyllingbryst i smør" kan få lignende kaloriestimater fordi modellen fokuserer på hovedingrediensen i stedet for tilberedningsmetoden.

I våre tester, når vi spurte om "laks" uten å spesifisere tilberedning, falt svarene konsekvent tilbake til et bakt eller grillet estimat rundt 230 til 280 kalorier for en 6-unse filet. En 6-unse laks filet stekt i to spiseskjeer smør med teriyaki-saus inneholder faktisk nærmere 450 til 500 kalorier. Gapet er stort nok til å undergrave et kaloriunderskudd over tid.

Hallusinasjon av Porsjonsstørrelse

Kanskje den mest farlige feilen er antagelsen om porsjonsstørrelse. Når du spør en generisk LLM om kaloriene i en matvare, må den anta en porsjonsstørrelse. Disse antagelsene er inkonsekvente og ofte uspesifiserte.

"En bolle med pasta" kan bli estimert til 300 til 400 kalorier. Men hvis bolle? En standard 2-unse tørr porsjon spaghetti med marinara er omtrent 280 kalorier. En restaurantporsjon på 4 til 6 unse tørr pasta med saus når lett 600 til 900 kalorier. LLM-en velger et tall i midten og presenterer det som fakta.

Kumulative Feil i Måltidsplaner

Risikoen øker når brukere ber LLM-er om å generere komplette måltidsplaner. Hvert enkelt estimat bærer feil, og disse feilene akkumuleres over måltider og dager. En måltidsplan som hevder å levere 1,800 kalorier per dag kan faktisk levere 2,200 eller 1,400 avhengig av feilretningen.

For noen som bruker en måltidsplan for å håndtere en medisinsk tilstand som diabetes, eller for å møte spesifikke prestasjonsmål, er dette nivået av unøyaktighet ikke bare lite nyttig. Det kan være potensielt skadelig.

Hvorfor Spesialbygget Ernærings-AI Er Forskjellig

Forskjellen mellom en generisk LLM og et spesialbygget ernæringssystem er arkitektonisk, ikke kosmetisk.

Databasert Respons

Nutrolas AI genererer ikke kaloriestimater fra språk mønstre. Når den identifiserer en matvare, kartlegger den den identifikasjonen til en verifisert oppføring i en ernæringsdatabase. Databasen inneholder oppføringer hentet fra USDA FoodData Central, nasjonale ernæringsdatabaser fra flere land, og interne oppføringer gjennomgått av ernæringsfaglige.

Dette betyr at systemet ikke kan hallusinere et kaloritall. Tallet kommer fra en spesifikk, reviderbar databaseoppføring, ikke fra en statistisk språkmodell.

Visuell Verifisering

Når en bruker fotograferer et måltid, identifiserer Nutrolas datamodell individuelle matvarer og estimerer porsjonsstørrelser basert på visuell analyse. Denne visuelle forankringen gir en sjekk som tekstbaserte LLM-er ikke kan utføre. Systemet ser bokstavelig talt på hva du spiser i stedet for å gjette fra en tekstbeskrivelse.

Transparent Usikkerhet

Et godt utformet ernæringssystem anerkjenner når det er usikkert. Hvis en rett er tvetydig eller en porsjonsstørrelse er vanskelig å estimere fra et bilde, kan systemet flagge den usikkerheten og be brukeren om avklaring. Generiske LLM-er indikerer nesten aldri når deres ernæringsestimater er usikre, fordi de ikke har noen mekanisme for å måle sin egen selvtillit på faktiske påstander.

De Virkelige Helsefarene

Unøyaktige kaloriopplysninger fra AI er ikke et abstrakt problem. Det manifesterer seg på konkrete måter.

Feil i vektkontroll. En konsekvent over- eller undertelling på 200 kalorier per dag endrer utfallet av ethvert kosthold. Over 30 dager er det en feil på 6,000 kalorier, omtrent lik 1.7 pund kroppsfett i hvilken som helst retning.

Mikronæringsblindhet. LLM-er gir sjelden mikronæringsdata, og når de gjør det, er tallene enda mindre pålitelige enn kaloriestimatene. Noen som sporer jerninntak under graviditet eller overvåker natrium for hypertensjon kan ikke stole på genererte estimater.

Falsk selvtillit. Den mest snikende risikoen er at brukeren tror de har nøyaktige data når de ikke har det. Denne falske selvtilliten hindrer dem i å søke bedre verktøy eller gjøre justeringer basert på reelle resultater.

Når Det Er Greit å Spørre en LLM Om Mat

Generiske LLM-er er ikke ubrukelige for ernæring. De er effektive for visse typer forespørsel:

  • Generell utdanning: "Hvilke matvarer er rike på kalium?" eller "Hva er forskjellen mellom løselig og uløselig fiber?" Dette er kunnskapsspørsmål der omtrentlige svar er passende.
  • Oppskriftideer: "Gi meg en høy-protein lunsjide under 500 kalorier" kan gi nyttig inspirasjon, selv om det eksakte kaloritallet bør verifiseres.
  • Forståelse av konsepter: "Forklar hva et kaloriunderskudd er" eller "Hvordan hjelper protein muskelgjenoppretting?" er områder der LLM-er presterer godt.

Linjen er klar: bruk LLM-er for å lære om ernæring. Bruk verifiserte, databasert verktøy for å spore det.

Hvordan Verifisere Enhver AI Ernæringspåstand

Enten du bruker en chatbot eller et annet verktøy, finnes det praktiske skritt for å sjekke dataene du får:

  1. Kryssreferer med USDA FoodData Central. USDA-databasen er gratis, offentlig, og laboratorieverifisert. Hvis et AIs estimat avviker betydelig fra USDA-oppføringen for den samme maten, er AI-en sannsynligvis feil.
  2. Sjekk antagelser om porsjonsstørrelse. Spør alltid eller verifiser hvilken porsjonsstørrelse estimatet er basert på. Et kaloritall uten en porsjonsstørrelse er meningsløst.
  3. Ta hensyn til tilberedningsmetode. Den samme ingrediensen kan variere med 2 til 3 ganger i kaloriinnhold avhengig av om den er rå, bakt, stekt eller sautert i olje.
  4. Vær skeptisk til runde tall. Hvis en AI forteller deg at et måltid har "akkurat 500 kalorier," er det et generert estimat, ikke en målt verdi. Ekte ernæringsdata har spesifikke tall som 487 eller 523.

Vanlige Spørsmål

Er ChatGPT nøyaktig for kaloritelling?

ChatGPT og lignende store språkmodeller er ikke pålitelige for kaloritelling. De genererer estimater basert på tekstmønstre i stedet for å se opp verdier i verifiserte ernæringsdatabaser. I tester varierte LLM-kaloriestimater for komplekse måltider med 200 til 300 kalorier på tvers av forskjellige forespørsel for den samme maten. For enkle, kjente elementer som "ett stort egg" har estimatene en tendens til å være nære fordi dataene ofte dukker opp i trenings tekst. For tilberedte måltider, restaurantretter og blandede ingredienser øker feilraten betydelig.

Kan jeg bruke ChatGPT til å spore makroene mine?

Å bruke ChatGPT for makrosporing anbefales ikke for noen som har spesifikke helse- eller treningsmål. Modellen kan ikke ta hensyn til dine faktiske porsjonsstørrelser, tilberedningsmetoder eller spesifikke ingredienser. Den mangler også konsistens; å stille det samme spørsmålet to ganger kan gi forskjellige makrofordelinger. For generell bevissthet om hvorvidt en matvare er rik på protein eller karbohydrater, kan en LLM gi nyttig retning. For presis sporing vil en spesialbygget ernæringsapp med en verifisert database gi betydelig mer nøyaktige og konsistente resultater.

Hva er AI hallusinasjon i ernæring?

AI hallusinasjon i ernæring refererer til når en språkmodell genererer ernæringsdata, som kaloritall, makrofordelinger eller mikronæringsverdier, som høres autoritative ut, men som er faktuelt feil. Modellen lyver ikke bevisst; den forutsier plausibelt klingende tekst basert på mønstre. Resultatet er et kaloritall som leses som et faktum, men som aldri ble verifisert mot noen ernæringsdatabase. Dette er spesielt farlig fordi brukerne ikke har noen måte å skille et hallusinerende estimat fra et nøyaktig uten manuell kryssreferering.

Hvordan vet jeg om min ernærings-AI gir nøyaktige data?

Sjekk tre ting. For det første, spør om verktøyet henter fra en verifisert ernæringsdatabase som USDA FoodData Central eller NCCDB, i stedet for å generere estimater fra en språkmodell. For det andre, verifiser at det tar hensyn til tilberedningsmetoder, siden tilberedningsmetoden kan endre en matvares kaloriinnhold med 50 til 200 prosent. For det tredje, sjekk om verktøyet spesifiserer den eksakte porsjonsstørrelsen estimatet er basert på. En pålitelig ernærings-AI bør være transparent om datakildene sine og bør flagge usikre estimater i stedet for å presentere hvert tall med lik selvtillit.

Er det trygt å følge en måltidsplan laget av AI?

AI-genererte måltidsplaner kan være nyttige som startrammer, men de bør ikke følges blindt for spesifikke medisinske eller prestasjonsmål. Hvert kaloriestimat i planen bærer en potensiell feil, og disse feilene akkumuleres over en hel dag med spising. Hvis planen hevder å levere 1,800 kalorier, men hvert måltidsestimat er feil med 10 til 15 prosent, kan det faktiske daglige inntaket variere fra 1,500 til 2,100 kalorier. For generell sunn spiseinspirasjon er AI-måltidsplaner et rimelig utgangspunkt. For klinisk ernæringshåndtering, vekttapsprogrammer eller dietter for atletisk ytelse, bør kalori- og makromålene verifiseres mot et databasert verktøy.

Klar til å forvandle ernæringssporingen din?

Bli en del av tusenvis som har forvandlet helsereisen sin med Nutrola!