Hallucinerer Din AI? Faren ved at Bruge Generiske LLM'er til Kostråd
ChatGPT og Gemini kan skrive poesi, men kan de tælle dine kalorier? Vi har testet generiske LLM'er mod verificerede ernæringsdata, og resultaterne bør bekymre alle, der bruger dem til kostsporing.
"Hey ChatGPT, hvor mange kalorier er der i min kyllinge-stir-fry?"
Svaret kommer straks og med selvtillid: "En typisk kyllinge-stir-fry indeholder cirka 350 til 450 kalorier pr. portion." Det lyder rimeligt. Det nedbryder endda makroerne. Men der er et problem: tallet er fabrikeret. Ikke estimeret, ikke tilnærmet, men genereret ud fra statistiske mønstre i tekstdata uden forbindelse til en faktisk ernæringsdatabase.
Dette, som AI-forskere kalder en hallucination, har alvorlige konsekvenser i ernæringskonteksten. Når det sker, påvirker det ikke bare en dårlig opgave eller et forkert trivia-svar. Folk træffer reelle kostbeslutninger baseret på disse tal, og disse beslutninger påvirker deres sundhed.
Hvad "Hallucination" Betyder i Ernæringskonteksten
I terminologien for store sprogmodeller opstår en hallucination, når modellen genererer information, der lyder plausibel, men som er faktuelt forkert. LLM'er slår ikke fakta op i en database. De forudsiger det næste mest sandsynlige ord i en sekvens baseret på mønstre lært under træningen.
Når du spørger ChatGPT om kalorieindholdet i en fødevare, forespørger den ikke USDA FoodData Central-databasen eller krydsrefererer NCCDB. Den genererer et svar, der statistisk ligner den slags svar, der ville fremgå af dens træningsdata. Nogle gange er svaret tæt på korrekt. Andre gange er det helt forkert.
Faren er, at selvtillidsniveauet er identisk i begge tilfælde. Et hallucineret kalorieantal lyder præcis som et korrekt.
Hvor Generiske LLM'er Går Forkert med Ernæring
Vi har gennemført en række tests, hvor vi bad ChatGPT (GPT-4o), Gemini og Claude om at estimere det ernæringsmæssige indhold af almindelige måltider. Vi sammenlignede derefter disse estimater med USDA-verificerede referenceværdier og Nutrola's ernæringsfagligt gennemgåede database. Mønstrene af fejl var konsekvente og afslørende.
Fabrikeret Præcision
Spørg en LLM "hvor mange kalorier er der i en spiseskefuld olivenolie?" og du vil ofte få et korrekt svar: omkring 119 kalorier. Dette skyldes, at denne specifikke fakta ofte optræder i træningsdataene.
Men spørg "hvor mange kalorier er der i hjemmelavet kyllinge tikka masala med naan?" og modellen må improvisere. I vores tests gav GPT-4o estimater, der varierede fra 450 til 750 kalorier for det samme beskrevne måltid på tværs af forskellige samtaler. Den faktiske værdi, beregnet ud fra en standardopskrift med verificerede ingrediensdata, var 685 kalorier. Et svar var tæt på. Andre var forkert med over 200 kalorier.
Modellen har ingen måde at signalere, hvilke svar der er pålidelige opslag, og hvilke der er improviserede gæt.
Blindhed over for Tilberedningsmetode
LLM'er har en grundlæggende blindhed over for, hvordan mad tilberedes. "Grillet kyllingebryst" og "stegt kyllingebryst i smør" kan få lignende kalorieestimater, fordi modellen fokuserer på hovedingrediensen frem for tilberedningsmetoden.
I vores test, når vi spurgte om "laks" uden at specificere tilberedning, faldt svarene konsekvent tilbage til et bagt eller grillet estimat omkring 230 til 280 kalorier for en 6-ounce filet. En 6-ounce laks filet stegt i to spiseskefulde smør med en teriyaki glaze indeholder faktisk tættere på 450 til 500 kalorier. Forskellen er betydelig nok til at underminere et kalorieunderskud over tid.
Hallucination af Portionsstørrelse
Måske den mest farlige fejltilstand er antagelsen om portionsstørrelse. Når du spørger en generisk LLM om kalorierne i en fødevare, må den antage en portionsstørrelse. Disse antagelser er inkonsekvente og ofte uspecificerede.
"En skål pasta" kan estimeres til 300 til 400 kalorier. Men hvis skål? En standard 2-ounce tør portion spaghetti med marinara er omkring 280 kalorier. En restaurantportion på 4 til 6 ounce tør pasta med sauce når let 600 til 900 kalorier. LLM'en vælger et tal i midten og præsenterer det som fakta.
Sammenfaldende Fejl i Måltidsplaner
Risikoen stiger, når brugerne beder LLM'er om at generere fulde måltidsplaner. Hver individuel estimat bærer fejl, og disse fejl akkumuleres på tværs af måltider og dage. En måltidsplan, der hævder at levere 1.800 kalorier om dagen, kan faktisk levere 2.200 eller 1.400 afhængigt af fejlens retning.
For nogen, der bruger en måltidsplan til at håndtere en medicinsk tilstand som diabetes eller for at nå specifikke præstationsmål, er dette niveau af unøjagtighed ikke bare ubrugeligt. Det kan være potentielt skadende.
Hvorfor Specialiseret Ernærings-AI Er Forskellig
Forskellen mellem en generisk LLM og et specialiseret ernæringssystem er arkitektonisk, ikke kosmetisk.
Database-baserede Svar
Nutrola's AI genererer ikke kalorieestimater ud fra sprog mønstre. Når den identificerer en fødevare, kortlægger den den identifikation til en verificeret post i en ernæringsdatabase. Databasen indeholder poster, der er hentet fra USDA FoodData Central, nationale ernæringsdatabaser fra flere lande og interne ernæringsfagligt gennemgåede poster.
Dette betyder, at systemet ikke kan hallucinerer et kalorieantal. Tallet kommer fra en specifik, reviderbar databasepost, ikke fra en statistisk sprogmodel.
Visuel Verifikation
Når en bruger fotograferer et måltid, identificerer Nutrola's computer vision-model individuelle fødevarer og estimerer portionsstørrelser baseret på visuel analyse. Denne visuelle forankring giver en kontrol, som tekstbaserede LLM'er ikke kan udføre. Systemet ser bogstaveligt talt på, hvad du spiser, i stedet for at gætte ud fra en tekstbeskrivelse.
Transparent Usikkerhed
Et veludviklet ernæringssystem anerkender, når det er usikkert. Hvis en ret er tvetydig, eller en portionsstørrelse er svær at estimere ud fra et foto, kan systemet markere den usikkerhed og bede brugeren om afklaring. Generiske LLM'er indikerer næsten aldrig, når deres ernæringsestimater er lavt tillidsfulde, fordi de ikke har nogen mekanisme til at måle deres egen tillid til faktiske påstande.
De Reelle Sundhedsrisici
Unøjagtige kalorieoplysninger fra AI er ikke et abstrakt problem. Det manifesterer sig på konkrete måder.
Fejl i vægtstyring. En konstant over- eller underoptælling på 200 kalorier om dagen ændrer resultatet af enhver diæt. Over 30 dage er det en fejl på 6.000 kalorier, hvilket svarer til cirka 1,7 pund kropsfedt i enhver retning.
Mikronæringsblindhed. LLM'er giver sjældent mikronæringsdata, og når de gør, er tallene endnu mindre pålidelige end deres kalorieestimater. Nogen, der sporer jernindtag under graviditet eller overvåger natrium for hypertension, kan ikke stole på genererede estimater.
Falsk selvtillid. Den mest snigende risiko er, at brugeren tror, de har præcise data, når de ikke har. Denne falske selvtillid forhindrer dem i at søge bedre værktøjer eller foretage justeringer baseret på reelle resultater.
Hvornår Det Er Fint at Spørge en LLM om Mad
Generiske LLM'er er ikke ubrugelige for ernæring. De er effektive til visse typer forespørgsler:
- Generel uddannelse: "Hvilke fødevarer er høje i kalium?" eller "Hvad er forskellen mellem opløselig og uopløselig fiber?" Dette er vidensspørgsmål, hvor omtrentlige svar er passende.
- Opskriftsideer: "Giv mig en høj-protein frokostidé under 500 kalorier" kan give nyttig inspiration, selvom det præcise kalorieantal bør verificeres.
- Forståelse af koncepter: "Forklar hvad et kalorieunderskud er" eller "Hvordan hjælper protein muskelgenopretning?" er områder, hvor LLM'er præsterer godt.
Grænsen er klar: brug LLM'er til at lære om ernæring. Brug verificerede, database-baserede værktøjer til at spore det.
Hvordan Man Verificerer Enhver AI Ernæringspåstand
Uanset om du bruger en chatbot eller et andet værktøj, er der praktiske skridt til at tjekke de data, du får:
- Krydsreferer med USDA FoodData Central. USDA-databasen er gratis, offentlig og laboratorieverificeret. Hvis en AIs estimat divergerer betydeligt fra USDA-posten for den samme fødevare, er AI'en sandsynligvis forkert.
- Tjek antagelser om portionsstørrelse. Spørg altid eller verificer, hvilken portionsstørrelse estimatet er baseret på. Et kalorienummer uden en portionsstørrelse er meningsløst.
- Tag højde for tilberedningsmetode. Den samme ingrediens kan variere med 2 til 3 gange i kalorieindhold afhængigt af, om den er rå, bagt, stegt eller sauteret i olie.
- Vær skeptisk over for runde tal. Hvis en AI fortæller dig, at et måltid har "præcist 500 kalorier", er det et genereret estimat, ikke en målt værdi. Rigtige ernæringsdata har specifikke tal som 487 eller 523.
Ofte Stillede Spørgsmål
Er ChatGPT præcis til kalorieoptælling?
ChatGPT og lignende store sprogmodeller er ikke pålidelige til kalorieoptælling. De genererer estimater baseret på tekstmønstre snarere end at slå værdier op i verificerede ernæringsdatabaser. I tests varierede LLM kalorieestimater for komplekse måltider med 200 til 300 kalorier på tværs af forskellige forespørgsler for den samme fødevare. For simple, velkendte genstande som "et stort æg" er estimaterne ofte tættere, fordi dataene optræder hyppigt i træningsteksten. For tilberedte måltider, restaurantretter og blandede ingredienser stiger fejlprocenten betydeligt.
Kan jeg bruge ChatGPT til at spore mine makroer?
Det anbefales ikke at bruge ChatGPT til makrosporing for nogen, der forfølger specifikke sundheds- eller fitnessmål. Modellen kan ikke tage højde for dine faktiske portionsstørrelser, tilberedningsmetoder eller specifikke ingredienser. Den mangler også konsistens; at stille det samme spørgsmål to gange kan give forskellige makroopdelinger. For generel bevidsthed om, hvorvidt en fødevare er høj i protein eller kulhydrater, kan en LLM give nyttig vejledende information. For præcis sporing vil en specialiseret ernæringsapp med en verificeret database producere væsentligt mere nøjagtige og konsistente resultater.
Hvad er AI-hallucination i ernæring?
AI-hallucination i ernæring refererer til, når en sprogmodel genererer ernæringsdata, såsom kalorieantal, makroopdelinger eller mikronæringsværdier, der lyder autoritative, men som er faktuelt forkerte. Modellen lyver ikke bevidst; den forudsiger plausibelt lydende tekst baseret på mønstre. Resultatet er et kalorieantal, der lyder som en fakta, men aldrig er blevet verificeret mod nogen ernæringsdatabase. Dette er særligt farligt, fordi brugerne ikke har nogen måde at skelne mellem et hallucineret estimat og et korrekt uden manuel krydsreferencering.
Hvordan ved jeg, om min ernærings-AI giver præcise data?
Tjek tre ting. For det første, spørg om værktøjet trækker fra en verificeret ernæringsdatabase som USDA FoodData Central eller NCCDB, i stedet for at generere estimater fra en sprogmodel. For det andet, verificer at det tager højde for tilberedningsmetoder, da tilberedningsmetoden kan ændre en fødevares kalorieindhold med 50 til 200 procent. For det tredje, tjek om værktøjet specificerer den nøjagtige portionsstørrelse, som dets estimat er baseret på. En pålidelig ernærings-AI bør være transparent omkring sine datakilder og bør markere usikre estimater i stedet for at præsentere hvert nummer med lige stor selvtillid.
Er det sikkert at følge en måltidsplan lavet af AI?
AI-genererede måltidsplaner kan være nyttige som startrammer, men de bør ikke følges blindt for specifikke medicinske eller præstationsmål. Hver kalorieestimater i planen bærer potentiel fejl, og disse fejl akkumuleres over en hel dag med spisning. Hvis planen hævder at levere 1.800 kalorier, men hvert måltidsestimat er forkert med 10 til 15 procent, kan det faktiske daglige indtag variere fra 1.500 til 2.100 kalorier. For generel sund kostinspiration er AI-måltidsplaner et rimeligt udgangspunkt. For klinisk ernæringsstyring, vægttabsprogrammer eller atletiske præstationsdiæter bør kalorie- og makromålene verificeres mod et database-baseret værktøj.
Klar til at forvandle din ernæringsregistrering?
Bliv en del af de tusindvis, der har forvandlet deres sundhedsrejse med Nutrola!