Halucinuje vaše AI? Riziko používání generických LLM pro dietní poradenství

ChatGPT a Gemini umí psát poezii, ale dokážou spočítat vaše kalorie? Otestovali jsme generické LLM ve srovnání s ověřenými nutričními daty a výsledky by měly znepokojit každého, kdo je používá pro sledování diety.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

„Ahoj ChatGPT, kolik kalorií má moje kuřecí stir-fry?“

Odpověď přichází okamžitě a sebevědomě: „Typické kuřecí stir-fry obsahuje přibližně 350 až 450 kalorií na porci.“ Zní to rozumně. Dokonce to rozebírá makra. Ale je tu problém: číslo je vymyšlené. Neodhadnuté, neaprimované, ale generované na základě statistických vzorců v textových datech bez jakéhokoli spojení s reálnou nutriční databází.

To, co výzkumníci AI nazývají halucinací, má v kontextu výživy důsledky, které přesahují špatný esej nebo chybnou odpověď na otázku. Lidé se na základě těchto čísel rozhodují o své stravě, a tato rozhodnutí ovlivňují jejich zdraví.

Co znamená „halucinace“ v kontextu výživy

V terminologii velkých jazykových modelů (LLM) se halucinace vyskytuje, když model generuje informace, které zní věrohodně, ale jsou fakticky nesprávné. LLM nevyhledávají fakta v databázi. Předpovídají další nejpravděpodobnější slovo v sekvenci na základě vzorců naučených během tréninku.

Když se zeptáte ChatGPT na kalorický obsah potraviny, neprohledává databázi USDA FoodData Central ani neprovádí křížovou kontrolu s NCCDB. Generuje odpověď, která statisticky připomíná typ odpovědi, která by se objevila v jeho tréninkových datech. Někdy je tato odpověď blízko správné. Jindy je úplně mimo.

Nebezpečí spočívá v tom, že úroveň sebevědomí je v obou případech identická. Halucinační počet kalorií vypadá přesně jako ten správný.

Kde generické LLM chybují v oblasti výživy

Provedli jsme sérii testů, ve kterých jsme požádali ChatGPT (GPT-4o), Gemini a Claude, aby odhadli nutriční obsah běžných jídel. Poté jsme tyto odhady porovnali s ověřenými hodnotami USDA a databází Nutrola, kterou přezkoumali nutriční specialisté. Vzorce selhání byly konzistentní a odhalující.

Vymyšlená přesnost

Když se zeptáte LLM „kolik kalorií má lžíce olivového oleje?“, často dostanete správnou odpověď: přibližně 119 kalorií. To je proto, že tento konkrétní fakt se v tréninkových datech objevuje často.

Ale když se zeptáte „kolik kalorií má domácí kuřecí tikka masala s naanem?“, model musí improvizovat. V našich testech GPT-4o vrátil odhady v rozmezí od 450 do 750 kalorií pro stejné popsané jídlo v různých konverzacích. Skutečná hodnota, vypočtená ze standardního receptu s ověřenými ingrediencemi, byla 685 kalorií. Jedna odpověď byla blízko. Ostatní byly mimo o více než 200 kalorií.

Model nemá žádný způsob, jak signalizovat, které odpovědi jsou spolehlivé a které jsou improvizované odhady.

Slepoty přípravy

LLM mají zásadní slepotu ohledně toho, jak je jídlo připraveno. „Grilované kuřecí prso“ a „smažené kuřecí prso na másle“ mohou dostat podobné odhady kalorií, protože model se zaměřuje na hlavní ingredienci spíše než na metodu vaření.

V našich testech, když jsme se ptali na „lososa“ bez specifikace přípravy, odpovědi se konzistentně vracely k odhadu pečeného nebo grilovaného lososa kolem 230 až 280 kalorií pro 6 uncí filet. 6 uncí filet lososa smaženého na dvou lžících másla s teriyaki glazurou ve skutečnosti obsahuje blíže k 450 až 500 kaloriím. Rozdíl je natolik významný, že může narušit kalorický deficit v průběhu času.

Halucinace velikosti porce

Snad nejnebezpečnější selhání spočívá v předpokladu velikosti porce. Když se zeptáte generického LLM na kalorie jídla, musí předpokládat velikost porce. Tyto předpoklady jsou nekonzistentní a často neoznačené.

„Miska těstovin“ může být odhadnuta na 300 až 400 kalorií. Ale čí miska? Standardní porce 2 unce suchých špaget s marinárou má přibližně 280 kalorií. Porce restaurace 4 až 6 uncí suchých těstovin se omáčkou snadno dosáhne 600 až 900 kalorií. LLM vybere číslo uprostřed a předloží ho jako fakt.

Sčítání chyb v jídelních plánech

Riziko se zvyšuje, když uživatelé žádají LLM o generování celých jídelních plánů. Každý jednotlivý odhad nese chybu, a tyto chyby se sčítají napříč jídly a dny. Jídelní plán, který tvrdí, že dodává 1 800 kalorií denně, může ve skutečnosti dodávat 2 200 nebo 1 400 v závislosti na směru chyb.

Pro někoho, kdo používá jídelní plán k řízení zdravotního stavu, jako je diabetes, nebo k dosažení specifických sportovních cílů, je tato úroveň nepřesnosti nejen neprospěšná. Může být potenciálně škodlivá.

Proč je AI zaměřená na výživu jiná

Rozdíl mezi generickým LLM a systémem zaměřeným na výživu je architektonický, nikoli kosmetický.

Odpovědi založené na databázi

AI Nutrola negeneruje odhady kalorií na základě jazykových vzorců. Když identifikuje potravinový prvek, mapuje tuto identifikaci na ověřený záznam v nutriční databázi. Databáze obsahuje záznamy získané z USDA FoodData Central, národních nutričních databází z několika zemí a interně přezkoumané záznamy nutričními specialisty.

To znamená, že systém nemůže halucinovat počet kalorií. Číslo pochází z konkrétního, auditovatelného záznamu v databázi, nikoli ze statistického jazykového modelu.

Vizualizace ověření

Když uživatel vyfotí jídlo, model počítačového vidění Nutrola identifikuje jednotlivé potravinové prvky a odhaduje velikosti porcí na základě vizuální analýzy. Toto vizuální zakotvení poskytuje kontrolu, kterou textové LLM nemohou provést. Systém doslova sleduje, co jíte, místo aby hádal na základě textového popisu.

Transparentní nejistota

Dobře navržený nutriční systém uznává, když je nejistý. Pokud je pokrm nejednoznačný nebo je těžké odhadnout velikost porce z fotografie, systém může tuto nejistotu označit a požádat uživatele o objasnění. Generické LLM téměř nikdy neoznačují, když jsou jejich nutriční odhady s nízkou důvěrou, protože nemají mechanismus pro měření své vlastní důvěry v faktické tvrzení.

Skutečná zdravotní rizika

Nepřesná data o kaloriích z AI nejsou abstraktním problémem. Projevují se v konkrétních způsobech.

Selhání správy hmotnosti. Konzistentní nadhodnocení nebo podhodnocení o 200 kalorií denně mění výsledek jakékoli diety. Za 30 dní to představuje chybu 6 000 kalorií, což je přibližně ekvivalent 1,7 libry tělesného tuku v obou směrech.

Slepota na mikroživiny. LLM zřídka poskytují data o mikroživinách, a když to dělají, čísla jsou ještě méně spolehlivá než jejich odhady kalorií. Někdo, kdo sleduje příjem železa během těhotenství nebo monitoruje sodík pro hypertenzi, se nemůže spolehnout na generované odhady.

Falešná důvěra. Nejzáludnějším rizikem je, že uživatel věří, že má přesná data, když ve skutečnosti nemá. Tato falešná důvěra brání tomu, aby hledali lepší nástroje nebo prováděli úpravy na základě skutečných výsledků.

Kdy je v pořádku se ptát LLM na jídlo

Generické LLM nejsou pro výživu zbytečné. Jsou efektivní pro určité typy dotazů:

  • Obecné vzdělávání: „Jaké potraviny jsou bohaté na draslík?“ nebo „Jaký je rozdíl mezi rozpustnou a nerozpustnou vlákninou?“ To jsou znalostní otázky, kde jsou přibližné odpovědi přijatelné.
  • Nápady na recepty: „Dejte mi nápad na oběd s vysokým obsahem bílkovin pod 500 kalorií“ může poskytnout užitečnou inspiraci, i když by se měla ověřit přesná kalorická hodnota.
  • Pochopení konceptů: „Vysvětlete, co je kalorický deficit“ nebo „Jak bílkoviny pomáhají při regeneraci svalů?“ jsou oblasti, kde LLM vykonávají dobře.

Hranice je jasná: používejte LLM k učení o výživě. Pro sledování použijte ověřené, databází podložené nástroje.

Jak ověřit jakékoli tvrzení AI o výživě

Ať už používáte chatbota nebo jakýkoli jiný nástroj, existují praktické kroky, jak zkontrolovat data, která dostáváte:

  1. Křížově ověřte s USDA FoodData Central. Databáze USDA je zdarma, veřejná a laboratorně ověřená. Pokud se odhad AI výrazně liší od záznamu USDA pro stejné jídlo, AI pravděpodobně chybuje.
  2. Zkontrolujte předpoklady velikosti porce. Vždy se ptejte nebo ověřte, na jaké velikosti porce je odhad založen. Číslo kalorií bez velikosti porce je bezvýznamné.
  3. Zohledněte metodu přípravy. Stejná ingredience může mít v závislosti na tom, zda je syrová, pečená, smažená nebo restovaná na oleji, kalorickou hustotu 2 až 3krát vyšší.
  4. Buďte skeptičtí k zaokrouhleným číslům. Pokud vám AI řekne, že jídlo má „přesně 500 kalorií“, je to generovaný odhad, nikoli změřená hodnota. Skutečná nutriční data mají konkrétní čísla jako 487 nebo 523.

Často kladené otázky

Je ChatGPT přesný pro počítání kalorií?

ChatGPT a podobné velké jazykové modely nejsou spolehlivé pro počítání kalorií. Generují odhady na základě textových vzorců, spíše než aby vyhledávaly hodnoty v ověřených nutričních databázích. V testování se odhady kalorií LLM pro složitá jídla lišily o 200 až 300 kalorií napříč různými dotazy na stejné jídlo. U jednoduchých, známých položek jako „jedno velké vejce“ se odhady obvykle blíží, protože data se často objevují v tréninkovém textu. U připravených jídel, restaurací a smíšených ingrediencí se míra chyby výrazně zvyšuje.

Mohu použít ChatGPT k sledování svých makroživin?

Používání ChatGPT pro sledování makroživin se nedoporučuje pro každého, kdo usiluje o konkrétní zdravotní nebo fitness cíle. Model nemůže zohlednit vaše skutečné velikosti porcí, metody vaření nebo specifické ingredience. Také postrádá konzistenci; položením stejné otázky dvakrát můžete získat různé rozdělení makroživin. Pro obecné povědomí o tom, zda je potravina bohatá na bílkoviny nebo sacharidy, může LLM poskytnout užitečné orientační informace. Pro přesné sledování poskytne aplikace zaměřená na výživu s ověřenou databází podstatně přesnější a konzistentnější výsledky.

Co je halucinace AI v oblasti výživy?

Halucinace AI v oblasti výživy se týká situace, kdy jazykový model generuje nutriční data, jako jsou počty kalorií, rozdělení makroživin nebo hodnoty mikroživin, které znějí autoritativně, ale jsou fakticky nesprávné. Model nelže záměrně; předpovídá text, který zní plausibilně na základě vzorců. Výsledkem je počet kalorií, který vypadá jako fakt, ale nikdy nebyl ověřen v žádné nutriční databázi. To je obzvlášť nebezpečné, protože uživatelé nemají žádný způsob, jak rozlišit halucinační odhad od přesného bez manuálního křížového ověřování.

Jak zjistím, zda můj nutriční AI poskytuje přesná data?

Zkontrolujte tři věci. Za prvé, zeptejte se, zda nástroj čerpá z ověřené nutriční databáze, jako je USDA FoodData Central nebo NCCDB, místo aby generoval odhady z jazykového modelu. Za druhé, ověřte, že zohledňuje metody přípravy, protože způsob vaření může změnit kalorický obsah jídla o 50 až 200 procent. Za třetí, zkontrolujte, zda nástroj specifikuje přesnou velikost porce, na které je jeho odhad založen. Spolehlivý nutriční AI by měl být transparentní ohledně svých zdrojů dat a měl by označit nejisté odhady místo aby prezentoval každé číslo se stejnou důvěrou.

Je bezpečné řídit se jídelním plánem vytvořeným AI?

Jídelní plány generované AI mohou být užitečné jako výchozí rámce, ale neměly by být následovány bezmyšlenkovitě pro specifické zdravotní nebo výkonnostní cíle. Každý odhad kalorií v plánu nese potenciální chybu, a tyto chyby se sčítají napříč celým dnem stravování. Pokud plán tvrdí, že dodává 1 800 kalorií, ale každý odhad jídla je chybný o 10 až 15 procent, skutečný denní příjem se může pohybovat od 1 500 do 2 100 kalorií. Pro obecnou inspiraci zdravého stravování jsou jídelní plány AI rozumným výchozím bodem. Pro klinické řízení výživy, programy hubnutí nebo diety pro sportovní výkon by měly být cíle kalorií a makroživin ověřeny proti nástroji založenému na databázi.

Připraveni proměnit sledování výživy?

Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!