Czy Twój AI ma halucynacje? Niebezpieczeństwo korzystania z ogólnych LLM w poradach dietetycznych

ChatGPT i Gemini potrafią pisać wiersze, ale czy potrafią liczyć kalorie? Przetestowaliśmy ogólne LLM w porównaniu z zweryfikowanymi danymi żywieniowymi, a wyniki powinny zaniepokoić każdego, kto używa ich do śledzenia diety.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

„Hej ChatGPT, ile kalorii ma mój kurczak stir-fry?”

Odpowiedź przychodzi natychmiast i z pewnością: „Typowy kurczak stir-fry zawiera około 350 do 450 kalorii na porcję.” Brzmi rozsądnie. Nawet rozkłada makroskładniki. Ale jest problem: ta liczba jest wymyślona. Nie oszacowana, nie przybliżona, ale wygenerowana na podstawie statystycznych wzorców w danych tekstowych, bez związku z rzeczywistą bazą danych żywieniowych.

To, co badacze AI nazywają halucynacją, a kiedy zdarza się to w kontekście żywienia, konsekwencje wykraczają poza złe eseje czy błędne odpowiedzi na pytania. Ludzie podejmują realne decyzje dietetyczne na podstawie tych liczb, a te decyzje wpływają na ich zdrowie.

Co oznacza "halucynacja" w kontekście żywienia

W terminologii dużych modeli językowych halucynacja występuje, gdy model generuje informacje, które brzmią wiarygodnie, ale są faktograficznie niepoprawne. LLM nie przeszukują faktów w bazie danych. Przewidują następne najbardziej prawdopodobne słowo w sekwencji na podstawie wzorców, które nauczyły się podczas treningu.

Kiedy pytasz ChatGPT o zawartość kalorii w jedzeniu, nie przeszukuje bazy danych USDA FoodData Central ani nie porównuje z NCCDB. Generuje odpowiedź, która statystycznie przypomina rodzaj odpowiedzi, która pojawiłaby się w danych treningowych. Czasami ta odpowiedź jest bliska prawdy. Czasami jest zupełnie błędna.

Niebezpieczeństwo polega na tym, że poziom pewności jest identyczny w obu przypadkach. Halucynowany wynik kalorii brzmi dokładnie jak dokładny.

Gdzie ogólne LLM mylą się w kwestii żywienia

Przeprowadziliśmy szereg testów, w których pytaliśmy ChatGPT (GPT-4o), Gemini i Claude o oszacowanie zawartości odżywczej popularnych posiłków. Następnie porównaliśmy te oszacowania z wartościami referencyjnymi zweryfikowanymi przez USDA oraz bazą danych Nutrola, przeglądaną przez dietetyków. Wzorce błędów były spójne i odkrywcze.

Wymyślona precyzja

Zapytaj LLM „ile kalorii ma łyżka oliwy z oliwek?”, a często otrzymasz poprawną odpowiedź: około 119 kalorii. Dzieje się tak, ponieważ ten konkretny fakt pojawia się często w danych treningowych.

Ale zapytaj „ile kalorii ma domowy kurczak tikka masala z naan?”, a model musi improwizować. W naszych testach GPT-4o zwrócił oszacowania w zakresie od 450 do 750 kalorii dla tego samego opisanego posiłku w różnych rozmowach. Rzeczywista wartość, obliczona na podstawie standardowego przepisu z zweryfikowanymi danymi składników, wynosiła 685 kalorii. Jedna odpowiedź była bliska. Inne różniły się o ponad 200 kalorii.

Model nie ma sposobu, aby sygnalizować, które odpowiedzi są wiarygodnymi danymi, a które są improwizowanymi zgadnięciami.

Ślepota na metodę przygotowania

LLM mają fundamentalną ślepotę w kwestii sposobu przygotowania jedzenia. „Grillowana pierś z kurczaka” i „smażona pierś z kurczaka w maśle” mogą otrzymać podobne oszacowania kalorii, ponieważ model koncentruje się na głównym składniku, a nie na metodzie gotowania.

W naszych testach, gdy pytaliśmy o „łososia” bez określenia metody przygotowania, odpowiedzi konsekwentnie domyślnie odnosiły się do oszacowania pieczonego lub grillowanego w zakresie od 230 do 280 kalorii dla 6-uncjowego fileta. 6-uncjowy filet łososia smażony w dwóch łyżkach masła z glazurą teriyaki zawiera w rzeczywistości bliżej 450 do 500 kalorii. Różnica jest na tyle znacząca, że może podważyć deficyt kaloryczny w dłuższym okresie.

Halucynacja wielkości porcji

Być może najniebezpieczniejszym błędem jest założenie dotyczące wielkości porcji. Kiedy pytasz ogólne LLM o kalorie w jedzeniu, musi ono założyć wielkość porcji. Te założenia są niespójne i często nieokreślone.

„Miska makaronu” może być oszacowana na 300 do 400 kalorii. Ale czyja to miska? Standardowa porcja 2 uncji suchego spaghetti z sosem marinara to około 280 kalorii. Porcja restauracyjna 4 do 6 uncji suchego makaronu z sosem łatwo osiąga 600 do 900 kalorii. LLM wybiera liczbę w środku i przedstawia ją jako fakt.

Kumuluje błędy w planach posiłków

Ryzyko wzrasta, gdy użytkownicy proszą LLM o generowanie pełnych planów posiłków. Każde indywidualne oszacowanie niesie ze sobą błąd, a te błędy kumulują się w posiłkach i dniach. Plan posiłków, który twierdzi, że dostarcza 1,800 kalorii dziennie, może w rzeczywistości dostarczać 2,200 lub 1,400 w zależności od kierunku błędów.

Dla kogoś korzystającego z planu posiłków w celu zarządzania stanem zdrowia, takim jak cukrzyca, lub w celu osiągnięcia konkretnych celów sportowych, ten poziom nieścisłości jest nie tylko nieprzydatny. Może być potencjalnie szkodliwy.

Dlaczego AI zaprojektowane do celów żywieniowych jest inne

Różnica między ogólnym LLM a systemem żywieniowym zaprojektowanym do konkretnych celów jest architektoniczna, a nie kosmetyczna.

Odpowiedzi oparte na bazie danych

AI Nutrola nie generuje oszacowań kalorii na podstawie wzorców językowych. Kiedy identyfikuje produkt spożywczy, mapuje tę identyfikację do zweryfikowanego wpisu w bazie danych żywieniowych. Baza danych zawiera wpisy pozyskane z USDA FoodData Central, krajowych baz danych żywieniowych z różnych krajów oraz wpisy przeglądane przez dietetyków wewnętrznych.

Oznacza to, że system nie może halucynować liczby kalorii. Liczba pochodzi z konkretnego, audytowalnego wpisu w bazie danych, a nie z statystycznego modelu językowego.

Weryfikacja wizualna

Kiedy użytkownik fotografuje posiłek, model wizji komputerowej Nutrola identyfikuje poszczególne produkty spożywcze i szacuje wielkości porcji na podstawie analizy wizualnej. To wizualne ugruntowanie zapewnia kontrolę, której modele LLM działające tylko w tekście nie mogą wykonać. System dosłownie patrzy na to, co jesz, zamiast zgadywać na podstawie opisu tekstowego.

Przejrzysta niepewność

Dobrze zaprojektowany system żywieniowy przyznaje, gdy jest niepewny. Jeśli danie jest niejednoznaczne lub wielkość porcji jest trudna do oszacowania na podstawie zdjęcia, system może zaznaczyć tę niepewność i poprosić użytkownika o wyjaśnienie. Ogólne LLM prawie nigdy nie wskazują, kiedy ich oszacowania żywieniowe są niskiej pewności, ponieważ nie mają mechanizmu do mierzenia własnej pewności co do twierdzeń faktograficznych.

Rzeczywiste zagrożenia zdrowotne

Nieprawidłowe dane kaloryczne z AI to nie abstrakcyjny problem. Przejawia się w konkretnych sposobach.

Niepowodzenie w zarządzaniu wagą. Stałe przeszacowanie lub niedoszacowanie o 200 kalorii dziennie zmienia wynik każdej diety. Przez 30 dni to błąd wynoszący 6,000 kalorii, co odpowiada około 1.7 funta tkanki tłuszczowej w każdą stronę.

Ślepota na mikroskładniki. LLM rzadko dostarczają danych o mikroskładnikach, a gdy już to robią, liczby są jeszcze mniej wiarygodne niż ich oszacowania kalorii. Osoba śledząca spożycie żelaza w czasie ciąży lub monitorująca sód w przypadku nadciśnienia nie może polegać na wygenerowanych oszacowaniach.

Fałszywa pewność siebie. Najbardziej podstępnym ryzykiem jest to, że użytkownik wierzy, że ma dokładne dane, gdy tak nie jest. Ta fałszywa pewność uniemożliwia im poszukiwanie lepszych narzędzi lub dokonywanie korekt na podstawie rzeczywistych wyników.

Kiedy warto zapytać LLM o jedzenie

Ogólne LLM nie są bezużyteczne w kwestii żywienia. Są skuteczne w pewnych typach zapytań:

  • Ogólna edukacja: „Jakie produkty są bogate w potas?” lub „Jaka jest różnica między błonnikiem rozpuszczalnym a nierozpuszczalnym?” To pytania wiedzy, w których przybliżone odpowiedzi są odpowiednie.
  • Pomysły na przepisy: „Podaj mi pomysł na lunch bogaty w białko poniżej 500 kalorii” może dostarczyć przydatnej inspiracji, nawet jeśli dokładna liczba kalorii powinna być zweryfikowana.
  • Zrozumienie koncepcji: „Wyjaśnij, czym jest deficyt kaloryczny” lub „Jak białko pomaga w regeneracji mięśni?” to obszary, w których LLM radzą sobie dobrze.

Granica jest jasna: używaj LLM do nauki o żywieniu. Używaj zweryfikowanych narzędzi opartych na bazach danych do jego śledzenia.

Jak zweryfikować jakiekolwiek roszczenie żywieniowe AI

Bez względu na to, czy korzystasz z chatbota, czy innego narzędzia, istnieją praktyczne kroki, aby sprawdzić dane, które otrzymujesz:

  1. Porównaj z USDA FoodData Central. Baza danych USDA jest darmowa, publiczna i zweryfikowana w laboratoriach. Jeśli oszacowanie AI znacznie odbiega od wpisu USDA dla tego samego jedzenia, AI prawdopodobnie się myli.
  2. Sprawdź założenia dotyczące wielkości porcji. Zawsze pytaj lub weryfikuj, na jakiej wielkości porcji opiera się oszacowanie. Liczba kalorii bez wielkości porcji jest bezsensowna.
  3. Uwzględnij metodę przygotowania. Ten sam składnik może różnić się gęstością kaloryczną o 2 do 3 razy w zależności od tego, czy jest surowy, pieczony, smażony czy podsmażany na oleju.
  4. Bądź sceptyczny wobec okrągłych liczb. Jeśli AI mówi, że posiłek ma „dokładnie 500 kalorii”, to jest to wygenerowane oszacowanie, a nie zmierzona wartość. Rzeczywiste dane żywieniowe mają konkretne liczby, takie jak 487 czy 523.

Najczęściej zadawane pytania

Czy ChatGPT jest dokładny w liczeniu kalorii?

ChatGPT i podobne duże modele językowe nie są wiarygodne w liczeniu kalorii. Generują oszacowania na podstawie wzorców tekstowych, a nie przeszukując wartości w zweryfikowanych bazach danych żywieniowych. W testach oszacowania kalorii LLM dla złożonych posiłków różniły się o 200 do 300 kalorii w różnych zapytaniach dotyczących tego samego jedzenia. Dla prostych, dobrze znanych produktów, takich jak „jedno duże jajko”, oszacowania zazwyczaj są bliskie, ponieważ dane te pojawiają się często w tekstach treningowych. W przypadku przygotowanych posiłków, dań restauracyjnych i potraw z mieszanych składników, wskaźnik błędów znacznie wzrasta.

Czy mogę używać ChatGPT do śledzenia moich makroskładników?

Korzystanie z ChatGPT do śledzenia makroskładników nie jest zalecane dla nikogo, kto dąży do konkretnych celów zdrowotnych lub fitnessowych. Model nie może uwzględnić rzeczywistych wielkości porcji, metod gotowania ani konkretnych składników. Brakuje mu również spójności; zadanie tego samego pytania dwa razy może dać różne rozkłady makroskładników. Dla ogólnej świadomości, czy dany produkt jest bogaty w białko czy w węglowodany, LLM może dostarczyć przydatnych informacji kierunkowych. Dla precyzyjnego śledzenia, aplikacja żywieniowa zaprojektowana do tego celu z zweryfikowaną bazą danych przyniesie znacznie dokładniejsze i spójniejsze wyniki.

Czym jest halucynacja AI w żywieniu?

Halucynacja AI w żywieniu odnosi się do sytuacji, w której model językowy generuje dane żywieniowe, takie jak liczby kalorii, rozkłady makroskładników lub wartości mikroskładników, które brzmią autorytatywnie, ale są faktograficznie niepoprawne. Model nie kłamie celowo; przewiduje tekst, który brzmi wiarygodnie na podstawie wzorców. W rezultacie otrzymujemy liczbę kalorii, która wygląda jak fakt, ale nigdy nie została zweryfikowana w żadnej bazie danych żywieniowych. To szczególnie niebezpieczne, ponieważ użytkownicy nie mają sposobu, aby odróżnić halucynowane oszacowanie od dokładnego, bez ręcznego porównania.

Jak mogę sprawdzić, czy moje AI żywieniowe podaje dokładne dane?

Sprawdź trzy rzeczy. Po pierwsze, zapytaj, czy narzędzie korzysta z zweryfikowanej bazy danych żywieniowych, takiej jak USDA FoodData Central lub NCCDB, zamiast generować oszacowania na podstawie modelu językowego. Po drugie, upewnij się, że uwzględnia metody przygotowania, ponieważ sposób gotowania może zmienić zawartość kalorii w jedzeniu o 50 do 200 procent. Po trzecie, sprawdź, czy narzędzie określa dokładną wielkość porcji, na której opiera się jego oszacowanie. Wiarygodne AI żywieniowe powinno być przejrzyste co do swoich źródeł danych i powinno oznaczać niepewne oszacowania, zamiast przedstawiać każdą liczbę z równą pewnością.

Czy bezpiecznie jest stosować plan posiłków stworzony przez AI?

Plany posiłków generowane przez AI mogą być przydatne jako ramy wyjściowe, ale nie powinny być stosowane bezkrytycznie w przypadku konkretnych celów medycznych lub wydolnościowych. Każde oszacowanie kalorii w planie niesie ze sobą potencjalny błąd, a te błędy kumulują się w ciągu całego dnia jedzenia. Jeśli plan twierdzi, że dostarcza 1,800 kalorii, ale każde oszacowanie posiłku jest błędne o 10 do 15 procent, rzeczywiste dzienne spożycie może wynosić od 1,500 do 2,100 kalorii. W przypadku ogólnej inspiracji do zdrowego odżywiania plany posiłków AI są rozsądne jako punkt wyjścia. W przypadku zarządzania żywieniem klinicznym, programów odchudzających lub diet wydolnościowych, cele kaloryczne i makroskładnikowe powinny być weryfikowane w oparciu o narzędzie oparte na bazach danych.

Gotowy, aby przeksztalcic sledzenie zywienia?

Dolacz do tysiecy osob, ktore przeksztalcily swoja podroz zdrowotna z Nutrola!