Halluziniert Ihre KI? Die Gefahr generischer LLMs bei Ernährungsberatung
ChatGPT und Gemini können Gedichte schreiben, aber können sie Ihre Kalorien zählen? Wir haben generische LLMs mit verifizierten Nährwertdaten verglichen und die Ergebnisse sollten jeden beunruhigen, der sie für die Ernährungsverfolgung nutzt.
„Hey ChatGPT, wie viele Kalorien hat mein Hähnchen-Pfannengemüse?"
Die Antwort kommt sofort und selbstbewusst: „Ein typisches Hähnchen-Pfannengemüse enthält ungefähr 350 bis 450 Kalorien pro Portion." Es klingt vernünftig. Es schlüsselt sogar die Makronährstoffe auf. Aber es gibt ein Problem: Die Zahl ist erfunden. Nicht geschätzt, nicht angenähert, sondern aus statistischen Textmustern generiert, ohne jegliche Verbindung zu einer tatsächlichen Nährwertdatenbank.
Das ist, was KI-Forscher eine Halluzination nennen, und wenn dies im Kontext der Ernährung geschieht, gehen die Konsequenzen weit über einen schlechten Aufsatz oder eine falsche Quizantwort hinaus. Menschen treffen echte Ernährungsentscheidungen auf Basis dieser Zahlen, und diese Entscheidungen wirken sich auf ihre Gesundheit aus.
Was „Halluzination" im Ernährungskontext bedeutet
In der Terminologie großer Sprachmodelle tritt eine Halluzination auf, wenn das Modell Informationen erzeugt, die plausibel klingen, aber faktisch falsch sind. LLMs schlagen keine Fakten in einer Datenbank nach. Sie sagen das nächste wahrscheinlichste Wort in einer Sequenz voraus, basierend auf Mustern, die während des Trainings erlernt wurden.
Wenn Sie ChatGPT nach dem Kaloriengehalt eines Lebensmittels fragen, wird nicht die USDA FoodData Central Datenbank abgefragt oder die NCCDB herangezogen. Es wird eine Antwort generiert, die statistisch der Art von Antwort ähnelt, die in den Trainingsdaten vorkommen würde. Manchmal liegt diese Antwort nahe am richtigen Wert. Manchmal liegt sie völlig daneben.
Die Gefahr besteht darin, dass das Konfidenzniveau in beiden Fällen identisch ist. Ein halluzinierter Kalorienwert liest sich genauso wie ein korrekter.
Wo generische LLMs bei Ernährungsdaten versagen
Wir haben eine Reihe von Tests durchgeführt, bei denen wir ChatGPT (GPT-4o), Gemini und Claude gebeten haben, den Nährwertgehalt gängiger Mahlzeiten zu schätzen. Anschließend haben wir diese Schätzungen mit USDA-verifizierten Referenzwerten und Nutrolas von Ernährungswissenschaftlern überprüfter Datenbank verglichen. Die Fehlermuster waren konsistent und aufschlussreich.
Erfundene Präzision
Fragen Sie ein LLM „Wie viele Kalorien hat ein Esslöffel Olivenöl?" und Sie werden häufig eine korrekte Antwort erhalten: etwa 119 Kalorien. Das liegt daran, dass diese spezifische Tatsache häufig in den Trainingsdaten vorkommt.
Aber fragen Sie „Wie viele Kalorien hat selbstgemachtes Chicken Tikka Masala mit Naan?" und das Modell muss improvisieren. In unseren Tests lieferte GPT-4o Schätzungen zwischen 450 und 750 Kalorien für dieselbe beschriebene Mahlzeit in verschiedenen Konversationen. Der tatsächliche Wert, berechnet aus einem Standardrezept mit verifizierten Zutatendaten, betrug 685 Kalorien. Eine Antwort lag nahe dran. Andere lagen um über 200 Kalorien daneben.
Das Modell hat keine Möglichkeit zu signalisieren, welche Antworten zuverlässige Datenbankabfragen und welche improvisierte Vermutungen sind.
Blindheit gegenüber Zubereitungsmethoden
LLMs haben einen grundlegenden blinden Fleck in Bezug auf die Art der Zubereitung von Lebensmitteln. „Gegrillte Hähnchenbrust" und „in Butter gebratene Hähnchenbrust" können ähnliche Kalorienschätzungen erhalten, weil das Modell sich auf die Hauptzutat konzentriert und nicht auf die Zubereitungsmethode.
In unseren Tests, als wir nach „Lachs" ohne Angabe der Zubereitung fragten, gaben die Antworten durchgehend eine Back- oder Grillschätzung von etwa 230 bis 280 Kalorien für ein 170-Gramm-Filet an. Ein 170-Gramm-Lachsfilet, in zwei Esslöffeln Butter gebraten und mit einer Teriyaki-Glasur versehen, enthält tatsächlich eher 450 bis 500 Kalorien. Die Differenz ist groß genug, um ein Kaloriendefizit über die Zeit zunichtezumachen.
Halluzinierte Portionsgrößen
Die vielleicht gefährlichste Fehlerquelle ist die Annahme von Portionsgrößen. Wenn Sie ein generisches LLM nach den Kalorien eines Lebensmittels fragen, muss es eine Portionsgröße annehmen. Diese Annahmen sind inkonsistent und oft nicht angegeben.
„Eine Schüssel Pasta" wird möglicherweise auf 300 bis 400 Kalorien geschätzt. Aber wessen Schüssel? Eine Standard-Portion von 56 Gramm trockener Spaghetti mit Tomatensauce enthält etwa 280 Kalorien. Eine Restaurantportion von 110 bis 170 Gramm trockener Pasta mit Sauce erreicht leicht 600 bis 900 Kalorien. Das LLM wählt eine Zahl in der Mitte und präsentiert sie als Fakt.
Kumulative Fehler in Ernährungsplänen
Das Risiko steigt, wenn Nutzer LLMs bitten, vollständige Ernährungspläne zu erstellen. Jede einzelne Schätzung enthält Fehler, und diese Fehler summieren sich über Mahlzeiten und Tage hinweg. Ein Ernährungsplan, der behauptet, 1.800 Kalorien pro Tag zu liefern, könnte tatsächlich 2.200 oder 1.400 Kalorien enthalten, je nach Richtung der Fehler.
Für jemanden, der einen Ernährungsplan zur Behandlung einer Erkrankung wie Diabetes nutzt oder bestimmte sportliche Leistungsziele erreichen möchte, ist dieses Maß an Ungenauigkeit nicht nur wenig hilfreich. Es ist potenziell gesundheitsschädlich.
Warum spezialisierte Ernährungs-KI anders ist
Der Unterschied zwischen einem generischen LLM und einem spezialisierten Ernährungssystem ist architektonischer Natur, nicht kosmetischer.
Datenbankgestützte Antworten
Nutrolas KI generiert keine Kalorienschätzungen aus Sprachmustern. Wenn sie ein Lebensmittel identifiziert, ordnet sie diese Identifikation einem verifizierten Eintrag in einer Nährwertdatenbank zu. Die Datenbank enthält Einträge aus der USDA FoodData Central, nationalen Nährwertdatenbanken mehrerer Länder und von hauseigenen Ernährungswissenschaftlern überprüfte Einträge.
Das bedeutet, dass das System keinen Kalorienwert halluzinieren kann. Die Zahl stammt aus einem spezifischen, überprüfbaren Datenbankeintrag, nicht aus einem statistischen Sprachmodell.
Visuelle Verifizierung
Wenn ein Nutzer eine Mahlzeit fotografiert, identifiziert Nutrolas Computer-Vision-Modell einzelne Lebensmittel und schätzt Portionsgrößen auf Basis visueller Analyse. Diese visuelle Verankerung bietet eine Überprüfung, die rein textbasierte LLMs nicht leisten können. Das System betrachtet buchstäblich, was Sie essen, anstatt aus einer Textbeschreibung zu raten.
Transparente Unsicherheit
Ein gut konzipiertes Ernährungssystem gibt zu, wenn es unsicher ist. Wenn ein Gericht mehrdeutig ist oder eine Portionsgröße schwer von einem Foto abzuschätzen ist, kann das System diese Unsicherheit kennzeichnen und den Nutzer um Klärung bitten. Generische LLMs zeigen fast nie an, wenn ihre Nährwertschätzungen wenig verlässlich sind, da ihnen ein Mechanismus fehlt, ihre eigene Konfidenz bei faktischen Aussagen zu messen.
Die realen Gesundheitsrisiken
Ungenaue Kaloriendaten von KI sind kein abstraktes Problem. Sie manifestieren sich auf konkrete Weise.
Scheitern beim Gewichtsmanagement. Eine konstante Über- oder Unterschätzung von 200 Kalorien pro Tag verändert das Ergebnis jeder Diät. Über 30 Tage sind das 6.000 Kalorien Abweichung, was ungefähr 0,8 Kilogramm Körperfett in beide Richtungen entspricht.
Mikronährstoff-Blindheit. LLMs liefern selten Mikronährstoffdaten, und wenn sie es tun, sind die Zahlen noch weniger zuverlässig als ihre Kalorienschätzungen. Jemand, der die Eisenaufnahme während der Schwangerschaft verfolgt oder den Natriumwert bei Bluthochdruck überwacht, kann sich nicht auf generierte Schätzungen verlassen.
Falsches Vertrauen. Das heimtückischste Risiko besteht darin, dass der Nutzer glaubt, genaue Daten zu haben, obwohl dies nicht der Fall ist. Dieses falsche Vertrauen hindert ihn daran, bessere Werkzeuge zu suchen oder Anpassungen auf Basis tatsächlicher Ergebnisse vorzunehmen.
Wann es in Ordnung ist, ein LLM über Ernährung zu befragen
Generische LLMs sind nicht nutzlos für die Ernährung. Sie sind für bestimmte Arten von Fragen durchaus geeignet:
- Allgemeine Bildung: „Welche Lebensmittel sind reich an Kalium?" oder „Was ist der Unterschied zwischen löslichen und unlöslichen Ballaststoffen?" Dies sind Wissensfragen, bei denen ungefähre Antworten angemessen sind.
- Rezeptideen: „Gib mir eine proteinreiche Mittagessen-Idee unter 500 Kalorien" kann nützliche Inspiration liefern, auch wenn der genaue Kalorienwert überprüft werden sollte.
- Konzepte verstehen: „Erkläre, was ein Kaloriendefizit ist" oder „Wie hilft Protein bei der Muskelregeneration?" sind Bereiche, in denen LLMs gute Leistungen erbringen.
Die Grenze ist klar: Nutzen Sie LLMs, um etwas über Ernährung zu lernen. Nutzen Sie verifizierte, datenbankgestützte Werkzeuge, um sie zu verfolgen.
So überprüfen Sie jede KI-Nährwertaussage
Ob Sie einen Chatbot oder ein anderes Tool verwenden, es gibt praktische Schritte, um die erhaltenen Daten zu überprüfen:
- Abgleich mit USDA FoodData Central. Die USDA-Datenbank ist kostenlos, öffentlich zugänglich und laborverifiziert. Wenn die Schätzung einer KI deutlich vom USDA-Eintrag für dasselbe Lebensmittel abweicht, liegt die KI wahrscheinlich falsch.
- Portionsgrößen-Annahmen überprüfen. Fragen Sie immer nach oder überprüfen Sie, auf welcher Portionsgröße die Schätzung basiert. Ein Kalorienwert ohne Portionsgröße ist bedeutungslos.
- Zubereitungsmethode berücksichtigen. Dieselbe Zutat kann je nachdem, ob sie roh, gebacken, gebraten oder in Öl angebraten ist, um das 2- bis 3-Fache in der Kaloriendichte variieren.
- Seien Sie skeptisch bei runden Zahlen. Wenn eine KI Ihnen sagt, dass eine Mahlzeit „genau 500 Kalorien" hat, handelt es sich um eine generierte Schätzung, nicht um einen gemessenen Wert. Echte Nährwertdaten haben spezifische Zahlen wie 487 oder 523.
Häufig gestellte Fragen
Ist ChatGPT beim Kalorienzählen genau?
ChatGPT und ähnliche große Sprachmodelle sind nicht zuverlässig beim Kalorienzählen. Sie generieren Schätzungen basierend auf Textmustern, anstatt Werte in verifizierten Nährwertdatenbanken nachzuschlagen. In Tests variierten LLM-Kalorienschätzungen für komplexe Mahlzeiten um 200 bis 300 Kalorien bei verschiedenen Anfragen für dasselbe Gericht. Für einfache, allgemein bekannte Lebensmittel wie „ein großes Ei" liegen die Schätzungen tendenziell nahe am richtigen Wert, da die Daten häufig in Trainingstexten vorkommen. Bei zubereiteten Mahlzeiten, Restaurantgerichten und Gerichten mit gemischten Zutaten steigt die Fehlerrate deutlich an.
Kann ich ChatGPT zum Makro-Tracking verwenden?
Die Verwendung von ChatGPT für Makro-Tracking wird für niemanden empfohlen, der spezifische Gesundheits- oder Fitnessziele verfolgt. Das Modell kann Ihre tatsächlichen Portionsgrößen, Zubereitungsmethoden oder spezifischen Zutaten nicht berücksichtigen. Es mangelt ihm auch an Konsistenz; dieselbe Frage zweimal zu stellen kann unterschiedliche Makronährstoff-Aufschlüsselungen ergeben. Für ein allgemeines Bewusstsein, ob ein Lebensmittel viel Protein oder Kohlenhydrate enthält, kann ein LLM nützliche Richtungshinweise geben. Für präzises Tracking liefert eine spezialisierte Ernährungs-App mit verifizierter Datenbank deutlich genauere und konsistentere Ergebnisse.
Was ist KI-Halluzination im Ernährungsbereich?
KI-Halluzination im Ernährungsbereich bedeutet, dass ein Sprachmodell Nährwertdaten erzeugt – wie Kalorienwerte, Makronährstoff-Aufschlüsselungen oder Mikronährstoffe – die autoritativ klingen, aber faktisch falsch sind. Das Modell lügt nicht absichtlich; es sagt plausibel klingenden Text basierend auf Mustern voraus. Das Ergebnis ist ein Kalorienwert, der sich wie eine Tatsache liest, aber nie gegen eine Nährwertdatenbank verifiziert wurde. Dies ist besonders gefährlich, da Nutzer ohne manuellen Abgleich keine Möglichkeit haben, eine halluzinierte Schätzung von einer korrekten zu unterscheiden.
Woher weiß ich, ob meine Ernährungs-KI genaue Daten liefert?
Überprüfen Sie drei Dinge. Erstens: Fragen Sie, ob das Tool aus einer verifizierten Nährwertdatenbank wie der USDA FoodData Central oder NCCDB schöpft, anstatt Schätzungen aus einem Sprachmodell zu generieren. Zweitens: Überprüfen Sie, ob es Zubereitungsmethoden berücksichtigt, da die Zubereitungsart den Kaloriengehalt eines Lebensmittels um 50 bis 200 Prozent verändern kann. Drittens: Prüfen Sie, ob das Tool die exakte Portionsgröße angibt, auf der seine Schätzung basiert. Eine zuverlässige Ernährungs-KI sollte transparent bezüglich ihrer Datenquellen sein und unsichere Schätzungen kennzeichnen, anstatt jede Zahl mit gleicher Konfidenz zu präsentieren.
Ist es sicher, einem von KI erstellten Ernährungsplan zu folgen?
KI-generierte Ernährungspläne können als Ausgangsbasis nützlich sein, sollten aber nicht blindlings für spezifische medizinische oder leistungsbezogene Ziele befolgt werden. Jede Kalorienschätzung im Plan enthält potenzielle Fehler, und diese Fehler summieren sich über einen ganzen Tag der Ernährung. Wenn der Plan behauptet, 1.800 Kalorien zu liefern, aber jede Mahlzeitenschätzung um 10 bis 15 Prozent abweicht, könnte die tatsächliche Tagesaufnahme zwischen 1.500 und 2.100 Kalorien liegen. Für allgemeine Inspiration zur gesunden Ernährung sind KI-Ernährungspläne ein vernünftiger Ausgangspunkt. Für klinisches Ernährungsmanagement, Abnehmprogramme oder sportliche Leistungsdiäten sollten die Kalorien- und Makronährstoffziele mit einem datenbankgestützten Tool verifiziert werden.
Bereit, Ihr Ernährungstracking zu transformieren?
Schließen Sie sich Tausenden an, die ihre Gesundheitsreise mit Nutrola transformiert haben!