Wie KI Portionsgroessen aus Fotos schaetzt: Ein technischer Tiefgang

10. März 2026

Ein detaillierter Blick darauf, wie KI Tiefenschaetzung, Referenzobjekte und Volumenmodellierung nutzt, um Portionsgroessen aus einem einzelnen Foto zu schaetzen.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Zu erkennen, welches Essen auf Ihrem Teller liegt, ist nur die halbe Herausforderung der KI-gestuetzten Kalorienverfolgung. Die andere Haelfte, und wohl die schwierigere Haelfte, besteht darin herauszufinden, wie viel Essen vorhanden ist. Eine Portion Pasta kann je nach Portionsgroesse 200 oder 800 Kalorien haben. Diese Schaetzung richtig hinzubekommen ist es, was ein nuetzliches Ernaehrungstracking-Tool von einer Spielerei unterscheidet.

Dieser Artikel wirft einen tiefen technischen Blick darauf, wie KI-Systeme Portionsgroessen aus Fotografien schaetzen, und behandelt Tiefenschaetzung, Referenzobjekt-Skalierung, Volumenmodellierung und die fortlaufenden Herausforderungen, denen sich Forscher und Ingenieure gegenuebersehen, um diese Schaetzungen genauer zu machen.

Warum Portionsschaetzung schwieriger ist als Lebensmittelerkennung

Lebensmittelerkennung ist im Grunde ein Klassifizierungsproblem. Das System muss aus einer endlichen Menge von Lebensmittelkategorien waehlen. Portionsschaetzung hingegen ist ein Regressionsproblem. Das System muss einen kontinuierlichen Wert (Gramm oder Milliliter) allein aus visuellen Informationen vorhersagen.

Mehrere Faktoren machen dies besonders herausfordernd:

Das 2D-zu-3D-Problem: Ein Foto komprimiert die dreidimensionale Realitaet in ein zweidimensionales Bild. Tiefeninformationen gehen verloren, was es schwierig macht, zwischen einer duennen Schicht Essen und einem dicken Haufen zu unterscheiden.
Variable Dichte: Eine Tasse Blattsalat und eine Tasse Muesli haben das gleiche Volumen, aber voellig unterschiedliche Gewichte und Kaloriengehalte. Das System muss sowohl Volumen als auch Dichte schaetzen.
Perspektivische Verzerrung: Der Winkel, aus dem ein Foto aufgenommen wird, beeinflusst, wie gross Lebensmittel erscheinen. Ein Teller von direkt oben fotografiert sieht anders aus als derselbe Teller aus einem 45-Grad-Winkel.
Mehrdeutige Skalierung: Ohne ein bekanntes Referenzobjekt im Bild gibt es keine Moeglichkeit, die absolute Groesse zu bestimmen. Eine Nahaufnahme eines kleinen Kekses kann identisch aussehen wie ein Foto einer grossen Pizza, das aus groesserer Entfernung aufgenommen wurde.

Tiefenschaetzung aus einem einzelnen Bild

Einer der wichtigsten Durchbrueche, die Portionsschaetzung aus Fotos ermoeglichen, ist die monokulare Tiefenschaetzung, also die Faehigkeit, Tiefeninformationen aus einem einzelnen Bild abzuleiten, anstatt Stereokameras oder spezialisierte Hardware zu benoetigen.

Wie monokulare Tiefenschaetzung funktioniert

Das menschliche visuelle System leitet Tiefe aus zahlreichen Hinweisen ab: Objektueberlappung (naehere Objekte verdecken entferntere), relative Groesse (kleinere Objekte sind normalerweise weiter entfernt), Texturgradienten (Texturen werden in groesserer Entfernung feiner) und atmosphaerische Perspektive (entfernte Objekte erscheinen verschwommener).

Deep-Learning-Modelle koennen dieselben Hinweise aus grossen Datensaetzen von Bildern lernen, die mit Tiefenkarten gepaart sind. Wenn sie auf Lebensmittelfotografie angewendet werden, koennen diese Modelle schaetzen, welche Teile eines Lebensmittels naeher an der Kamera und welche weiter entfernt sind, und so die dreidimensionale Form des Essens aus einem flachen Bild rekonstruieren.

Tiefenkarten und Lebensmittelvolumen

Eine Tiefenkarte weist jedem Pixel im Bild einen Entfernungswert zu. Fuer die Lebensmittelschaetzung bedeutet dies, dass das System bestimmen kann, dass die Mitte einer Suppenschuessel eine bestimmte Tiefe hat, waehrend der Rand der Schuessel eine andere Tiefe aufweist. Die Differenz zwischen diesen Tiefen, kombiniert mit den erkannten Grenzen des Essens, ermoeglicht dem System die Volumenschaetzung.

Moderne Smartphone-Kameras mit LiDAR-Sensoren (verfuegbar bei neueren iPhone Pro- und iPad Pro-Modellen) koennen tatsaechliche Tiefendaten zusammen mit dem Farbbild erfassen und liefern so viel genauere Tiefeninformationen als die algorithmische Schaetzung allein. Ernaehrungs-Tracking-Apps koennen diese Hardware nutzen, wenn sie verfuegbar ist, und auf monokulare Schaetzung zurueckgreifen, wenn Geraete keine Tiefensensoren haben.

Referenzobjekt-Skalierung

Ohne einen bekannten Referenzpunkt ist die absolute Groesse von Objekten auf einem Foto mehrdeutig. Die Referenzobjekt-Skalierung loest dieses Problem, indem Objekte mit bekannten Abmessungen verwendet werden, um einen Groessenmassstab fuer das gesamte Bild zu erstellen.

Gaengige Referenzobjekte

Referenzobjekt	Bekannte Abmessung	Genauigkeitsvorteil
Standard-Essteller	25-27 cm Durchmesser	Stellt den Gesamtmassstab fuer die Mahlzeit her
Gabel oder Loeffel	~19 cm Laenge	Bietet Massstab auch bei Nahaufnahmen
Kreditkarte	8,56 x 5,4 cm	Praezise und universell standardisiert
Smartphone	Variiert je nach Modell, aber bekannt	Kann algorithmisch erkannt und gemessen werden
Hand	Variiert, kann aber aus demografischen Daten geschaetzt werden	Ungefaehre Skalierung, wenn kein anderes Referenzobjekt verfuegbar ist

Automatische Referenzerkennung

Anstatt von Benutzern zu verlangen, eine Referenzkarte neben ihr Essen zu legen (was Reibung erzeugt und die Nutzung entmutigt), versuchen moderne Systeme, gaengige Referenzobjekte automatisch zu erkennen. Teller, Schuesseln, Besteck und Tische erscheinen haeufig in Essensfotos und koennen als Groessenreferenz dienen, wenn das System sie identifizieren kann.

Das Portionsschaetzungssystem von Nutrola sucht automatisch nach Tellern, Schuesseln und Besteck im Bild, um den Massstab festzulegen. Wenn diese Objekte erkannt werden, verwendet das System deren typische Abmessungen, um die Groesse der Lebensmittel zu kalibrieren. Wenn kein Referenzobjekt gefunden wird, stuetzt sich das System auf erlernte Vorannahmen ueber typische Portionsgroessen und kann den Benutzer um Bestaetigung bitten.

Tellerbasierte Kalibrierung

Ein besonders effektiver Ansatz ist die tellerbasierte Kalibrierung. Standard-Essteller fallen in den meisten Laendern in einen engen Groessenbereich (25 bis 27 cm Durchmesser). Indem die elliptische Kontur eines Tellers im Bild erkannt und eine Standardgroesse angenommen wird, kann das System einen zuverlaessigen Massstab fuer alles auf dem Teller festlegen.

Dieser Ansatz funktioniert gut, weil Teller fast immer in Mahlzeitenfotos vorhanden sind, ihre elliptische Form unabhaengig vom Kamerawinkel leicht zu erkennen ist und die perspektivische Verzerrung der Ellipse tatsaechlich Informationen ueber den Kamerawinkel kodiert, was hilft, Perspektiveffekte auf das Essen zu korrigieren.

Techniken zur Volumenschaetzung

Sobald das System das Essen identifiziert, die Tiefe geschaetzt und den Massstab festgelegt hat, muss es diese Informationen kombinieren, um das Volumen jedes Lebensmittels zu schaetzen.

Geometrische Grundkoerper

Ein Ansatz besteht darin, Lebensmittel als Kombinationen einfacher geometrischer Formen anzunaehern:

Zylinder fuer hohe Speisen wie Getraenke, gestapelte Pfannkuchen oder Schichtkuchen
Halbkugeln fuer runde Speisen wie Reisportionen, Kartoffelpueree-Haufen oder Eiskugeln
Quader fuer geschnittenes Brot, Kaesebloeocke oder Riegel
Kegelstumpfe fuer Schuesseln mit Suppe oder Muesli (die Schuesselform hilft bei der Volumendefinition)
Unregelmaessige Polyeder fuer Speisen mit komplexen Formen wie Haehnchenkeulen oder ganze Fruechte

Das System passt einen oder mehrere dieser Grundkoerper an den erkannten Lebensmittelbereich an und berechnet das Volumen aus den angepassten Formen und dem festgelegten Massstab.

Voxelbasierte Rekonstruktion

Ein ausgefeilterer Ansatz beinhaltet die voxelbasierte Rekonstruktion, bei der das Lebensmittel als dreidimensionales Gitter kleiner Wuerfel (Voxel) modelliert wird. Jedes Voxel wird basierend auf der Tiefenkarte und der Segmentierungsmaske als entweder lebensmittelhaltig oder leer klassifiziert. Das Gesamtvolumen ist dann die Summe aller lebensmittelhaltigen Voxel.

Diese Methode bewaeltigt unregelmaessige Formen besser als geometrische Grundkoerper, erfordert jedoch mehr Rechenressourcen. Sie ist besonders nuetzlich fuer Lebensmittel, die nicht einfachen Formen entsprechen, wie ein abgerissenes Stueck Brot oder ein unregelmaessig geschnittenes Stueck Obst.

Neuronale Volumenschaetzung

Der neueste Ansatz ueberspringt die explizite geometrische Modellierung vollstaendig. Stattdessen wird ein neuronales Netzwerk Ende-zu-Ende trainiert, um das Lebensmittelvolumen direkt aus dem Bild vorherzusagen. Diese Modelle lernen implizite Darstellungen der Lebensmittelgeometrie aus grossen Datensaetzen von Essensbildern, die mit tatsaechlichen Gewichtsmessungen gepaart sind.

Dieser Ansatz hat vielversprechende Ergebnisse gezeigt, weil er subtile visuelle Hinweise erfassen kann, die mit dem Volumen korrelieren, wie die Art, wie Licht sich auf der Oberflaeche einer Fluessigkeit spiegelt, oder das Schattenmuster, das ein Essenshaufen wirft. Er vermeidet auch die Fehlerakkumulation, die auftreten kann, wenn Tiefenschaetzung, Segmentierung und geometrische Anpassung als separate Schritte durchgefuehrt werden.

Vom Volumen zum Gewicht zu Kalorien

Die Volumenschaetzung ist nicht der letzte Schritt. Um Kalorien zu berechnen, muss das System Volumen in Gewicht (unter Verwendung der Lebensmitteldichte) und Gewicht in Kalorien (unter Verwendung von Naehrwertdaten) umrechnen.

Lebensmitteldichte-Datenbanken

Verschiedene Lebensmittel haben sehr unterschiedliche Dichten. Eine Tasse Oel wiegt etwa 220 Gramm, waehrend eine Tasse Mehl etwa 120 Gramm wiegt und eine Tasse Popcorn etwa 8 Gramm. Genaue Dichtedaten sind fuer die Umrechnung von Volumenschaetzungen in Gewichtsschaetzungen unerlaesslich.

Produktionssysteme pflegen Datenbanken, die Lebensmittel ihren Dichten zuordnen und Variationen in der Zubereitungsmethode (gekocht vs. roh, gehackt vs. ganz) sowie gaengige Servierstile beruecksichtigen.

Lebensmittel	Dichte (g/mL)	Gewicht pro Tasse (g)	Kalorien pro Tasse
Wasser	1,00	237	0
Vollmilch	1,03	244	149
Gekochter weisser Reis	0,74	175	205
Roher Spinat	0,13	30	7
Erdnussbutter	1,09	258	1517
Olivenoel	0,92	218	1909

Naehrwertzusammensetzung

Sobald das System eine Gewichtsschaetzung in Gramm hat, schlaegt es die Naehrwertzusammensetzung pro Gramm in einer umfassenden Lebensmitteldatenbank nach. Diese Datenbanken werden typischerweise aus massgeblichen Quellen wie dem USDA FoodData Central abgeleitet und mit Daten von Lebensmittelherstellern und regionalen Naehrwertdatenbanken ergaenzt.

Die Datenbank von Nutrola umfasst mehr als 1,3 Millionen Lebensmittel, darunter Markenprodukte, Restaurantmenuepunkte und generische Lebensmittel mit vollstaendigen Makro- und Mikronaehrstoffprofilen. Diese umfassende Abdeckung stellt sicher, dass die Naehrwertberechnung praezise ist, sobald ein Lebensmittel und eine Portion identifiziert wurden.

Genauigkeitsherausforderungen und wie sie angegangen werden

Trotz der Raffinesse dieser Techniken bleibt die Portionsschaetzung aus Fotos eine unvollkommene Wissenschaft. Das Verstaendnis der Fehlerquellen hilft, realistische Erwartungen zu setzen, und hebt die laufenden Verbesserungen in diesem Bereich hervor.

Bekannte Fehlerquellen

Variation des Kamerawinkels: Dieselbe Portion sieht unterschiedlich aus, je nachdem, ob das Foto von oben, aus einem 45-Grad-Winkel oder nahe der Tischoberflaeche aufgenommen wird. Aufnahmen von oben liefern in der Regel die genauesten Schaetzungen, da sie die perspektivische Verzerrung minimieren, aber viele Benutzer halten ihr Telefon naturgemaess in einem Winkel.

Verdecktes Essen: Essen, das unter Saucen, Kaese oder anderen Belaegen versteckt ist, kann visuell nicht direkt gemessen werden. Das System muss den verborgenen Anteil basierend auf dem sichtbaren Gerichttyp und der typischen Zubereitung ableiten.

Unregelmaessige Behaelter: Nicht standardisierte Schuesseln, Tassen und Behaelter machen die tellerbasierte Skalierung weniger zuverlaessig. Eine kleine Portion in einer grossen Schuessel sieht anders aus als eine grosse Portion in einer kleinen Schuessel, selbst wenn die Lebensmittelflaeche aehnlich erscheint.

Individuelle Zubereitungsunterschiede: Zwei Personen, die "eine Schuessel Haferflocken" zubereiten, koennten sehr unterschiedliche Mengen an Haferflocken und Wasser verwenden, was zu demselben scheinbaren Volumen, aber unterschiedlichem Kaloriengehalt fuehrt.

Strategien zur Verbesserung der Genauigkeit

Aufnahme aus mehreren Winkeln: Einige Systeme bitten Benutzer, Fotos aus mehreren Winkeln aufzunehmen, was eine Stereorekonstruktion und genauere Volumenschaetzung ermoeglicht. Dies verbessert die Genauigkeit erheblich, fuegt dem Protokollierungsprozess jedoch Reibung hinzu.

Benutzer-Feedbackschleifen: Wenn Benutzer ihr Essen wiegen und die geschaetzte Portion bestaetigen oder korrigieren, entstehen Trainingsdaten, die das Modell im Laufe der Zeit verbessern. Nutrola ermutigt Benutzer, Portionen gelegentlich mit einer Kuechenwaage zu ueberpruefen, um sowohl die KI als auch das eigene Portionsbewusstsein des Benutzers zu kalibrieren.

Kontextbezogene Vorannahmen: Das System kann kontextbezogene Informationen nutzen, um Schaetzungen zu verfeinern. Wenn sich ein Benutzer bei einer bestimmten Restaurantkette befindet, kann das System bekannte Portionsgroessen verwenden. Wenn ein Benutzer regelmaessig ein bestimmtes Fruehstueck protokolliert, kann das System seine typische Portion lernen.

Konfidenzbasierte Schaetzungen: Anstatt eine einzelne Zahl zu praesentieren, bieten ausgefeilte Systeme einen Konfidenzbereich an. Wenn das System sich bei der Portion unsicher ist, kann es die Schaetzung als Bereich praesentieren (zum Beispiel 300 bis 450 Kalorien) und den Benutzer bitten, zusaetzliche Informationen bereitzustellen.

Aktuelle Genauigkeits-Benchmarks

Forschungsergebnisse der International Conference on Image Analysis and Processing haben gezeigt, dass hochmoderne Systeme zur Lebensmittelvolumenschaetzung mittlere absolute prozentuale Fehler zwischen 15 und 25 Prozent erreichen. Zum Vergleich: Studien haben gezeigt, dass ausgebildete Ernaehrungswissenschaftler bei der Portionsschaetzung aus Fotos Fehler von etwa 10 bis 15 Prozent erzielen, waehrend untrainierte Personen durchschnittliche Fehler von 30 bis 50 Prozent aufweisen.

Das bedeutet, dass die KI-Portionsschaetzung bereits deutlich besser ist als das, was die meisten Menschen ohne Hilfsmittel leisten koennen, und sich der Genauigkeit ausgebildeter Fachleute annaehert. In Kombination mit dem Geschwindigkeits- und Komfortvorteil stellt die KI-gestuetzte Verfolgung eine erhebliche Verbesserung gegenueber der manuellen Protokollierung fuer die Mehrheit der Benutzer dar.

Die Rolle der Benutzerkalibrierung

Ein unterschaetzter Aspekt der KI-Portionsschaetzung ist die Rolle der Benutzerkalibrierung im Laufe der Zeit. Wenn ein Benutzer Mahlzeiten protokolliert und gelegentlich Korrekturen vornimmt, erstellt das System ein Profil seiner typischen Portionsgroessen und Lebensmittelvorlieben.

Fuer regelmaessige Benutzer bedeutet dies, dass das System zunehmend genauer wird. Wenn Sie dazu neigen, sich groessere Portionen Reis als der Durchschnitt zu servieren, lernt das System, Ihre Reisschaetzungen nach oben anzupassen. Wenn Sie typischerweise weniger Oel als das Standardrezept verwenden, kann das System dies beruecksichtigen.

Nutrola nutzt diese Personalisierung, um zunehmend massgeschneiderte Portionsschaetzungen zu liefern, je laenger Sie die App verwenden. Neue Benutzer profitieren von bevoelkerungsbezogenen Durchschnittswerten, waehrend erfahrene Benutzer personalisierte Schaetzungen erhalten, die auf ihre spezifischen Gewohnheiten kalibriert sind.

Praktische Tipps fuer genauere Portionsschaetzungen

Waehrend die KI den Grossteil der Arbeit uebernimmt, koennen Benutzer die Genauigkeit verbessern, indem sie einige einfache Richtlinien befolgen:

Fotografieren Sie wenn moeglich von oben. Aufnahmen von oben liefern die meisten Informationen ueber die Lebensmitteloberflaeche und minimieren die perspektivische Verzerrung.
Nehmen Sie den gesamten Teller ins Bild auf. Der Tellerrand dient als entscheidendes Referenzobjekt fuer die Skalierung.
Vermeiden Sie extreme Nahaufnahmen. Das System braucht Kontext, um die Groesse zu beurteilen. Ein Foto, das nur das Essen ohne umliegende Objekte zeigt, bietet keine Massstabsreferenz.
Fotografieren Sie vor dem Mischen. Ein Salat mit sichtbar getrennten Zutaten ist leichter zu analysieren als einer, der vermengt wurde.
Verwenden Sie gute Beleuchtung. Schatten und schwaches Licht koennen Lebensmittelgrenzen und Tiefenhinweise verdecken.
Bestaetigen oder korrigieren Sie gelegentlich. Eine Kuechenwaage einmal pro Woche zu verwenden, um die KI-Schaetzung zu ueberpruefen, hilft, sowohl das System als auch Ihre eigene Intuition zu kalibrieren.

FAQ

Wie genau ist die KI-Portionsschaetzung im Vergleich zur Verwendung einer Lebensmittelwaage?

Eine Lebensmittelwaage bietet eine Genauigkeit von 1 bis 2 Gramm, was weitaus praeziser ist als jede visuelle Schaetzungsmethode. Die KI-Portionsschaetzung aus Fotos erreicht typischerweise eine Genauigkeit von 15 bis 25 Prozent des tatsaechlichen Gewichts. Allerdings bedeutet der Komfortvorteil der KI-Schaetzung (die 2 Sekunden dauert gegenueber 30 Sekunden oder mehr mit einer Waage), dass mehr Menschen tatsaechlich konsequent tracken, was fuer langfristige Ergebnisse oft wichtiger ist als perfekte Praezision.

Beeinflusst der Kamerawinkel die Genauigkeit der Portionsschaetzung?

Ja, erheblich. Aufnahmen von oben (senkrecht auf den Teller blickend) bieten die beste Genauigkeit, da sie die gesamte Oberflaeche des Essens mit minimaler perspektivischer Verzerrung zeigen. Fotos aus einem 45-Grad-Winkel sind am haeufigsten und liefern immer noch gute Schaetzungen. Sehr flache Winkel (nahe der Tischoberflaeche) sind am wenigsten genau, da der Grossteil des Essens durch den vorderen Rand des Tellers verdeckt wird.

Kann KI Portionen fuer Fluessigkeiten wie Suppen und Smoothies schaetzen?

Fluessigkeiten stellen eine besondere Herausforderung dar, da ihr Volumen durch ihren Behaelter und nicht durch ihre eigene Form bestimmt wird. KI-Systeme schaetzen Fluessigkeitsportionen, indem sie den Behaeltertyp und den Fuellstand identifizieren. Eine bis zum Rand gefuellte Suppenschuessel hat ein anderes Volumen als eine halb gefuellte. Die Genauigkeit ist im Allgemeinen gut, wenn der Behaelter eine Standardform hat, aber weniger zuverlaessig bei ungewoehnlichen Behaeltern.

Warum ueber- oder unterschaetzt die KI manchmal meine Portion?

Haeufige Gruende fuer Ueberschaetzung sind dichtes Anrichten, das groesser aussieht als es ist, Garnituren, die optisches Volumen ohne nennenswerte Kalorien hinzufuegen, und die Verwendung grosser Teller, die das System dazu veranlassen, mehr Essen anzunehmen. Haeufige Gruende fuer Unterschaetzung sind unter anderem Essen versteckt unter anderem Essen, dichte kalorienreiche Lebensmittel, die klein aussehen, und ungewoehnliche Servierstile. Feedback zu geben, wenn Schaetzungen daneben liegen, hilft dem System sich zu verbessern.

Brauche ich ein Telefon mit LiDAR-Sensor fuer genaues Portionstracking?

Nein. Obwohl Telefone mit LiDAR genauere Tiefeninformationen liefern koennen, koennen moderne KI-Modelle die Tiefe allein aus einem Standard-Kamerabild recht gut schaetzen. Der Genauigkeitsunterschied zwischen LiDAR-ausgestatteten und Standard-Telefonen hat sich verringert, da sich die softwarebasierte Tiefenschaetzung verbessert hat. Nutrola funktioniert auf jedem modernen Smartphone praezise.

Wie geht das System mit gestapelten oder geschichteten Lebensmitteln um?

Bei sichtbar gestapelten Speisen wie Pfannkuchen oder Schichtsandwiches kann das System die Schichten zaehlen und die Dicke anhand des Seitenprofils schaetzen. Bei Speisen mit versteckten Schichten wie Lasagne oder Burritos stuetzt sich das System auf erlernte Kompositionsmodelle, die die typische innere Struktur basierend auf dem sichtbaren Aeusseren und dem Gerichttyp schaetzen.

Bereit, Ihr Ernährungstracking zu transformieren?

Schließen Sie sich Tausenden an, die ihre Gesundheitsreise mit Nutrola transformiert haben!