Die Wissenschaft hinter der KI-Rezeptextraktion: Wie NLP und Computer Vision Kochvideos lesen
Entdecken Sie die technische Pipeline, die es der KI ermöglicht, Rezepte aus Kochvideos zu extrahieren, indem sie Spracherkennung, OCR, visuelle Zutatenidentifikation und NLP kombiniert, um automatisch genaue Nährdaten zu generieren.
Kochvideos sind zum dominierenden Format für das Teilen von Rezepten geworden. Allein auf YouTube gibt es über 1 Milliarde Kochvideoaufrufe pro Monat, TikTok generiert jährlich zig Milliarden Aufrufe für Essensinhalte, und Instagram Reels hat jeden Hobbykoch in einen potenziellen Content Creator verwandelt. Dennoch besteht eine anhaltende Lücke zwischen dem Ansehen eines Rezepts und dem Wissen, was es tatsächlich an Nährstoffen enthält.
Um diese Lücke zu schließen, ist eine mehrstufige KI-Pipeline erforderlich, die automatische Spracherkennung, optische Zeichenerkennung, Computer Vision und natürliche Sprachverarbeitung kombiniert. Dieser Artikel erläutert jede Phase der technischen Pipeline, erklärt die Modelle und Forschungen, die dies ermöglichen, und untersucht, wie diese Technologien zusammenwirken, um ein Kochvideo in strukturierte Nährdaten zu transformieren.
Das Problem der Rezeptextraktion: Warum Videos schwierig sind
Textrezepte auf Websites sind relativ einfach zu verarbeiten. Sie folgen vorhersehbaren Strukturen mit Zutatenlisten, Mengenangaben und Schritt-für-Schritt-Anleitungen. HTML-Markup und schema.org-Rezeptannotationen bieten zusätzliche maschinenlesbare Strukturen.
Kochvideos stellen jedoch eine grundlegend andere Herausforderung dar. Die Rezeptinformationen sind über mehrere Modalitäten verteilt:
- Gesprochene Erzählung beschreibt Zutaten, Mengen und Techniken
- On-Screen-Text zeigt Zutatenlisten, Temperaturen und Zeiten an
- Visueller Inhalt zeigt Zutaten, die hinzugefügt, gemischt und verarbeitet werden
- Implizites Wissen setzt voraus, dass die Zuschauer unbenannte Schritte wie das Vorheizen eines Ofens oder das Abspülen von Reis verstehen
Keine einzelne Modalität enthält das vollständige Rezept. Ein Creator könnte sagen: „Fügen Sie etwas Olivenöl hinzu“, während der Bildschirm einen sichtbaren Guss zeigt, der ungefähr zwei Esslöffel andeutet, und später wird im On-Screen-Text „2 EL Olivenöl“ angezeigt. Um das vollständige Rezept zu extrahieren, müssen Informationen aus all diesen Quellen zusammengeführt und Konflikte zwischen ihnen gelöst werden.
Die Multi-Modale Extraktionspipeline
Die komplette Pipeline von Rohvideo zu strukturierten Nährdaten umfasst fünf Hauptphasen:
| Phase | Eingabe | Technologie | Ausgabe |
|---|---|---|---|
| 1. Audioextraktion | Videodatei | ASR (Whisper) | Zeitstempeltranskript |
| 2. Visuelle Textextraktion | Video-Frames | OCR (PaddleOCR, EasyOCR) | On-Screen-Text mit Zeitstempeln |
| 3. Visuelle Zutatenidentifikation | Video-Frames | CNN/Vision Transformers (CLIP, ViT) | Identifizierte Zutaten und Aktionen |
| 4. NLP-Parsing und Fusion | Transkript + OCR + visuelle Daten | Transformer-Modelle (BERT, LLMs) | Strukturiertes Rezept mit Mengenangaben |
| 5. Nährwertdatenbank-Abgleich | Strukturiertes Rezept | Fuzzy-Matching + Datenbankabgleich | Vollständige Nährstoffanalyse |
Jede Phase stellt spezifische technische Herausforderungen dar und greift auf verschiedene Bereiche der maschinellen Lernforschung zurück.
Phase 1: Automatische Spracherkennung für Rezeptnarration
Der erste Schritt bei der Extraktion eines Rezepts aus einem Kochvideo besteht darin, die gesprochene Erzählung in Text umzuwandeln. Dies ist das Gebiet der automatischen Spracherkennung, auch ASR genannt.
Die Whisper-Revolution
Das Whisper-Modell von OpenAI, das in einem Papier von Radford et al. im Jahr 2022 vorgestellt wurde, hat die Landschaft der Spracherkennung für die Rezeptextraktion grundlegend verändert. Trainiert auf 680.000 Stunden mehrsprachiger und multitask-supervised Daten, die aus dem Web gesammelt wurden, erreichte Whisper eine nahezu menschliche Transkriptionsgenauigkeit unter einer Vielzahl von Audiobedingungen.
Was Whisper besonders wertvoll für die Transkription von Kochvideos macht:
Geräuschrobustheit. Küchenumgebungen sind laut. Zischende Pfannen, laufendes Wasser, Schnittgeräusche und Hintergrundmusik konkurrieren alle mit der Stimme des Erzählers. Whisper wurde unter verschiedenen Audiobedingungen trainiert und kann diese überlappenden Geräuschquellen besser verarbeiten als frühere ASR-Modelle.
Mehrsprachige Fähigkeit. Kochvideos werden in nahezu jeder Sprache produziert. Whisper unterstützt die Transkription in 915 Sprachen und kann ins Englische übersetzen, was die Rezeptextraktion aus Inhalten unabhängig von der Originalsprache ermöglicht.
Interpunktion und Formatierung. Im Gegensatz zu früheren ASR-Systemen, die flache Textströme erzeugten, generiert Whisper punktierte, formatierte Transkripte, die Satzgrenzen bewahren. Diese Struktur ist entscheidend für das nachgelagerte NLP-Parsing.
Wortgenaue Zeitstempel. Whisper kann Zeitstempel auf Wortebene erzeugen, was eine präzise Zuordnung zwischen dem Gesagten und dem Gezeigten auf dem Bildschirm zu jedem Zeitpunkt ermöglicht.
Herausforderungen bei der Kochnarration
Selbst mit den Fähigkeiten von Whisper stellen Kochvideos ASR-Herausforderungen dar, die in Standard-Spracherkennungstests nicht auftreten:
Fachspezifisches Vokabular. Zutatenbezeichnungen umfassen Tausende von Artikeln aus verschiedenen Küchen der Welt. Begriffe wie „Gochujang“, „Za'atar“, „Tahini“ oder „Panko“ kommen in allgemeinen Trainingsdaten möglicherweise nicht häufig vor. Spezialisiertes Lebensmittelvokabular oder Nachbearbeitungswörterbücher sind notwendig, um systematische Fehlinterpretationen zu korrigieren.
Mengenambiguität. Gesprochene Mengen sind oft ungenau. „Eine gute Menge Salz“, „ein Spritzer Essig“ oder „ungefähr so viel Mehl“ erfordern eine kontextuelle Interpretation, die über die Transkription hinausgeht.
Code-Switching. Viele Koch-Creator wechseln zwischen Sprachen und verwenden Englisch für die allgemeine Erzählung, aber ihre Muttersprache für Gerichtsnamen oder traditionelle Techniken. Mehrsprachige ASR muss diese Übergänge elegant handhaben.
Nonverbale Kommunikation. Ein Creator könnte auf eine Zutat zeigen, ohne sie zu benennen, oder sagen „das“, während er eine Flasche hochhält. Diese deiktischen Referenzen erfordern eine intermodale Auflösung mit dem visuellen Stream.
Nachbearbeitung des Transkripts
Die Roh-ASR-Ausgabe erfordert mehrere Nachbearbeitungsschritte, bevor sie für die Rezeptextraktion nützlich ist:
- Korrektur von Lebensmittelentitäten verwendet ein fachspezifisches Wörterbuch, um häufige Fehlinterpretationen zu beheben (z. B. „Kreuzkümmel“, das als „kommend“ missverstanden wird)
- Mengen-Normalisierung wandelt gesprochene Zahlen und Brüche in standardisierte numerische Formate um
- Segmentierung unterteilt das kontinuierliche Transkript in logische Rezeptschritte basierend auf zeitlichen Pausen, Übergangsphrasen und Grenzen von Aktionsverben
- Vertrauensfilterung identifiziert und kennzeichnet Segmente mit niedriger Zuversicht für eine mögliche intermodale Verifizierung
Phase 2: Optische Zeichenerkennung für On-Screen-Text
Viele Kochvideos zeigen Zutatenlisten, Maße, Temperaturen und Anleitungen als On-Screen-Textüberlagerungen. Dieser Text ist oft präziser als die gesprochene Erzählung und folgt standardisierteren Formaten.
Wie OCR auf Video-Frames funktioniert
Die Textextraktion aus Video-Frames umfasst zwei Teilaufgaben: Texterkennung (Ermittlung, wo Text im Frame erscheint) und Texterkennung (lesen, was der Text sagt).
Texterkennung lokalisiert Bereiche im Bild, die Text enthalten. Moderne Detektoren wie CRAFT (Character Region Awareness for Text Detection) und DBNet (Differentiable Binarization Network) können Text unabhängig von Orientierung, Größe oder Hintergrundkomplexität identifizieren. Diese Modelle geben Begrenzungsrahmen oder Polygone um Textregionen aus.
Texterkennung wandelt die erkannten Textregionen in Zeichenfolgen um. Architekturen, die auf konvolutionalen und rekurrenten neuronalen Netzwerken basieren, häufig mit CTC (Connectionist Temporal Classification) Decodierung, verarbeiten die zugeschnittenen Textregionen und geben Zeichenfolgen aus. Neuere Ansätze verwenden transformerbasierte Architekturen für verbesserte Genauigkeit bei stilisierten Schriftarten.
Die einzigartigen Herausforderungen der OCR in Kochvideos
On-Screen-Text in Kochvideos unterscheidet sich erheblich von Dokumententexten, für die die meisten OCR-Systeme optimiert sind:
Animierte Textüberlagerungen. Text wird häufig ein- und ausgeblendet, was eine temporale Aggregation über mehrere Frames erfordert, um den vollständigen Text zu erfassen. Eine gleitende Animation könnte den Text Zeichen für Zeichen über mehrere Frames hinweg enthüllen.
Dekorative Schriftarten. Food-Content-Creator verwenden häufig stilisierte, handgeschriebene oder dekorative Schriftarten, die sich von den klaren Schriftarten in den Standard-OCR-Trainingsdaten unterscheiden. Eine Feinabstimmung auf kochspezifische Schriftart-Datensätze verbessert die Erkennungsraten.
Komplexe Hintergründe. Text wird oft auf geschäftigen visuellen Hintergründen angezeigt, die Lebensmittel, Küchen und Hände zeigen. Ein hoher Kontrast zwischen Text und Hintergrund kann nicht vorausgesetzt werden. Die Erkennung von Textstrichen, Schatten und Hintergrundunschärfe hilft, die Textebene zu isolieren.
Mehrsprachige und gemischte Schriftarten. Ein einzelner Frame könnte Text in mehreren Schriftarten enthalten, wie z. B. englische Maße neben japanischen Gerichtsnamen. Mehrschriftliche OCR-Modelle oder die Erkennung von Schriften gefolgt von sprachspezifischen Erkennungspipelines bewältigen diese Variation.
Temporale Duplikation und Aggregation
Da Video-Frames mehrmals pro Sekunde abgetastet werden, wird derselbe On-Screen-Text in vielen aufeinanderfolgenden Frames erkannt. Die OCR-Pipeline muss:
- Frames mit einer angemessenen Rate abtasten (typischerweise 1 bis 2 Frames pro Sekunde für die Texterkennung)
- Textregionen über Frames hinweg verfolgen, um persistente von transientem Text zu unterscheiden
- Wiederholte Erkennungen desselben Textes duplizieren
- Teilweise Erkennungen von animierten Texteffekten zusammenführen
- Jedes Textelement mit seinem zeitlichen Fenster verknüpfen, um später mit Audio- und visuellen Daten fusioniert zu werden
Die Ausgabe dieser Phase ist eine zeitstempelte Liste von On-Screen-Text-Elementen, die jeweils mit ihrer Sichtbarkeitsdauer und räumlichen Position im Frame verknüpft ist.
Phase 3: Visuelle Zutatenidentifikation mit Computer Vision
Über den Text hinaus enthält der visuelle Inhalt eines Kochvideos reichhaltige Informationen über Zutaten, Mengen und Zubereitungsmethoden. Computer Vision-Modelle können Zutaten identifizieren, während sie erscheinen, Mengen anhand visueller Hinweise schätzen und Kochaktionen erkennen.
Zutatenidentifikation mit Vision Transformers und CLIP
Moderne visuelle Zutatenidentifikation basiert auf zwei wesentlichen Fortschritten: Vision Transformers (ViT) und kontrastivem Sprach-Bild-Pre-Training (CLIP).
Vision Transformers, eingeführt von Dosovitskiy et al. im Jahr 2020, wenden die Transformer-Architektur auf die Bilderkennung an. Anstatt konvolutionale Schichten zu verwenden, teilt ViT ein Bild in Patches auf und verarbeitet sie als Sequenz, ähnlich wie Transformer Wörter in einem Satz verarbeiten. Dieser Ansatz hat sich als besonders effektiv für feingranulare visuelle Erkennungsaufgaben wie die Zutatenidentifikation erwiesen, bei denen subtile Unterschiede in Farbe, Textur und Form ähnliche Artikel unterscheiden.
CLIP, entwickelt von Radford et al. bei OpenAI im Jahr 2021, lernt visuelle Konzepte aus natürlicher Sprachüberwachung. Trainiert auf 400 Millionen Bild-Text-Paaren kann CLIP Objekte erkennen, die im Text beschrieben werden, ohne dass es explizit auf beschriftete Beispiele dieser Objekte trainiert wurde. Für die Zutatenidentifikation bedeutet dies, dass ein auf CLIP basierendes System eine Zutat identifizieren kann, selbst wenn sie nicht im Trainingssatz enthalten war, solange es das visuelle Erscheinungsbild mit einer textuellen Beschreibung abgleichen kann.
Der praktische Vorteil von CLIP für die Rezeptextraktion ist seine Zero-Shot- und Few-Shot-Fähigkeit. Lebensmittel umfassen eine enorme Vielfalt an Zutaten, Zubereitungen und kulturellen Präsentationen. Ein traditionelles Klassifikationsmodell müsste für jede Zutat in jedem Zubereitungszustand beschriftete Trainingsbeispiele benötigen. CLIP kann aus seinem breiten Pre-Training verallgemeinern, um neuartige Zutaten zu erkennen, die in Textform beschrieben sind.
Erkennung von Kochaktionen
Es ist ebenso wichtig, die durchgeführten Aktionen zu identifizieren wie die Zutaten selbst. Die Aktionskennung sagt dem System, ob eine Zutat gehackt, sautiert, püriert oder gebacken wird, was sich direkt auf den endgültigen Nährstoffgehalt auswirkt.
Forschungen zur Aktionskennung in Videos haben Modelle hervorgebracht, die zeitliche Sequenzen von Frames analysieren, um Aktionen zu klassifizieren. Ansätze wie SlowFast-Netzwerke (Feichtenhofer et al., 2019) verarbeiten Videos gleichzeitig in zwei zeitlichen Auflösungen: Ein langsamer Pfad erfasst räumliche Details, während ein schneller Pfad Bewegung erfasst. Auf Kochvideos angewendet, können diese Modelle zwischen Rühren, Schlagen, Falten und Kneten unterscheiden, von denen jede unterschiedliche Auswirkungen auf die Rezeptstruktur hat.
Die Datensätze Food-101 und Recipe1M+ (Marin et al., 2019) waren entscheidend für das Training und die Evaluierung lebensmittelspezifischer Computer Vision-Modelle. Recipe1M+ enthält über 1 Million Kochrezepte mit 13 Millionen Lebensmittelbildern, was die nötige Skalierung bietet, um Modelle zu trainieren, die über Küchen und Zubereitungsstile hinweg verallgemeinern.
Visuelle Mengenschätzung
Eine der herausforderndsten Aspekte der visuellen Rezeptextraktion ist die Schätzung der Zutatenmengen aus Videos. Wenn ein Creator Öl in eine Pfanne gießt oder Mehl in eine Schüssel schöpft, enthält die visuelle Information Hinweise auf die Menge, aber diese Hinweise in präzise Maße umzuwandeln, erfordert anspruchsvolles räumliches Denken.
Aktuelle Ansätze kombinieren:
- Referenzobjekt-Skalierung: Verwendung bekannter Objekte im Frame (Standardtöpfe, Messbecher, Schneidebretter), um einen Maßstab zu etablieren
- Volumenschätzung aus Gießdynamik: Analyse der Dauer und Fließgeschwindigkeit von gegossenen Flüssigkeiten zur Schätzung des Volumens
- Tiefenschätzung: Monokulare Tiefenschätzmodelle wie MiDaS (Ranftl et al., 2020) können die Tiefe von Zutaten in Behältern schätzen, was hilft, das Volumen aus einem 2D-Bild abzuleiten
- Vergleichendes Lernen: Modelle, die auf gepaarten Bildern mit bekannten Mengen trainiert wurden, lernen, Mengen durch visuelle Vergleiche zu schätzen
Die visuelle Mengenschätzung bleibt weniger präzise als explizite Maße aus Sprache oder Text und erreicht typischerweise eine Genauigkeit von 20 bis 30 Prozent. Sie bietet jedoch eine nützliche Überprüfung und schließt Lücken, wenn Mengen nicht explizit angegeben werden.
Phase 4: Natürliche Sprachverarbeitung für Rezept-Parsing und Fusion
Mit Transkripten, On-Screen-Text und visuellen Annotationen hat die NLP-Phase die Aufgabe, diese multimodalen Signale in ein einziges, kohärentes, strukturiertes Rezept zu fusionieren.
Named Entity Recognition für Lebensmittel
Die erste NLP-Aufgabe besteht darin, lebensmittelbezogene Entitäten im Transkript und im OCR-Text zu identifizieren. Dies ist eine spezialisierte Form der Named Entity Recognition (NER), die identifizieren muss:
- Zutaten: „Hähnchenbrust“, „natives Olivenöl“, „koscheres Salz“
- Mengen: „zwei Tassen“, „350 Gramm“, „eine Prise“
- Einheiten: „Esslöffel“, „Milliliter“, „mittelgroß“
- Zubereitungsmodifikatoren: „gewürfelt“, „gehackt“, „Zimmertemperatur“
- Kochaktionen: „sautieren“, „bei 375 backen“, „20 Minuten köcheln“
- Ausrüstung: „Gusseisenpfanne“, „Küchenmaschine“, „Backblech“
Transformer-basierte NER-Modelle, die auf Lebensmitteldaten trainiert wurden, erreichen F1-Werte über 90 Prozent in standardisierten Lebensmitteldaten-NER-Benchmarks. Das FoodBase-Korpus (Popovski et al., 2019) und der TASTEset-Datensatz bieten annotierte Lebensmittelttexte speziell für das Training dieser Modelle.
Abhängigkeitsanalyse zur Zuordnung von Zutaten und Mengen
Die bloße Identifizierung von Entitäten reicht nicht aus. Das System muss bestimmen, welche Mengen zu welchen Zutaten gehören. Im Satz „Fügen Sie zwei Tassen Mehl und einen Teelöffel Salz hinzu“ muss das System „zwei Tassen“ korrekt mit „Mehl“ und „einen Teelöffel“ mit „Salz“ verknüpfen.
Dies erfordert eine Abhängigkeitsanalyse, die die grammatikalische Struktur von Sätzen analysiert, um Beziehungen zwischen Wörtern zu identifizieren. Moderne Abhängigkeitsparser, die auf der BERT-Architektur (Devlin et al., 2019) basieren, bewältigen die syntaktische Komplexität von Kochanleitungen, einschließlich zusammengesetzter Zutatenbeschreibungen wie „frisch gepresster Zitronensaft“ und geschachtelter Modifikatoren wie „eine 14-Unzen-Dose gewürfelte, feuergeröstete Tomaten“.
Intermodale Fusion: Konflikte lösen und Lücken füllen
Der technisch herausforderndste Aspekt der NLP-Phase besteht darin, Informationen aus allen drei Modalitäten (Audio, Text, Visuell) in ein einheitliches, konsistentes Rezept zu fusionieren. Diese Fusion muss Folgendes berücksichtigen:
Zustimmungsverstärkung. Wenn das Transkript „zwei Esslöffel Sojasauce“ sagt, der On-Screen-Text „2 EL Sojasauce“ anzeigt und der visuelle Stream eine dunkle Flüssigkeit zeigt, die gegossen wird, stimmen alle drei Quellen überein, und das System hat hohe Zuversicht.
Konfliktlösung. Wenn das Transkript „eine Tasse Zucker“ sagt, der On-Screen-Text jedoch „3/4 Tasse Zucker“ anzeigt, muss das System entscheiden, welcher Quelle es vertrauen soll. In der Regel wird der On-Screen-Text für präzise Maße priorisiert, da Creator typischerweise Textüberlagerungen als Korrekturen oder Klarstellungen zu ihrer Erzählung hinzufügen.
Lückenfüllung. Wenn der Erzähler sagt „nach Geschmack würzen“, ohne Mengen anzugeben, kann das System visuelle Schätzungen der Würzhandlung in Kombination mit Datenbankwissen über typische Würzmengen für den Gerichtstyp verwenden, um angemessene Werte abzuleiten.
Temporale Ausrichtung. Die Zuordnung von Informationen über Modalitäten hinweg erfordert eine temporale Ausrichtung. Ein gesprochener Zutatenverweis zum Zeitstempel 2:34 sollte mit dem On-Screen-Text, der von 2:30 bis 2:40 sichtbar ist, und der visuellen Zutatenidentifikation aus demselben Zeitfenster übereinstimmen. Dynamische Zeitverzerrung und auf Aufmerksamkeit basierende Ausrichtungsmechanismen bewältigen die ungenaue Synchronisation zwischen Sprache, Text und visuellen Ereignissen.
Große Sprachmodelle für die Rezeptstrukturierung
Neueste Fortschritte bei großen Sprachmodellen (LLMs) haben einen leistungsstarken neuen Ansatz zur Rezeptstrukturierung eingeführt. Anstatt separate Modelle für NER, Abhängigkeitsanalyse und Fusion zu entwickeln, kann ein LLM das kombinierte Transkript und die OCR-Ausgabe verarbeiten und in einem einzigen Durchgang ein strukturiertes Rezept generieren.
Das Modell erhält einen Prompt, der das Transkript, den OCR-Text und Beschreibungen visueller Beobachtungen enthält, zusammen mit Anweisungen zur Ausgabe eines strukturierten Rezepts in einem definierten Format. LLMs sind in dieser Aufgabe besonders gut, da sie umfangreiches Weltwissen über das Kochen kodieren, einschließlich typischer Zutatenmengen, gängiger Zutatenkombinationen und standardmäßiger Zubereitungstechniken.
Dieser Ansatz hat mehrere Vorteile:
- Er geht natürlich mit Mehrdeutigkeiten um, indem er auf Weltwissen zurückgreift
- Er löst Ko-Referenzen (z. B. versteht er, dass „es“ in „rühren Sie es gelegentlich“ sich auf die Sauce bezieht, die drei Sätze zuvor erwähnt wurde)
- Er kann unbenannte Schritte basierend auf Kochwissen ableiten
- Er normalisiert Zutatenbezeichnungen in kanonische Formen, die für Datenbankabfragen geeignet sind
Die Hauptbeschränkung besteht darin, dass die Ausgaben von LLMs validiert werden müssen. Halluzinationen, bei denen das Modell plausible, aber falsche Informationen generiert, müssen durch Kreuzreferenzierung mit den Quellmodalitäten und den Einschränkungen der Nährwertdatenbank verhindert werden.
Phase 5: Nährwertdatenbank-Abgleich und Berechnung
Die letzte Phase wandelt das strukturierte Rezept in eine vollständige Nährstoffanalyse um. Dies erfordert den Abgleich jeder extrahierten Zutat mit einem Eintrag in einer umfassenden Nährwertdatenbank und die Berechnung der Nährwerte pro Portion.
Die Abgleichherausforderung
Die aus Kochvideos extrahierten Zutatenbezeichnungen stimmen selten genau mit den Datenbankeinträgen überein. Ein Video könnte „eine große Handvoll Babyspinat“ erwähnen, während die Datenbank Einträge für „Spinat, roh“ in Gramm enthält. Das Abgleichsystem muss Folgendes berücksichtigen:
- Synonymauflösung: „Koriander“ und „Korianderblätter“ sind dieselbe Zutat
- Zubereitungszustandszuordnung: „geröstete Mandeln“ haben ein anderes Nährstoffprofil als „rohe Mandeln“
- Marken- und Sortennormalisierung: „Barilla Penne“ wird zu „Pasta, Penne, trocken“ mit markenspezifischen Anpassungen
- Umgangssprachliche zu technischer Übersetzung: „ein Stück Butter“ wird zu „Butter, gesalzen, 113g“
- Einheitenumrechnung: „eine Tasse Mehl“ muss in Gramm umgerechnet werden, wobei die dichte spezifischen Werte der Zutat verwendet werden, da eine Tasse Mehl ungefähr 120g wiegt, während eine Tasse Zucker ungefähr 200g wiegt
Fuzzy-String-Matching-Algorithmen wie der Levenshtein-Abstand und die TF-IDF-Kosinusähnlichkeit bieten Basisabgleiche. Fortgeschrittenere Ansätze verwenden einbettungsbasierte Ähnlichkeit, bei denen sowohl der extrahierte Zutaten-Text als auch die Datenbankeinträge in Vektorrepräsentationen kodiert werden, die mit Modellen wie Sentence-BERT (Reimers und Gurevych, 2019) erstellt werden, und der nächstgelegene Abgleich im Einbettungsraum ausgewählt wird.
Nährwertdatenbanken und deren Abdeckung
Mehrere große Nährwertdatenbanken dienen als Grundlage für Nährwertberechnungen:
| Datenbank | Abdeckung | Wartungsorganisation | Hauptstärke |
|---|---|---|---|
| USDA FoodData Central | 370.000+ Lebensmittel | U.S. Department of Agriculture | Umfassende Nährstoffprofile |
| Open Food Facts | 3.000.000+ Produkte | Gemeinschaftsbeiträge | Globale Abdeckung verpackter Lebensmittel |
| COFID (McCance und Widdowson's) | 3.000+ Lebensmittel | UK Food Standards Agency | UK-spezifische Lebensmittelzusammensetzungen |
| Australian Food Composition Database | 2.500+ Lebensmittel | Food Standards Australia New Zealand | Regionale Lebensmittelabdeckung |
Ein robustes Rezeptextraktionssystem fragt mehrere Datenbanken ab und wendet eine gewichtete Durchschnittsbildung an, wenn die Einträge abweichen. Für Lebensmittel, die in Standarddatenbanken nicht gefunden werden, kann das System den Nährstoffgehalt schätzen, indem es das Lebensmittel in seine Bestandteile zerlegt und deren individuelle Beiträge summiert.
Berücksichtigung von Kochtransformationen
Eine kritische Nuance, die genaue von approximativen Nährwertberechnungen trennt, ist die Berücksichtigung von Kochtransformationen. Wenn Lebensmittel gekocht werden, ändert sich ihr Nährstoffgehalt:
- Wasserverlust: Fleisch verliert während des Kochens 20 bis 35 Prozent seines Gewichts, wodurch die Nährstoffe pro Gramm gekochtem Lebensmittel konzentriert werden
- Fettaufnahme: Frittierte Lebensmittel nehmen Kochöl auf, was zusätzliche Kalorien hinzufügt, die nicht im Rohstoffprofil enthalten sind
- Nährstoffabbau: Wärmeempfindliche Vitamine wie Vitamin C und B-Vitamine bauen sich während des Kochens ab
- Stärke-Gelatinierung: Das Kochen verändert den glykämischen Index von stärkehaltigen Lebensmitteln
- Fettverflüssigung: Das Kochen von fettem Fleisch führt dazu, dass Fett austritt, was den Kaloriengehalt der konsumierten Portion reduziert
Die USDA bietet Rückhaltfaktoren für gängige Nährstoffe in verschiedenen Kochmethoden an. Die Anwendung dieser Faktoren auf die Nährwerte der Rohzutaten liefert eine genauere Schätzung des endgültigen gekochten Gerichts.
Die Nährwertengine von Nutrola integriert diese Modelle für Kochtransformationen und passt die Werte der Rohzutatenbank basierend auf den während der Videoanalyse identifizierten Kochmethoden an. Wenn das System erkennt, dass Hähnchen gegrillt und nicht frittiert wird, wendet es die entsprechenden Faktoren für Feuchtigkeitsverlust und Fettretention an, um eine genaue Kalorienschätzung für das fertige Gericht zu erstellen.
Wie Nutrola diese Pipeline umsetzt
Nutrola bringt diese mehrstufige technische Pipeline in eine praktische Benutzererfahrung. Wenn ein Benutzer ein Kochvideo teilt oder einen Link zu einem Rezeptvideo einfügt, verarbeitet der Backend von Nutrola das Video durch die oben beschriebene Extraktionspipeline und gibt ein strukturiertes Rezept mit vollständigen Nährdaten zurück.
Die praktische Umsetzung umfasst mehrere technische Entscheidungen, die Genauigkeit, Geschwindigkeit und Benutzererfahrung in Einklang bringen:
Selektives Frame-Sampling. Anstatt jedes Frame zu verarbeiten, identifiziert das System von Nutrola Schlüssel-Frames, in denen signifikante visuelle Änderungen auftreten, wie das Erscheinen neuer Zutaten, Änderungen der Kochaktionen oder Aktualisierungen des On-Screen-Texts. Dies reduziert die Rechenkosten um 80 bis 90 Prozent, während die relevanten visuellen Informationen erfasst werden.
Vertrauensbewertung. Jedes extrahierte Element trägt eine Vertrauensbewertung, die aus der Übereinstimmung zwischen den Modalitäten abgeleitet wird. Zutaten, die durch Sprache, Text und visuelle Erkennung bestätigt werden, erhalten hohe Vertrauenswerte. Zutaten, die nur von einer Modalität erkannt werden, werden zur Überprüfung an den Benutzer weitergeleitet.
Benutzerrückmeldeschleife. Wenn das System unsicher über eine Zutat oder Menge ist, präsentiert es seine beste Schätzung dem Benutzer mit der Möglichkeit zur Korrektur. Diese Korrekturen fließen in das Modell zurück und verbessern die Extraktionsgenauigkeit im Laufe der Zeit durch einen Lernprozess mit menschlicher Beteiligung.
Datenbankgestützte Validierung. Extrahierte Rezepte werden gegen Nährwertplausibilitätsbeschränkungen validiert. Wenn das System eine Menge extrahiert, die zu einer unrealistisch hohen oder niedrigen Kalorienanzahl für den Gerichtstyp führen würde, wird die Extraktion zur Überprüfung markiert.
Dieser Ansatz verwandelt die passive Erfahrung des Ansehens eines Kochvideos in umsetzbare Nährdaten, die direkt in die tägliche Verfolgung eines Benutzers integriert werden. Anstatt manuell nach jeder Zutat zu suchen und Portionen zu schätzen, erhalten die Benutzer eine vollständige Nährstoffanalyse, die direkt aus dem Videoinhalt abgeleitet wird.
Die Forschungsgrenze: Was kommt als Nächstes
Das Gebiet der multimodalen Rezeptextraktion entwickelt sich schnell weiter. Mehrere Forschungsrichtungen versprechen, Genauigkeit und Fähigkeit weiter zu verbessern.
End-to-End-Multimodale Modelle
Aktuelle Pipelines verarbeiten jede Modalität separat, bevor sie fusioniert werden. Aufkommende multimodale Architekturen verarbeiten Video, Audio und Text gleichzeitig in einem einzigen Modell. Googles Gemini und ähnliche multimodale Grundmodelle können Videos direkt aufnehmen und über Modalitäten hinweg argumentieren, ohne explizite Zwischenrepräsentationen. Diese Modelle versprechen einfachere Pipelines und bessere intermodale Schlussfolgerungen, obwohl sie erhebliche Rechenressourcen erfordern.
Prozedurales Verständnis
Aktuelle Systeme extrahieren eine flache Liste von Zutaten und Schritten. Zukünftige Systeme werden reichhaltigere prozedurale Darstellungen aufbauen, die die Graphstruktur eines Rezepts erfassen: welche Schritte von welchen anderen abhängen, welche Zutaten in welchem Stadium verwendet werden und wie Zwischenresultate kombiniert werden. Dieses prozedurale Verständnis ermöglicht genauere Nährwertberechnungen, indem verfolgt wird, wie Zutaten in jedem Schritt transformiert werden.
Personalisierte Nährwertschätzung
Da Rezeptextraktionssysteme mehr Daten verarbeiten, können sie individuelle Creator-Muster lernen. Ein System, das 100 Videos desselben Creators analysiert hat, lernt, dass dieser Creator typischerweise etwa einen Esslöffel verwendet, wenn er „einen Spritzer Olivenöl“ sagt. Diese personalisierte Kalibrierung verbessert die Mengenschätzung erheblich.
Kulturelles und regionales Lebensmittelwissen
Die Erweiterung der Rezeptextraktion auf die gesamte Vielfalt globaler Küchen erfordert tiefes kulturelles Lebensmittelwissen. Zu wissen, dass „ein Teller Injera mit Wot“ in der äthiopischen Küche bestimmten proportionalen Konventionen folgt oder dass „eine Schüssel Pho“ in der vietnamesischen Küche typische Zutatenverhältnisse hat, ermöglicht dem System, informierte Schätzungen vorzunehmen, selbst wenn explizite Mengen nicht angegeben sind.
Häufig gestellte Fragen
Wie genau ist die KI-Rezeptextraktion aus Kochvideos im Vergleich zum manuellen Lesen eines Textrezepts?
Aktuelle multimodale Extraktionspipelines erreichen eine Genauigkeit von 85 bis 92 Prozent bei der Zutatenidentifikation und 75 bis 85 Prozent bei der Mengenerfassung im Vergleich zu den tatsächlichen Rezepten, die von den Video-Creators verfasst wurden. Die Hauptquelle für Fehler ist die Mengenschätzung, wenn die Creator keine expliziten Maße angeben. Zum Vergleich erreicht die manuelle Transkription durch menschliche Zuschauer eine Genauigkeit von etwa 90 bis 95 Prozent, was bedeutet, dass die KI-Extraktion in dieser Aufgabe nahezu menschliches Leistungsniveau erreicht. Die Implementierung von Nutrola umfasst einen Benutzerverifikationsschritt für Extraktionen mit niedriger Zuversicht, was die effektive Genauigkeit in der Praxis auf über 95 Prozent erhöht.
Was passiert, wenn in einem Kochvideo keine expliziten Zutatenmengen angegeben werden?
Wenn Mengen in der Sprache oder im On-Screen-Text nicht explizit angegeben werden, greift das System auf eine Hierarchie von Schätzmethoden zurück. Zuerst versucht es, visuelle Mengenschätzungen aus den Video-Frames unter Verwendung von Tiefenschätzung und Referenzobjekt-Skalierung vorzunehmen. Zweitens konsultiert es eine Wissensdatenbank typischer Mengen für den Gerichtstyp. Drittens verwendet es statistische Durchschnitte aus zuvor extrahierten Rezepten desselben Gerichts. Die resultierende Schätzung wird mit einer niedrigeren Vertrauensbewertung gekennzeichnet, und Nutrola präsentiert sie dem Benutzer mit dem Hinweis, dass die Menge geschätzt wurde, anstatt explizit angegeben zu sein.
Kann KI Rezepte aus Kochvideos in anderen Sprachen als Englisch extrahieren?
Ja. Moderne ASR-Modelle wie Whisper unterstützen die Transkription in 915 Sprachen, und OCR-Systeme verarbeiten mehrere Schriften, einschließlich Latein, CJK, Kyrillisch, Arabisch und Devanagari. Die NLP-Parsing-Ebene kann in mehreren Sprachen arbeiten, obwohl die Genauigkeit in der Regel am höchsten für Sprachen ist, für die die meisten Trainingsdaten vorliegen. Whisper kann auch nicht-englische Sprache direkt ins Englische übersetzen, sodass die nachgelagerte Pipeline auch für Videos in anderen Sprachen auf Englisch arbeiten kann. Nutrola unterstützt die Rezeptextraktion aus Videos in über 30 Sprachen.
Wie geht das System mit Rezepten um, bei denen der Creator während des Filmens Substitutionen oder Fehler macht?
Die temporale Natur der Videoanalyse hilft tatsächlich in diesem Szenario. Wenn ein Creator sagt: „Ich wollte Butter verwenden, habe aber nur Olivenöl“, identifiziert die NLP-Ebene der Systeme die Korrektur und verwendet Olivenöl anstelle von Butter im endgültigen Rezept. Ebenso, wenn ein Creator eine Zutat hinzufügt und dann sagt: „Das ist eigentlich zu viel, lass mich etwas herausnehmen“, verfolgt das System die Korrektur. Aufmerksamkeitsbasierte Modelle, die das gesamte Transkript verarbeiten, können diese Selbstkorrekturen identifizieren, indem sie Diskursmuster erkennen, die mit Revisionen verbunden sind.
Was ist der Unterschied zwischen der Rezeptextraktion aus Videos und der Rezeptextraktion von einer Webseite?
Die Rezeptextraktion aus dem Web beruht hauptsächlich auf der Verarbeitung strukturierter Daten. Die meisten Rezeptwebsites verwenden schema.org-Rezeptmarkups, die maschinenlesbare Zutatenlisten, Mengen und Anleitungen bereitstellen. Die Rezeptextraktion aus Videos ist grundsätzlich schwieriger, da die Informationen unstrukturiert und über Audio-, visuelle und Textmodalitäten verteilt sind, die fusioniert werden müssen. Die Videoextraktion hat jedoch den Vorteil, dass sie Zubereitungsdetails und visuelle Mengensignale erfasst, die in schriftlichen Rezepten fehlen. Viele Creator teilen auch Tipps, Substitutionen und kontextuelle Informationen in ihrer Erzählung, die nie in einem schriftlichen Rezept erscheinen.
Wie beeinflusst die Erkennung der Kochmethode die Nährwertgenauigkeit der extrahierten Rezepte?
Die Erkennung der Kochmethode hat erhebliche Auswirkungen auf die Nährwertgenauigkeit. Das Frittieren einer Hähnchenbrust in Öl fügt im Vergleich zum Grillen derselben Brust etwa 60 bis 100 Kalorien hinzu, aufgrund der Ölaufnahme. Das Kochen von Gemüse kann den Gehalt an Vitamin C um 30 bis 50 Prozent reduzieren. Die KI-Pipeline verwendet Aktionserkennungsmodelle, um Kochmethoden (Grillen, Frittieren, Backen, Dämpfen, rohe Zubereitung) zu identifizieren und wendet die Rückhaltfaktoren der USDA entsprechend an. Diese berechnungsbewusste Methode verbessert typischerweise die Kalorienschätzgenauigkeit um 10 bis 15 Prozent im Vergleich zur Verwendung von Rohwerten allein.
Fazit
Die Extraktion eines Rezepts aus einem Kochvideo ist ein Mikrokosmos der breiteren Herausforderung in der künstlichen Intelligenz: unstrukturierte, multimodale, reale Informationen zu verstehen. Es erfordert Spracherkennung, die in lauten Küchen funktioniert, Computer Vision, die Hunderte von Zutaten in unterschiedlichen Zubereitungszuständen identifizieren kann, OCR, die stilisierten Text auf unordentlichen Hintergründen liest, und NLP, die all dies in ein kohärentes Nährbild fusioniert.
Die in diesem Artikel beschriebene Pipeline, von der Whisper-basierten Transkription über die CLIP-gestützte visuelle Erkennung bis hin zur LLM-basierten Rezeptstrukturierung, stellt den aktuellen Stand der Technik dar. Jede Komponente baut auf Jahren der Forschung im Bereich des maschinellen Lernens auf, von den grundlegenden Arbeiten zu CNNs und RNNs bis hin zur Transformer-Revolution, die NLP und Computer Vision unter einem einheitlichen architektonischen Paradigma vereinte.
Die Implementierung von Nutrola dieser Pipeline bringt diese Forschungsfortschritte in die alltägliche Nutzung. Durch die automatische Extraktion von Rezepten aus den Kochvideos, die Benutzer bereits ansehen, schließt sie die Lücke zwischen dem Entdecken eines Rezepts und dem Verständnis seiner Nährstoffauswirkungen. Das Ergebnis ist eine Ernährungstracking-Erfahrung, die den Benutzern dort begegnet, wo sie bereits sind, und passiven Video-Konsum in aktives Nährbewusstsein verwandelt, ohne manuelle Dateneingabe zu erfordern.
Da multimodale KI-Modelle weiterhin verbessert werden, wird die Genauigkeit und Geschwindigkeit der Rezeptextraktion nur zunehmen. Die Vision, Ihr Telefon auf beliebige Kochinhalte zu richten und sofort eine vollständige Nährwertanalyse zu erhalten, ist nicht länger eine Forschungsaspiration. Es ist eine funktionierende Technologie, die mit jedem Fortschritt in der zugrunde liegenden Wissenschaft besser wird.
Bereit, Ihr Ernährungstracking zu transformieren?
Schließen Sie sich Tausenden an, die ihre Gesundheitsreise mit Nutrola transformiert haben!