La science derrière l'extraction de recettes par IA : Comment le NLP et la vision par ordinateur analysent les vidéos de cuisine
Découvrez le pipeline technique qui permet à l'IA d'extraire des recettes à partir de vidéos de cuisine, combinant reconnaissance vocale, OCR, reconnaissance visuelle des ingrédients et NLP pour générer automatiquement des données nutritionnelles précises.
Les vidéos de cuisine sont devenues le format dominant pour partager des recettes. Rien qu'en mars, YouTube enregistre plus d'un milliard de vues de vidéos culinaires par mois, tandis que le contenu alimentaire sur TikTok génère des dizaines de milliards de vues chaque année. Instagram Reels a transformé chaque cuisinier amateur en un potentiel créateur de contenu. Pourtant, un fossé persistant existe entre le visionnage d'une recette et la compréhension de sa valeur nutritionnelle.
Pour combler ce fossé, il faut un pipeline d'IA en plusieurs étapes qui combine reconnaissance vocale automatique, reconnaissance optique de caractères, vision par ordinateur et traitement du langage naturel. Cet article décompose chaque étape du pipeline technique, explique les modèles et les recherches qui le rendent possible, et examine comment ces technologies convergent pour transformer une vidéo de cuisine en données nutritionnelles structurées.
Le problème de l'extraction de recettes : pourquoi les vidéos sont difficiles
Les recettes textuelles sur les sites web sont relativement simples à analyser. Elles suivent des structures prévisibles avec des listes d'ingrédients, des quantités et des instructions étape par étape. Le balisage HTML et les annotations de recettes schema.org fournissent une structure supplémentaire lisible par machine.
Les vidéos de cuisine présentent un défi fondamentalement différent. Les informations sur la recette sont réparties sur plusieurs modalités simultanément :
- Narration orale décrivant les ingrédients, les quantités et les techniques
- Texte à l'écran affichant des listes d'ingrédients, des températures et des temps de cuisson
- Contenu visuel montrant les ingrédients ajoutés, mélangés et transformés
- Connaissances implicites supposant que les spectateurs comprennent des étapes non énoncées comme préchauffer un four ou rincer du riz
Aucune modalité ne contient la recette complète. Un créateur peut dire "ajoutez un peu d'huile d'olive" tandis que l'écran montre un versement visible suggérant environ deux cuillères à soupe, et le texte à l'écran affiche plus tard "2 cuil. à soupe d'huile d'olive". Extraire la recette complète nécessite de fusionner les informations de toutes ces sources et de résoudre les conflits entre elles.
Le pipeline d'extraction multi-modal
Le pipeline complet, allant de la vidéo brute aux données nutritionnelles structurées, comprend cinq étapes majeures :
| Étape | Entrée | Technologie | Sortie |
|---|---|---|---|
| 1. Extraction audio | Fichier vidéo | ASR (Whisper) | Transcription horodatée |
| 2. Extraction de texte visuel | Images vidéo | OCR (PaddleOCR, EasyOCR) | Texte à l'écran avec horodatages |
| 3. Reconnaissance visuelle des ingrédients | Images vidéo | CNN/Transformateurs de vision (CLIP, ViT) | Ingrédients et actions identifiés |
| 4. Analyse et fusion NLP | Transcription + OCR + données visuelles | Modèles de transformateurs (BERT, LLMs) | Recette structurée avec quantités |
| 5. Correspondance avec la base de données nutritionnelle | Recette structurée | Correspondance floue + recherche dans la base de données | Décomposition nutritionnelle complète |
Chaque étape présente des défis techniques distincts et s'appuie sur différents domaines de recherche en apprentissage automatique.
Étape 1 : Reconnaissance vocale automatique pour la narration des recettes
La première étape pour extraire une recette d'une vidéo de cuisine consiste à convertir la narration orale en texte. C'est le domaine de la reconnaissance vocale automatique, ou ASR.
La révolution Whisper
Le modèle Whisper d'OpenAI, introduit dans un article de 2022 par Radford et al., a fondamentalement changé le paysage de la transcription vocale pour l'extraction de recettes. Entraîné sur 680 000 heures de données supervisées multilingues et multitâches collectées sur le web, Whisper a atteint une précision de transcription proche de celle des humains dans une large gamme de conditions audio.
Ce qui rend Whisper particulièrement précieux pour la transcription de vidéos de cuisine :
Robustesse au bruit. Les environnements de cuisine sont bruyants. Les poêles qui crépitent, l'eau qui coule, les bruits de découpe et la musique de fond rivalisent tous avec la voix du narrateur. L'entraînement de Whisper sur des conditions audio diverses signifie qu'il gère mieux ces sources sonores superposées que les modèles ASR précédents.
Capacité multilingue. Les vidéos de cuisine sont produites dans pratiquement toutes les langues. Whisper prend en charge la transcription dans 915 langues et peut effectuer des traductions vers l'anglais, permettant l'extraction de recettes à partir de contenus quelle que soit la langue d'origine.
Ponctuation et formatage. Contrairement aux systèmes ASR antérieurs qui produisaient des flux de texte plats, Whisper génère des transcriptions ponctuées et formatées qui préservent les limites des phrases. Cette structure est essentielle pour l'analyse NLP en aval.
Horodatages au niveau des mots. Whisper peut produire des horodatages au niveau des mots, permettant un alignement précis entre ce qui est dit et ce qui est montré à l'écran à tout moment.
Défis spécifiques à la narration culinaire
Même avec les capacités de Whisper, les vidéos de cuisine présentent des défis ASR qui n'apparaissent pas dans les benchmarks de reconnaissance vocale standard :
Vocabulaire spécifique au domaine. Les noms des ingrédients couvrent des milliers d'articles à travers les cuisines du monde. Des termes comme "gochujang", "za'atar", "tahini" ou "panko" peuvent ne pas apparaître fréquemment dans les données d'entraînement générales. Des modèles de vocabulaire alimentaire spécialisés ou des dictionnaires de post-traitement sont nécessaires pour corriger les erreurs systématiques de reconnaissance.
Ambiguïté des quantités. Les quantités exprimées oralement sont souvent imprécises. "Une bonne quantité de sel", "un soupçon de vinaigre" ou "à peu près cette quantité de farine" nécessitent une interprétation contextuelle qui va au-delà de la transcription.
Changement de code. De nombreux créateurs de contenu alternent entre les langues, utilisant l'anglais pour la narration générale mais leur langue maternelle pour les noms de plats ou les techniques traditionnelles. L'ASR multilingue doit gérer ces transitions avec aisance.
Communication non verbale. Un créateur peut faire un geste vers un ingrédient sans le nommer, ou dire "cela" tout en tenant une bouteille. Ces références déictiques nécessitent une résolution cross-modale avec le flux visuel.
Post-traitement de la transcription
La sortie brute de l'ASR nécessite plusieurs étapes de post-traitement avant d'être utile pour l'extraction de recettes :
- Correction des entités alimentaires utilise un dictionnaire spécifique au domaine pour corriger les erreurs de reconnaissance courantes (par exemple, "cumin" mal entendu comme "coming")
- Normalisation des quantités convertit les nombres et fractions exprimés oralement en formats numériques standardisés
- Segmentation divise la transcription continue en étapes logiques de la recette basées sur des pauses temporelles, des phrases de transition et des limites de verbes d'action
- Filtrage de confiance identifie et signale les segments à faible confiance pour une éventuelle vérification cross-modale
Étape 2 : Reconnaissance optique de caractères pour le texte à l'écran
De nombreuses vidéos de cuisine affichent des listes d'ingrédients, des mesures, des températures et des instructions sous forme de texte superposé à l'écran. Ce texte est souvent plus précis que la narration orale et suit des formats plus standardisés.
Comment fonctionne l'OCR sur les images vidéo
L'extraction de texte à partir d'images vidéo implique deux sous-tâches : la détection de texte (trouver où le texte apparaît dans l'image) et la reconnaissance de texte (lire ce que dit le texte).
Détection de texte localise les régions de l'image contenant du texte. Des détecteurs modernes comme CRAFT (Character Region Awareness for Text Detection) et DBNet (Differentiable Binarization Network) peuvent identifier le texte indépendamment de l'orientation, de la taille ou de la complexité de l'arrière-plan. Ces modèles produisent des boîtes englobantes ou des polygones autour des régions de texte.
Reconnaissance de texte convertit les régions de texte détectées en chaînes de caractères. Des architectures basées sur des réseaux neuronaux convolutifs et récurrents, souvent avec un décodage CTC (Connectionist Temporal Classification), traitent les régions de texte découpées et produisent des séquences de caractères. Des approches plus récentes utilisent des architectures basées sur des transformateurs pour améliorer la précision sur des polices stylisées.
Les défis uniques de l'OCR dans les vidéos de cuisine
Le texte à l'écran dans les vidéos de cuisine diffère considérablement du texte documentaire pour lequel la plupart des systèmes OCR sont optimisés :
Superpositions de texte animées. Le texte s'anime fréquemment, nécessitant une agrégation temporelle à travers plusieurs images pour capturer le texte complet. Une animation coulissante peut révéler le texte caractère par caractère sur plusieurs images.
Polices décoratives. Les créateurs de contenu alimentaire utilisent souvent des polices stylisées, manuscrites ou décoratives qui diffèrent des polices propres dans les données d'entraînement standard de l'OCR. Un ajustement sur des ensembles de données de polices spécifiques à la cuisine améliore les taux de reconnaissance.
Arrière-plans complexes. Le texte est souvent superposé sur des arrière-plans visuels chargés montrant de la nourriture, des cuisines et des mains. Un contraste élevé entre le texte et l'arrière-plan ne peut pas être supposé. La détection des contours du texte, des ombres et du flou d'arrière-plan aide à isoler la couche de texte.
Scripts multilingues et mixtes. Une seule image peut contenir du texte dans plusieurs scripts, comme des mesures en anglais accompagnées de noms de plats en japonais. Des modèles OCR multilingues ou une détection de script suivie de pipelines de reconnaissance spécifiques à la langue gèrent cette variation.
Dé-duplication et agrégation temporelles
Étant donné que les images vidéo sont échantillonnées plusieurs fois par seconde, le même texte à l'écran sera détecté à travers de nombreuses images consécutives. Le pipeline OCR doit :
- Échantillonner les images à un rythme approprié (typiquement 1 à 2 images par seconde pour la détection de texte)
- Suivre les régions de texte à travers les images pour identifier le texte persistant par rapport au texte transitoire
- Dé-dupliquer les détections répétées du même texte
- Fusionner les détections partielles provenant de révélations de texte animées
- Associer chaque élément de texte à sa fenêtre temporelle pour une fusion ultérieure avec les données audio et visuelles
La sortie de cette étape est une liste horodatée d'éléments de texte à l'écran, chacun associé à sa durée de visibilité et à sa position spatiale dans l'image.
Étape 3 : Reconnaissance visuelle des ingrédients avec la vision par ordinateur
Au-delà du texte, le contenu visuel d'une vidéo de cuisine contient des informations riches sur les ingrédients, les quantités et les méthodes de préparation. Les modèles de vision par ordinateur peuvent identifier les ingrédients au fur et à mesure de leur apparition, estimer les quantités à partir d'indices visuels et reconnaître les actions culinaires.
Reconnaissance des ingrédients avec les transformateurs de vision et CLIP
La reconnaissance visuelle des ingrédients modernes repose sur deux avancées clés : les Transformateurs de Vision (ViT) et l'apprentissage contrastif par pré-entraînement d'images et de textes (CLIP).
Transformateurs de Vision, introduits par Dosovitskiy et al. en 2020, appliquent l'architecture des transformateurs à la reconnaissance d'images. Plutôt que d'utiliser des couches convolutives, ViT divise une image en patches et les traite comme une séquence, de la même manière que les transformateurs traitent les mots dans une phrase. Cette approche s'est révélée particulièrement efficace pour des tâches de reconnaissance visuelle fine comme l'identification des ingrédients, où de subtiles différences de couleur, de texture et de forme distinguent des éléments similaires.
CLIP, développé par Radford et al. chez OpenAI en 2021, apprend des concepts visuels à partir d'une supervision en langage naturel. Entraîné sur 400 millions de paires image-texte, CLIP peut reconnaître des objets décrits dans le texte sans avoir été explicitement formé sur des exemples étiquetés de ces objets. Pour la reconnaissance des ingrédients, cela signifie qu'un système basé sur CLIP peut identifier un ingrédient même s'il n'était pas dans l'ensemble d'entraînement, tant qu'il peut faire correspondre l'apparence visuelle à une description textuelle.
L'avantage pratique de CLIP pour l'extraction de recettes est sa capacité à fonctionner en mode zéro-shot et few-shot. La nourriture couvre une énorme variété d'ingrédients, de préparations et de présentations culturelles. Un modèle de classification traditionnel aurait besoin d'exemples d'entraînement étiquetés pour chaque ingrédient dans chaque état de préparation. CLIP peut généraliser à partir de son large pré-entraînement pour reconnaître des ingrédients nouveaux décrits sous forme textuelle.
Reconnaissance des actions culinaires
Identifier les actions en cours est tout aussi important que d'identifier les ingrédients eux-mêmes. La reconnaissance des actions indique au système si un ingrédient est en train d'être haché, sauté, mélangé ou cuit, ce qui affecte directement le contenu nutritionnel final.
Les recherches sur la reconnaissance d'actions dans les vidéos ont produit des modèles qui analysent des séquences temporelles d'images pour classifier les actions. Des approches comme les réseaux SlowFast (Feichtenhofer et al., 2019) traitent la vidéo à deux résolutions temporelles simultanément : un chemin lent capture les détails spatiaux tandis qu'un chemin rapide capture le mouvement. Appliqués aux vidéos de cuisine, ces modèles peuvent distinguer entre remuer, fouetter, plier et pétrir, chacun ayant des implications différentes pour la structure de la recette.
Les ensembles de données Food-101 et Recipe1M+ (Marin et al., 2019) ont été essentiels pour former et évaluer des modèles de vision par ordinateur spécifiques à la nourriture. Recipe1M+ contient plus d'un million de recettes de cuisine avec 13 millions d'images alimentaires, fournissant l'échelle nécessaire pour former des modèles qui se généralisent à travers les cuisines et les styles de préparation.
Estimation visuelle des quantités
Un des aspects les plus difficiles de l'extraction de recettes visuelles est l'estimation des quantités d'ingrédients à partir de la vidéo. Lorsqu'un créateur verse de l'huile dans une poêle ou prend de la farine dans un bol, l'information visuelle contient des indices sur la quantité, mais traduire ces indices en mesures précises nécessite un raisonnement spatial sophistiqué.
Les approches actuelles combinent :
- Mise à l'échelle d'objets de référence : Utiliser des objets connus dans l'image (casseroles standards, tasses à mesurer, planches à découper) pour établir une référence d'échelle
- Estimation de volume à partir de la dynamique de versement : Analyser la durée et le débit des liquides versés pour estimer le volume
- Estimation de profondeur : Des modèles d'estimation de profondeur monoculaire comme MiDaS (Ranftl et al., 2020) peuvent estimer la profondeur des ingrédients dans les contenants, aidant à estimer le volume à partir d'une image 2D
- Apprentissage comparatif : Des modèles entraînés sur des images appariées de quantités connues apprennent à estimer des montants par comparaison visuelle
L'estimation visuelle des quantités reste moins précise que les mesures explicites provenant de la parole ou du texte, atteignant généralement une précision de 20 à 30 %. Cependant, elle fournit un utile contrôle croisé et comble les lacunes lorsque les quantités ne sont pas énoncées explicitement.
Étape 4 : Traitement du langage naturel pour l'analyse et la fusion des recettes
Avec les transcriptions, le texte à l'écran et les annotations visuelles en main, l'étape NLP doit fusionner ces signaux multimodaux en une seule recette structurée, cohérente.
Reconnaissance des entités nommées pour les aliments
La première tâche NLP consiste à identifier les entités liées à la nourriture dans la transcription et le texte OCR. Il s'agit d'une forme spécialisée de reconnaissance d'entités nommées (NER) qui doit identifier :
- Ingrédients : "poitrine de poulet", "huile d'olive extra vierge", "sel kasher"
- Quantités : "deux tasses", "350 grammes", "une pincée"
- Unités : "cuillères à soupe", "millilitres", "taille moyenne"
- Modificateurs de préparation : "coupé", "haché", "à température ambiante"
- Actions de cuisson : "sauter", "cuire à 375", "mijoter pendant 20 minutes"
- Équipement : "poêle en fonte", "batteur sur socle", "plaque de cuisson"
Les modèles NER basés sur des transformateurs, ajustés sur des corpus alimentaires, atteignent des scores F1 supérieurs à 90 % sur les benchmarks NER alimentaires standard. Le corpus FoodBase (Popovski et al., 2019) et le jeu de données TASTEset fournissent des textes alimentaires annotés spécifiquement pour former ces modèles.
Analyse de dépendance pour l'association ingrédient-quantité
Identifier les entités seules ne suffit pas. Le système doit déterminer quelles quantités appartiennent à quels ingrédients. Dans la phrase "Ajoutez deux tasses de farine et une cuillère à café de sel", le système doit correctement associer "deux tasses" avec "farine" et "une cuillère à café" avec "sel".
Cela nécessite une analyse de dépendance, qui analyse la structure grammaticale des phrases pour identifier les relations entre les mots. Les parseurs de dépendance modernes basés sur l'architecture BERT (Devlin et al., 2019) gèrent la complexité syntaxique des instructions culinaires, y compris les descriptions d'ingrédients composés comme "jus de citron fraîchement pressé" et les modificateurs imbriqués comme "une boîte de 14 onces de tomates en dés rôties au feu".
Fusion cross-modale : Résolution des conflits et comblement des lacunes
L'aspect le plus techniquement difficile de l'étape NLP est de fusionner les informations des trois modalités (audio, texte, visuel) en une seule recette cohérente. Cette fusion doit gérer :
Renforcement de l'accord. Lorsque la transcription dit "deux cuillères à soupe de sauce soja", le texte à l'écran montre "2 cuil. à soupe de sauce soja", et le flux visuel montre un liquide foncé en train d'être versé, les trois sources s'accordent et le système a une grande confiance.
Résolution des conflits. Lorsque la transcription dit "une tasse de sucre" mais que le texte à l'écran indique "3/4 tasse de sucre", le système doit décider quelle source privilégier. En général, le texte à l'écran est priorisé pour les mesures précises, car les créateurs ajoutent généralement des superpositions de texte comme corrections ou clarifications à leur narration.
Comblement des lacunes. Lorsque le narrateur dit "assaisonnez selon votre goût" sans spécifier de quantités, le système peut utiliser l'estimation visuelle de l'action d'assaisonnement combinée avec les connaissances de base de données sur les quantités typiques d'assaisonnement pour le type de plat afin d'inférer des valeurs raisonnables.
Alignement temporel. Faire correspondre les informations à travers les modalités nécessite un alignement temporel. Une référence d'ingrédient prononcée à l'horodatage 2:34 doit être associée avec le texte à l'écran visible de 2:30 à 2:40 et la reconnaissance visuelle des ingrédients de la même fenêtre temporelle. Des mécanismes d'alignement basés sur le temps dynamique et l'attention gèrent la synchronisation imprécise entre la parole, le texte et les événements visuels.
Modèles de langage de grande taille pour la structuration des recettes
Les avancées récentes dans les modèles de langage de grande taille (LLMs) ont introduit une nouvelle approche puissante pour la structuration des recettes. Plutôt que de construire des modèles séparés pour la NER, l'analyse de dépendance et la fusion, un LLM peut traiter la transcription combinée et la sortie OCR et générer une recette structurée en un seul passage.
Le modèle reçoit un prompt contenant la transcription, le texte OCR et des descriptions d'observations visuelles, ainsi que des instructions pour produire une recette structurée dans un format défini. Les LLMs excellent dans cette tâche car ils intègrent une vaste connaissance du monde sur la cuisine, y compris les quantités typiques d'ingrédients, les combinaisons d'ingrédients courantes et les techniques de préparation standard.
Cette approche présente plusieurs avantages :
- Elle gère naturellement l'ambiguïté en s'appuyant sur les connaissances du monde
- Elle résout les co-références (par exemple, comprendre que "cela" dans "remuez-le de temps en temps" fait référence à la sauce mentionnée trois phrases plus tôt)
- Elle peut inférer des étapes non énoncées basées sur des connaissances culinaires
- Elle normalise les noms d'ingrédients en formes canoniques adaptées à la recherche dans la base de données
La principale limitation est que les sorties des LLM nécessitent une validation. Les hallucinations, où le modèle génère des informations plausibles mais incorrectes, doivent être évitées par un recoupement avec les modalités sources et les contraintes de la base de données nutritionnelle.
Étape 5 : Correspondance et calcul avec la base de données nutritionnelle
La dernière étape transforme la recette structurée en une décomposition nutritionnelle complète. Cela nécessite de faire correspondre chaque ingrédient extrait à une entrée dans une base de données nutritionnelle complète et de calculer les valeurs nutritionnelles par portion.
Le défi de la correspondance
Les noms d'ingrédients extraits des vidéos de cuisine correspondent rarement exactement aux entrées de la base de données. Une vidéo peut faire référence à "une grande poignée d'épinards" tandis que la base de données contient des entrées pour "épinards, crus" mesurés en grammes. Le système de correspondance doit gérer :
- Résolution des synonymes : "coriandre" et "feuilles de coriandre" sont le même ingrédient
- Cartographie de l'état de préparation : "amandes rôties" a un profil nutritionnel différent de "amandes crues"
- Normalisation de la marque et de la variété : "pâtes Barilla penne" correspond à "pâtes, penne, sèches" avec des ajustements spécifiques à la marque
- Traduction du familier au technique : "un bâton de beurre" correspond à "beurre, salé, 113g"
- Conversion d'unités : "une tasse de farine" doit être convertie en grammes en utilisant des valeurs de densité spécifiques à l'ingrédient, car une tasse de farine pèse environ 120g tandis qu'une tasse de sucre pèse environ 200g
Des algorithmes de correspondance floue comme la distance de Levenshtein et la similarité cosinus TF-IDF fournissent une correspondance de base. Des approches plus avancées utilisent la similarité basée sur l'encodage, où à la fois le texte d'ingrédient extrait et les entrées de la base de données sont encodés en représentations vectorielles à l'aide de modèles comme Sentence-BERT (Reimers et Gurevych, 2019), et la correspondance la plus proche dans l'espace d'encodage est sélectionnée.
Bases de données nutritionnelles et leur couverture
Plusieurs bases de données nutritionnelles majeures servent de fondation pour les calculs nutritionnels :
| Base de données | Couverture | Maintenue par | Force clé |
|---|---|---|---|
| USDA FoodData Central | 370 000+ aliments | U.S. Department of Agriculture | Profils nutritionnels complets |
| Open Food Facts | 3 000 000+ produits | Contributeurs communautaires | Couverture mondiale des aliments emballés |
| COFID (McCance et Widdowson) | 3 000+ aliments | UK Food Standards Agency | Compositions alimentaires spécifiques au Royaume-Uni |
| Australian Food Composition Database | 2 500+ aliments | Food Standards Australia New Zealand | Couverture alimentaire régionale |
Un système robuste d'extraction de recettes interroge plusieurs bases de données et applique une moyenne pondérée par la confiance lorsque les entrées diffèrent. Pour les aliments non trouvés dans les bases de données standard, le système peut estimer le contenu nutritionnel en décomposant l'aliment en ses ingrédients constitutifs et en additionnant leurs contributions individuelles.
Prise en compte des transformations culinaires
Une nuance critique qui sépare un calcul nutritionnel précis d'un calcul approximatif est la prise en compte des transformations culinaires. Lorsque les aliments sont cuits, leur contenu nutritionnel change :
- Perte d'eau : La viande perd 20 à 35 % de son poids pendant la cuisson, concentrant les nutriments par gramme d'aliment cuit
- Absorption de graisse : Les aliments frits absorbent l'huile de cuisson, ajoutant des calories qui ne font pas partie du profil nutritionnel de l'ingrédient cru
- Dégradation des nutriments : Les vitamines sensibles à la chaleur comme la vitamine C et les vitamines B se dégradent pendant la cuisson
- Gélatinisation de l'amidon : La cuisson change l'indice glycémique des aliments riches en amidon
- Rendement des graisses : La cuisson des viandes grasses entraîne une fonte des graisses, réduisant le contenu calorique de la portion consommée
Le USDA fournit des facteurs de rétention pour les nutriments courants selon les différentes méthodes de cuisson. L'application de ces facteurs aux valeurs nutritionnelles des ingrédients bruts produit une estimation plus précise du plat fini.
Le moteur nutritionnel de Nutrola intègre ces modèles de transformation culinaire, ajustant les valeurs de la base de données des ingrédients bruts en fonction des méthodes de cuisson identifiées lors de l'analyse vidéo. Lorsque le système détecte que le poulet est grillé plutôt que frit, il applique les facteurs appropriés de perte d'humidité et de rétention de graisse pour produire une estimation calorique précise pour le plat fini.
Comment Nutrola met en œuvre ce pipeline
Nutrola intègre ce pipeline technique en plusieurs étapes dans une expérience pratique pour les consommateurs. Lorsqu'un utilisateur partage une vidéo de cuisine ou colle un lien vers une vidéo de recette, le backend de Nutrola traite la vidéo à travers le pipeline d'extraction décrit ci-dessus et renvoie une recette structurée avec des données nutritionnelles complètes.
La mise en œuvre pratique implique plusieurs décisions d'ingénierie qui équilibrent précision, rapidité et expérience utilisateur :
Échantillonnage de trames sélectif. Plutôt que de traiter chaque image, le système de Nutrola identifie les images clés où des changements visuels significatifs se produisent, comme l'apparition de nouveaux ingrédients, des changements d'actions culinaires ou des mises à jour de texte à l'écran. Cela réduit le coût computationnel de 80 à 90 % tout en capturant les informations visuelles pertinentes.
Scoring de confiance. Chaque élément extrait porte un score de confiance dérivé de l'accord entre les modalités. Les ingrédients confirmés par la parole, le texte et la reconnaissance visuelle reçoivent une haute confiance. Les ingrédients détectés par une seule modalité sont signalés pour vérification par l'utilisateur.
Boucle de correction utilisateur. Lorsque le système n'est pas sûr d'un ingrédient ou d'une quantité, il présente sa meilleure estimation à l'utilisateur avec la possibilité de corriger. Ces corrections alimentent le modèle, améliorant la précision d'extraction au fil du temps grâce à un processus d'apprentissage humain dans la boucle.
Validation par base de données. Les recettes extraites sont validées par rapport aux contraintes de plausibilité nutritionnelle. Si le système extrait une quantité qui entraînerait un compte de calories implausiblement élevé ou bas pour le type de plat, il signale l'extraction pour révision.
Cette approche transforme l'expérience passive de visionnage d'une vidéo de cuisine en données nutritionnelles exploitables qui s'intègrent directement dans le suivi quotidien d'un utilisateur. Plutôt que de rechercher manuellement chaque ingrédient et d'estimer les portions, les utilisateurs reçoivent une décomposition nutritionnelle complète dérivée directement du contenu vidéo.
La frontière de la recherche : Que vient-il ensuite
Le domaine de l'extraction multimodale de recettes progresse rapidement. Plusieurs directions de recherche promettent d'améliorer encore la précision et la capacité.
Modèles multimodaux de bout en bout
Les pipelines actuels traitent chaque modalité séparément avant de les fusionner. Les architectures multimodales émergentes traitent la vidéo, l'audio et le texte simultanément dans un seul modèle. Les modèles de fondation multimodaux de Google, comme Gemini, peuvent ingérer directement la vidéo et raisonner à travers les modalités sans représentations intermédiaires explicites. Ces modèles promettent des pipelines plus simples et un meilleur raisonnement cross-modal, bien qu'ils nécessitent des ressources computationnelles significatives.
Compréhension procédurale
Les systèmes actuels extraient une liste plate d'ingrédients et d'étapes. Les systèmes futurs construiront des représentations procédurales plus riches qui capturent la structure graphique d'une recette : quelles étapes dépendent des autres, quels ingrédients sont utilisés à quel stade, et comment les résultats intermédiaires se combinent. Cette compréhension procédurale permet un calcul nutritionnel plus précis en suivant comment les ingrédients se transforment à chaque étape.
Estimation nutritionnelle personnalisée
À mesure que les systèmes d'extraction de recettes traitent plus de données, ils peuvent apprendre les modèles individuels des créateurs. Un système qui a analysé 100 vidéos du même créateur apprend que lorsque ce créateur dit "un filet d'huile d'olive", il utilise généralement environ une cuillère à soupe. Cette calibration personnalisée améliore considérablement l'estimation des quantités.
Connaissances alimentaires culturelles et régionales
L'expansion de l'extraction de recettes à la pleine diversité des cuisines mondiales nécessite une connaissance approfondie de la culture alimentaire. Savoir qu'"une assiette d'injera avec wot" dans la cuisine éthiopienne suit des conventions proportionnelles spécifiques, ou qu'"un bol de pho" dans la cuisine vietnamienne a des ratios d'ingrédients typiques, permet au système de faire des estimations éclairées même lorsque les quantités explicites ne sont pas fournies.
Questions Fréquemment Posées
Quelle est la précision de l'extraction de recettes par IA à partir de vidéos de cuisine par rapport à la lecture manuelle d'une recette textuelle ?
Les pipelines d'extraction multimodaux actuels atteignent une précision de 85 à 92 % sur l'identification des ingrédients et de 75 à 85 % sur l'extraction des quantités par rapport aux recettes de vérité terrain écrites par les créateurs de vidéos. La principale source d'erreur est l'estimation des quantités lorsque les créateurs ne déclarent pas de mesures explicites. En comparaison, la transcription manuelle par des spectateurs humains atteint environ 90 à 95 % de précision, ce qui signifie que l'extraction par IA approche la performance humaine pour cette tâche. L'implémentation de Nutrola inclut une étape de vérification par l'utilisateur pour les extractions à faible confiance, ce qui élève la précision effective au-dessus de 95 % en pratique.
Que se passe-t-il lorsqu'une vidéo de cuisine ne déclare pas de quantités d'ingrédients explicites ?
Lorsque les quantités ne sont pas déclarées explicitement dans la parole ou le texte à l'écran, le système se base sur une hiérarchie de méthodes d'estimation. Tout d'abord, il tente une estimation visuelle des quantités à partir des images vidéo en utilisant l'estimation de profondeur et la mise à l'échelle d'objets de référence. Deuxièmement, il consulte une base de connaissances des quantités typiques pour le type de plat. Troisièmement, il utilise des moyennes statistiques provenant de recettes précédemment extraites du même plat. L'estimation résultante est signalée avec un score de confiance plus bas, et Nutrola la présente à l'utilisateur avec une note indiquant que la quantité a été estimée plutôt que déclarée explicitement.
L'IA peut-elle extraire des recettes à partir de vidéos de cuisine dans d'autres langues que l'anglais ?
Oui. Les modèles ASR modernes comme Whisper prennent en charge la transcription dans 915 langues, et les systèmes OCR gèrent plusieurs scripts, y compris latin, CJK, cyrillique, arabe et devanagari. L'étape de parsing NLP peut fonctionner dans plusieurs langues, bien que la précision soit généralement plus élevée pour les langues disposant de plus de données d'entraînement. Whisper peut également traduire la parole non anglaise directement en anglais, permettant au pipeline en aval de fonctionner en anglais même pour des vidéos dans d'autres langues. Nutrola prend en charge l'extraction de recettes à partir de vidéos dans plus de 30 langues.
Comment le système gère-t-il les recettes où le créateur fait des substitutions ou des erreurs pendant le tournage ?
La nature temporelle de l'analyse vidéo aide en fait dans ce scénario. Lorsque le créateur dit "J'allais utiliser du beurre mais je n'ai que de l'huile d'olive", l'étape NLP du système identifie la correction et utilise de l'huile d'olive plutôt que du beurre dans la recette finale. De même, lorsque le créateur ajoute un ingrédient et dit ensuite "en fait, c'est trop, laissez-moi en retirer", le système suit la correction. Les modèles basés sur l'attention qui traitent la transcription complète peuvent identifier ces auto-corrections en reconnaissant les schémas de discours associés aux révisions.
Quelle est la différence entre l'extraction de recettes à partir de vidéos et l'extraction de recettes à partir d'une page web ?
L'extraction de recettes web repose principalement sur l'analyse de données structurées. La plupart des sites de recettes utilisent le balisage schema.org Recipe, qui fournit des listes d'ingrédients, des quantités et des instructions lisibles par machine. L'extraction de recettes vidéo est fondamentalement plus difficile car les informations sont non structurées et réparties sur des modalités audio, visuelles et textuelles qui doivent être fusionnées. Cependant, l'extraction vidéo a l'avantage de capturer des détails de préparation et des indices visuels de quantité qui sont absents des recettes textuelles. De nombreux créateurs partagent également des conseils, des substitutions et des informations contextuelles dans leur narration qui n'apparaissent jamais dans une recette écrite.
Comment la détection des méthodes de cuisson affecte-t-elle la précision nutritionnelle des recettes extraites ?
La détection des méthodes de cuisson impacte considérablement la précision nutritionnelle. Faire frire une poitrine de poulet dans de l'huile ajoute environ 60 à 100 calories par rapport à la cuisson au grill de la même poitrine en raison de l'absorption d'huile. Faire bouillir des légumes peut réduire leur teneur en vitamine C de 30 à 50 %. Le pipeline d'IA utilise des modèles de reconnaissance d'actions pour identifier les méthodes de cuisson (grillage, friture, cuisson au four, cuisson à la vapeur, préparation crue) et applique les facteurs de rétention des nutriments du USDA en conséquence. Ce calcul conscient de la méthode de cuisson améliore généralement la précision de l'estimation calorique de 10 à 15 % par rapport à l'utilisation des valeurs des ingrédients bruts seules.
Conclusion
Extraire une recette d'une vidéo de cuisine est un microcosme du défi plus large en intelligence artificielle : donner un sens à des informations réelles, multimodales et non structurées. Cela nécessite une reconnaissance vocale qui fonctionne dans des cuisines bruyantes, une vision par ordinateur capable d'identifier des centaines d'ingrédients dans divers états de préparation, un OCR qui lit du texte stylisé sur des arrière-plans encombrés, et un NLP qui fusionne tout cela en un tableau nutritionnel cohérent.
Le pipeline décrit dans cet article, de la transcription basée sur Whisper à la reconnaissance visuelle alimentée par CLIP en passant par la structuration des recettes par LLM, représente l'état de l'art actuel. Chaque composant s'appuie sur des années de recherche en apprentissage automatique, des travaux fondamentaux sur les CNN et RNN à la révolution des transformateurs qui a unifié le NLP et la vision par ordinateur sous un seul paradigme architectural.
L'implémentation de ce pipeline par Nutrola met ces avancées de recherche en pratique quotidienne. En extrayant automatiquement des recettes à partir des vidéos de cuisine que les utilisateurs regardent déjà, elle élimine le fossé entre la découverte d'une recette et la compréhension de son impact nutritionnel. Le résultat est une expérience de suivi nutritionnel qui répond aux utilisateurs là où ils se trouvent déjà, transformant la consommation passive de vidéos en une prise de conscience nutritionnelle active sans nécessiter de saisie manuelle de données.
À mesure que les modèles d'IA multimodaux continuent de s'améliorer, la précision et la rapidité de l'extraction de recettes ne feront qu'augmenter. La vision de pointer votre téléphone vers n'importe quel contenu culinaire et de recevoir instantanément une décomposition nutritionnelle complète n'est plus une aspiration de recherche. C'est une technologie fonctionnelle, et elle s'améliore avec chaque avancée dans la science sous-jacente.
Prêt à transformer votre suivi nutritionnel ?
Rejoignez des milliers de personnes qui ont transformé leur parcours santé avec Nutrola !