Comment l'IA Estime les Tailles de Portions a Partir de Photos : Une Analyse Technique Approfondie

10 mars 2026

Un regard detaille sur la facon dont l'IA utilise l'estimation de profondeur, les objets de reference et la modelisation volumetrique pour estimer les tailles de portions alimentaires a partir d'une seule photographie.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Identifier ce qui se trouve dans votre assiette ne represente que la moitie du defi du suivi calorique assiste par IA. L'autre moitie, et sans doute la plus difficile, consiste a determiner quelle quantite de nourriture est presente. Une portion de pates peut representer 200 calories ou 800 calories selon la taille de la portion. Obtenir cette estimation correctement est ce qui distingue un outil de suivi nutritionnel utile d'un simple gadget.

Cet article propose une analyse technique approfondie de la facon dont les systemes d'IA estiment les tailles de portions a partir de photographies, couvrant l'estimation de profondeur, la mise a l'echelle par objets de reference, la modelisation volumetrique et les defis actuels auxquels les chercheurs et ingenieurs font face pour ameliorer la precision de ces estimations.

Pourquoi l'Estimation des Portions Est Plus Difficile que la Reconnaissance Alimentaire

La reconnaissance alimentaire est fondamentalement un probleme de classification. Le systeme doit choisir parmi un ensemble fini de categories alimentaires. L'estimation des portions, en revanche, est un probleme de regression. Le systeme doit predire une valeur continue (grammes ou millilitres) a partir d'informations visuelles uniquement.

Plusieurs facteurs rendent cela particulierement difficile :

Le probleme 2D vers 3D : Une photographie reduit la realite tridimensionnelle en une image bidimensionnelle. L'information de profondeur est perdue, rendant difficile la distinction entre une fine couche de nourriture et un tas epais.
La densite variable : Une tasse de feuilles vertes et une tasse de granola ont le meme volume mais des poids et contenus caloriques radicalement differents. Le systeme doit estimer a la fois le volume et la densite.
La distorsion de perspective : L'angle sous lequel une photo est prise affecte la taille apparente des aliments. Une assiette photographiee directement du dessus a un aspect different de la meme assiette photographiee a un angle de 45 degres.
La mise a l'echelle ambigue : Sans objet de reference connu dans le cadre, il n'y a aucun moyen de determiner la taille absolue. Un gros plan d'un petit biscuit peut sembler identique a la photo d'une grande pizza prise de plus loin.

Estimation de Profondeur a Partir d'une Image Unique

L'une des avancees cles permettant l'estimation des portions a partir de photos est l'estimation de profondeur monoculaire, la capacite a inferer des informations de profondeur a partir d'une seule image plutot que de necessiter des cameras stereo ou un equipement specialise.

Comment Fonctionne l'Estimation de Profondeur Monoculaire

Le systeme visuel humain infere la profondeur a partir de nombreux indices : le chevauchement d'objets (les objets plus proches occultent les plus eloignes), la taille relative (les objets plus petits sont generalement plus eloignes), les gradients de texture (les textures deviennent plus fines a de plus grandes distances) et la perspective atmospherique (les objets eloignes apparaissent plus flous).

Les modeles d'apprentissage profond peuvent apprendre ces memes indices a partir de grands jeux de donnees d'images associees a des cartes de profondeur. Appliques a la photographie alimentaire, ces modeles peuvent estimer quelles parties d'un aliment sont plus proches de la camera et lesquelles sont plus eloignees, reconstruisant efficacement la forme tridimensionnelle de l'aliment a partir d'une image plate.

Cartes de Profondeur et Volume Alimentaire

Une carte de profondeur attribue une valeur de distance a chaque pixel de l'image. Pour l'estimation alimentaire, cela signifie que le systeme peut determiner que le centre d'un bol de soupe se trouve a une profondeur donnee tandis que le bord du bol se trouve a une autre. La difference entre ces profondeurs, combinee aux contours detectes de l'aliment, permet au systeme d'estimer le volume.

Les cameras de smartphones modernes equipees de capteurs LiDAR (disponibles sur les modeles recents d'iPhone Pro et d'iPad Pro) peuvent capturer des donnees de profondeur reelles en plus de l'image couleur, fournissant des informations de profondeur bien plus precises que l'estimation algorithmique seule. Les applications de suivi alimentaire peuvent exploiter ce materiel lorsqu'il est disponible tout en se rabattant sur l'estimation monoculaire sur les appareils sans capteurs de profondeur.

Mise a l'Echelle par Objet de Reference

Sans point de reference connu, la taille absolue des objets dans une photographie est ambigue. La mise a l'echelle par objet de reference resout ce probleme en utilisant des objets de dimensions connues pour etablir une echelle de taille pour l'ensemble de l'image.

Objets de Reference Courants

Objet de Reference	Dimension Connue	Benefice de Precision
Assiette standard	25-27 cm de diametre	Etablit l'echelle globale du repas
Fourchette ou cuillere	~19 cm de longueur	Fournit une echelle meme dans les gros plans
Carte de credit	8,56 x 5,4 cm	Precise et universellement standardisee
Smartphone	Varie selon le modele mais connu	Peut etre detecte et mesure algorithmiquement
Main	Variable mais estimable a partir des donnees demographiques	Mise a l'echelle approximative lorsqu'aucune autre reference n'est disponible

Detection Automatique des References

Plutot que de demander aux utilisateurs de placer une carte de reference a cote de leur nourriture (ce qui ajoute des frictions et decourage l'utilisation), les systemes modernes tentent de detecter automatiquement les objets de reference courants. Les assiettes, les bols, les ustensiles et les tables apparaissent frequemment dans les photos de nourriture et peuvent servir de references de taille si le systeme peut les identifier.

Le systeme d'estimation des portions de Nutrola recherche automatiquement les assiettes, les bols et les ustensiles dans le cadre pour etablir l'echelle. Lorsque ces objets sont detectes, le systeme utilise leurs dimensions typiques pour calibrer la taille des aliments. Lorsqu'aucun objet de reference n'est trouve, le systeme s'appuie sur des connaissances prealables apprises sur les portions alimentaires typiques et peut demander a l'utilisateur de confirmer.

Calibration Basee sur l'Assiette

Une approche particulierement efficace est la calibration basee sur l'assiette. Les assiettes standard dans la plupart des pays se situent dans une fourchette de taille etroite (25 a 27 cm de diametre). En detectant le contour elliptique d'une assiette dans l'image et en supposant une taille standard, le systeme peut etablir une echelle fiable pour tout ce qui se trouve dans l'assiette.

Cette approche fonctionne bien parce que les assiettes sont presque toujours presentes dans les photos de repas, leur forme elliptique est facile a detecter quel que soit l'angle de la camera, et la distorsion de perspective de l'ellipse encode en fait des informations sur l'angle de la camera, ce qui aide a corriger les effets de perspective sur les aliments.

Techniques d'Estimation du Volume

Une fois que le systeme a identifie l'aliment, estime la profondeur et etabli l'echelle, il doit combiner ces informations pour estimer le volume de chaque aliment.

Primitives Geometriques

Une approche consiste a approximer les aliments comme des combinaisons de formes geometriques simples :

Cylindres pour les aliments hauts comme les boissons, les pancakes empiles ou les gateaux a etages
Hemispheres pour les aliments arrondis comme les boules de riz, les monticules de puree de pommes de terre ou les portions de glace
Prismes rectangulaires pour le pain tranche, les blocs de fromage ou les barres
Cones tronques pour les bols de soupe ou de cereales (la forme du bol aide a definir le volume)
Polyedres irreguliers pour les aliments de formes complexes comme les cuisses de poulet ou les fruits entiers

Le systeme ajuste une ou plusieurs de ces primitives a la region alimentaire detectee et calcule le volume a partir des formes ajustees et de l'echelle etablie.

Reconstruction Basee sur les Voxels

Une approche plus sophistiquee implique la reconstruction basee sur les voxels, ou l'aliment est modelise comme une grille tridimensionnelle de petits cubes (voxels). Chaque voxel est classifie comme contenant de la nourriture ou etant vide en fonction de la carte de profondeur et du masque de segmentation. Le volume total est alors la somme de tous les voxels contenant de la nourriture.

Cette methode gere mieux les formes irregulieres que les primitives geometriques mais necessite plus de ressources de calcul. Elle est particulierement utile pour les aliments qui ne se conforment pas a des formes simples, comme un morceau de pain dechire ou un fruit tranche irregulierement.

Estimation Neuronale du Volume

L'approche la plus recente ignore entierement la modelisation geometrique explicite. Au lieu de cela, un reseau de neurones est entraine de bout en bout pour predire directement le volume alimentaire a partir de l'image. Ces modeles apprennent des representations implicites de la geometrie alimentaire a partir de grands jeux de donnees d'images alimentaires associees a des mesures de poids reelles.

Cette approche a montre des resultats prometteurs car elle peut capturer des indices visuels subtils qui correlent avec le volume, tels que la facon dont la lumiere se reflete sur la surface d'un liquide ou le motif d'ombre projete par un monticule de nourriture. Elle evite egalement l'accumulation d'erreurs qui peut se produire lorsque l'estimation de profondeur, la segmentation et l'ajustement geometrique sont effectues comme des etapes separees.

Du Volume au Poids aux Calories

L'estimation du volume n'est pas l'etape finale. Pour calculer les calories, le systeme doit convertir le volume en poids (en utilisant la densite alimentaire) et le poids en calories (en utilisant les donnees de composition nutritionnelle).

Bases de Donnees de Densite Alimentaire

Differents aliments ont des densites tres differentes. Une tasse d'huile pese environ 220 grammes, tandis qu'une tasse de farine pese environ 120 grammes, et une tasse de pop-corn pese environ 8 grammes. Des donnees de densite precises sont essentielles pour convertir les estimations de volume en estimations de poids.

Les systemes de production maintiennent des bases de donnees associant les aliments a leurs densites, en tenant compte des variations de methode de preparation (cuit vs cru, hache vs entier) et des styles de service courants.

Aliment	Densite (g/mL)	Poids d'1 Tasse (g)	Calories par Tasse
Eau	1,00	237	0
Lait entier	1,03	244	149
Riz blanc cuit	0,74	175	205
Epinards crus	0,13	30	7
Beurre de cacahuete	1,09	258	1517
Huile d'olive	0,92	218	1909

Composition Nutritionnelle

Une fois que le systeme dispose d'une estimation du poids en grammes, il recherche la composition nutritionnelle par gramme dans une base de donnees alimentaire complete. Ces bases de donnees sont generalement derivees de sources faisant autorite comme le USDA FoodData Central, completees par des donnees de fabricants alimentaires et des bases de donnees nutritionnelles regionales.

La base de donnees de Nutrola couvre plus de 1,3 million d'aliments, incluant des produits de marque, des plats de menus de restaurants et des aliments generiques avec des profils complets de macro et micronutriments. Cette couverture complete garantit que, une fois un aliment et une portion identifies, le calcul nutritionnel est precis.

Defis de Precision et Comment Ils Sont Resolus

Malgre la sophistication de ces techniques, l'estimation des portions a partir de photos reste une science imparfaite. Comprendre les sources d'erreur aide a definir des attentes realistes et met en lumiere les ameliorations en cours dans le domaine.

Sources d'Erreur Connues

Variation de l'angle de la camera : La meme portion a un aspect different selon que la photo est prise par-dessus, a un angle de 45 degres ou pres du niveau de la table. Les photos prises du dessus donnent generalement les estimations les plus precises car elles minimisent la distorsion de perspective, mais de nombreux utilisateurs tiennent naturellement leur telephone en biais.

Aliments occultes : Les aliments caches sous des sauces, du fromage ou d'autres garnitures ne peuvent pas etre mesures directement visuellement. Le systeme doit inferer la portion cachee en se basant sur le type de plat visible et la preparation typique.

Contenants irreguliers : Les bols, tasses et contenants non standards rendent la mise a l'echelle basee sur l'assiette moins fiable. Une petite portion dans un grand bol a un aspect different d'une grande portion dans un petit bol, meme si la surface alimentaire semble similaire.

Differences individuelles de preparation : Deux personnes preparant "un bol de porridge" pourraient utiliser des quantites tres differentes de flocons et d'eau, resultant en un volume apparent identique mais un contenu calorique different.

Strategies pour Ameliorer la Precision

Capture multi-angle : Certains systemes demandent aux utilisateurs de prendre des photos sous plusieurs angles, permettant une reconstruction stereo et une estimation volumetrique plus precise. Cela ameliore significativement la precision mais ajoute des frictions au processus d'enregistrement.

Boucles de retour utilisateur : Lorsque les utilisateurs pesent leurs aliments et confirment ou corrigent la portion estimee, cela cree des donnees d'entrainement qui ameliorent le modele au fil du temps. Nutrola encourage les utilisateurs a verifier occasionnellement les portions avec une balance de cuisine pour calibrer a la fois l'IA et la propre conscience de l'utilisateur en matiere de portions.

Connaissances prealables contextuelles : Le systeme peut utiliser des informations contextuelles pour affiner les estimations. Si un utilisateur se trouve dans une chaine de restaurants specifique, le systeme peut utiliser les tailles de portions connues. Si un utilisateur enregistre regulierement un petit-dejeuner specifique, le systeme peut apprendre sa portion typique.

Estimations tenant compte de la confiance : Plutot que de presenter un seul chiffre, les systemes sophistiques fournissent une fourchette de confiance. Si le systeme est incertain sur la portion, il peut presenter l'estimation sous forme de fourchette (par exemple, 300 a 450 calories) et demander a l'utilisateur de fournir des informations supplementaires.

Benchmarks de Precision Actuels

Des recherches presentees a la Conference Internationale sur l'Analyse et le Traitement d'Images ont montre que les systemes d'estimation du volume alimentaire a la pointe de la technologie atteignent des erreurs absolues moyennes en pourcentage entre 15 et 25 pour cent. Pour mettre en contexte, des etudes ont montre que des dieteticiens formes estimant les portions a partir de photos atteignent des erreurs d'environ 10 a 15 pour cent, tandis que les individus non formes ont des erreurs moyennes de 30 a 50 pour cent.

Cela signifie que l'estimation des portions par IA est deja significativement meilleure que ce que la plupart des gens peuvent faire sans aide et approche la precision des professionnels formes. Combinee a l'avantage de vitesse et de commodite, cela fait du suivi assiste par IA une amelioration substantielle par rapport a l'enregistrement manuel pour la majorite des utilisateurs.

Le Role de la Calibration par l'Utilisateur

Un aspect sous-estime de l'estimation des portions par IA est le role de la calibration par l'utilisateur au fil du temps. A mesure qu'un utilisateur enregistre ses repas et fournit occasionnellement des corrections, le systeme construit un profil de ses tailles de portions typiques et de ses preferences alimentaires.

Pour les utilisateurs reguliers, cela signifie que le systeme devient progressivement plus precis. Si vous avez tendance a vous servir des portions de riz plus grandes que la moyenne, le systeme apprend a ajuster a la hausse pour vos estimations de riz. Si vous utilisez generalement moins d'huile que la recette standard, le systeme peut en tenir compte.

Nutrola exploite cette personnalisation pour fournir des estimations de portions de plus en plus adaptees plus vous utilisez l'application. Les nouveaux utilisateurs beneficient de moyennes au niveau de la population, tandis que les utilisateurs experimentes recoivent des estimations personnalisees calibrees sur leurs habitudes specifiques.

Conseils Pratiques pour des Estimations de Portions Plus Precises

Bien que l'IA fasse le plus gros du travail, les utilisateurs peuvent ameliorer la precision en suivant quelques directives simples :

Photographiez d'en haut lorsque possible. Les photos prises du dessus fournissent le plus d'informations sur la surface alimentaire et minimisent la distorsion de perspective.
Incluez l'assiette entiere dans le cadre. Le bord de l'assiette sert d'objet de reference crucial pour la mise a l'echelle.
Evitez les gros plans extremes. Le systeme a besoin de contexte pour juger la taille. Une photo qui montre uniquement la nourriture sans objets environnants n'offre aucune reference d'echelle.
Photographiez avant de melanger. Une salade avec des ingredients visiblement separes est plus facile a analyser qu'une qui a ete melangee.
Utilisez un bon eclairage. Les ombres et la faible luminosite peuvent obscurcir les contours des aliments et les indices de profondeur.
Confirmez ou corrigez occasionnellement. Utiliser une balance de cuisine une fois par semaine pour verifier l'estimation de l'IA aide a calibrer a la fois le systeme et votre propre intuition.

FAQ

Quelle est la precision de l'estimation des portions par IA comparee a l'utilisation d'une balance alimentaire ?

Une balance alimentaire offre une precision de 1 a 2 grammes, ce qui est bien plus precis que toute methode d'estimation visuelle. L'estimation des portions par IA a partir de photos atteint generalement une precision de 15 a 25 pour cent du poids reel. Cependant, l'avantage de commodite de l'estimation par IA (qui prend 2 secondes contre 30 secondes ou plus avec une balance) signifie que plus de personnes suivent effectivement de maniere consistante, ce qui compte souvent davantage pour les resultats a long terme que la precision parfaite.

L'angle de la camera affecte-t-il la precision de l'estimation des portions ?

Oui, significativement. Les photos prises du dessus (en regardant directement l'assiette) offrent la meilleure precision car elles montrent toute la surface de la nourriture avec une distorsion de perspective minimale. Les photos prises a un angle de 45 degres sont les plus courantes et produisent encore de bonnes estimations. Les angles tres bas (pres du niveau de la table) sont les moins precis car la majeure partie de la nourriture est occultee par le bord avant de l'assiette.

L'IA peut-elle estimer les portions pour les liquides comme les soupes et les smoothies ?

Les liquides presentent un defi unique car leur volume est determine par leur contenant plutot que par leur propre forme. Les systemes d'IA estiment les portions de liquides en identifiant le type de contenant et le niveau de remplissage. Un bol de soupe rempli a ras bord a un volume different de celui rempli a moitie. La precision est generalement bonne lorsque le contenant est de forme standard mais moins fiable avec des contenants inhabituels.

Pourquoi l'IA surestime-t-elle ou sous-estime-t-elle parfois ma portion ?

Les raisons courantes de surestimation incluent une presentation dense qui semble plus grande qu'elle ne l'est, des garnitures qui ajoutent du volume visuel sans calories significatives, et l'utilisation de grandes assiettes qui font que le systeme suppose qu'il y a plus de nourriture. Les raisons courantes de sous-estimation incluent de la nourriture cachee sous d'autre nourriture, des aliments denses et riches en calories qui semblent petits, et des styles de service inhabituels. Fournir un retour lorsque les estimations sont incorrectes aide le systeme a s'ameliorer.

Ai-je besoin d'un telephone avec un capteur LiDAR pour un suivi precis des portions ?

Non. Bien que les telephones equipes de LiDAR puissent fournir des informations de profondeur plus precises, les modeles d'IA modernes peuvent estimer la profondeur assez bien a partir d'une image de camera standard seule. L'ecart de precision entre les telephones equipes de LiDAR et les telephones standards s'est reduit a mesure que l'estimation de profondeur logicielle s'est amelioree. Nutrola fonctionne avec precision sur tout smartphone moderne.

Comment le systeme gere-t-il les aliments empiles ou superposes ?

Pour les aliments visiblement empiles comme les pancakes ou les sandwichs a etages, le systeme peut compter les couches et estimer l'epaisseur a partir du profil lateral. Pour les aliments avec des couches cachees comme les lasagnes ou les burritos, le systeme s'appuie sur des modeles de composition appris qui estiment la structure interne typique en fonction de l'exterieur visible et du type de plat.

Prêt à transformer votre suivi nutritionnel ?

Rejoignez des milliers de personnes qui ont transformé leur parcours santé avec Nutrola !