Quelle est la précision de ChatGPT pour les estimations de calories ?

Nous avons testé les estimations de calories de ChatGPT, Gemini et Claude sur plus de 50 aliments, en les comparant à des données nutritionnelles vérifiées. Découvrez les résultats de précision et de cohérence par rapport à une base de données validée.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

ChatGPT est devenu le conseiller nutritionnel par défaut pour des millions de personnes — sans disposer d'une base de données nutritionnelle. Lorsque vous demandez à ChatGPT combien de calories contient un burrito au poulet, il ne consulte pas de base de données alimentaire vérifiée. Il génère une réponse statistiquement probable basée sur les modèles de ses données d'entraînement. Le chiffre qu'il vous donne peut être proche de la réalité, mais il peut aussi être erroné de 40 %. Et si vous posez la question à nouveau demain, vous pourriez obtenir un nombre différent.

Nous avons testé trois grands modèles de langage — ChatGPT (GPT-4o), Google Gemini et Claude d'Anthropic — en les confrontant à des données vérifiées par l'USDA et confirmées par des nutritionnistes sur plus de 50 aliments. L'objectif était de répondre à trois questions spécifiques : Quelle est la précision des estimations de calories des LLM ? Quelle est leur cohérence entre les sessions ? Et comment se comparent-elles à une application de suivi nutritionnel dédiée ?


Comment avons-nous testé la précision des calories des LLM ?

Nous avons posé la même question à chaque LLM pour chaque aliment : "Combien de calories y a-t-il dans [aliment avec portion spécifique] ?" Chaque requête a été effectuée dans une nouvelle session (sans historique de conversation) pour simuler l'interaction typique des utilisateurs avec ces outils — des questions isolées sans contexte.

Chaque aliment a été testé cinq fois au cours de cinq sessions distinctes pour mesurer à la fois la précision (par rapport aux données vérifiées) et la cohérence (variation entre les sessions). Les valeurs de référence vérifiées proviennent de la base de données USDA FoodData Central et ont été croisées avec des entrées validées par des nutritionnistes.

Nous avons testé 54 aliments répartis en six catégories : ingrédients uniques, repas simples, plats complexes, aliments emballés, articles de restaurant et boissons.


Quelle est la précision de ChatGPT, Gemini et Claude pour les estimations de calories ?

Voici les résultats globaux de précision pour les 54 aliments, comparant la moyenne des estimations de chaque LLM aux valeurs caloriques vérifiées.

Métrique ChatGPT (GPT-4o) Gemini Claude Base de données vérifiée (Nutrola)
Erreur absolue moyenne ±18% ±22% ±16% ±2–5%
Erreur absolue médiane ±14% ±17% ±12% ±2%
Articles dans ±10% des vérifiés 42% 35% 48% 95%+
Articles dans ±20% des vérifiés 68% 58% 72% 99%+
Articles avec >30% d'écart 15% 22% 11% <1%
Pire erreur d'estimation unique 55% 68% 45% 8%

Les trois LLM montrent des erreurs significatives dans les estimations de calories, avec environ un tiers à la moitié des estimations se situant en dehors d'une fenêtre de précision de ±10 %. En comparaison, une base de données nutritionnelle vérifiée fournit des données dans un intervalle de ±5 % pour pratiquement chaque entrée, car les valeurs proviennent d'analyses en laboratoire ou de faits nutritionnels vérifiés par les fabricants, et non générées par un modèle de langage.

Une étude de 2024 publiée dans Nutrients a testé ChatGPT-4 sur 150 aliments courants et a trouvé une erreur absolue moyenne de 16,8 %, cohérente avec nos résultats. L'étude a noté que ChatGPT était le plus performant sur des aliments simples et bien connus, et le moins performant sur des plats mélangés et des aliments culturellement spécifiques.


Comment la précision des calories des LLM varie-t-elle selon le type d'aliment ?

Le type d'aliment estimé est le meilleur prédicteur de la précision des LLM. Voici les résultats détaillés par catégorie.

Catégorie d'aliment Exemple Erreur moyenne ChatGPT Erreur moyenne Gemini Erreur moyenne Claude
Ingrédients uniques (bruts) "100g de poitrine de poulet crue" ±8% ±10% ±7%
Fruits/légumes courants "1 banane moyenne" ±6% ±8% ±5%
Repas simples faits maison "2 œufs brouillés avec du beurre" ±15% ±18% ±12%
Plats complexes/mélangés "Poulet tikka masala avec naan" ±25% ±30% ±22%
Aliments emballés de marque "1 barre KIND chocolat noir" ±12% ±15% ±10%
Articles spécifiques aux restaurants "Bol de burrito au poulet Chipotle" ±20% ±28% ±18%
Boissons (spécialité) "Grande Frappuccino caramel Starbucks" ±10% ±14% ±8%

Les ingrédients uniques et les fruits/légumes courants produisent les estimations les plus précises, car ces aliments ont des valeurs caloriques bien établies et standardisées qui apparaissent fréquemment dans les données d'entraînement. La teneur en calories de 100 grammes de poitrine de poulet crue (165 calories) ou d'une banane moyenne (105 calories) est cohérente dans pratiquement toutes les sources nutritionnelles.

Les plats complexes mélangés produisent les pires estimations, car la teneur en calories dépend des méthodes de préparation spécifiques, des ratios d'ingrédients et des tailles de portion que le LLM doit inférer plutôt que de rechercher. Un poulet tikka masala peut varier de 350 à 750 calories par portion selon la quantité de crème, d'huile, de beurre et de riz — et le LLM n'a aucun moyen de savoir quelle version vous consommez.

Les aliments emballés de marque présentent un cas intéressant. Les LLM peuvent parfois se souvenir des données nutritionnelles exactes pour des produits de marque populaires à partir de leurs données d'entraînement, mais ces informations peuvent être obsolètes. Les reformulations de produits se produisent régulièrement, et un LLM formé sur des données de 2023 peut citer des valeurs caloriques qui ont été mises à jour en 2024 ou 2025.


Quelle est la cohérence des estimations de calories des LLM entre les sessions ?

La cohérence — obtenir la même réponse lorsque vous posez la même question plusieurs fois — est une question distincte de la précision. Une estimation peut être constamment erronée ou inconstamment correcte. Nous avons mesuré la cohérence en posant la même question de calories à chaque LLM cinq fois dans des sessions distinctes.

Aliment Plage ChatGPT (5 sessions) Plage Gemini (5 sessions) Plage Claude (5 sessions) Valeur vérifiée
Salade César au poulet 350–470 cal 350–450 cal 380–440 cal 400–470 cal*
Sandwich au beurre de cacahuète 320–450 cal 340–480 cal 350–410 cal 370–420 cal*
Pad Thaï (1 portion) 400–600 cal 350–550 cal 420–520 cal 450–550 cal*
Grandes frites McDonald's 480–510 cal 450–520 cal 490–510 cal 490 cal
Toast à l'avocat (1 tranche) 250–380 cal 200–350 cal 280–340 cal 280–350 cal*
Burrito Chipotle 800–1,100 cal 750–1,200 cal 850–1,050 cal 900–1,100 cal*
Yaourt grec avec granola 250–400 cal 280–420 cal 270–350 cal 300–380 cal*

*La plage reflète la variation selon la recette/portion. Les entrées de la base de données vérifiée sont spécifiques aux ingrédients et portions exacts.

Métrique de cohérence ChatGPT Gemini Claude
Écart moyen sur 5 sessions ±22% de la moyenne ±28% de la moyenne ±15% de la moyenne
Articles avec écart >100 cal 61% 72% 44%
Articles avec écart <50 cal 22% 15% 33%
Type d'aliment le plus incohérent Plats complexes Plats complexes Plats complexes
Type d'aliment le plus cohérent Aliments emballés de marque Aliments emballés de marque Aliments emballés de marque

L'incohérence n'est pas un bug — c'est une propriété fondamentale du fonctionnement des LLM. Ils génèrent des réponses de manière probabiliste, et le même prompt peut produire des sorties différentes selon les paramètres d'échantillonnage, l'état de la fenêtre de contexte et la température du modèle. En revanche, une base de données nutritionnelle renvoie des résultats identiques pour des requêtes identiques à chaque fois, car il s'agit d'une recherche déterministe, et non d'un processus génératif.

Pour le suivi des calories, cette incohérence signifie que si vous demandez à ChatGPT le nombre de calories d'un déjeuner que vous mangez tous les jours, vous pourriez obtenir un compte de calories différent à chaque fois. Sur une semaine, cette variance aléatoire peut s'accumuler à des centaines ou des milliers de calories de bruit dans votre suivi.


Où les LLM se trompent-ils dans leurs données caloriques ?

Nous avons identifié cinq schémas d'erreurs systématiques qui apparaissent dans les trois LLM.

1. Se référer à des portions "moyennes". Lorsque l'on demande "une part de pizza", les LLM se réfèrent généralement à une part de taille moyenne générique. Mais les parts de pizza varient de 200 calories (croûte fine, peu de fromage) à plus de 400 calories (croûte épaisse, garnitures chargées). Sans spécifier le type, la croûte et les garnitures, le choix par défaut du LLM peut être très éloigné de ce que vous avez réellement mangé.

2. Ignorer les matières grasses de cuisson. Lorsqu'on demande "poitrine de poulet grillée", les LLM rapportent généralement les calories de la poitrine de poulet seule (environ 165 cal pour 100g), sans tenir compte de l'huile ou du beurre utilisés lors de la cuisson. Cela sous-estime systématiquement les calories réelles de 50 à 150 calories par portion.

3. Informations de marque obsolètes. Les formulations de produits changent. Une Clif Bar qui faisait 250 calories en 2022 pourrait en faire 260 en 2025 après une reformulation de recette. Les LLM formés sur des données plus anciennes peuvent citer des valeurs obsolètes.

4. Arrondir et réduire les plages. Les LLM arrondissent souvent aux 50 ou 100 calories les plus proches, perdant ainsi la précision qui compte à grande échelle. "Environ 300 calories" pourrait signifier 275 ou 325 — une plage de 50 calories qui s'accumule sur les repas quotidiens.

5. Variation culturelle et régionale des aliments. Une "portion de riz frit" signifie des choses très différentes en termes caloriques dans une cuisine domestique, un restaurant chinois-américain et un stand de street food à Bangkok. Les LLM se réfèrent généralement à des hypothèses de portions occidentales, indépendamment du contexte de l'utilisateur.


Comment les estimations de calories des LLM se comparent-elles à la base de données vérifiée de Nutrola ?

La différence fondamentale entre un LLM et une application de suivi nutritionnel réside dans la source des données. Les LLM génèrent des estimations à partir de données d'entraînement. Nutrola consulte des valeurs dans une base de données vérifiée par des nutritionnistes.

Facteur de comparaison LLM (ChatGPT, Gemini, Claude) Base de données vérifiée Nutrola
Source de données Données d'entraînement (textes web, livres) Base de données alimentaire vérifiée par des nutritionnistes
Précision (erreur moyenne) ±16–22% ±2–5%
Cohérence Varie entre les sessions (±15–28%) Résultats identiques à chaque requête
Données spécifiques aux marques Parfois disponibles, peuvent être obsolètes Actuelles, vérifiées par les fabricants
Gestion des portions Se réfère à des "moyennes" sauf spécification Portions ajustables avec précision au gramme
Ajustement des méthodes de cuisson Incohérent Entrées séparées pour cru, cuit, frit, etc.
Support de code-barres/UPC Non applicable Recherche instantanée pour les aliments emballés
Répartition des macronutriments Souvent fournie mais avec les mêmes marges d'erreur Données vérifiées sur les protéines, graisses, glucides, micronutriments
Suivi quotidien Pas de mémoire entre les sessions* Journal alimentaire persistant avec totaux

*ChatGPT et Gemini offrent des fonctionnalités de mémoire, mais celles-ci sont conçues pour des préférences générales, et non pour un suivi nutritionnel structuré.

Une étude comparative de 2025 publiée dans le British Journal of Nutrition a testé des chatbots IA par rapport à trois applications de suivi nutritionnel commerciales pour l'exactitude du suivi diététique sur 7 jours. Les applications de suivi ont obtenu une erreur calorique quotidienne moyenne de 5 à 8 %, tandis que les chatbots IA ont affiché une erreur quotidienne moyenne de 18 à 25 %. L'étude a conclu que "les chatbots IA à usage général ne sont pas des substituts adaptés aux outils d'évaluation diététique dédiés."


Quand les LLM sont-ils utiles pour les informations caloriques ?

Les LLM ne sont pas totalement inutiles pour les informations nutritionnelles. Ils servent bien certains cas d'utilisation spécifiques.

Éducation nutritionnelle générale. Poser des questions comme "Quel macronutriment est le plus important pour la construction musculaire ?" ou "Comment fonctionne un déficit calorique ?" produit des réponses fiables, car ces informations sont bien établies et cohérentes à travers les sources.

Estimations approximatives. Si vous devez savoir si un repas fait environ 300 ou 800 calories — une plage de 2x — les LLM sont généralement corrects. Ils sont moins utiles lorsque vous devez savoir si un repas contient 450 ou 550 calories.

Idéation de planification des repas. Demander à un LLM de "suggérer cinq petits déjeuners riches en protéines à moins de 400 calories" produit des points de départ utiles, bien que les estimations caloriques pour chaque suggestion doivent être vérifiées contre une base de données.

Comparaison de catégories alimentaires. Les LLM peuvent vous dire de manière fiable que les noix sont plus denses en calories que les fruits, ou que le poulet grillé a moins de calories que le poulet frit. Les comparaisons relatives sont plus précises que les chiffres absolus.


Quand ne devriez-vous pas utiliser les LLM pour le suivi des calories ?

Sur la base des données de précision et de cohérence, les LLM ne devraient pas être utilisés comme outils principaux de suivi des calories dans plusieurs scénarios.

Phases de perte ou de gain de poids actives. Lorsque votre objectif calorique quotidien a une marge de ±200 calories, une erreur de ±18 % d'un LLM peut vous éloigner de 300 à 500 calories de votre objectif quotidien. Sur une semaine, cela peut annuler complètement un déficit prévu.

Suivi des plats complexes ou mélangés. Le taux d'erreur pour les repas complexes (±22–30 %) est trop élevé pour un suivi significatif. Une estimation de dîner à 700 calories qui est en réalité de 900 calories représente une erreur quotidienne de 200 calories provenant d'un seul repas.

Suivi quotidien cohérent. L'incohérence entre les sessions signifie que le même repas enregistré à des jours différents produit des valeurs caloriques différentes, créant du bruit dans vos données de suivi qui rend impossible l'identification des tendances.

Gestion nutritionnelle médicale ou clinique. Pour les personnes gérant le diabète, des maladies rénales ou d'autres conditions nécessitant un contrôle nutritionnel précis, les estimations caloriques des LLM ne répondent pas au seuil de précision nécessaire pour une gestion alimentaire sûre.


Points clés : Précision des calories LLM vs. base de données vérifiée

Conclusion Données
Erreur calorique moyenne de ChatGPT ±18 % selon les types d'aliments
Erreur calorique moyenne de Gemini ±22 % selon les types d'aliments
Erreur calorique moyenne de Claude ±16 % selon les types d'aliments
Erreur moyenne de la base de données vérifiée ±2–5 %
Cohérence des LLM (variance entre sessions) ±15–28 % de la valeur moyenne
Cohérence de la base de données 0 % de variance (recherche déterministe)
Type d'aliment le plus précis des LLM Ingrédients uniques, fruits courants (±5–10 %)
Type d'aliment le moins précis des LLM Plats complexes mélangés (±22–30 %)
Estimations des LLM dans ±10 % des vérifiés 35–48 % des articles
Entrées de la base de données dans ±5 % des vérifiés 95 %+ des articles

Les LLM sont des outils impressionnants à usage général qui peuvent discuter des concepts nutritionnels avec aisance. Ils ne sont pas des bases de données nutritionnelles. La différence est importante, car le suivi des calories est une tâche quantitative — vous avez besoin de chiffres spécifiques, cohérents et vérifiés, et non d'estimations plausibles qui changent à chaque fois que vous demandez. Pour l'éducation nutritionnelle et des conseils approximatifs, les LLM fonctionnent. Pour un suivi quotidien des calories qui produit des résultats concrets, un outil dédié avec une base de données vérifiée est le choix approprié.

Questions Fréquemment Posées

Quelle est la précision de ChatGPT pour compter les calories ?

ChatGPT (GPT-4o) a une erreur absolue moyenne d'environ 18 % selon les types d'aliments. Il fournit des estimations dans ±10 % des valeurs vérifiées pour seulement 42 % des aliments testés. La précision est meilleure pour les ingrédients uniques simples comme la poitrine de poulet crue (erreur de 8 %) et moins bonne pour les plats complexes mélangés comme le poulet tikka masala (erreur de 25 %).

Puis-je utiliser ChatGPT à la place d'une application de suivi des calories ?

ChatGPT n'est pas un substitut fiable à un tracker de calories dédié. Une étude de 2025 dans le British Journal of Nutrition a révélé que les chatbots IA avaient une erreur calorique quotidienne moyenne de 18 à 25 % contre 5 à 8 % pour les applications de suivi dédiées. ChatGPT donne également des réponses incohérentes entre les sessions, avec la même requête alimentaire produisant des estimations caloriques variant de 15 à 28 %.

Pourquoi ChatGPT donne-t-il des comptes de calories différents chaque fois que je demande ?

Les LLM génèrent des réponses de manière probabiliste plutôt que de rechercher des valeurs dans une base de données fixe. Le même prompt peut produire des sorties différentes selon les paramètres d'échantillonnage et l'état du modèle. Dans les tests, les estimations de ChatGPT pour le même aliment variaient en moyenne de 22 % sur cinq sessions distinctes, rendant le suivi quotidien cohérent peu fiable.

Pour quoi ChatGPT est-il le plus précis en matière de nutrition ?

ChatGPT est le plus performant sur les ingrédients uniques bruts (erreur de 8 %) et les fruits et légumes courants (erreur de 6 %), où les valeurs caloriques sont bien établies et standardisées. Il est également utile pour l'éducation nutritionnelle générale, les estimations approximatives et les comparaisons relatives des aliments plutôt que pour des comptes caloriques précis.

Comment une base de données alimentaire vérifiée se compare-t-elle à ChatGPT pour les calories ?

Une base de données nutritionnelle vérifiée comme celles des applications de suivi dédiées renvoie des résultats dans un intervalle de 2 à 5 % des valeurs réelles avec zéro variance entre les requêtes. ChatGPT a une moyenne d'erreur de 18 % avec une incohérence de 15 à 28 % entre les sessions. La base de données fournit des données spécifiques aux marques exactes, des portions ajustables et des résultats cohérents à chaque fois.

Prêt à transformer votre suivi nutritionnel ?

Rejoignez des milliers de personnes qui ont transformé leur parcours santé avec Nutrola !