Nutrola与ChatGPT的营养建议对比:聊天机器人能否替代追踪应用?

越来越多的人开始使用ChatGPT来估算餐点热量。但通用人工智能与专门的营养追踪应用相比,究竟差别多大?我们进行了测试。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

大家都在问的问题

自从ChatGPT广泛应用以来,越来越多的人开始把它当作临时的营养顾问。Reddit讨论串、TikTok视频和健康论坛上,充斥着人们输入“鸡肉凯撒沙拉的热量是多少?”或“给我一个1800卡路里的减肥餐计划”等提示,并将其回答视为真理。

这听起来很合理。ChatGPT反应迅速、对话自然,而且免费。它可以回答后续问题,仿佛在和一个对食物知识渊博的朋友交谈。

但通用语言模型与专门的营养追踪工具之间有一个关键区别——而这个区别在持续、准确的饮食监测中比大多数人意识到的要重要得多。

我们决定对这两种工具进行严格测试。在两周的时间里,我们的团队使用Nutrola和ChatGPT(当时最新的GPT-4o模型)记录了30种不同的餐点。我们将其准确性与经过验证的USDA和营养师审核的参考值进行比较,测试了一致性,评估了照片分析能力,并考察了每种工具在实际日常饮食管理中的支持程度。

结果令人深思,且比简单的“哪个更好”更为复杂。

测试设计

我们选择了30种餐点,涵盖七个类别,以捕捉真实饮食的全貌:

  • 简单单品餐(5餐):一个香蕉、一块涂有奶油奶酪的贝果、一个水煮蛋、一杯希腊酸奶、一根蛋白棒
  • 常见家常菜(5餐):烤鸡胸肉配米饭和西兰花、意大利面肉酱、炒鸡蛋配吐司、三文鱼配红薯、炒豆腐配蔬菜
  • 餐厅和外卖餐(5餐):Chipotle的卷饼碗、麦当劳的巨无霸套餐、一盘寿司(12块)、当地餐厅的泰式炒河粉、Subway的火鸡长面包
  • 复杂自制餐(5餐):牛肉炖菜配根菜、自制披萨(整饼的两片)、鸡肉咖喱配香米、丰盛的卷饼、牧羊人派
  • 零食和饮料(5餐):星巴克的大杯焦糖拿铁、混合坚果(1/2杯)、配有配料的冰沙碗、一片香蕉面包、一把杏仁(约25颗)
  • 民族和地方菜(3餐):牛肉河粉、鹰嘴豆沙拉卷配芝麻酱、埃塞俄比亚的injera配doro wot
  • 模糊的份量(2餐):“一碗意大利面”没有进一步说明,“一盘炒饭”

对于每一餐,我们使用USDA FoodData Central的条目以及我们团队注册营养师的手动计算,建立了参考热量值。这些参考值作为基准。

然后,我们使用Nutrola的标准AI驱动工作流程记录每一餐(对可以拍照的餐点使用照片,对于其他餐点使用文本输入),并在干净的对话中询问ChatGPT:“[餐点描述]的热量是多少?”

对于ChatGPT,我们在不同的日子分别运行了每个查询三次,以测试其一致性。

结果:30餐对比

准确性

我们将准确性定义为与参考热量值的百分比偏差。响应在参考值的10%以内被视为“准确”。在10%-20%之间为“可接受”。超过20%则为“不准确”。

类别 测试餐点 Nutrola准确(在10%以内) ChatGPT准确(在10%以内) Nutrola可接受(在20%以内) ChatGPT可接受(在20%以内)
简单单品 5 5 4 5 5
常见家常菜 5 5 3 5 4
餐厅/外卖 5 4 2 5 4
复杂自制餐 5 4 1 5 3
零食和饮料 5 5 3 5 4
民族菜 3 2 1 3 2
模糊份量 2 1 0 2 1
总计 30 26 (87%) 14 (47%) 30 (100%) 23 (77%)

模式非常明显。对于简单、定义明确的食物——如香蕉、标签明确的蛋白棒——ChatGPT的表现相对不错。它利用广泛可用的营养数据,返回的值通常接近任何热量参考网站的结果。

但随着餐点变得复杂,差距显著加大。在复杂自制餐中,ChatGPT在五次尝试中仅有一次的准确度在10%以内。它将一份自制牛肉炖菜估算为380卡路里,而我们营养师计算的参考值为520卡路里——低估了27%,这是因为模型未能考虑到在煎肉时使用的油和炖煮根菜的热量密度。

Nutrola在所有类别中保持了87%的准确性,每一餐均在20%的可接受范围内。其优势来自两个结构性因素:一个经过验证的食品数据库消除了众包错误的问题,以及专门针对食物识别和份量估算训练的AI模型,而不是通用语言任务。

一致性

在这一点上,对比尤其引人注目。

我们要求ChatGPT对同30餐进行三次热量估算,分别在不同的日子进行,保持新鲜对话。一个可靠的营养工具应该在每次相同餐点时给出相同的答案。

指标 Nutrola ChatGPT
重复查询结果相同 30/30 (100%) 8/30 (27%)
查询间偏差在10%以内 30/30 (100%) 19/30 (63%)
查询间偏差超过20% 0/30 (0%) 6/30 (20%)
最大单次偏差 0 kcal 340 kcal

ChatGPT在三天内对同一份泰式炒河粉给出了三种不同的热量估算:620、780和510卡路里。对于自制披萨片,我们分别得到了285、380和320卡路里的估算。寿司拼盘的估算在三次查询中从480到720卡路里不等。

这种不一致性并不是一个bug——而是大型语言模型工作方式的固有特征。ChatGPT生成响应是基于概率的。它并不是查找固定的数据库条目,而是每次构建一个听起来合理的答案,受到温度设置、标记选择的随机性和对话措辞的影响。对于创意写作,这种变异性是一个特性。对于热量追踪,这却是一个根本性的问题。

Nutrola在每次重复查询中返回相同的结果,因为它查询的是一个固定的、经过验证的数据库。相同的食物输入每次都映射到相同的营养数据。一致性不是一个额外的功能——它是人们依赖的任何工具的基本要求,以便进行日常饮食决策。

照片分析

我们拍摄了30餐中的20餐,并将这些图像提交给两个工具。

Nutrola的Snap & Track功能成功处理了所有20张照片。它识别了盘子上的各个食物成分,估算了份量,并返回了逐项的营养分解。平均处理时间为4-6秒。对于烤鸡配米饭和西兰花,它正确识别了三种成分,估算鸡胸肉约170克,米饭约3/4杯,西兰花约一杯——这些都在实际摆盘的合理范围内。

ChatGPT的图像分析能力(通过GPT-4o提供)采取了不同的方法。当我们上传相同的照片时,它可以一般性地识别食物——“这似乎是烤鸡配米饭和一种绿色蔬菜”——但其基于照片的热量估算明显不如基于文本的估算精确。它经常使用宽泛的范围进行保留(“这餐的热量可能在450到700卡路里之间”),并且无法提供使照片记录可操作的逐项成分级别的分解。

更重要的是,ChatGPT没有机制根据你的个人饮食模式来改进其照片估算。Nutrola的AI会根据纠正进行学习——如果你经常将米饭的份量向上调整,因为你倾向于盛更多的份量,系统会适应。ChatGPT在每次对话中都是从零开始。

宏观分解

热量总数只是全貌的一部分。任何认真管理营养的人都需要蛋白质、碳水化合物和脂肪的分解。

Nutrola自动为每个记录的项目提供完整的宏观营养数据——至少包括蛋白质、碳水化合物、脂肪、纤维、糖和钠,许多食物还提供额外的微量营养素数据。这些值来自与热量数字相同的经过验证的数据库。

如果你要求,ChatGPT可以提供宏观估算,但这需要额外的提示。而且准确性问题会加剧:如果热量估算偏差15%,基于该估算的宏观分解也会带有相同的错误——或者更糟,因为ChatGPT有时生成的宏观值与其提供的热量总数并不相符。在我们30次测试中,有7次ChatGPT列出的蛋白质、碳水化合物和脂肪克数所产生的热量总数与其自身所述的热量相差超过30卡路里。这种内部不一致在一个结构化的营养数据库中是不会发生的。

历史追踪与进展

这一类别的对比几乎不适用,因为ChatGPT根本不提供此能力。

营养追踪并不是一次性餐点的活动。这是一个日常、每周和每月的实践。随着时间的推移,价值会逐渐累积:你可以看到周末蛋白质摄入下降、工作旅行周的热量盈余上升、过去一个月纤维摄入稳步提高。

Nutrola将每一餐记录存储在持久历史中。它提供每日、每周和每月的总结,跟踪趋势,能够与Apple Health同步,显示你的遵循率、宏观比例变化和特定目标的进展。

ChatGPT在对话间不会保留你的餐点记忆(即使在一次对话中,它的“记忆”也仅限于上下文窗口)。你不能问它“我上周二吃了什么?”或“我这一周的平均蛋白质摄入是多少?”除非你手动粘贴所有数据。没有仪表板,没有趋势可视化,没有目标追踪。

对于偶尔检查热量估算的人来说,这没问题。但对于那些希望在数周和数月内持续管理营养的人来说,缺乏持久追踪使得ChatGPT根本不适合作为主要工具。

速度与工作流程

在单个餐点记录的速度对比中:

操作 Nutrola ChatGPT
通过照片记录一餐 5-8秒 15-30秒(上传、等待、解析响应)
通过文本记录一餐 3-5秒 10-20秒(输入提示、等待生成)
获取宏观分解 每次记录自动提供 需要后续提示
记录完整一天(4餐,2个零食) 1-3分钟 8-15分钟(6次独立对话或提示)
查看每周总结 2次点击 无法手动汇编

每餐的时间差异看似微小。但营养追踪是一项量化活动。在一周内跟踪每天六次饮食,累计的时间差异是相当可观的——研究一致表明,记录的摩擦是导致追踪中断的主要原因。

ChatGPT真正擅长的地方

将这视为单方面的对比是不诚实的。ChatGPT提供了一些专注追踪应用所不具备的功能,这些优势值得认可。

一般营养教育

如果你想了解纤维为何重要、蛋白质合成如何运作、血糖指数的含义,或反式脂肪为何有问题,ChatGPT是一个出色的资源。它可以用通俗易懂的语言解释复杂的营养科学,根据你的知识水平调整解释,并实时回答后续问题。Nutrola是一个追踪工具,而不是教科书。在纯粹的营养教育方面,ChatGPT确实很有用。

食谱建议与餐点规划

如果你要求ChatGPT生成一周的1800卡路里餐计划,每天至少140克蛋白质,它会提供创意丰富、变化多样且通常合理的建议。它可以根据饮食限制、菜系偏好、预算限制和可用食材进行调整。它是餐点规划的优秀头脑风暴伙伴。

需要注意的是,它附加的热量和宏观值是估算,准确性可能有所波动——因此你仍然需要用专用的追踪工具进行验证。

上下文饮食建议

ChatGPT可以进行关于饮食策略的细致对话。“我正在为半程马拉松训练,同时想减掉5公斤——在长跑日与休息日我该如何调整营养?”这种上下文个性化的指导是ChatGPT处理得很好的,只要用户明白这些建议是一般性的,而不是替代合格专业人士的建议。

食材替代与修改

“我可以用什么替代重奶油来降低这道意大利面酱的热量?”ChatGPT在替代建议上反应迅速且富有创意,通常提供多个替代方案,并解释每种替代品对味道、质地和营养成分的影响。

ChatGPT在日常追踪中表现不佳的地方

我们的测试模式一致:ChatGPT的弱点不在于它知道什么,而在于作为通用语言模型它在结构上无法做到什么。

没有持久数据存储。 每次对话都是全新的。没有你的摄入记录的累积。你无法随着时间的推移建立营养的全貌。

没有经过验证的数据库。 ChatGPT的热量估算是生成的,而不是查找的。这意味着它们是合理的,但并不保证正确,并且在查询之间会有所不同。

没有基于照片的份量估算。 虽然GPT-4o可以识别图像中的食物,但它无法执行专门的食物识别模型所提供的校准份量估算。它看到的是“鸡肉和米饭”,但无法可靠地告诉你那是150克还是200克的鸡肉。

没有与健康生态系统的集成。 ChatGPT无法与Apple Health、Google Fit或任何可穿戴设备同步。你的营养数据仅存在于聊天记录中。

没有目标意识反馈。 Nutrola知道你的热量目标、宏观目标和进展。它可以告诉你在一天中剩下的一餐中,你的蛋白质摄入还短缺40克。ChatGPT无法做到这一点,除非你每次手动提供所有上下文。

没有食物日记或餐点历史。 你无法回顾三天前吃了什么,识别模式或跟踪遵循情况。对话格式本质上是短暂的。

结论:不同工具适合不同工作

将“ChatGPT与Nutrola”进行对比在某种程度上是误导性的——因为它们实际上并不竞争同一工作。更像是将瑞士军刀与外科手术刀进行比较。瑞士军刀多功能且令人印象深刻。但如果你需要手术,你会选择手术刀。

ChatGPT是一个强大的通用工具,恰好对营养知识了解颇多。它在学习、头脑风暴、餐点规划和快速估算时表现出色,当精确度不重要时尤为适用。

Nutrola是一个专门的营养追踪系统,旨在帮助你准确且持续地监测每天的饮食,付出最小的努力。它拥有经过验证的数据库、训练有素的食物识别AI、持久的历史记录、宏观追踪、目标管理和健康应用集成——因为这些功能决定了一个人是否能够坚持追踪,直到看到结果。

在30餐的测试中,Nutrola在10%的误差范围内达到了87%的准确率,在20%的误差范围内达到了100%。而ChatGPT分别为47%和77%,在重复查询中存在显著不一致。这些数字清楚地表明了哪个工具更适合管理你的日常营养数据。

最聪明的做法,或许是同时使用这两者。让ChatGPT处理它最擅长的——回答营养问题、生成餐点创意、解释饮食概念。让Nutrola处理它最擅长的——将这些餐点创意转化为准确记录、持续记录的营养数据,随着时间的推移积累成真正的洞察。

常见问题解答

ChatGPT能准确计算热量吗?

ChatGPT可以为简单、众所周知的食物提供合理的热量估算——如香蕉、一杯米饭、标准快餐项目。然而,我们的测试显示,其估算中仅有47%在30餐中落在10%的验证参考值范围内,而且在不同场合询问同一问题时,其答案差异显著。它最好被视为一个粗略估算工具,而非精确的热量计。

ChatGPT适合随意的热量追踪吗?

如果你只是偶尔想要大致估算,并不追求特定的每日目标,ChatGPT可以是一个方便的选择。然而,如果你的目标依赖于一致的准确性——例如维持热量赤字以减肥或达到肌肉增长的蛋白质目标——那么其不一致性和准确性限制使其作为主要追踪方法不可靠。

ChatGPT能分析食物照片的热量吗?

GPT-4o可以识别照片中的食物并提供一般的热量估算。然而,它在精确份量估算方面表现不佳,往往给出宽泛的热量范围而非具体值。它无法提供专门的食物识别AI所提供的逐项成分级营养分解,且不会根据你的个人饮食模式随时间改进其估算。

为什么ChatGPT会给出同一餐的不同热量?

大型语言模型生成响应是基于概率的,而不是从数据库中检索固定数据。每次你问同一个问题时,模型可能会根据文本生成过程中的随机变化构建稍微不同的响应。这就是为什么ChatGPT可能在一天内将同一份泰式炒河粉估算为510卡路里,而在另一天估算为780卡路里——这两个答案都不是“查找”的,而是即时生成的。

Nutrola在营养追踪方面比ChatGPT做得更好的是哪些?

Nutrola提供来自营养师审核的数据库的经过验证的营养数据、重复查询的一致结果、AI驱动的照片记录与训练有素的份量估算、持久的餐点历史与趋势追踪、每次记录的宏观营养分解、每日和每周总结、目标意识反馈,以及与Apple Health的集成。这些功能满足了有效日常营养追踪的核心需求,而通用聊天机器人无法在结构上提供。

我可以同时使用ChatGPT和Nutrola吗?

可以,这或许是最佳的做法。使用ChatGPT进行营养教育、餐点规划创意、食谱修改和一般饮食问题。使用Nutrola进行实际的每日餐点记录、宏观追踪、进展监测和保持准确的营养记录。两者在各自的优势上相辅相成。

ChatGPT是免费进行热量追踪,而Nutrola需要付费吗?

ChatGPT提供免费层级,但有使用限制,并且不包括最新模型的功能。付费的ChatGPT Plus订阅费用为每月20美元。Nutrola提供核心追踪功能的免费层级和高级功能的付费订阅。成本比较取决于你的使用水平,但更相关的问题是你使用的工具是否真正提供可靠的数据——不准确的免费追踪可能在浪费努力和错失目标上花费更多,而准确的付费追踪则值得。

ChatGPT最终会取代营养追踪应用吗?

通用人工智能模型将继续改善其营养知识。然而,结构性限制——缺乏持久数据存储、没有经过验证的食品数据库、没有健康应用集成、没有视觉份量校准——是架构上的约束,而不是知识的缺口。一个聊天机器人需要从根本上改变其架构,才能复制专用追踪应用所提供的功能。更有可能的是,营养应用会结合对话AI功能(许多应用已经在这样做),而不是聊天机器人会发展出完整的追踪能力。

准备好改变您的营养追踪方式了吗?

加入成千上万已通过 Nutrola 改变健康之旅的用户!