开放营养数据:为什么Nutrola发布其他应用不愿公开的准确性基准
大多数营养应用从不告知用户它们的准确性。Nutrola公开发布其准确性基准。透明度为何重要,以及这些数字揭示了什么。
如果你曾使用过卡路里追踪应用,你一定会信任它回答一个根本问题:我到底吃了多少?你对食物份量、餐食选择和每周目标的决策都依赖于应用提供的数字。但有一个问题大多数用户从未考虑过:这些数字的准确性如何?你又怎么能知道呢?
对于市场上绝大多数营养应用来说,答案是你无法知道。大多数应用不发布准确性数据,不披露错误率,也不按食物类型、菜系或餐食复杂性进行细分。你被要求信任这些输出,却没有任何证据证明它们值得信任。
Nutrola采取了不同的做法。我们公开发布准确性基准,每季度更新,按食物类别、菜系类型、餐食复杂性和记录方式进行细分。本文将解释我们为何这样做、数字实际展示了什么、我们在哪些方面存在不足,以及我们为何认为这种透明度应成为每个营养应用的标准。
为什么大多数应用不发布准确性数据
没有技术障碍阻止营养应用测量和发布其准确性。工具已经存在,方法论也已成熟。大多数应用保持沉默的原因归结为三个因素。
1. 数字并不美观
准确性基准需要将应用输出与真实数据进行比较——通常是经过称重的食物数据与经过验证的营养数据库(如USDA FoodData Central)进行交叉验证。当你严格进行这种比较时,结果往往会揭示出显著的差距。一个数据库条目列出的“鸡肉炒菜”如果没有具体的油量说明,可能会偏差200到400卡路里。用户提交的“自制意大利面”可能代表的热量范围从300卡路里到800卡路里不等。
基于众包数据库且验证最少的应用在透明度上损失最大。发布错误率将暴露其数据基础的不一致性。
2. 准确性难以明确定义
目前没有统一的标准来衡量营养应用的准确性。你是测量平均误差?中位数误差?在10%阈值内的餐食百分比?你是测试称重的食材还是营养标签?你是将用户错误纳入测量,还是隔离系统的表现?
这种模糊性为应用提供了掩护。在没有达成一致的方法论的情况下,轻松在营销文案中声称“高准确性”,而无需定义其含义或证明其真实性。
3. 市场压力不足
直到最近,用户并不期望营养应用证明其准确性。这个行业默认是基于信任的——如果一个应用有庞大的食物数据库,用户就会假设数据是正确的。竞争对手之间不会相互挑战准确性,因为这样做会引发对自身数据的审查。
这造成了一种集体沉默。没有人发布,因此没有人被期望发布,所以没有人发布。
Nutrola的立场:公开一切
我们相信,如果你基于我们的数据做出健康决策,你有权知道这些数据的可靠性。不是模糊的表述,而是具体、可测量、定期更新的数字。
以下是我们发布的内容以及我们如何测量它。
我们如何测量准确性
基准方法论
我们的准确性基准来源于两个平行过程。
控制测试。 每个季度,我们的营养科学团队会进行结构化评估,使用1,000份在控制条件下准备的餐食。每种成分都精确称重。营养价值从USDA FoodData Central、制造商数据和实验室验证的参考值中计算得出。然后通过Nutrola使用所有可用的方法(照片识别、条形码扫描、手动搜索和食谱导入)记录每一餐,并将输出与参考值进行比较。
现实世界验证。 我们招募志愿用户,要求他们在规定时间内称重食物,并提交他们的称重数据和正常的Nutrola记录。这为我们提供了在现实条件下的真实比较——不完美的光照、随意的摆盘、真实的厨房。我们最新的验证小组包括4,200名用户,贡献了26,800条经过验证的餐食记录。
我们测量的内容
在每个基准周期,我们报告以下指标:
- 卡路里、蛋白质、碳水化合物和脂肪的平均绝对百分比误差(MAPE)。
- 每种宏观营养素在参考值的5%、10%和15%范围内的餐食百分比。
- 食品识别准确性——AI正确识别主要食材的餐食百分比。
- 份量估计准确性——AI的份量估计与实际称重份量之间的克重偏差百分比。
- 系统性偏差方向——错误是倾向于高估还是低估,以及高估或低估的幅度。
我们按食物类别、菜系类型、餐食复杂性和记录方式对这些指标进行细分。完整数据集可在我们的基准页面上查看。
数字展示了什么:按食物类别的准确性
以下表格反映了我们2026年第一季度的基准结果,结合了控制测试和现实世界验证数据。
按食物类别的卡路里准确性
| 食物类别 | 平均卡路里误差 | 在5%内 | 在10%内 | 在15%内 | 偏差方向 |
|---|---|---|---|---|---|
| 单一全食(水果、蔬菜、普通蛋白质) | 3.1% | 78% | 96% | 99% | 轻微高估 (+1.2%) |
| 包装食品(条形码扫描) | 1.8% | 91% | 98% | 100% | 中性 |
| 简单准备餐(烤鸡+米饭、沙拉加调料) | 5.9% | 52% | 84% | 94% | 轻微低估 (-2.4%) |
| 复杂自制菜肴(砂锅、炒菜、炖菜) | 9.4% | 31% | 68% | 87% | 低估 (-4.8%) |
| 烘焙食品(自制) | 11.2% | 24% | 58% | 82% | 低估 (-6.1%) |
| 餐厅和外卖餐 | 10.8% | 26% | 62% | 85% | 低估 (-5.2%) |
| 饮料(奶昔、咖啡饮品、鸡尾酒) | 7.6% | 42% | 76% | 91% | 高估 (+3.1%) |
按菜系类型的卡路里准确性
| 菜系 | 平均卡路里误差 | 在10%内 | 在15%内 | 主要错误来源 |
|---|---|---|---|---|
| 美式/西方标准 | 6.8% | 79% | 93% | 份量大小变化 |
| 墨西哥/拉丁美洲 | 9.2% | 68% | 88% | 隐藏脂肪(猪油、奶酪、奶油) |
| 意大利 | 8.4% | 72% | 90% | 橄榄油和奶酪的数量 |
| 中式 | 10.1% | 64% | 86% | 炒菜中的烹饪油 |
| 日本 | 6.2% | 81% | 95% | 隐藏脂肪极少 |
| 印度 | 12.4% | 58% | 82% | 酥油、奶油、椰奶 |
| 泰国 | 11.8% | 60% | 84% | 椰奶、棕榈糖、鱼露 |
| 韩国 | 8.8% | 70% | 89% | 发酵调味品、芝麻油 |
| 中东 | 9.6% | 66% | 87% | 橄榄油、芝麻酱、坚果酱 |
| 埃塞俄比亚/东非 | 13.1% | 54% | 79% | Niter kibbeh(香料黄油)、injera变种 |
按餐食复杂性划分的卡路里准确性
| 餐食复杂性 | 平均卡路里误差 | 在10%内 | 在15%内 |
|---|---|---|---|
| 单一食材(1种食物) | 3.4% | 95% | 99% |
| 简单盘(2-3种不同食材) | 6.1% | 82% | 94% |
| 混合盘(4-5种食材) | 8.9% | 69% | 88% |
| 复杂菜肴(6种以上成分,混合) | 11.6% | 57% | 81% |
| 多道菜 | 13.2% | 52% | 77% |
按食物类别划分的蛋白质准确性
| 食物类别 | 平均蛋白质误差 | 在10%内 | 在15%内 |
|---|---|---|---|
| 普通动物蛋白(鸡肉、牛肉、鱼) | 4.2% | 89% | 97% |
| 植物蛋白(豆腐、天贝、豆类) | 5.8% | 80% | 94% |
| 含蛋白质的混合菜肴 | 8.6% | 66% | 86% |
| 蛋白质补充食品(能量棒、奶昔) | 2.4% | 95% | 99% |
| 餐厅蛋白质菜肴 | 9.8% | 61% | 83% |
“足够准确”对减肥意味着什么
原始准确性数字只有在你理解实际结果所需的准确性水平时才有意义。这是科学比大多数人预期的更宽容的地方。
研究背景
2023年发表在《营养与饮食学会杂志》上的一项系统评估研究考察了饮食评估方法,得出的结论是,平均误差低于15%“不太可能对持续追踪的体重管理结果产生实质性影响。”2024年在《肥胖评论》上的一项研究发现,持续追踪者即使记录的误差在10%到20%之间,仍然能减掉89%与记录误差低于10%的人相同的体重,时间跨度为12周。
原因很简单:卡路里追踪主要通过意识和行为反馈来发挥作用,而不是通过完美的测量。如果你持续低估摄入量8%,你的身体仍然会对实际摄入量作出反应。如果你根据现实结果(体重趋势、身体测量)调整目标,系统性偏差会随着时间的推移而得到纠正。
阈值在实践中的意义
以下是不同准确性水平对每日摄入2,000卡路里的影响:
| 准确性水平 | 卡路里偏差 | 每日误差范围 | 每周累计误差 | 对500 kcal/天赤字的影响 |
|---|---|---|---|---|
| 在5%内 | 高达100 kcal | 1,900 - 2,100 | 高达700 kcal | 微不足道——赤字维持 |
| 在10%内 | 高达200 kcal | 1,800 - 2,200 | 高达1,400 kcal | 较小——赤字减少但仍存在 |
| 在15%内 | 高达300 kcal | 1,700 - 2,300 | 高达2,100 kcal | 中等——赤字可能在某些周停滞 |
| 在20%内 | 高达400 kcal | 1,600 - 2,400 | 高达2,800 kcal | 显著——赤字不可靠 |
对于大多数追求每日400到600卡路里适度赤字的用户来说,准确性在10%到15%之间足以维持进展。这是Nutrola在绝大多数餐食中表现的范围——88%的所有记录餐食在所有食物类别和菜系中都在参考值的15%范围内。
为什么一致性比精确性更重要
我们的内部数据表明,连续记录60天或更长时间的用户,无论其平均准确性是6%还是12%,达成目标的比率几乎相同。未能达到目标的用户主要是那些停止记录的人,而不是那些记录时存在适度误差的人。
这并不是说准确性不重要。这意味着应用的主要任务是足够准确,以维持可靠的反馈循环,同时又足够快速和顺畅,使用户能够持续使用。发布我们的基准让用户能够对我们的准确性是否满足他们的需求做出明智的判断。
我们的不足之处:诚实的评估
透明度意味着发布那些让我们看起来不错的数字,也包括那些不尽如人意的数字。以下是我们的准确性基准揭示的明显弱点。
隐藏脂肪是我们最大的挑战
所有类别中最大的误差来源是隐藏的烹饪脂肪。当一道菜用油、黄油或酥油烹饪时,所用的量往往在最终的摆盘中是不可见的。我们的AI根据菜肴类型、菜系规范和视觉线索来估计烹饪脂肪,但这仍然是一种推断,而非测量。
对于含有大量隐藏脂肪的菜肴——如印度咖喱、中式炒菜、餐厅炒菜——我们的平均卡路里误差从7%(蛋白质和碳水化合物成分)跃升至14%,这也是印度和泰国菜系在我们的菜系细分中显示出较高误差率的主要原因。
我们正在通过改进训练数据和用户辅助的细化提示(询问用户一道菜是否看起来油腻)来积极解决这个问题,但这仍然是任何基于视觉的系统面临的开放问题。
复杂的多成分餐
当一盘中包含六种或更多不同的食材时,尤其是在混合或分层呈现的情况下,我们的识别准确性会下降。AI可能会将谷物沙拉误认为米饭,或者遗漏蛋白质下方的调味酱。作为单一条目记录的多道菜显示出我们最高的误差率,平均偏差为13.2%。
实际的解决方案是分别记录各个成分,这样可以提高准确性,但会增加摩擦。我们正在努力改进AI管道中的多项分解,但对此尚未达到令人满意的解决方案。
数据不足的菜系
我们在训练数据中代表性不足的菜系的准确性显著较差。埃塞俄比亚、西非、中亚和太平洋岛屿菜系的误差率比西方菜系高出30%到50%。这是一个数据问题,而非算法问题,我们正在通过扩展参考数据集和与这些地区的营养研究人员合作来解决。
我们特别跟踪和发布按菜系划分的准确性,以便来自这些饮食传统的用户能够了解我们的系统现状,并做出明智的决策,以便在AI记录中进行手动调整。
模糊份量的估计
对于没有明确视觉大小参考的食物——如一堆土豆泥、一堆意大利面、一碗汤——AI的准确估计难度更大,而对于形状明确的食物则相对容易。鸡胸肉的重量与大小比率大致可预测,而一勺米饭则不然。
我们对模糊食物的份量估计MAPE为16.4%,而形状明确的食物为7.8%。在照片中包含参考物体(如叉子、标准盘子)可以将这一数据改善至11.2%,这也是我们建议用户在可能的情况下使用标准餐具拍摄餐食的原因。
透明度的论证
我们为何相信每个应用都应如此
发布准确性基准对我们而言并不是一种营销策略,而是一项产品要求,根植于一个简单原则:基于数据做出健康决策的人有权知道这些数据的可靠性。
想象一下另一种情况。一位2型糖尿病患者正在使用卡路里追踪应用管理碳水化合物摄入。如果该应用的碳水化合物估计系统性低估20%,那么该用户就是在基于错误数据做出临床决策。除非应用告知他们,否则他们无法知道这一点,而应用也没有动力去告知他们,除非透明度成为产品哲学的一部分。
这并不是假设。根据2024年发表在《营养学》上的一项分析,众包营养数据库——大多数竞争应用的支柱——包含20%到30%的用户提交条目错误率。条目往往重复,数据相互冲突,参考不同的份量大小,或是从不可靠的来源复制而来。没有系统验证,这些错误会悄然传播。
透明度带来的可能性
当准确性数据公开时,几件事情变得可能:
用户可以校准他们的期望。 如果你知道餐厅餐食估计的平均误差为10.8%,你可以将这种不确定性纳入你的计划。你可能会在外出就餐的日子里设定稍大的赤字,或者你可能会通过手动调整来验证关键餐食。
研究人员可以客观评估工具。 研究营养追踪工具有效性的营养科学家需要准确性数据来评估哪些工具适合临床或研究使用。发布的基准使Nutrola能够以一种不透明的应用无法做到的方式进行独立评估。
行业得以改进。 如果一个应用发布基准,用户开始要求竞争对手也这样做,整个行业将朝着更高的准确性和问责制迈进。这对每个人都有好处,包括我们——我们宁愿在经过文档证明的表现上竞争,而不是在营销声明上竞争。
我们对自己负责。 每季度发布基准意味着我们不能悄悄让准确性下降。每个季度,数字都是公开的,任何退步都是显而易见的。这为持续改进创造了内部压力,这正是我们的目标。
我们的基准与研究结果的对比
为了将我们的数字放在上下文中,以下是Nutrola的准确性与已发布的饮食评估方法的比较:
| 方法 | 平均卡路里误差(已发布研究) | 来源 |
|---|---|---|
| 自我报告的饮食回忆(24小时) | 15 - 30% | 《营养学杂志》,2022 |
| 食物频率问卷 | 20 - 40% | 《美国临床营养杂志》,2023 |
| 手动卡路里应用记录(无称重) | 12 - 25% | 《营养学》,2024 |
| 基于AI的照片记录(行业平均) | 10 - 18% | 《IEEE计算机视觉会议》,2025 |
| Nutrola整体(所有方法结合) | 6.8% | Nutrola 2026年第一季度基准 |
| Nutrola仅AI照片 | 8.9% | Nutrola 2026年第一季度基准 |
| Nutrola条形码扫描 | 1.8% | Nutrola 2026年第一季度基准 |
| 称重食物记录(黄金标准) | 2 - 5% | 《英国营养杂志》,2021 |
我们6.8%的综合准确性使Nutrola处于黄金标准称重食物记录方法与最佳AI系统之间。这反映了多方法组合的好处——许多Nutrola用户将照片记录与包装食品的条形码扫描结合使用,这使得综合准确性远低于任何单一方法所能达到的水平。
我们正在做什么以改进
发布基准不仅仅是报告当前状态。这是为了创建一个公开的改进记录。
以下是自我们开始发布以来,整体平均卡路里误差的变化:
| 季度 | 平均卡路里误差 | 在10%内 | 在15%内 |
|---|---|---|---|
| 2025年第一季度 | 10.4% | 64% | 83% |
| 2025年第二季度 | 9.1% | 70% | 87% |
| 2025年第三季度 | 8.2% | 74% | 89% |
| 2025年第四季度 | 7.4% | 77% | 91% |
| 2026年第一季度 | 6.8% | 79% | 93% |
每个季度,我们会根据数据所显示的最大差距,针对特定类别进行改进。2026年第二季度的当前优先领域包括:
- 隐藏脂肪估计: 与合作的烹饪学校进行新模型训练,使用标记油量的数据集。
- 南亚菜系准确性: 扩展参考数据集,增加3,200道经过验证的印度、巴基斯坦、斯里兰卡和孟加拉菜肴。
- 多项餐食分解: 更新计算机视觉管道,以更好地分离复杂盘中的成分。
- 模糊食物的份量估计: 使用多角度照片输入改进深度估计。
常见问题解答
基准更新的频率是多久?
我们每季度发布完整的基准报告。如果模型更新导致准确性发生统计显著变化(整体MAPE超过0.5个百分点),则会发布临时更新。
我可以查看原始基准数据吗?
可以。我们在基准页面上发布摘要表,并提供匿名、汇总的数据集供下载。单个餐食条目不会被包含——仅有类别级别的统计数据。
Nutrola的准确性是否会因使用的手机而变化?
相机质量会影响基于照片的记录准确性。在我们的测试中,2024年及以后的旗舰手机(iPhone 15及以上、Samsung Galaxy S24及以上、Google Pixel 8及以上)产生的结果与我们发布的基准一致。较旧或预算设备的低分辨率相机平均显示出1到2个百分点的更高误差,主要是由于在份量估计中的细节减少。
Nutrola如何处理无法识别的食物?
当我们的AI置信度评分低于定义的阈值时,应用会标记该条目,并要求用户确认或更正识别。大约5.2%的照片记录餐食会触发此确认提示。这些标记的条目会从我们的准确性基准中排除,这意味着发布的数字代表的是系统对其识别有信心的餐食。
餐厅餐食的准确性较低是因为餐厅还是食物类型?
两者皆是。餐厅餐食的误差较高有两个原因。首先,实际准备(烹饪脂肪的数量、酱汁的量、份量大小)在不同餐厅之间变化,且在照片中不可见。其次,餐厅菜肴往往比家常菜更复杂,隐藏成分更多。我们的数据表明,简单的餐厅菜品(如烤鸡沙拉、一块寿司)的准确性几乎与其家常菜相当。准确性差距主要在于油炸食品、带酱菜肴和含有不可见添加脂肪的食物。
关于包装食品的制造商标签不准确的问题?
这是整个行业的一个已知问题。FDA规定大多数营养成分的标签允许偏差高达20%。我们1.8%的条形码准确性反映的是我们数据与制造商标签之间的匹配——而不一定是与包装内实际内容的匹配。当独立实验室测试发现流行产品的标签不准确时,我们会在数据库中标记这些,并相应调整参考值。
Nutrola的准确性与注册营养师的估计相比如何?
2025年发表在《美国饮食协会杂志》的一项研究发现,注册营养师从照片中估计餐食卡路里的平均误差为10.2%,并且根据营养师的经验和餐食复杂性存在显著差异。Nutrola的基于照片的准确性为8.9%,与此相当,虽然在某些复杂或不寻常的菜肴上,营养师的表现优于AI。
我注意到我的记录总量似乎一直偏低。这是一个已知问题吗?
是的。我们的基准显示大多数食物类别存在约3%到5%的系统性低估偏差,主要是由于隐藏脂肪的低估。我们在基准表中披露偏差方向,以便用户在需要时进行调整。如果你怀疑存在持续的低估,单独记录烹饪脂肪(而不是依赖AI推断)可以显著减少这种偏差。
结论
大多数营养应用要求你信任它们,却没有给你任何理由去信任。它们以自信的精确度向你展示卡路里数字,同时将错误率隐藏在背后。
Nutrola发布其准确性基准,因为我们相信相反的做法才是正确的。以下是这些数字所展示的内容:我们在79%的餐食中准确性在10%以内,在93%的餐食中准确性在15%以内。我们在复杂菜肴、隐藏脂肪、数据不足的菜系和多道菜方面表现较弱。在过去一年中,我们的整体准确性从10.4%的平均误差提升至6.8%,并且我们发布了具体的改进领域。
这些数字并不完美,我们也不声称它们是完美的。但它们是真实的、公开的,并且每季度更新。这是我们对自己的标准,也是我们认为每个营养应用都应达到的标准。
如果你正在选择一个卡路里追踪器,问一个简单的问题:这个应用能向我展示它的准确性数据吗?如果答案是否定的,问问自己,为什么不呢?