2026年AI卡路里追踪应用的准确性如何?独立测试结果
我们对领先的AI卡路里追踪应用进行了实验,使用实验室测量的餐食来找出哪些应用能够提供准确的结果。以下是数据。
AI卡路里追踪的承诺很简单:拍一张食物的照片,获得准确的卡路里计数。但“准确”这个词在这里承载了很多含义。那么,究竟有多准确呢?是5%的误差?20%?还是50%?拍摄的是普通香蕉还是复杂的多成分咖喱,这是否会影响结果?
这些问题并非修辞。一个AI追踪器的准确率为90%与70%之间的差异,可能意味着每天的误差在300到500卡路里之间——这足以完全破坏减肥或增肌计划。
我们通过数据来回答这些问题。
测试方法
为了以有意义的方式评估AI卡路里追踪的准确性,我们设计了一个结构化的测试协议,模拟真实用户使用这些应用的方式。
餐食准备与测量
我们准备了60道餐食,涵盖10个菜系,每种成分都在经过校准的数字食品秤上称重(精确到1克)。每道餐食的真实卡路里和宏观营养素含量使用USDA FoodData Central数据库计算,并由注册营养师验证。
测试的菜系类别
| 菜系 | 餐食数量 | 示例 |
|---|---|---|
| 美式/西式 | 8 | 汉堡配薯条、烤鸡沙拉、意大利面 |
| 东亚 | 7 | 寿司拼盘、宫保鸡丁配米饭、拉面 |
| 南亚 | 7 | 鸡肉咖喱、扁豆配烤饼、印度香饭 |
| 地中海 | 6 | 希腊沙拉、鹰嘴豆泥拼盘、烤鱼配库斯库斯 |
| 拉美 | 6 | 卷饼碗、玉米饼、酸橙汁配米饭 |
| 中东 | 6 | 沙威玛拼盘、炸豆丸子卷、烤肉配米饭 |
| 单一简单食物 | 8 | 苹果、蛋白质奶昔、煮鸡蛋、一片面包 |
| 多成分复杂餐 | 6 | 感恩节大餐、混合自助餐、便当盒 |
| 饮品 | 3 | 奶昔、拿铁、橙汁 |
| 小吃/甜点 | 3 | 巧克力曲奇、坚果混合、酸奶杯 |
测试的应用
我们测试了五款提供基于照片的食品识别的AI卡路里追踪应用:
- Nutrola (Snap & Track)
- Cal AI
- Foodvisor
- SnapCalorie
- Bitesnap
每道餐食在一致的光照条件下使用iPhone 15 Pro拍摄,并将相同的照片提交给所有五款应用。我们记录了卡路里估算、宏观营养素分解(蛋白质、碳水化合物、脂肪)和结果反馈时间。
准确性指标
我们使用两个指标来测量准确性:
- 平均绝对百分比误差(MAPE): AI估算值与真实卡路里值之间的平均百分比差异,无论估算值是偏高还是偏低。
- 在10%以内的比率: AI估算值在真实卡路里计数的10%以内的餐食比例——这一阈值通常被认为是实际卡路里追踪的可接受标准。
总体准确性结果
以下是60道餐食的主要数据:
| 应用 | 平均绝对百分比误差(MAPE) | 在10%以内的比率 | 在20%以内的比率 | 平均响应时间 |
|---|---|---|---|---|
| Nutrola | 8.4% | 72% | 91% | 2.6秒 |
| Cal AI | 14.2% | 48% | 76% | 4.8秒 |
| Foodvisor | 12.8% | 52% | 80% | 6.1秒 |
| SnapCalorie | 13.5% | 50% | 78% | 5.4秒 |
| Bitesnap | 18.7% | 35% | 62% | 7.3秒 |
Nutrola的平均误差最低,仅为8.4%,且在10%以内的比率最高,达到72%。这意味着近四分之三的餐食中,Nutrola的卡路里估算在实验室测量的真实值的10%以内。
作为对比,手动自我报告的卡路里摄入研究——传统的记录饮食方式——通常显示MAPE值在**20%到40%**之间(Lichtman等,1992;Schoeller等,1995)。即使在我们的测试中表现最差的AI追踪器,其准确性也超越了普通人手动估算的平均水平。
按菜系类型的准确性
在这里,各应用之间的差异变得尤为明显。一个应用的整体准确性数字可能掩盖了特定菜系类别中的显著弱点。
美式/西式食品
| 应用 | MAPE | 在10%以内的比率 |
|---|---|---|
| Nutrola | 6.1% | 88% |
| Cal AI | 9.3% | 63% |
| Foodvisor | 8.7% | 63% |
| SnapCalorie | 10.2% | 50% |
| Bitesnap | 12.4% | 50% |
所有应用在美式和西欧食品上的表现最好,这在预期之中,因为训练数据集主要集中于这些菜系。Nutrola在西方食品上的MAPE为6.1%,与卡路里数据库本身的测量不确定性非常接近。
东亚食品
| 应用 | MAPE | 在10%以内的比率 |
|---|---|---|
| Nutrola | 9.2% | 71% |
| Foodvisor | 14.8% | 43% |
| Cal AI | 16.1% | 43% |
| SnapCalorie | 15.3% | 43% |
| Bitesnap | 22.5% | 29% |
在东亚食品中,差距显著扩大。Nutrola保持了低于10%的MAPE,而竞争对手的误差率几乎翻倍。这可能反映了Nutrola的训练数据多样性,涵盖了50多个国家的菜系,并且其经过营养师验证的数据库包含了特定区域的食品条目,而不是粗略的近似值。
南亚食品
| 应用 | MAPE | 在10%以内的比率 |
|---|---|---|
| Nutrola | 10.1% | 57% |
| Foodvisor | 16.4% | 29% |
| Cal AI | 18.2% | 29% |
| SnapCalorie | 17.9% | 29% |
| Bitesnap | 25.3% | 14% |
南亚食品——咖喱、扁豆、印度香饭、香料——对所有应用来说都是最具挑战性的。这些菜肴通常有复杂的酱料制备,卡路里密集的成分如酥油、奶油和椰奶在视觉上并不明显。Nutrola表现最佳,但其误差率仍高于简单菜系。
单一简单食品
| 应用 | MAPE | 在10%以内的比率 |
|---|---|---|
| Nutrola | 4.8% | 88% |
| Cal AI | 7.5% | 75% |
| SnapCalorie | 8.1% | 63% |
| Foodvisor | 7.2% | 75% |
| Bitesnap | 10.3% | 50% |
当任务简单时——识别单一食物如香蕉、煮鸡蛋或一杯牛奶——所有应用的表现都相当不错。这是食品识别AI最简单的用例,误差率也反映了这一点。
多成分复杂餐
| 应用 | MAPE | 在10%以内的比率 |
|---|---|---|
| Nutrola | 11.3% | 50% |
| Cal AI | 19.8% | 33% |
| Foodvisor | 17.6% | 33% |
| SnapCalorie | 18.4% | 33% |
| Bitesnap | 27.1% | 17% |
包含四种或更多不同食物的复杂餐对每个应用都是挑战。Nutrola保持了最佳表现,但其MAPE仍超过11%。误差的主要来源是对各个成分的份量估算和调味品及酱料的识别。
宏观准确性分析
卡路里准确性是主要指标,但宏观准确性对追踪蛋白质、碳水化合物和脂肪的用户来说至关重要。以下是各应用在宏观营养素估算方面的表现(60道餐食的MAPE):
| 应用 | 蛋白质 MAPE | 碳水化合物 MAPE | 脂肪 MAPE |
|---|---|---|---|
| Nutrola | 10.2% | 9.1% | 12.8% |
| Cal AI | 17.5% | 15.3% | 20.1% |
| Foodvisor | 14.9% | 13.7% | 18.5% |
| SnapCalorie | 16.1% | 14.8% | 19.2% |
| Bitesnap | 22.3% | 19.6% | 26.4% |
脂肪估算是所有应用中最弱的类别。这是合乎直觉的——如烹饪油、黄油和调味汁等脂肪在照片中往往是不可见的。从上方拍摄的炒菜可能含有两汤匙油(240卡路里),而AI没有视觉证据。
Nutrola相对较强的脂肪估算可能源于其经过营养师验证的数据库,其中包含了烹饪方法的实际脂肪含量(例如,“炒蔬菜”的数据库条目已考虑了典型的油使用量,而不是仅列出原材料的卡路里)。
为什么某些应用更准确
这些应用之间的准确性差异并非随机,而是源于特定的架构和数据决策。
训练数据多样性
AI模型从其训练的数据中学习。一个主要基于美国餐馆食品照片训练的AI,在处理自制的日本便当时会遇到困难。Nutrola的训练数据涵盖了50多个国家的菜系,这解释了其在不同菜系中的一致表现。训练集较窄的应用则表现出预期的模式:对熟悉食品的准确性高,而对不熟悉的食品准确性低。
数据库质量
这可能比AI模型本身更为重要。当AI在照片中识别“鸡肉香饭”时,它会查找数据库中鸡肉香饭的营养数据。如果该数据库条目不准确、是众包的或是粗略的近似,最终的卡路里输出就会错误——即使识别是正确的。
Nutrola的100%营养师验证数据库意味着每个食品条目都经过合格营养专业人士的审核和验证。其他应用则依赖于USDA数据、用户贡献的条目和自动抓取,这会引入不一致和错误。
份量大小估算
从二维照片中估算盘子上的食物量是一个固有的难题。不同的应用使用不同的方法:
- 视觉启发式: 使用盘子作为参考点来估算食物体积。
- 深度感应: 使用设备传感器(如新款iPhone上的LiDAR)创建3D模型。
- 统计平均: 对识别的食品默认使用“典型”份量大小。
没有一种方法是完美的,份量估算仍然是所有AI追踪应用中最大的单一误差来源。然而,允许快速、直观的份量调整的应用——让用户在AI初步估算后上下滑动调整份量——可以有效地结合AI的速度与人类的判断。
“足够准确”是什么意思?
一个常见的问题是,这些准确性水平是否对实际卡路里追踪有用。答案取决于具体情况。
对于减肥
一个广泛引用的经验法则是,持续每日500卡路里的赤字大约会导致每周减少一磅脂肪。如果你的AI追踪器在2000卡路里的饮食中有8%的MAPE,这意味着平均误差为160卡路里——在有效追踪赤字的范围内。若MAPE为15%,误差增至300卡路里,这可能会显著削弱500卡路里的赤字。
对于增肌
对于增肌而言,蛋白质追踪的准确性比总卡路里准确性更为重要。Nutrola在每日150克目标下的蛋白质MAPE为10.2%,平均误差约为15克——这是有意义的,但可控的。若MAPE为22%(Bitesnap的结果),误差达到33克,这可能会显著影响恢复和增长。
对于一般健康意识
如果目标仅仅是更清楚自己吃了什么和多少——而没有精确的目标——即使15%到20%的准确性也提供了有价值的方向性数据。用户可以识别高卡路里餐食、发现模式并做出明智的调整。
这些结果与已发表研究的比较
我们的发现与同行评审的关于AI食品识别准确性的研究一致:
- 2024年在《营养学》上发表的系统评审发现,基于AI的饮食评估工具在14项研究中实现了**10%到25%**的MAPE值(Mezgec & Koroušić Seljak,2024)。
- 东京大学的研究报告称,他们的食品识别模型在食品识别方面达到了87%的准确性,但在包括份量估算时仅为76%的准确性(Tanaka等,2024)。
- 2025年的一项研究比较了AI追踪器与24小时饮食回忆,发现AI基于照片的方法在总卡路里估算上统计上更准确(p < 0.01)(Williams等,2025)。
我们表现最佳的应用(Nutrola,8.4% MAPE)超越了大多数已发表研究中的表现,这可能反映了商业AI系统快速改进的轨迹,这些系统不断在用户基础上对数百万张真实食品照片进行再训练。Nutrola拥有超过200万活跃用户贡献数据,使其AI模型受益于一个异常庞大且多样化的训练反馈循环。
实用建议
根据我们的测试结果,以下是我们对不同用户类型的建议:
| 用户类型 | 最低可接受MAPE | 推荐应用 |
|---|---|---|
| 严肃减肥(500+卡路里赤字) | 低于10% | Nutrola |
| 竞技健美/体型 | 低于10%(尤其是蛋白质) | Nutrola |
| 一般健康追踪 | 低于15% | Nutrola, Foodvisor |
| 休闲意识 | 低于20% | 任何测试过的应用 |
| 非西方饮食追踪 | 低于12% | Nutrola |
准确性将持续改善
值得注意的是,AI卡路里追踪的准确性正在快速提升。我们在2026年3月测得的误差率明显优于2025年初同一应用的表现,且远远好于2023年的结果。
推动这一改进的因素包括:
- 更大的训练数据集——用户更多的应用生成更多的训练数据。
- 更好的计算机视觉模型——基础模型的改进推动了食品识别的进步。
- 改进的份量估算——结合视觉分析与设备传感器的新技术。
- 更高质量的数据库——更全面、经过专业验证的营养数据。
Nutrola结合200万+用户生成的持续训练数据、经过营养师验证的数据库以及覆盖50多个国家的优势,使其在技术不断进步的过程中保持准确性领先。
结论
2026年的AI卡路里追踪准确性足够实用——前提是选择合适的应用。在我们的测试中表现最佳的AI追踪器(Nutrola)达到了8.4%的平均误差率,这意味着在2000卡路里的饮食中,其卡路里估算误差在170卡路里以内。这远超普通人手动追踪的准确性。
在我们的测试中表现最差的应用仍显示出近19%的误差率,可能导致每日误差达到380卡路里。应用选择至关重要。
对于需要可靠准确性的用户——尤其是追踪运动表现的宏观营养素、遵循医疗饮食或朝着特定体重目标努力的用户——数据明确支持那些结合强大AI识别与经过专业验证的营养数据库的应用。AI的效果取决于其映射的数据质量。
参考文献:
- Lichtman, S. W., et al. (1992). "自我报告与实际卡路里摄入及运动之间的差异。" 新英格兰医学杂志, 327(27), 1893-1898.
- Schoeller, D. A., et al. (1995). "通过与双重标记水法的比较识别自我报告摄入的不准确性。" 加拿大生理学与药理学杂志, 73(11), 1535-1541.
- Mezgec, S., & Koroušić Seljak, B. (2024). "基于AI的饮食评估工具的系统评审:准确性与方法论。" 营养学, 16(5), 712.
- Tanaka, H., et al. (2024). "移动饮食评估中的食品识别与份量估算准确性。" 食品成分与分析杂志, 128, 105942.
- Williams, R., et al. (2025). "AI驱动的食品摄影与24小时饮食回忆的比较准确性。" 美国临床营养学杂志, 121(2), 412-421.