Nutrola AI如何通过一张照片识别你的食物:幕后揭秘

你拍下午餐的照片,Nutrola告诉你这顿饭大约有640卡路里,含有38克蛋白质。这是怎么做到的?让我们揭开照片与营养数据之间的秘密。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

你打开Nutrola,将相机对准一盘烤三文鱼、烤蔬菜和藜麦,轻触快门。不到三秒钟,应用程序告诉你这顿饭大约有640卡路里,含有38克蛋白质、42克碳水化合物和28克脂肪。它甚至将三文鱼、蔬菜和藜麦分别列出。

这感觉就像魔法一样。但在这无缝体验的背后,是一条精心设计的人工智能处理流程,每个环节都负责解决特定的难题。本文将逐步解析这个流程,从光线照射到你手机的摄像头传感器开始,到卡路里数字出现在你屏幕上的那一刻。无需机器学习学位。

全景概述:六步流程

在深入每个阶段之前,先来看看整个流程的概览:

  1. 图像处理 — 你的照片会被清理和标准化,以便AI能够处理。
  2. 食物检测与分割 — AI找到每种食物在盘子上的位置。
  3. 食物分类 — 每个检测到的区域被识别为特定的食物。
  4. 份量大小估算 — AI估算每种食物的数量。
  5. 营养数据库匹配 — 识别出的食物和份量与经过验证的营养数据匹配。
  6. 置信度评分与用户确认 — AI告诉你它的确定性,并允许你进行更正。

每一步都为下一步提供支持。可以把它想象成工厂里的流水线:原材料从一端进入,成品从另一端出来。如果任何一个环节表现不佳,最终产品就会受到影响。这就是为什么每个阶段都经过精心设计、测试和优化。

让我们逐一了解这些步骤。

第一步:图像处理

你轻触快门后,首先发生的事情与识别食物无关,而是关于准备图像本身。

原始照片为何不适合AI

你的手机摄像头以高分辨率捕捉图像,通常为1200万像素或更高。这远远超过了AI模型所需的数据,处理这些数据会很慢且浪费。图像可能是在光线不足、角度奇怪或背景杂乱的情况下拍摄的。

可以把这看作是烹饪前准备食材。厨师不会把一根未洗的胡萝卜直接扔进锅里。他们会先洗净、去皮并切成合适的大小。图像处理就是AI的“准备工作”。

图像处理过程中发生了什么

缩放与标准化: 图像会被缩小到标准大小,通常是几百像素。像素值会被标准化,以确保亮度和对比度在一致的范围内。这确保了无论你是在明亮的阳光下还是昏暗的餐厅灯光下拍摄,模型的表现都是一致的。

颜色校正: 细微的调整会修正不同光源造成的色偏。烛光晚餐的温暖橙色光辉或荧光灯下的蓝色光泽都可能误导AI判断它所看到的内容。颜色校正可以减少这些失真。

方向与裁剪: 系统会检测手机是竖着还是横着持有,并相应地旋转图像。如果AI检测到食物仅占画面的一小部分,它可能会裁剪到相关区域,以减少背景噪音。

噪声减少: 在低光环境下拍摄的照片通常会包含视觉噪声,那些让图像看起来颗粒状的小斑点。轻微的噪声减少处理可以平滑这些伪影,而不模糊食物的重要细节。

所有这些处理都在瞬间完成。当图像到达下一个阶段时,它已成为AI模型可以可靠解读的干净、标准化的输入。

第二步:食物检测与分割

现在,AI面临的第一个真正挑战是:确定图像中食物的位置,并为每个独立的食物项目划定边界。

检测:在画面中找到食物

检测模型扫描整个图像,识别包含食物的区域。这比听起来要复杂得多。模型需要区分你的意大利面盘和桌布、旁边的水杯以及角落的餐巾。它还需要处理部分被遮挡、重叠或在画面边缘的盘子。

现代检测系统使用一种称为物体检测的技术,模型同时预测每个识别对象的位置和大致类别。想象一下一个经验丰富的服务员,他能一眼看出桌子上的每道菜,即使在拥挤的餐厅里。AI经过训练,培养出类似的直觉,只不过它是通过研究数百万张食物照片来学习的。

分割:绘制精确边界

检测告诉AI某个区域有食物。分割则进一步通过逐像素勾勒出每种食物的确切形状。

这个区别很重要。想象一盘烤鸡放在米饭上,旁边还有一份蒸西兰花。如果只用一个简单的边框框住鸡肉,也会包含一些米饭。分割则会精确勾勒出鸡肉、米饭和西兰花的轮廓,即使它们重叠。

这种像素级的精确度对下一步至关重要,因为AI需要确切知道每种食物占据的视觉面积。如果鸡肉的边界意外地包括了一块米饭,那么这两种食物的份量估算都会出现偏差。

处理复杂的盘子

现实中的餐点往往很杂乱。食物重叠,酱汁洒在多种食物上,像炒菜或沙拉这样的混合菜肴包含了数十种小成分。分割模型通过为每个像素分配属于每个食物类别的概率来处理这些情况。在炒菜中,看起来像鸡肉或豆腐的像素会同时被赋予这两种食物的概率,系统会利用周围像素的上下文来解决这种模糊。

第三步:食物分类

每种食物被隔离后,AI现在需要回答一个基本问题:这是什么食物?

AI如何识别特定食物

分类模型是一个深度神经网络,经过大量标记食物图像的数据集训练。在训练过程中,它看到了数百万个不同食物的例子。随着时间的推移,它学会了将特定的视觉模式与特定的食物标签关联起来。

这与儿童学习识别食物的方式类似。你并不是记住每种苹果的外观,而是通过反复接触,脑海中建立了“苹果”的内部模型,这个模型结合了颜色、形状、大小和质地,让你能够识别出无论是红色还是绿色、整颗还是切片的苹果。

AI建立了类似的内部模型,只不过它是通过数学函数而非生物神经元来实现的。它学会了烤三文鱼通常呈现特定的粉橙色,带有深色的烤痕,质地松散,形状也有一定的规律。它还学会了藜麦具有独特的小圆颗粒纹理,与米饭或意大利面不同。

相似食物的挑战

有些食物看起来非常相似。白米和花椰菜米。普通意大利面和无麸质意大利面。希腊酸奶和酸奶油。火鸡汉堡和牛肉汉堡。

分类模型通过观察大多数人也会使用的细微视觉线索来处理这些情况。熟白米的微透明度与花椰菜米的更不透明、不规则的质地之间的细微差别。希腊酸奶和酸奶油之间表面光泽的微小差异。

当视觉线索不足时,模型还会考虑上下文。如果分割步骤识别到米饭旁边有酱油和筷子,模型可能会增加它认为该米饭是白米的信心。

混合菜肴的多标签分类

有些食物并不适合单一类别。一个卷饼包含了玉米饼、米饭、豆类、肉类、奶酪、沙司等多种成分。AI可以将其识别为复合菜肴,估算整个卷饼的营养,或根据可见成分和该菜肴通常包含的成分将其分解。

第四步:份量大小估算

知道你的盘子里有烤三文鱼是有用的,但这不足以计算卡路里。AI还需要估算三文鱼的数量。是100克的鱼片还是200克的鱼片?卡路里差异很大。

AI如何在没有秤的情况下估算体积

份量估算被广泛认为是食品AI中最难的问题之一。系统无法实际称量你的食物,因此依赖于视觉线索和参考点。

相对大小分析: AI使用画面中已知物体作为参考点。一个标准的晚餐盘直径大约为26厘米,一个叉子大约长19厘米。如果模型能够识别这些物体,它就可以相对于它们估算食物的物理大小。可以把它想象成使用一把已经放在桌子上的尺子。

深度估算: 现代AI模型可以从单张二维图像中估算场景的三维结构。这使得系统不仅能够判断食物的宽度,还能大致判断其厚度或高度。薄片的烤鸡胸肉与厚片的烤鸡胸肉在卡路里含量上有很大不同,即使从上面看它们的大小相同。

统计先验: AI从训练数据中知道,典型餐厅份量的三文鱼重量在140到200克之间,而典型家庭烹饪的份量可能在100到170克之间。这些统计基准帮助模型在视觉线索模糊时做出合理的估算。

学习的密度模型: 不同食物的密度不同。一杯生菜的重量远低于一杯土豆泥,即使它们占据相同的体积。AI已经学习了这些密度关系,并将其纳入重量估算中。

为什么这一步是最难的

份量估算是错误发生最多的地方,这对人类也是如此。研究表明,人们在视觉上估算份量的能力相当差。营养科学期刊上发表的研究发现,受过训练的营养师和普通消费者在估算份量时,通常会误判20%到50%。

AI并没有消除这种困难,但它应用了一种一致的、经过训练的方法,而不是依赖直觉。在大量餐点中,这种一致性导致的准确性显著优于人工估算。

第五步:营养数据库匹配

此时,AI已经知道盘子里有哪些食物,以及每种食物的大致数量。最后一步是将这些信息转换为实际的营养数据。

连接到经过验证的食品数据库

Nutrola维护着一个全面的营养数据库,来源于可信的渠道,包括政府食品成分数据库、经过验证的制造商数据和实验室分析。当AI识别出某种食物为“烤三文鱼,约170克”时,系统会查找烤大西洋三文鱼的营养信息,并根据估算的份量调整数值。

这个查找过程比简单的表格搜索要复杂得多。系统会考虑烹饪方法,因为烤三文鱼和用黄油煎的三文鱼即使重量相同,卡路里含量也不同。它还会考虑常见的地区差异:在日本餐厅提供的三文鱼可能与地中海餐厅的三文鱼烹饪方式不同。当具体的烹饪细节不明确时,系统会使用识别菜肴的最常见烹饪方法。

处理复合和自定义菜肴

对于像香蕉这样的单一成分食物,数据库查找非常简单。但对于包含多种成分的复合盘,系统会聚合每个识别组件的营养数据。你的一盘三文鱼、藜麦和烤蔬菜的营养成分将是三文鱼的宏观营养成分、藜麦的宏观营养成分和蔬菜混合的宏观营养成分的总和,并根据可见的酱汁、油或调料进行调整。

对于像“凯撒鸡肉沙拉”或“牛肉塔可”这样的知名菜肴,数据库中也包含了预先组合的条目,考虑了典型的成分比例和烹饪方法。AI将其组件级分析与这些整道菜条目交叉参考,以生成最准确的估算。

第六步:置信度评分与用户确认

没有任何AI系统是100%准确的,Nutrola设计时就考虑到了透明度。

置信度评分的工作原理

AI做出的每个预测都有一个内部置信度评分,表示模型对其分类和份量估算的确定性。如果模型对其所识别的食物是烤三文鱼的置信度为95%,它会毫不犹豫地呈现结果。如果置信度只有70%,它可能会给出最佳猜测,同时提供其他可能性。

可以把置信度评分看作是医生说“我相当确定这是X,但也可能是Y。让我确认一下。”这是一个设计良好的系统的标志,而不是缺陷。

用户确认循环

当AI呈现其分析结果时,你有机会进行审查和调整。如果AI将你的藜麦识别为粗麦粉,你可以轻触进行更正。如果份量估算似乎过高或过低,你可以调整份量。这些更正有两个目的:为你提供该餐的准确数据,并反馈到系统中以改善未来的预测。

这种人机协作的设计是有意为之。AI处理繁重的工作,但你仍然掌握最终结果的控制权。这是一种合作关系,而不是一个黑箱。

AI的挑战:诚实的局限性

没有技术是完美的,诚实地面对局限性比夸大无缺陷的市场宣传更有用。以下是食品AI,包括Nutrola,面临的真实挑战场景。

隐藏成分

AI只能分析它能看到的东西。浸入叶子中的沙拉酱、融入土豆泥中的黄油或溶解在酱汁中的糖都是相机无法捕捉到的。这些隐藏的卡路里可能会显著增加。一汤匙橄榄油大约增加120卡路里,如果它完全被食物吸收,AI可能无法检测到。

Nutrola通过使用典型烹饪方法的统计模型来减轻这一问题。如果你拍摄了一盘餐厅意大利面,系统会假设在烹饪过程中使用了合理量的油或黄油,即使这些成分不可见。但这只是一个有根据的猜测,而不是精确的测量。

视觉上相似但营养成分不同的食物

有些食物在照片中几乎无法区分。全脂酸奶和脱脂酸奶看起来一样。普通汽水和无糖汽水在杯子里是相同的。白糖和人工甜味剂在包装中可能会模糊不清。在这些情况下,AI默认选择最常见的变体,但可能会猜错。

不寻常或地方特色菜肴

AI在处理训练数据中表现良好的食物时表现最佳。来自主要世界菜系的常见菜肴通常能被可靠识别。但来自小城镇的地方特色、含有不寻常成分的家庭食谱或全新的融合菜肴可能不在模型的词汇中。在这些情况下,AI会退回到其最接近的已知匹配,这可能不够精确。

极端光线或角度

尽管图像处理步骤修正了许多光线和角度问题,但极端情况仍可能导致问题。在几乎黑暗的环境中拍摄的餐点、在强烈着色的灯光下或从非常陡峭的侧面角度拍摄的餐点可能会使模型感到困惑。合理光线下的俯视图通常能产生最佳结果。

堆叠或分层食物

具有隐藏层的食物带来了特别的挑战。从上方拍摄的三明治只显示了顶层面包。千层面只显示了顶层。卷饼只显示了玉米饼。AI根据该菜肴通常包含的内容估算内部成分,但无法透视固体食物。

Nutrola如何随着时间变得更聪明

现代AI最强大的一个方面是其持续改进的能力。Nutrola的食物识别在发布后并不会停滞不前。随着每个月的推移,它会显著变得更好。

从更正中学习

每当用户更正食物识别或调整份量估算时,该更正就成为一个数据点。当成千上万的用户做出类似的更正时,模式变得清晰,模型可以更新。如果AI持续错误地将某种地方面包误认为另一种面包,用户的更正会标记出这个问题,训练团队可以将更多正确面包的例子添加到训练数据集中。

这种反馈循环意味着应用程序的准确性直接受到使用它的社区的改善。早期用户帮助训练系统以便后来的用户使用,而这个循环会继续。

扩展食品数据库

Nutrola团队不断向数据库中添加新食物:新兴菜系的新菜肴、季节性食材、流行餐厅菜单上的新产品以及新发布的包装产品。每次添加都扩大了AI可以准确识别的餐点范围。

模型再训练与架构改进

AI模型本身会定期在更新和扩展的数据集上进行再训练。随着计算机视觉和深度学习的新研究产生更好的模型架构和训练技术,Nutrola会将这些进展纳入其中。今天训练的模型在准确性上明显优于两年前训练的模型,即使是在相同的食物图像集上。

地区适应

随着Nutrola用户群在不同地区的增长,系统积累了更多关于地方菜肴和饮食习惯的数据。这使得模型对之前训练数据中未能很好代表的当地食物的准确性不断提高。首尔的用户受益于其他首尔用户已经记录的数千张韩国餐点照片。

比较:AI照片追踪 vs. 条形码扫描 vs. 手动搜索

不同的食物记录方法各有优缺点。以下是它们在日常追踪中最重要的维度上的比较。

因素 AI照片追踪 条形码扫描 手动搜索
速度 3到5秒 5到10秒 30到90秒
适用于家庭烹饪的餐点 是,但繁琐
适用于餐厅餐点 部分适用
适用于包装食品 是,准确性高
一次处理多种食物 否,一次处理一种 否,一次处理一种
简单食物的准确性 非常高 取决于用户
复杂餐点的准确性 中等到高 不适用 低到中等
是否需要阅读标签 是,需确认
摩擦水平 非常低
用户低报风险
适用于未包装食品

关键点是,没有一种方法在每种情况下都是最佳的。AI照片追踪在家庭烹饪和餐厅餐点中表现出色,而条形码扫描在包装食品的精确制造商数据方面无与伦比。手动搜索在其他方法不可用时作为可靠的后备。Nutrola支持这三种方法,正是因为每种方法都填补了其他方法留下的空白。

常见问题解答

AI食物识别与手动记录相比准确吗?

控制研究表明,AI辅助的食物记录相比手动记录平均减少了约25%到40%的卡路里估算错误。对于复杂的多成分餐点,改进最为明显,因为手动估算特别困难。对于简单的单一成分食物,准确性差异较小,因为两种方法的表现都相当不错。

AI适用于所有菜系吗?

Nutrola的AI经过训练,涵盖了来自世界各地数千道菜肴的多样化全球数据集。尽管如此,对于训练数据中更常见的菜肴,识别准确性通常较高。如果你经常食用AI处理得不够自信的菜系,你的更正会积极帮助提高该菜系的准确性。

如果AI出错怎么办?

你可以随时编辑AI的建议。轻触任何识别出的食物项以更改它、调整份量大小或添加AI遗漏的项目。这些更正会立即应用到你的记录中,并有助于改善系统的未来预测。

照片会离开我的手机吗?

图像会发送到Nutrola的服务器进行处理,因为AI模型太大且计算密集,无法完全在移动设备上运行。图像经过处理后,结果会返回,Nutrola的隐私政策规定了如何处理图像数据。没有图像会与第三方共享。

为什么AI有时会显示多个可能的匹配?

当模型的置信度低于某个阈值时,它会呈现其最佳候选项,而不是承诺单一答案。这是设计使然。显示三个选项并让你选择正确的比默默承诺错误答案要好。这种透明的方法让你掌控结果,确保你的记录准确。

AI能检测烹饪油、酱汁或调料吗?

可见的酱汁和调料,例如沙拉上的一滴牧场酱或盘子上的一池酱油,通常可以被检测到。然而,在烹饪过程中被吸收到食物中的油脂和脂肪在相机下基本上是不可见的。Nutrola通过考虑典型的烹饪方法来补偿。例如,如果你拍摄了一盘炒菜,系统会假设使用了合理量的烹饪油。

AI是否会达到100%的准确性?

现实中,答案是否定的。即使是使用实验室设备的专业营养师也会接受误差范围。目标不是理论上的完美,而是实际的准确性:足够接近以便在追踪趋势、维持卡路里赤字或盈余以及做出明智的饮食决策时真正有用。对于绝大多数用户来说,AI照片追踪提供的准确性足以支持他们朝着健康目标的有意义进展。

更大的图景

食品识别AI背后的技术正在迅速发展。五年前被认为是最先进的技术如今已被多次超越。模型变得更小、更快、更准确。训练数据集变得更大、更丰富。数百万用户每天创造的反馈循环加速了改进,这在研究实验室中是无法实现的。

对于你作为用户而言,实际结果很简单:你拍一张照片,获取营养数据,然后继续你的日常生活。支撑这一体验的流程,包括图像处理、检测、分类、份量估算、数据库匹配和置信度评分,所有这些都在几秒钟内悄然完成。

了解它的工作原理并不是使用它的必要条件。但了解幕后发生的事情可以增强对技术的信任,并帮助你更有效地使用它。当你知道良好的光线下的俯视照片能产生最佳结果时,你自然会开始拍摄更好的食物照片。当你知道隐藏成分是一个盲点时,你会记得手动添加那一汤匙橄榄油。当你知道你的更正让系统更聪明时,你会更有动力花两秒钟时间来修正错误的猜测。

这就是理解技术的真正力量:它将你从一个被动用户转变为自己营养追踪的知情合作者。

准备好改变您的营养追踪方式了吗?

加入成千上万已通过 Nutrola 改变健康之旅的用户!