AI营养技术完整术语表：50+个术语解析

2026年3月12日

一份全面的AI营养技术术语表，涵盖机器学习、食品识别、营养科学、应用功能和准确性指标，提供清晰的定义和关联。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

人工智能与营养科学的交汇产生了一种新词汇，将计算机科学术语与饮食术语相结合。无论您是开发食品科技产品的开发者，还是评估AI工具的营养师，亦或是想了解拍摄午餐背后发生了什么的好奇用户，这份术语表都是您的参考指南。

我们将50多个术语分为五个类别：AI与机器学习、食品识别、营养科学、应用与平台功能，以及准确性指标。每个定义都解释了该概念如何与AI驱动的营养追踪的更广泛生态系统相连接。

AI与机器学习

卷积神经网络 (CNN)

卷积神经网络是一种深度学习模型，专门用于处理网格状数据，如图像。CNN使用可学习的滤波器层在图像上滑动，以检测边缘、纹理和形状等模式。在食品识别中，CNN几乎构成了所有现代系统的基础，从餐点照片中提取视觉特征，并通过分类层识别单个食品项。

深度学习

深度学习是机器学习的一个子集，利用具有多个隐藏层的神经网络学习数据的层次表示。深度学习中的“深度”指的是堆叠层的数量，这使得模型能够捕捉越来越抽象的特征。食品识别系统依赖于深度学习，因为餐点的视觉多样性，从整齐摆盘的沙拉到混合咖喱，要求模型能够学习复杂的、分层的模式，远超传统算法的处理能力。

迁移学习

迁移学习是一种技术，通过将一个在大型数据集上训练的模型调整为不同但相关的任务来实现。工程师们并不从头开始在数十万张食品图像上训练食品识别CNN，而是从在广泛图像数据集（如ImageNet）上预训练的模型开始，然后在特定于食品的数据上进行微调。这大大减少了训练时间和数据需求，同时通常提高了准确性，因为网络的底层已经理解了边缘和颜色渐变等通用视觉概念。

多标签分类

多标签分类是一种机器学习任务，其中单个输入（如图像）可以同时属于多个类别。一张晚餐盘的照片可能包含烤鸡、棕色米饭和蒸西兰花，每个都是一个单独的标签。这与标准的多类分类不同，后者只分配一个标签，而这对于现实世界的餐点追踪至关重要，因为盘子上很少只有一种食物。

自然语言处理 (NLP)

自然语言处理是AI的一个分支，旨在使计算机能够理解、解释和生成自然语言。在营养应用中，NLP驱动基于文本的食品记录：用户可以输入“两个炒鸡蛋、一片全麦吐司和半个牛油果”，系统将自然语言输入解析为结构化的营养数据。NLP与计算机视觉通常协同工作，NLP处理文本查询和语音输入，而计算机视觉处理照片。

计算机视觉

计算机视觉是一个AI领域，训练计算机根据来自现实世界的视觉数据进行解释和决策。它涵盖图像分类、物体检测、分割等。在营养技术领域，计算机视觉是食品识别、份量估计和多食品检测等所有操作的总称。

神经网络

神经网络是一种计算系统，灵感来源于人脑中的生物神经网络。它由相互连接的节点（神经元）组成，这些节点按层组织，通过在训练过程中调整加权连接来处理数据。神经网络是CNN、递归网络和变换器架构的基础，是现代AI营养工具的核心技术。

训练数据

训练数据是用于教导机器学习模型的标记示例集合。对于食品识别系统，训练数据由成千上万到数百万张食品图像组成，每张图像都带有标注，标识出图像中存在的食品项及其位置。训练数据的多样性、数量和准确性直接决定了模型在不同菜系、光照条件和摆盘风格下的表现。

推理

推理是使用训练好的模型对新数据进行预测的过程。当您拍摄一餐并且应用程序在几秒钟内返回卡路里估算时，这就是在服务器或直接在您的设备上进行推理。推理速度对于用户体验至关重要；一个需要十秒钟返回结果的模型相比于一个在两秒内响应的模型显得笨拙。

模型准确性

模型准确性是衡量机器学习模型产生正确预测频率的一般指标。在食品识别中，准确性可以通过多种方式进行测量，包括Top-1准确性、Top-5准确性和平均精度均值（mAP），每种方式捕捉不同的性能维度。高模型准确性是必要的，但并不足以保证良好的用户体验，因为即使模型能够正确识别食品项，仍可能在份量估计上失败。

微调

微调是将预训练模型继续在较小的特定任务数据集上进行训练的过程。食品识别系统可能会在一个特定区域菜肴的精心策划数据集上微调一个通用图像模型，以提高其在日本或墨西哥菜肴上的表现。微调调整网络中某些或所有层的权重，使模型能够专门化而不丢弃在预训练期间获得的通用知识。

数据增强

数据增强是一种通过对现有图像应用变换（如旋转、翻转、颜色变化、裁剪和添加噪声）来人工扩展训练数据集的技术。对于食品识别，增强有助于模型在不同光照条件、相机角度和盘子方向下进行泛化。一张意大利面的照片可以生成数十个变体，每个变体教会模型在稍微不同的条件下识别该菜肴。

食品识别

图像分割

图像分割是将图像划分为有意义区域的过程，将每个像素分配给特定类别。在食品识别中，语义分割识别哪些像素属于米饭，哪些属于鸡肉，哪些属于盘子。这种像素级的理解比物体检测更为详细，对于准确的份量估计至关重要，因为它揭示了每个食品项所占的确切区域。

物体检测

物体检测是一种计算机视觉任务，识别并定位图像中的物体，使用边界框。与分类仅仅说明图像中有什么不同，物体检测还说明每个项目的位置。食品识别系统使用物体检测作为识别盘中单个食品的第一步，然后将每个检测到的区域传递给更专业的模型进行分类和份量估计。

份量估计

份量估计是从照片中确定食品项数量或份量大小的过程。这被广泛认为是AI食品追踪中最难解决的问题，因为平面图像缺乏深度信息，同样的食物可能因盘子、相机角度和距离的不同而看起来更大或更小。先进的系统结合图像分割与深度估计和参考物体，以近似体积，从而推算出重量和卡路里含量。

食品分类法

食品分类法是一种层次分类系统，将食品组织成类别、子类别和单个项目。一个设计良好的分类法可能将“谷物”放在顶层，然后是“米饭”，再到“棕色米饭”、“白米饭”和“巴斯马蒂米饭”等具体项目。食品分类法帮助AI模型做出结构化预测，并允许系统在无法区分密切相关的食品时回退到父类别。

多食品检测

多食品检测是AI系统识别和单独分析单张图像中多个食品项的能力。现实世界的餐点照片几乎总是包含多种食品，系统必须单独检测每个项目，以提供准确的每项营养数据。多食品检测结合物体检测或分割与多标签分类，以处理复杂的盘子和碗。

深度估计

深度估计是一种计算机视觉技术，通过推断物体与相机之间的距离，从二维图像中有效重建三维感知。一些食品追踪系统使用深度估计，有时借助现代智能手机上的LiDAR传感器，以更好地评估食品项的体积。结合图像分割，深度估计显著提高了堆叠或分层食品的份量准确性。

边界框

边界框是绘制在图像中检测到的物体周围的矩形边框，由其坐标定义。在食品检测中，边界框将每个食品项隔离，以便后续模型可以一次专注于一个项目。虽然边界框简单且计算效率高，但对于形状不规则的食品（如香蕉或比萨饼）来说，它们的精度不如分割掩膜。

特征图

特征图是CNN中卷积层的输出，表示图像中各个空间位置上特定学习特征的存在。早期层生成简单模式（如边缘和角落）的特征图，而更深层生成复杂模式（如食品纹理或形状）的特征图。特征图使CNN能够“看见”蓝莓松饼与巧克力松饼之间的区别，即使它们的形状几乎相同。

营养科学

总日能量消耗 (TDEE)

总日能量消耗是指您身体在24小时内燃烧的卡路里总数，包括基础代谢、身体活动和食物的热效应。TDEE是任何基于卡路里的营养计划的核心计算：低于TDEE进食以减重，高于TDEE以增重，或维持在TDEE以保持体重。AI营养应用通过个人数据（如年龄、体重、身高、活动水平，有时还包括可穿戴设备数据）来估算TDEE。

基础代谢率 (BMR)

基础代谢率是指您身体在完全静息状态下维持基本生命功能（如呼吸、循环和细胞生产）所需的卡路里数量。BMR通常占TDEE的60%到75%，并通常使用Mifflin-St Jeor公式等方程进行估算。营养应用使用BMR作为TDEE计算的起点，叠加活动乘数和锻炼数据。

宏量营养素

宏量营养素是指身体需要大量摄入的三种主要营养素：蛋白质、碳水化合物和脂肪。每种宏量营养素提供特定数量的卡路里（蛋白质4卡路里，碳水化合物4卡路里，脂肪9卡路里），并具有不同的生理作用。宏量追踪，即监测摄入的每种宏量营养素的克数，是AI营养应用的核心功能，提供比单纯卡路里计算更细致的饮食质量图景。

微量营养素

微量营养素是指身体所需的小量维生素或矿物质，以维持正常的生理功能。例子包括铁、维生素D、钙、锌和B族维生素。虽然大多数AI营养应用专注于宏量营养素，但先进的平台也跟踪微量营养素，以帮助用户识别潜在的缺乏，特别是对于遵循限制性饮食的人群。

卡路里赤字

卡路里赤字发生在您摄入的卡路里少于您的TDEE时，迫使身体使用储存的能量（主要是体脂）来弥补差额。持续的适度赤字（每天300到500卡路里）被广泛推荐用于安全和可持续的脂肪减轻。AI追踪工具通过提供实时反馈，帮助用户维持赤字，确保其饮食摄入与个性化卡路里目标相符。

卡路里盈余

卡路里盈余发生在您摄入的卡路里超过您的TDEE时，给身体提供多余的能量，这些能量可以储存为脂肪或在结合抗阻训练时用于构建肌肉组织。追求肌肉增长的人通常会维持一个控制的盈余，通常在维持水平之上200到400卡路里。精确追踪盈余很重要，因为过量盈余会导致不必要的脂肪增加。

膳食参考摄入量 (DRI)

膳食参考摄入量是一组由国家健康机构发布的参考值，包括RDI、估计平均需求、适宜摄入量和可耐受上限摄入量。DRI提供了比单独的RDI更完整的框架，复杂的营养平台使用DRI数据提供个性化建议，以考虑个体差异。

升糖指数 (GI)

升糖指数是一个从0到100的数值尺度，根据碳水化合物食品在消费后多快提高血糖水平进行排名。高GI食品（如白面包）会迅速引起血糖飙升，而低GI食品（如扁豆）则会产生较慢、逐渐的上升。一些AI营养应用在宏量营养素旁边显示GI值，这对管理糖尿病或胰岛素抵抗的用户特别有用。

NOVA分类法

NOVA分类系统根据工业加工的程度和目的将食品分为四类：未加工或最小加工食品、加工烹饪成分、加工食品和超加工食品。研究表明，高消费超加工食品（NOVA第4组）与肥胖和慢性疾病的风险增加相关。纳入NOVA分类的营养平台使用户能够了解食品质量，超越卡路里和宏量营养素的内容。

食物的热效应 (TEF)

食物的热效应是指在消化、吸收和营养物质代谢过程中消耗的能量。TEF通常占总卡路里摄入的约10%，尽管它因宏量营养素而异：蛋白质的TEF为20%到30%，碳水化合物为5%到10%，脂肪为0%到3%。TEF是TDEE的三个组成部分之一，除了BMR和身体活动外，它解释了为什么高蛋白饮食可能具有轻微的代谢优势。

氨基酸

氨基酸是作为蛋白质构建块的有机分子。共有20种标准氨基酸，其中9种是必需的，意味着身体无法合成，必须通过食物摄取。先进的营养追踪可以按氨基酸谱分解蛋白质摄入，这对运动员和需要确保从互补食物来源获取所有必需氨基酸的植物性饮食者尤为重要。

应用与平台功能

Snap and Track

Snap and Track是一项功能，允许用户用智能手机摄像头拍摄餐点并获得自动的营养分解。该系统利用计算机视觉识别图像中的食品，估算份量，并查询营养数据库返回卡路里和宏量营养素数据。Snap and Track将记录时间从几分钟的手动搜索和输入缩短到几秒钟，极大地提高了用户的依从性。

条形码扫描

条形码扫描是一项功能，允许用户扫描包装食品产品上的条形码，以即时从数据库中检索营养信息。应用程序使用设备摄像头读取条形码，将其与产品条目匹配，并记录相应的营养数据。条形码扫描对包装食品的准确性很高，因为它直接提取制造商报告的数据，使其成为AI基础的照片识别的可靠补充。

食品数据库

食品数据库是一个结构化的营养信息集合，涵盖成千上万到数百万种食品项，包括卡路里计数、宏量营养素分解、微量营养素概况和份量大小。食品数据库的准确性和全面性直接决定了应用程序能够提供的营养估算质量。数据库可以来自政府机构（如USDA）、制造商数据、实验室分析，或三者的结合。

营养标签

营养标签是包装食品产品上标准化的信息面板，列出份量大小、卡路里、宏量营养素和部分微量营养素。AI系统可以使用光学字符识别（OCR）从照片中读取营养标签，使用户能够记录自定义或地区产品，这弥补了条形码扫描与手动输入之间的差距。

API（应用程序编程接口）

API是一组协议和工具，允许不同的软件系统相互通信。在营养技术中，API将移动应用与基于云的食品识别模型、食品数据库和用户数据存储连接起来。设计良好的API使第三方开发者能够将营养追踪集成到健身应用、健康平台和可穿戴设备中，扩展AI营养工具的覆盖范围。

数据隐私

数据隐私是指管理用户信息（包括食品照片、饮食习惯、健康指标和个人详细信息）收集、存储和共享的实践和政策。营养应用处理敏感健康数据，在许多司法管辖区，这些数据受到GDPR或HIPAA等法规的保护。强大的数据隐私实践，包括加密、匿名化和透明的同意政策，对于维护用户信任至关重要。

NLP记录

NLP记录是一种基于文本的食品输入方法，利用自然语言处理将自由描述的餐点解析为结构化的营养数据。用户可能输入“一个大拿铁加燕麦奶和一个香蕉坚果松饼”，NLP引擎识别每个项目，将其与数据库条目匹配并记录营养成分。NLP记录为简单餐点或零食提供了快速的替代方案，尤其适合于简单的餐点。

准确性指标

Top-1准确性

Top-1准确性是衡量模型单个最高置信度预测与正确标签匹配频率的指标。如果食品识别模型查看一张照片，其最高猜测为“泰式炒米粉”，Top-1准确性测量该最高猜测的正确率。这是最严格的准确性指标，通常在计算机视觉研究中作为分类性能的主要基准报告。

Top-5准确性

Top-5准确性衡量正确标签在模型的五个最高置信度预测中的出现频率。这个指标比Top-1更宽容，尤其适用于食品识别，因为视觉上相似的菜肴（如不同类型的咖喱或不同形状的意大利面）可能难以区分。一个具有85% Top-1准确性的模型可能会达到97% Top-5准确性，这意味着它几乎总是将正确答案包含在其短名单中。

平均精度均值 (mAP)

平均精度均值是用于评估物体检测模型的综合指标。它计算所有食品类别在多个重叠阈值下的平均精度，产生一个单一分数，捕捉模型识别食品的能力以及准确定位的能力。mAP是检测任务的标准基准，尤其对多食品检测场景尤为重要，模型必须在一张图像中找到并分类多个项目。

交并比 (IoU)

交并比是量化预测的边界框或分割掩膜与真实标注重叠程度的指标。它通过将预测区域与实际区域的重叠面积除以它们的并集面积来计算。IoU为1.0表示完全重叠，而IoU为0则表示完全没有重叠。在食品检测中，IoU阈值（通常为0.5或0.75）决定在计算mAP时，检测是否算作真正的正例。

平均绝对误差 (MAE)

平均绝对误差是衡量一组预测中错误平均幅度的指标，而不考虑其方向。对于份量估计和卡路里预测，MAE捕捉模型的估算平均偏差：MAE为30卡路里意味着模型的预测平均上比真实值高或低30卡路里。较低的MAE表示卡路里追踪更可靠，直接影响用户结果。

精确度

精确度是衡量正预测中实际正确比例的指标。在食品检测中，精确度回答的问题是：“模型所说找到的所有食品项中，有多少实际上存在？”高精确度意味着假阳性较少，因此模型很少虚构不存在的食品项。在营养追踪中，虚构的食品项会抬高卡路里计数。

召回率

召回率是衡量模型正确识别的实际正实例比例的指标。在食品检测中，召回率回答的问题是：“在盘子上实际存在的所有食品项中，模型找到了多少？”高召回率意味着假阴性较少，因此模型很少遗漏存在的食品。在卡路里追踪中，低召回率是危险的，因为遗漏的食品项会导致摄入量被低估，从而破坏用户的饮食目标。

常见问题解答

为什么食品识别AI有这么多不同的准确性指标？

不同的指标捕捉性能的不同方面。Top-1和Top-5准确性测量分类的正确性，告诉您模型是否识别了正确的食品。mAP和IoU测量检测和定位质量，告诉您模型是否在正确的位置找到项目。MAE测量连续值（如卡路里或克）的估算误差。精确度和召回率捕捉假阳性和假阴性之间的权衡。没有单一的数字能讲述整个故事，因此研究人员和开发者使用多种指标全面评估食品识别系统。

迁移学习如何使食品识别模型更易于获取？

从头开始训练深度学习模型需要数百万张标记图像和大量计算资源。迁移学习通过从已经在大型数据集（如ImageNet）上学习到的通用视觉特征的模型开始，绕过了大部分成本。工程师随后在较小的特定于食品的数据集上微调该模型。这种方法意味着即使是没有庞大数据基础设施的小公司也能构建竞争力的食品识别系统，这也是近年来AI营养应用快速增长的关键因素。

BMR和TDEE有什么区别，为什么它对卡路里追踪很重要？

BMR是您身体在完全静息状态下仅为维持生命所消耗的能量，而TDEE是您全天的总卡路里消耗，包括身体活动和食物的热效应。营养应用中的卡路里目标是基于TDEE，而不是BMR，因为TDEE反映了您的实际能量需求。如果应用将您的卡路里目标设定为BMR，您在活跃日将处于过大的赤字，这可能会损害肌肉质量和代谢健康。因此，准确的TDEE估算，基于可穿戴设备的数据和自我报告的锻炼信息，是设定安全有效的营养目标的关键。

AI食品识别能处理混合菜肴和家常菜吗？

混合菜肴和家常菜是食品识别AI面临的最大挑战之一。一碗炒菜、一个砂锅菜或一锅自制的炖菜包含多种成分混合在一起，使得图像分割难以隔离单个成分。现代系统通过多种方式应对这一问题：一些使用多标签分类标记可能的成分，另一些参考常见食谱数据库来估算组合的营养概况，还有一些提示用户确认或调整检测到的成分。混合菜肴的准确性正在提高，但仍落后于清晰分开的、单独摆盘的食品的表现。

数据增强如何改善不同文化和菜系的食品识别？

食品在不同文化中差异巨大，主要在西方菜肴上训练的模型在南亚、非洲或东南亚菜肴上表现不佳。数据增强通过创建现有训练图像的视觉变体来帮助，但这只是解决方案的一部分。更有效的策略是收集代表全球各种食品、烹饪风格和摆盘习惯的多样化训练数据。数据增强随后通过模拟不同的光照、角度和背景来放大这一多样化数据集。通过多样化的数据收集和积极的数据增强，减少了食品识别系统中的文化偏见，推动该领域朝着真正的全球覆盖迈进。

在营养应用的食品数据库中，我应该寻找哪些特征以确保准确性？

可靠的食品数据库应来自经过验证的来源，如USDA食品数据中心、国家营养数据库和实验室分析的制造商数据，而不是仅依赖于众包的用户条目，因为后者容易出现错误和重复。寻找一款清楚标明其数据来源的应用，提供与现实世界份量相匹配的份量选项，并定期更新其数据库以反映新产品和配方变化。数据库还应覆盖广泛的菜系和烹饪方法，而不仅仅是包装的西方食品。最后，检查该应用是否使用AI进行交叉引用和验证条目，因为这一额外的质量控制层可以捕捉到任何大型食品数据库中不可避免的矛盾。

准备好改变您的营养追踪方式了吗？

加入成千上万已通过 Nutrola 改变健康之旅的用户！