Как работает отслеживание питания с помощью ИИ: объяснение технологии (2026)
Техническое объяснение работы распознавания пищи с помощью ИИ в 2026 году, включая компьютерное зрение, сверточные нейронные сети, обнаружение объектов, оценку объема, сопоставление с базами данных продуктов и анализ питательных веществ.
Когда вы направляете свой телефон на тарелку с едой, и приложение сообщает, что в ней 540 калорий, 32 грамма белка и 48 граммов углеводов, за эти две секунды происходит удивительная цепочка вычислительных событий. За этой простой интеракцией скрывается сложная система, основанная на десятилетиях исследований в области компьютерного зрения, глубоких нейронных сетях, алгоритмах оценки объема и базах данных с сотнями тысяч записей о продуктах.
В этой статье мы объясним, как работает эта система — от момента, когда сенсор камеры захватывает фотоны, до момента, когда на вашем экране появляются питательные значения. Мы рассмотрим основные технологии, метрики, которые исследователи используют для измерения точности, текущее состояние дел на 2026 год и как подход Nutrola вписывается в эту картину.
Система распознавания пищи с ИИ
Отслеживание питания с помощью ИИ — это не просто один алгоритм. Это многоступенчатая система, где каждый этап передает данные следующему. Упрощенная версия этой системы выглядит следующим образом:
- Захват изображения и предварительная обработка
- Обнаружение пищи (поиск продуктов на изображении)
- Классификация пищи (определение, что именно изображено)
- Оценка порции и объема (определение количества каждого продукта)
- Сопоставление с базой данных питательных веществ (поиск значений макро- и микроэлементов)
- Вывод и подтверждение пользователем
Каждый этап включает в себя уникальные технические задачи и различные подходы в области ИИ. Давайте подробно рассмотрим их.
Этап 1: Захват изображения и предварительная обработка
Что происходит
Камера смартфона захватывает сырое изображение, обычно с разрешением от 8 до 48 мегапикселей. Прежде чем изображение попадет в нейронную сеть, выполняются шаги предварительной обработки, которые нормализуют его для ожидаемого формата ввода модели.
Ключевые операции
- Изменение размера: Большинство моделей распознавания пищи принимают изображения размером 224x224, 320x320 или 640x640 пикселей. Сырое изображение изменяется в размере с сохранением пропорций, с применением дополнения или обрезки.
- Нормализация: Значения пикселей масштабируются из диапазона 0-255 в диапазон 0-1 или стандартизируются с использованием средних и стандартных отклонений набора данных (например, нормализация ImageNet со средними значениями [0.485, 0.456, 0.406] и стандартными отклонениями [0.229, 0.224, 0.225]).
- Коррекция цвета: Некоторые системы применяют коррекцию баланса белого или выравнивание гистограммы, чтобы справиться с разнообразием условий освещения, при которых делают фотографии еды — от флуоресцентных офисных ламп до свечей в ресторанах.
- Аугментация во время обучения: Во время обучения модели (не во время вывода) изображения случайным образом поворачиваются, переворачиваются, изменяются по цвету, обрезаются и скрываются, чтобы сделать модель устойчивой к реальным вариациям.
Обработка на устройстве против облака
Ключевое архитектурное решение — это выбор, будет ли предварительная обработка и вывод выполняться на устройстве или в облаке. Обработка на устройстве с использованием таких фреймворков, как Core ML (Apple), TensorFlow Lite или ONNX Runtime, снижает задержку и работает в оффлайн-режиме, но ограничивает размер модели. Обработка в облаке позволяет использовать более крупные и точные модели, но требует подключения к сети. Nutrola использует гибридный подход, где легкая начальная детекция выполняется на устройстве, а более ресурсоемкий анализ производится на сервере, когда это необходимо для повышения точности.
Этап 2: Обнаружение пищи — Поиск еды на изображении
Проблема
Перед тем как система сможет классифицировать продукт, ей необходимо найти каждый отдельный элемент пищи на изображении. На тарелке могут находиться курица-гриль, рис и салат, каждый из которых занимает свою область кадра. Система также должна отличать еду от неедобных объектов, таких как тарелки, столовые приборы, салфетки и руки.
Архитектуры обнаружения объектов
Обнаружение пищи использует те же семейства моделей обнаружения объектов, которые применяются в автономных автомобилях и промышленной инспекции, адаптированные для области питания.
Одноступенчатые детекторы, такие как YOLO (You Only Look Once) и SSD (Single Shot MultiBox Detector), обрабатывают все изображение за один проход и одновременно выводят ограничивающие рамки с вероятностями классов. YOLOv8 и YOLOv9, выпущенные в 2023 и 2024 годах соответственно, часто используются в производственных системах распознавания пищи благодаря их балансу между скоростью и точностью.
Двухступенчатые детекторы, такие как Faster R-CNN, сначала генерируют предложения регионов (кандидатные ограничивающие рамки, вероятно, содержащие объекты), а затем классифицируют каждое предложение. Эти модели, как правило, более точные, но медленнее, чем одноступенчатые детекторы.
Детекторы на основе трансформеров, такие как DETR (DEtection TRansformer) и его преемники, используют механизмы внимания вместо якорных рамок для обнаружения объектов. DINO (DETR с улучшенными якорными рамками), опубликованный Чжаном и др. (2023), достиг лучших результатов на бенчмарках COCO и был адаптирован для задач обнаружения пищи.
Сегментация экземпляров
Помимо ограничивающих рамок, модели сегментации экземпляров, такие как Mask R-CNN и SAM (Segment Anything Model, Кириллов и др., 2023), создают маски на уровне пикселей для каждого элемента пищи. Это особенно важно для смешанных блюд, где ограничивающие рамки могут значительно перекрываться. Чаша с рагу, содержащая видимые куски мяса, картофеля и моркови, выигрывает от сегментации, которая выделяет каждый ингредиент.
Ключевые метрики: mAP и IoU
Исследователи измеряют точность обнаружения с помощью двух ключевых метрик:
- IoU (Пересечение над Объединением): Измеряет, насколько хорошо предсказанная ограничивающая рамка или маска перекрывается с истинным значением. IoU 0.5 означает 50-процентное перекрытие, что является типичным порогом для признания обнаружения корректным.
- mAP (Средняя точность): Среднее значение по всем классам пищи при заданном пороге IoU. mAP@0.5 является стандартным бенчмарком. Современные модели обнаружения пищи достигают mAP@0.5 от 0.70 до 0.85 на публичных бенчмарках, таких как ISIA Food-500 и Food2K.
Этап 3: Классификация пищи — Определение, что именно изображено
Задача
Классификация пищи значительно сложнее, чем общая классификация объектов, по нескольким причинам:
- Высокая схожесть между классами: Куриный тикка масала и курица с маслом выглядят почти идентично на фотографиях.
- Высокая изменчивость внутри класса: Цезарь-салат может выглядеть совершенно по-разному в зависимости от ресторана, подачи и пропорций ингредиентов.
- Смешанные и перекрывающиеся элементы: Продукты часто частично скрыты, смешаны или затенены соусами и гарнирами.
- Культурное и региональное разнообразие: Один и тот же визуальный облик может соответствовать разным блюдам в разных кухнях.
Сверточные нейронные сети для классификации
Основой большинства классификаторов пищи является архитектура CNN, обычно одна из семейств ResNet, EfficientNet или ConvNeXt. Эти модели предварительно обучаются на ImageNet (более 14 миллионов изображений по 21,000 категориям) с помощью переноса обучения, а затем дообучаются на специализированных наборах данных о пище.
ResNet-50 и ResNet-101 (Хе и др., 2016) представили пропуски, которые позволяют обучать очень глубокие сети. Они остаются общепринятыми базовыми моделями для классификации пищи.
EfficientNet (Тан и Ле, 2019) использует метод компаундного масштабирования для балансировки глубины, ширины и разрешения сети, достигая высокой точности с меньшим количеством параметров. EfficientNet-B4 до B7 являются популярными выборами для классификации пищи.
ConvNeXt (Лю и др., 2022) модернизировал чистую архитектуру CNN, внедрив элементы дизайна из Vision Transformers, достигая конкурентоспособной производительности с более простыми процедурами обучения.
Vision Transformers
Vision Transformers (ViT), представленные Досовицким и др. (2020), разбивают изображения на патчи и обрабатывают их с помощью архитектур трансформеров, изначально разработанных для текста. Swin Transformer (Лю и др., 2021) ввел иерархические карты признаков и смещенные окна, что сделало трансформеры практичными для задач плотного предсказания, включая распознавание пищи.
В 2025 и 2026 годах гибридные архитектуры, которые объединяют извлечение признаков с помощью свертки и механизмы внимания трансформеров, стали доминирующим подходом для высокоточной классификации пищи. Эти модели захватывают как локальные текстурные признаки, в которых преуспевают CNN, так и глобальные контекстные отношения, которые хорошо обрабатывают трансформеры.
Специфические наборы данных о пище
Качество классификатора сильно зависит от его обучающих данных. Основные наборы данных для распознавания пищи включают:
| Набор данных | Классы | Изображения | Год | Примечания |
|---|---|---|---|---|
| Food-101 | 101 | 101,000 | 2014 | Основной эталон |
| ISIA Food-500 | 500 | 399,726 | 2020 | Крупномасштабные, китайская и западная кухня |
| Food2K | 2,000 | 1,036,564 | 2021 | Крупнейший публичный набор данных для классификации пищи |
| Nutrition5K | 5,006 блюд | 5,006 | 2021 | Включает истинные данные о питательных веществах от Google |
| FoodSeg103 | 103 ингредиента | 7,118 | 2021 | Аннотации сегментации на уровне ингредиентов |
Производственные системы, такие как Nutrola, обучаются на собственных наборах данных, которые значительно больше и разнообразнее, чем публичные эталоны, часто содержащих миллионы изображений с данными, предоставленными пользователями (с их согласия), которые охватывают все разнообразие реальных условий питания.
Этап 4: Оценка объема и порции
Почему это важно
Правильная идентификация продукта как "коричневый рис" — это лишь половина задачи. Питательное содержание критически зависит от размера порции. Сто граммов вареного коричневого риса содержит примерно 123 калории, но порции на практике варьируются от 75 до более 300 граммов. Без точной оценки порции даже идеальная классификация приводит к ненадежным подсчетам калорий.
Подходы к оценке объема
Масштабирование по эталонному объекту: Некоторые системы просят пользователей включить известный эталонный объект (кредитную карту, монету, специально разработанный маркер) в кадр. Система использует известные размеры эталона для расчета масштаба и оценки объема пищи. Этот подход точен, но добавляет сложности в пользовательский опыт.
Оценка глубины по одному изображению: Модели глубокого обучения могут оценивать относительную глубину из одного 2D-изображения с использованием архитектур, таких как MiDaS (Ранфтл и др., 2020) и Depth Anything (Ян и др., 2024). В сочетании с маской сегментации пищи и оцененными параметрами камеры система может приблизительно оценить 3D-форму и объем каждого продукта.
LiDAR и структурированный свет: Устройства с LiDAR-сенсорами (модели iPhone Pro, iPad Pro) могут захватывать истинные карты глубины в момент съемки изображения. Это предоставляет информацию о глубине на уровне миллиметров, что значительно улучшает точность оценки объема. Исследование 2023 года, проведенное Ло и др. и опубликованное в IEEE Journal of Biomedical and Health Informatics, показало, что оценка объема пищи с помощью LiDAR снизила среднюю абсолютную процентную ошибку с 27.3 процента (монокулярная) до 12.8 процента.
Многоугловая реконструкция: Некоторые исследовательские системы просят пользователей захватывать пищу с нескольких углов, что позволяет выполнить 3D-реконструкцию с помощью структуры из движения или нейронных полей радиации (NeRF). Этот подход обеспечивает наивысшую точность, но непрактичен для повседневного отслеживания.
Обученная оценка порции: Наиболее практичный подход для анализа одного изображения включает обучение моделей на наборах данных, где известны размеры порций. Модель учится оценивать граммы непосредственно из визуального облика, учитывая размер тарелки, подсказки о высоте пищи, тени и контекстуальные подсказки. Nutrola сочетает подсказки о глубине по одному изображению с обученной оценкой порции, уточненной миллионами подтверждений и исправлений от пользователей, которые постоянно улучшают модель.
Этап 5: Сопоставление с базой данных питательных веществ
Поиск
Как только система знает идентичность пищи и оцененный объем, она запрашивает базу данных питательных веществ, чтобы получить значения калорий, макро- и микроэлементов. Этот этап кажется простым, но скрывает значительную сложность.
Источники баз данных
- USDA FoodData Central: Золотой стандарт для справочных данных о питательных веществах в США. Содержит более 370,000 записей о продуктах в своих базах данных Foundation, Survey (FNDDS), Legacy и Branded.
- Open Food Facts: Краудсорсинговая, открытая база данных упакованных продуктов с более чем 3 миллионами записей по всему миру.
- Собственные базы данных: Компании, такие как Nutrola, ведут собственные базы данных, которые объединяют справочные данные USDA с проверенными данными о брендах, элементами меню ресторанов и региональными блюдами, которые часто отсутствуют в публичных базах данных.
Проблема сопоставления
Классификатор может выдать "куриная грудка, гриль", но база данных может содержать 47 записей для куриной грудки на гриле с различными методами приготовления, брендами и питательными профилями. Система должна выбрать наиболее подходящее соответствие на основе:
- Визуальных подсказок (с кожей или без, видимое масло или соус)
- Контекста пользователя (предыдущие блюда, диетические предпочтения, местоположение)
- Статистической вероятности (наиболее часто употребляемый метод приготовления)
Декомпозиция составного блюда
Для блюд, которые не представлены в базе данных как единая запись, таких как домашний жареный рис, система должна декомпозировать блюдо на его составные ингредиенты, оценить пропорции каждого ингредиента и рассчитать агрегированные питательные значения. Это композиторское рассуждение является одной из самых сложных нерешенных задач в отслеживании питания с помощью ИИ и является областью активных исследований.
Этап 6: Вывод и обратная связь от пользователя
Презентация
Итоговый вывод представляет пользователю идентифицированные продукты, оцененные порции и питательные значения. Хорошо спроектированные системы, такие как Nutrola, позволяют пользователю подтвердить, скорректировать или исправить каждый элемент, создавая цикл обратной связи.
Активное обучение
Коррекции пользователей являются чрезвычайно ценными данными для обучения. Когда пользователь изменяет "жасминовый рис" на "басмати" или корректирует порцию с "средней" на "большой", это исправление фиксируется (с защитой конфиденциальности) и используется для повторного обучения модели. Этот цикл активного обучения означает, что система со временем становится заметно более точной. Точность распознавания Nutrola улучшилась примерно на 15 процентных пунктов за последние 18 месяцев, в значительной степени благодаря этому механизму обратной связи от пользователей.
Как измеряется точность
Метрики точности классификации
- Top-1 точность: Процент изображений, где лучшее предсказание модели совпадает с истинным значением. Современные классификаторы пищи достигают 90-95 процентов top-1 точности на эталонных наборах данных, таких как Food-101.
- Top-5 точность: Процент изображений, где правильная метка появляется в пятерке лучших предсказаний модели. Top-5 точность обычно превышает 98 процентов для ведущих моделей.
Метрики точности питательных веществ
- Средняя абсолютная ошибка (MAE): Среднее абсолютное различие между предсказанными и фактическими значениями калорий/макроэлементов. Для производственных систем в 2026 году MAE для калорий обычно колеблется от 30 до 80 ккал на блюдо, в зависимости от сложности блюда.
- Средняя абсолютная процентная ошибка (MAPE): MAE, выраженная в процентах от истинного значения. Современные системы, достигшие наилучших результатов, показывают MAPE от 15 до 25 процентов для оценки калорий на разнообразных тестовых наборах. Для справки, обученные диетологи, оценивающие калории по фотографиям, показывают MAPE от 20 до 40 процентов в контролируемых исследованиях (Уильямсон и др., 2003; Ли и др., 2012).
Сравнение по бенчмаркам
| Метод | Calorie MAPE | Время на блюдо | Последовательность |
|---|---|---|---|
| AI фото распознавание (2026 SOTA) | 15-25% | ~2 секунды | Высокая |
| Обученный диетолог визуальная оценка | 20-40% | 2-5 минут | Умеренная |
| Ручная регистрация с поиском в базе данных | 10-20% | 3-10 минут | Низкая (усталость пользователя) |
| Взвешенная еда с поиском в базе данных | 3-8% | 5-15 минут | Высокая |
Текущее состояние дел (2026)
Ключевые технические достижения
Фундаментальные модели для пищи: Большие предварительно обученные модели зрения, дообученные на данных о пище, стали доминирующей парадигмой. Модели с более чем 300 миллионами параметров, обученные на данных о пищевых изображениях веб-уровня, достигают обобщения по кухням, которое было невозможно с меньшими, специфическими для наборов данных моделями.
Мультимодальное понимание: Системы теперь объединяют визуальное распознавание с пониманием текста (чтение описаний меню, списков ингредиентов и контекста пользователя) и даже аудио (голосовые описания блюд). Эта мультимодальная интеграция улучшает точность в неоднозначных случаях, когда визуальной информации недостаточно.
Развертывание на краю: Достижения в области квантования моделей (INT8, INT4) и поиска нейронной архитектуры сделали возможным запуск высококачественных моделей распознавания пищи полностью на устройстве. Нейронный движок Apple, DSP Hexagon Qualcomm и Tensor Processing Unit Google в телефонах Pixel обеспечивают специализированное оборудование для вывода.
Персонализация: Модели адаптируются к индивидуальным пищевым привычкам пользователей. Если вы каждое утро едите овсянку с черникой, система учится ожидать эту комбинацию и повышает свою точность для ваших конкретных приготовлений.
Открытые проблемы
Несмотря на замечательный прогресс, остаются несколько проблем:
- Скрытые ингредиенты: Масла, масло, сахар и другие калорийные ингредиенты, используемые в кулинарии, невидимы на фотографиях. Жареный рис в ресторане может содержать три столовые ложки масла, которые невозможно визуально обнаружить.
- Гомогенные блюда: Супы, смузи и пюре имеют минимальные визуальные признаки для идентификации ингредиентов.
- Новые продукты: Новые продукты питания, блюда слияния и региональные специалитеты, которые недостаточно представлены в обучающих данных, остаются сложными.
- Потолок оценки порции: Без истинной информации о глубине монокулярная оценка порции имеет фундаментальные ограничения точности, наложенные потерей 3D-информации в 2D-проекции.
Технический подход Nutrola
Система распознавания пищи Nutrola основана на нескольких принципах, которые отражают текущее состояние дел:
Гибридная архитектура: Многоступенчатая система использует легкий детектор семейства YOLO для локализации пищи в реальном времени, за которым следует классификационный бэкбоне, улучшенный трансформером, для идентификации пищи. Это балансирует скорость и точность.
Оценка порции с учетом глубины: На устройствах с LiDAR Nutrola использует истинные данные о глубине. На стандартных устройствах модель оценки глубины по одному изображению предоставляет приблизительные подсказки о объеме, дополненные обученными приоритетами порции из истории пользователя.
Непрерывное обучение: Коррекции пользователей питают цикл повторного обучения модели раз в неделю, что постепенно улучшает точность. Каждое исправление взвешивается по уверенности и перекрёстно проверяется с известными питательными профилями, чтобы предотвратить недобросовестные или ошибочные обновления.
Комплексная база данных: База данных Nutrola объединяет данные USDA FoodData Central, проверенные данные о брендах и данные, валидированные пользователями, охватывающие международные кухни, которые недостаточно представлены в западных базах данных.
Часто задаваемые вопросы
Насколько точным является распознавание пищи с помощью ИИ в 2026 году?
Современное распознавание пищи с помощью ИИ достигает 90-95 процентов top-1 точности классификации на стандартных бенчмарках. Для оценки калорий лучшие системы достигают средней абсолютной процентной ошибки от 15 до 25 процентов, что сопоставимо или лучше, чем у обученных диетологов, оценивающих по фотографиям.
Работает ли отслеживание пищи с помощью ИИ с любыми кухнями?
Точность варьируется в зависимости от представления кухни в обучающих данных. Западные, восточноазиатские и южноазиатские кухни, как правило, хорошо представлены. Менее распространенные региональные кухни могут иметь более низкую точность, хотя этот разрыв сокращается по мере увеличения разнообразия наборов данных. Nutrola активно работает над расширением охвата недостаточно представленных кухонь через пользовательские вклады и целенаправленный сбор данных.
Может ли ИИ обнаруживать скрытые ингредиенты, такие как масло или масло?
Не напрямую через визуальную проверку. Это остается одной из самых значительных проблем в отслеживании питания с помощью ИИ. Системы смягчают это, используя питательные профили, специфичные для методов приготовления. Например, если блюдо классифицируется как "жареный рис в ресторане", связанный питательный профиль уже учитывает типичное использование масла на основе данных рецептов USDA.
Является ли обработка на устройстве такой же точной, как облачная обработка?
Модели на устройстве обычно на 3-8 процентов менее точны, чем их облачные аналоги из-за ограничений размера, накладываемых мобильным оборудованием. Однако преимущество по задержке (мгновенные результаты против 1-3 секунд сетевой задержки) и возможность работы в оффлайн-режиме делают обработку на устройстве ценным вариантом. Многие системы, включая Nutrola, используют гибридный подход.
Как распознавание пищи с помощью ИИ сравнивается с сканированием штрих-кодов?
Сканирование штрих-кодов чрезвычайно точно для упакованных продуктов, поскольку оно напрямую сопоставляет UPC продукта с записью в базе данных с предоставленными производителем данными о питательных веществах. Однако сканирование штрих-кодов не работает для распакованных продуктов, ресторанных блюд или домашних блюд, которые составляют большинство калорийного потребления большинства людей. Распознавание пищи с помощью ИИ заполняет этот пробел.
Что происходит, когда ИИ ошибается?
Хорошо спроектированные системы упрощают исправление ошибок. Когда пользователь исправляет неверную идентификацию, это исправление выполняет двойную функцию: оно дает пользователю точные данные для этого блюда и улучшает модель для будущих предсказаний. Этот цикл активного обучения является одним из самых мощных механизмов для непрерывного улучшения.
Будет ли распознавание пищи с помощью ИИ когда-нибудь абсолютно точным?
Абсолютная точность маловероятна из-за фундаментальных ограничений: скрытые ингредиенты, идентично выглядящие, но различающиеся по питательным свойствам приготовления и неясность оценки 3D-объема по 2D-изображениям. Однако разрыв между оценкой ИИ и взвешенными измерениями пищи будет продолжать сокращаться. Практическая цель не в совершенстве, а в точности, достаточной для поддержки значимого отслеживания питания с минимальными усилиями со стороны пользователя.
Заключение
Отслеживание питания с помощью ИИ — это междисциплинарное инженерное достижение, которое объединяет компьютерное зрение, глубокое обучение, 3D-оценку, проектирование баз данных и науку о питательных веществах в систему, которая предоставляет результаты за считанные секунды. Технология достигла уровня зрелости, при котором она действительно конкурирует с человеческими экспертами по точности визуальной оценки, оставаясь при этом на порядки быстрее и более последовательной.
Понимание того, как работает эта технология, помогает пользователям принимать обоснованные решения о том, каким инструментам доверять и как интерпретировать результаты. Ни одна система ИИ не идеальна, и наиболее эффективный подход сочетает в себе эффективность ИИ с человеческим контролем, будь то подтверждение идентификации пищи, корректировка размера порции или консультация с зарегистрированным диетологом для клинического руководства.
Системы, которые будут вести следующее поколение отслеживания питания с помощью ИИ, среди которых и Nutrola, — это те, которые объединяют современные модели распознавания с надежными циклами обратной связи от пользователей, комплексными базами данных о питательных веществах и прозрачной коммуникацией о точности и ограничениях.
Готовы трансформировать отслеживание питания?
Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!