От исследовательской лаборатории до вашего телефона: Компьютерное зрение за современным распознаванием пищи

Искусственный интеллект, который определяет ваш обед, начался с научной статьи. Вот путь от академических прорывов в области компьютерного зрения до технологии распознавания пищи, которая у вас в кармане.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Технология, позволяющая вам сделать фото ужина и мгновенно увидеть его калорийность, не появилась на пустом месте. Это результат десятилетий академических исследований, множества опубликованных статей и постоянных прорывов в области компьютерного зрения и глубокого обучения. То, что начиналось как узкоспециализированная проблема в университетских лабораториях, стало функцией, которой ежедневно пользуются миллионы людей, не задумываясь об этом.

В этой статье мы проследим полный путь искусственного интеллекта для распознавания пищи — от его корней в фундаментальных исследованиях компьютерного зрения до реального времени идентификации пищи на вашем телефоне. По пути мы рассмотрим ключевые статьи, эталонные наборы данных, постоянные вызовы и инженерные решения, необходимые для превращения лабораторных результатов в надежный потребительский продукт.

Искра, изменившая всё: ImageNet и революция глубокого обучения

Чтобы понять, как работает распознавание пищи сегодня, нужно начать с соревнования, которое не имело отношения к еде.

Конкурс ImageNet Large Scale Visual Recognition Challenge

В 2009 году Фэй-Фэй Ли и её команда из Стэнфорда выпустили ImageNet — набор данных из более чем 14 миллионов изображений, организованных более чем в 20 000 категорий. Связанный с ним конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC) предложил исследователям создать системы, способные классифицировать изображения на 1 000 категорий объектов — от самолетов до зебр. В течение нескольких лет лучшие системы использовали ручные признаки и традиционные методы машинного обучения, достигая уровня ошибок в топ-5 около 25-28 процентов.

Затем пришёл 2012 год.

Алекс Кризевский, Илья Сутскевер и Джеффри Хинтон представили глубокую сверточную нейронную сеть, которую назвали AlexNet. Она достигла уровня ошибок в топ-5 в 15.3 процента, обогнав второе место более чем на 10 процентных пунктов. Это было не просто улучшение, а парадигмальный сдвиг, который ознаменовал приход глубокого обучения как доминирующего подхода в компьютерном зрении.

Статья "Классификация ImageNet с помощью глубоких сверточных нейронных сетей" (Krizhevsky et al., 2012) стала одной из самых цитируемых в области компьютерных наук. Её влияние вышло далеко за пределы конкурса ImageNet. Исследователи во всех подполях компьютерного зрения, включая распознавание пищи, немедленно начали изучать, как глубокие сверточные нейронные сети можно применить к их специфическим задачам.

Почему ImageNet 2012 было важно для пищи

До появления AlexNet системы распознавания пищи полагались на ручные признаки: цветовые гистограммы, текстурные дескрипторы, такие как локальные бинарные шаблоны (LBP), и признаки на основе формы, извлеченные с помощью алгоритмов, таких как SIFT (Scale-Invariant Feature Transform). Эти подходы испытывали трудности с обобщением. Система, обученная распознавать пиццу с использованием цветовых и текстурных признаков, не справлялась с пиццей, имеющей незнакомую начинку или необычное освещение.

Глубокие сверточные нейронные сети изменили ситуацию кардинально. Вместо того чтобы требовать от исследователей ручного определения значимых визуальных признаков, сеть обучалась различать признаки непосредственно из данных. Это означало, что при наличии достаточного количества обучающих изображений CNN могла научиться распознавать пищу в самых разных условиях, справляясь с изменениями в освещении, угле, сервировке и приготовлении, которые ставили бы в тупик ручные подходы.

Каскад улучшений: 2013-2020 годы

Годы, следующие за AlexNet, принесли стремительное развитие архитектур, каждая из которых повышала точность и делала развертывание более практичным:

Год Архитектура Ключевой вклад Ошибка Top-5 на ImageNet
2012 AlexNet Доказал эффективность глубоких CNN в больших масштабах 15.3%
2014 VGGNet Показал, что глубина (16-19 слоев) улучшает точность 7.3%
2014 GoogLeNet (Inception) Многоуровневая извлечение признаков с эффективными вычислениями 6.7%
2015 ResNet Остаточные соединения, позволяющие создавать сети с 152 слоями 3.6%
2017 SENet Механизмы внимания к каналам 2.3%
2019 EfficientNet Комплексное масштабирование для оптимального соотношения точности и эффективности 2.0%
2020 Vision Transformer (ViT) Самовнимание, примененное к изображениям 1.8%

Каждая из этих архитектур была быстро принята исследователями в области распознавания пищи, которые использовали их в качестве основ для специализированных моделей.

Набор данных Food-101: Общее основание для исследователей

Общие классификаторы изображений, обученные на ImageNet, могли различать пиццу и автомобиль, но различить пиццу маргарита и пиццу бианка требует гораздо более тонкого уровня визуальной дискриминации. Сообществу исследователей распознавания пищи нужен был собственный набор данных большого масштаба.

Боссар и др. и рождение Food-101

В 2014 году Лука Боссар, Маттью Гийомин и Люк Ван Гул из ETH Цюрих опубликовали статью "Food-101 — Извлечение дискриминационных компонентов с помощью случайных лесов" на Европейской конференции по компьютерному зрению (ECCV). Они представили набор данных Food-101: 101 000 изображений, охватывающих 101 категорию пищи, с 1 000 изображений на категорию. Изображения были намеренно собраны из реальных источников (Foodspotting, социальная платформа для обмена блюдами), а не в контролируемых лабораторных условиях, что означало, что они включали шум, вариации и несовершенства реальных фотографий еды.

Food-101 установил общее основание, которое позволило исследователям напрямую сравнивать свои подходы. В оригинальной статье была достигнута точность 50.76 процента в топ-1 с использованием подхода случайного леса с ручными признаками. В течение года подходы глубокого обучения начали превышать 70 процентов. К 2018 году модели, построенные на архитектурах, таких как Inception и ResNet, превышали 90 процентов точности в топ-1 на Food-101.

Другие важные наборы данных о пище

Food-101 был самым широко используемым эталоном, но исследовательское сообщество создало несколько других наборов данных, которые продвинули область вперёд:

UEC-Food100 и UEC-Food256 (2012, 2014): Разработанные Университетом электро-коммуникаций в Японии, эти наборы данных сосредоточились на японской кухне и ввели аннотации ограничивающих рамок для многопищевого обнаружения. UEC-Food256 расширил охват до 256 категорий, охватывающих несколько азиатских кухонь.

VIREO Food-172 (2016): Созданный Городским университетом Гонконга, этот набор данных включал 172 категории китайской пищи вместе с аннотациями ингредиентов, что позволяло исследовать распознавание на уровне ингредиентов.

Nutrition5k (2021): Разработанный Google Research, этот набор данных сопоставил изображения пищи с точными измерениями питательных веществ, полученными с помощью калориметрии. С 5 006 реалистичными тарелками с блюдами и лабораторно проверенными данными о калориях, Nutrition5k предоставил набор данных для обучения и оценки систем оценки порций.

Food2K (2021): Большой эталон, содержащий 2 000 категорий пищи и более миллиона изображений, предназначенный для продвижения распознавания пищи к масштабу общего распознавания объектов.

MAFood-121 (2019): Сосредоточенный на многопараметрическом распознавании пищи, включая тип кухни и метод приготовления наряду с категорией пищи, отражая реальную необходимость понимать не только, что это за еда, но и как она была приготовлена.

Доступность этих наборов данных была жизненно важной. В машинном обучении качество и масштаб обучающих данных часто важнее, чем архитектура модели. Каждый новый набор данных расширял диапазон продуктов, кухонь и визуальных условий, из которых модели могли учиться.

Почему распознавание пищи сложнее, чем "обычное" обнаружение объектов

Исследователи, работающие в области распознавания пищи, быстро обнаружили, что еда представляет собой уникальные вызовы, которые не возникают в общем обнаружении объектов. Понимание этих вызовов объясняет, почему система, которая может надежно идентифицировать автомобили, собак и здания, может испытывать трудности с тарелкой еды.

Проблема внутриклассовой вариации

Золотистый ретривер выглядит как золотистый ретривер, независимо от того, сидит он, бегает или спит. Но салат может выглядеть почти как угодно. Греческий салат, салат Цезарь, салат Уолдорф и салат с киноа и капустой имеют одну и ту же категорию "салат", но визуально почти не похожи друг на друга. Эта внутриклассовая вариация для категорий пищи крайне выражена и значительно превышает то, что вы найдете в большинстве задач распознавания объектов.

С другой стороны, межклассовое сходство также высоко. Чаша томатного супа и чаша красного карри могут выглядеть почти идентично сверху. Жареный рис и плов имеют визуальные характеристики, схожие друг с другом. Протеиновый батончик и брауни могут быть неразличимы на фотографии. Визуальные границы между категориями пищи часто размыты так, как границы между автомобилями и грузовиками не бывают.

Деформируемая природа пищи

Большинство объектов, которые системы компьютерного зрения обучаются распознавать, имеют постоянную геометрическую структуру. У стула есть ножки, сиденье и спинка. Пища, напротив, деформируема, аморфна и непредсказуема в своём визуальном представлении. Порция картофельного пюре не имеет постоянной формы. Паста может быть сервирована в бесконечном количестве конфигураций. Даже один и тот же рецепт, приготовленный двумя разными людьми, может выглядеть существенно иначе.

Эта деформируемость означает, что признаки на основе формы, которые эффективны для жесткого обнаружения объектов, в значительной степени не помогают в распознавании пищи. Модели должны больше полагаться на цвет, текстуру и контекстуальные подсказки.

Загораживание и смешанные блюда

На типичной фотографии еды продукты перекрывают и загораживают друг друга. Соус покрывает мясо. Сыр растекается по овощам. Рис находится под рагу. Эти паттерны загораживания не просто распространены; они являются нормой. Система распознавания пищи должна быть устойчива к частичной видимости так, как это гораздо более требовательно, чем, например, обнаружение пешеходов на улице.

Смешанные блюда представляют собой ещё более сложную задачу. Буррито заворачивает свои ингредиенты в тортилью, делая их невидимыми. Смузи смешивает фрукты и другие ингредиенты в однородную жидкость. Запеканка сочетает несколько ингредиентов в одну визуальную массу. Для этих блюд распознавание должно полагаться на целостный вид и изученные ассоциации, а не на идентификацию отдельных компонентов.

Освещение и вариации окружающей среды

Фотографии еды делают в условиях, которые сильно варьируются. Освещение в ресторанах колеблется от яркого флуоресцентного до тусклого свечного. Домашние кухни имеют непостоянную цветовую температуру. Вспышка изменяет видимый цвет пищи. Фотографии, сделанные на улице в солнечный день, выглядят совершенно иначе, чем фотографии, сделанные в тусклом офисе. Эта вариация в условиях съемки сильно влияет на цветовые признаки, и поскольку цвет является одним из самых сильных сигналов для идентификации пищи, это создает значительные трудности.

Проблема оценки порций: где исследования становятся по-настоящему сложными

Определение того, какая еда находится на тарелке, — это лишь половина проблемы. Чтобы быть полезной для отслеживания питания, система также должна оценивать, сколько каждого продукта присутствует. Это проблема оценки порций, и она остается одной из самых активных и сложных областей исследований в области вычислений пищи.

Почему оценка порций по своей сути сложна

Единственное 2D-фото отбрасывает информацию о глубине. Не зная расстояния от камеры до тарелки, размера тарелки или высоты кучи еды, невозможно восстановить истинный физический объем пищи только по пиксельным измерениям. Это не ограничение текущего ИИ. Это математическая реальность проективной геометрии. Небольшая чаша, близкая к камере, и большая чаша, находящаяся далеко, создают идентичные изображения.

Исследователи изучили несколько подходов, чтобы обойти это ограничение:

Методы с эталонными объектами: Некоторые системы просят пользователя включить в кадр известный эталонный объект (монету, кредитную карту, конкретную тарелку). Измеряя пиксельные размеры известного объекта относительно его реального размера, система может оценить масштаб. Система TADA (Трехмерная автоматизированная оценка питания), разработанная в Университете Пердью, использовала эталонный маркер (шахматный узор) для этой цели. Хотя этот подход точен, он добавляет сложности, что делает его непрактичным для повседневного использования.

Оценка глубины из монохромных изображений: Нейронные сети могут оценивать карты глубины из одиночных изображений, используя изученные приоритеты о типичных сценах. Исследования групп из Университета Питтсбурга и Технологического института Джорджии применили оценку глубины из монохромных изображений к фотографиям пищи, достигая оценок объема в пределах 15-25 процентов от истинных значений в контролируемых условиях.

Многоугловая реконструкция: Некоторые исследовательские системы просят пользователей захватывать еду с нескольких углов, что позволяет создавать 3D-реконструкцию. Хотя это более точно, это снова добавляет сложности. Исследования Фанга и др. (2019) продемонстрировали, что даже два вида могут значительно улучшить точность оценки объема.

Изученные приоритеты порций: Вместо того чтобы пытаться восстановить точный физический объем, некоторые системы изучают статистические распределения типичных размеров порций для каждой категории пищи. Если система знает, что медианная порция вареного белого риса составляет примерно 158 граммов, она может использовать этот приоритет вместе с визуальными подсказками о относительном размере пищи на изображении, чтобы произвести разумную оценку.

Ключевые статьи по оценке порций

Несколько статей продвинули состояние дел в оценке порций:

  • Мейерс и др. (2015), "Im2Calories: К автоматизированному мобильному визуальному дневнику питания," из Google Research, предложили использовать CNN для оценки калорийности непосредственно из изображений пищи, обходя явную оценку объема.
  • Фанг и др. (2019), "Техника автоматической оценки энергии пищи на основе изображений с использованием изученных карт распределения энергии," представили карты распределения энергии, которые предсказывают плотность калорий на пиксель.
  • Теймс и др. (2021), "Nutrition5k: К автоматическому пониманию питания обычной пищи," предоставили первый крупномасштабный набор данных с калориметрически проверенной истинной питательной ценностью, позволяя более строгую оценку систем оценки порций.
  • Лу и др. (2020) продемонстрировали, что сочетание сегментации пищи с оценкой глубины дает оценки порций со средней абсолютной ошибкой ниже 20 процентов для общих категорий пищи.

Разрыв между точностью исследований и реальной производительностью

Одна из самых важных и наименее обсуждаемых тем в области ИИ для распознавания пищи — это разрыв между производительностью на эталонах и реальной производительностью. Понимание этого разрыва критически важно для установки реалистичных ожиданий относительно того, что технология распознавания пищи может и не может делать.

Условия эталонов против реальности

Научные статьи обычно сообщают о точности на кураторских тестовых наборах, взятых из той же выборки, что и обучающие данные. Точность 93 процента на Food-101 звучит впечатляюще, но это означает, что модель тестировалась на изображениях из того же источника и в похожих условиях, что и её обучающие изображения. При развертывании в реальном мире точность снижается по нескольким причинам:

Сдвиг распределения: Пользователи делают фотографии с помощью разных камер, освещения, углов и композиций, отличающихся от тех, что представлены в обучающих данных. Модель, обученная в основном на фотографиях еды сверху из кулинарных блогов, будет работать хуже, когда пользователь сделает наклонное фото с помощью вспышки в тусклом ресторане.

Долгие продукты: Эталонные наборы данных охватывают ограниченный набор категорий. Food-101 имеет 101 категорию; Food2K — 2 000. Но действительно глобальная система распознавания пищи должна обрабатывать десятки тысяч блюд. Производительность на редких или культурно специфических продуктах обычно значительно ниже, чем средние показатели.

Составные блюда: Большинство эталонов оценивают классификацию одной пищи. Реальные блюда содержат несколько продуктов на одной тарелке, что требует одновременного обнаружения, сегментации и классификации. Точность многопищевого распознавания последовательно ниже, чем точность однофотографического распознавания.

Ошибки оценки порций: Даже небольшие ошибки в идентификации пищи накапливаются при комбинировании с оценкой порций. Если система ошибочно принимает киноа за кус-кус (что вполне возможно визуально), она применяет неправильную питательную плотность к своей оценке объема, что приводит к ошибкам как в разборе макронутриентов, так и в подсчете калорий.

Квантификация разрыва

Опубликованные исследования предполагают следующие приблизительные диапазоны производительности:

Задача Точность на эталонах Реальная точность
Классификация одной пищи (топ-1) 88-93% 70-82%
Классификация одной пищи (топ-5) 96-99% 88-94%
Многопищевое обнаружение по элементу 75-85% 60-75%
Оценка порций (в пределах 20% от истинного) 65-75% 45-60%
Оценка калорий от начала до конца (в пределах 20%) 55-65% 35-50%

Эти цифры подчеркивают важную истину: ИИ для распознавания пищи хорош и становится лучше, но он ещё не может заменить тщательные измерения. Это инструмент, который значительно снижает трение, принимая известную погрешность.

Хронология ключевых прорывов

Следующая хронология подводит итоги основных этапов пути от общего исследования компьютерного зрения до технологии распознавания пищи на вашем телефоне:

2009 — Выпуск набора данных ImageNet. Фэй-Фэй Ли и команда из Стэнфорда публикуют набор данных ImageNet, предоставляя крупномасштабный эталон, который станет основой революции глубокого обучения.

2012 — Победа AlexNet на ILSVRC. Кризевский, Сутскевер и Хинтон демонстрируют, что глубокие сверточные нейронные сети значительно превосходят традиционные подходы в классификации изображений. Начинается эпоха глубокого обучения.

2012 — Публикация UEC-Food100. Один из первых крупных наборов данных изображений пищи, сосредоточенный на японской кухне, устанавливает распознавание пищи как отдельную исследовательскую проблему.

2014 — Выпуск набора данных Food-101. Боссар и др. из ETH Цюрих публикуют эталон, который станет стандартным набором для оценки исследований в области распознавания пищи.

2014 — Публикация GoogLeNet и VGGNet. Две влиятельные архитектуры демонстрируют, что более глубокие и сложные конструкции сетей существенно улучшают точность классификации. Обе быстро принимаются исследователями в области распознавания пищи.

2015 — Введение ResNet. Хе и др. из Microsoft Research вводят остаточные соединения, позволяя создавать сети с более чем 100 слоями. ResNet становится наиболее широко используемой основой в системах распознавания пищи на следующие несколько лет.

2015 — Публикация статьи Im2Calories. Google Research демонстрирует оценку калорий от изображений пищи от начала до конца, устанавливая прямую связь между изображением и питанием как жизнеспособное направление исследований.

2016 — Создание реального времени для обнаружения объектов. YOLO (Редмон и др., 2016) и SSD (Лю и др., 2016) позволяют обнаруживать несколько объектов в реальном времени, делая возможным обнаружение нескольких продуктов на тарелке менее чем за секунду.

2017 — Передача обучения становится стандартной практикой. Исследовательское сообщество приходит к общему методу: предварительное обучение на ImageNet, дообучение на наборах данных о пище. Этот подход достигает точности Food-101 выше 88 процентов.

2019 — Публикация EfficientNet. Тан и Ле из Google вводят комплексное масштабирование, создавая модели, которые более точны и эффективны, чем предшественники. Это делает высокоточное распознавание пищи возможным на мобильном оборудовании без облачного вывода.

2020 — Публикация Vision Transformers (ViT). Досовицкий и др. из Google демонстрируют, что архитектуры трансформеров, изначально разработанные для обработки естественного языка, могут соответствовать или превосходить CNN в классификации изображений. Это открывает новые направления для исследований в области распознавания пищи.

2021 — Выпуск набора данных Nutrition5k. Google Research публикует набор данных с калориметрически проверенной истинной питательной ценностью, предоставляя первый строгий эталон для оценки оценки питания от начала до конца.

2022-2024 — Появление базовых моделей. Большие предварительно обученные модели визуально-языкового типа, такие как CLIP (Радфорд и др., 2021) и последующие модели, позволяют распознавать пищу в условиях нулевой и малой выборки, позволяя системам идентифицировать категории пищи, на которых они никогда не были явно обучены.

2025-2026 — Локальная обработка становится стандартом. Достижения в сжатии модели, квантовании и мобильных нейронных процессорах (NPU) позволяют моделям распознавания пищи работать полностью на устройстве, устраняя задержки и проблемы конфиденциальности, связанные с облачной обработкой.

Как Nutrola сокращает разрыв между исследованиями и практикой

Академические исследования, описанные выше, необходимы, но недостаточны для создания системы распознавания пищи, которая будет надежно работать для реальных людей в реальных условиях. Разрыв между публикацией статьи с 93 процентами точности на Food-101 и выпуском продукта, которому пользователи доверяют в отслеживании своего питания, огромен. Здесь инженерия, стратегия данных и ориентированный на пользователя дизайн становятся столь же важными, как архитектура модели.

Обучение на реальных распределениях данных пользователей

Академические наборы данных кураторски собраны из кулинарных блогов, социальных сетей и контролируемых фотосессий. Реальные фотографии пользователей более запутанные: частично съеденные блюда, загроможденные фоны, плохое освещение, необычные углы, несколько тарелок в кадре. Nutrola обучает свои модели на распределениях данных, которые отражают реальные паттерны использования, включая несовершенные, реальные изображения, которые пользователи на самом деле делают. Это закрывает значительную часть разрыва в распределении.

Непрерывное обучение и обратные связи

Статическая модель, обученная один раз и развернутая, будет деградировать по мере изменения поведения пользователей и тенденций в еде. Nutrola реализует непрерывные обучающие процессы, которые учитывают исправления и отзывы пользователей. Когда пользователь исправляет ошибку идентификации, этот сигнал агрегируется (с защитой конфиденциальности) и используется для улучшения производительности модели по конкретным продуктам и условиям, где ошибки наиболее распространены.

Сочетание нескольких сигналов

Вместо того чтобы полагаться исключительно на визуальную классификацию, Nutrola сочетает распознавание на основе изображений с контекстуальными сигналами для повышения точности. Время суток, географический регион, недавняя история приемов пищи и предпочтения пользователя служат приоритетами, которые помогают различать визуально схожие продукты. Чаша красной жидкости, сфотографированная на завтрак в Северной Америке, с большей вероятностью будет томатным соком, чем гаспачо, и система может использовать этот контекст для более точных предсказаний.

Честная коммуникация уверенности

Одно из самых важных дизайнерских решений — это то, как сообщать о неопределенности. Когда модель уверена, Nutrola напрямую представляет свою идентификацию. Когда уверенность ниже, система предлагает несколько вариантов и просит пользователя подтвердить. Этот паттерн взаимодействия уважает присущие ограничения технологии, при этом снижая трение по сравнению с ручным вводом. Вместо того чтобы притворяться идеальной, система открыто сообщает, когда ей нужна помощь.

Оптимизация для питательной точности, а не только для точности классификации

Академические эталоны измеряют точность классификации: правильно ли модель идентифицировала пищу? Но для отслеживания питания актуальной метрикой является питательная точность: насколько близки оцененные калории и содержание макронутриентов к истинным значениям? Nutrola оптимизирует для этой конечной метрики. Путаница между двумя визуально схожими продуктами с похожими питательными профилями (белый рис против жасминового риса) имеет гораздо меньшее значение, чем путаница между двумя визуально схожими продуктами с очень разными питательными профилями (обычный маффин против протеинового маффина). Система настроена на минимизацию ошибок, которые имеют наибольшее влияние на питательные оценки.

Исследовательский фронт: что будет дальше

Исследования в области распознавания пищи продолжают развиваться. Несколько активных направлений исследований имеют потенциал для дальнейшего сокращения разрыва между лабораторной точностью и реальной производительностью:

Распознавание на уровне ингредиентов: Переход от классификации на уровне блюда к идентификации отдельных ингредиентов в блюде. Это позволяет более точно оценивать питательную ценность составных продуктов и поддерживает проверку диетических ограничений (например, обнаружение аллергенов).

3D-реконструкция пищи из одиночных изображений: Достижения в области нейронных полей радиации (NeRF) и монохромной 3D-реконструкции предполагают, что вскоре станет возможным создать достаточно точную 3D-модель блюда из одной фотографии, существенно улучшая оценку порций.

Персонализированные модели пищи: Обучение моделей, которые адаптируются к типичным блюдам, предпочтительным ресторанам и стилям приготовления отдельных пользователей. Модель, которая знает, что вы едите одно и то же на завтрак каждый будний день, может достичь почти идеальной точности благодаря персонализации.

Мультимодальное рассуждение: Сочетание визуального распознавания с текстом (описаниями меню, названиями рецептов) и аудио (устными описаниями блюд) для создания более надежных систем понимания пищи.

Федеративное обучение для пищи: Обучение моделей распознавания пищи на устройствах многих пользователей без централизованного хранения сырых данных, сохраняя конфиденциальность, при этом извлекая выгоду из разнообразных реальных обучающих данных.

Часто задаваемые вопросы

Насколько точен ИИ для распознавания пищи сегодня по сравнению с человеческим диетологом?

Для общих продуктов, сфотографированных в хороших условиях, ИИ для распознавания пищи сопоставим или превосходит скорость человеческого диетолога и достигает сопоставимой точности идентификации. Зарегистрированный диетолог обычно может идентифицировать продукт по фотографии с точностью 85-95 процентов. Современные системы ИИ достигают аналогичных уровней для хорошо представленных категорий пищи. Однако диетологи всё ещё превосходят ИИ в отношении редких или неоднозначных продуктов, культурно специфических блюд и оценки порций. Практическое преимущество ИИ заключается в скорости и доступности: он предоставляет мгновенную оценку 24/7, в то время как консультации с диетологом ограничены и дороги.

Что такое набор данных Food-101 и почему он важен?

Food-101 — это эталонный набор данных из 101 000 изображений, охватывающий 101 категорию пищи, опубликованный исследователями из ETH Цюрих в 2014 году. Он важен, потому что предоставил первый широко принятый стандарт для оценки моделей распознавания пищи. До Food-101 исследователи тестировали свои системы на частных или небольших наборах данных, что делало невозможным сравнение результатов. Food-101 позволил воспроизводимые исследования и способствовал быстрому прогрессу в точности классификации пищи, с примерно 50 процентов в 2014 году до более 93 процентов к 2020 году.

Почему распознавать пищу сложнее, чем другие объекты?

Пища представляет собой несколько проблем, которые редко встречаются в общем распознавании объектов: крайняя визуальная вариация внутри одной и той же категории пищи (подумайте о всех вещах, называемых "салат"), высокое визуальное сходство между разными категориями пищи (томатный суп против красного карри), деформируемые и аморфные формы, частое загораживание соусами и начинками, а также широкая вариация в стилях приготовления по всему миру. Кроме того, пищу необходимо как идентифицировать, так и количественно оценивать (оценка порций), что добавляет измерение, которое большинство задач распознавания объектов не требует.

Как передача обучения помогает в распознавании пищи?

Передача обучения включает в себя использование нейронной сети, предварительно обученной на большом общем наборе данных (обычно ImageNet), и дообучение её на меньшем наборе данных, специфичном для пищи. Это работает, потому что низкоуровневые визуальные признаки, изученные на ImageNet (края, текстуры, цвета, формы), являются широко полезными и хорошо переносятся на изображения пищи. Только высокоуровневые, специфичные для пищи признаки нужно изучать с нуля. Передача обучения значительно снижает количество специфичных для пищи обучающих данных, необходимых для обучения, и обычно улучшает точность на 10-20 процентных пунктов по сравнению с обучением с нуля.

Может ли ИИ оценить размеры порций из одного фото?

ИИ может оценить размеры порций из одного фото, но с определенной степенью неопределенности. Без информации о глубине 2D-фото не может точно определить объем пищи. Современные системы комбинируют изученные приоритеты порций (статистические знания о типичных размерах порций), подсказки относительного размера (сравнение пищи с тарелкой или другими объектами) и оценку глубины из монохромных изображений, чтобы производить оценки, которые обычно находятся в пределах 15-30 процентов от истинного размера порции. Это достаточно точно для повседневного отслеживания, но недостаточно точно для клинической оценки диеты.

В чем разница между классификацией пищи и обнаружением пищи?

Классификация пищи присваивает единую метку всему изображению (это изображение содержит пиццу). Обнаружение пищи идентифицирует и локализует несколько продуктов на изображении, рисуя ограничивающие рамки вокруг каждого элемента и классифицируя их независимо (это изображение содержит пиццу в верхнем левом углу, салат в нижнем правом углу и хлебную палочку вверху). Обнаружение — более сложная задача, но она необходима для реальных фотографий блюд, которые почти всегда содержат несколько продуктов.

Как Nutrola использует эти исследования?

Nutrola основывается на полном объеме академических исследований в области распознавания пищи, описанных в этой статье, включая современные архитектуры, обучение на разнообразных реальных данных и оптимизацию для питательной точности, а не только для точности классификации. Система сочетает визуальное распознавание с контекстуальными сигналами и отзывами пользователей, чтобы достичь точности, превышающей то, что достигается в любой отдельной исследовательской статье. Nutrola также вносит вклад в исследовательское сообщество, публикуя результаты о реальной производительности распознавания пищи и проблемах развертывания этих систем в большом масштабе.

Будет ли ИИ для распознавания пищи когда-либо 100 процентов точным?

Идеальная точность маловероятна по нескольким причинам. Некоторые продукты действительно визуально неразличимы (например, белый сахар и соль). Оценка порций из 2D-изображений имеет фундаментальные математические ограничения. А разнообразие глобальных кухонь означает, что всегда будут редкие продукты с ограниченными обучающими данными. Однако актуальный вопрос не в том, будет ли технология идеальной, а в том, будет ли она полезной. На текущих уровнях точности ИИ для распознавания пищи уже снижает трение при учете пищи на 70-80 процентов по сравнению с ручным вводом, и точность продолжает улучшаться с каждым новым поколением моделей и обучающих данных.

Заключение

ИИ для распознавания пищи на вашем телефоне — это результат исследовательского пути, который охватывает более десяти лет. Он начался с прорыва в классификации изображений на конкурсе ImageNet 2012 года, получил фокус через специализированные наборы данных, такие как Food-101, столкнулся с уникальными вызовами пищи как визуальной области и постепенно сократил разрыв между академическими эталонами и реальной производительностью.

Этот путь далеко не завершен. Оценка порций остается открытой исследовательской проблемой. Долгие категории пищи требуют лучшего охвата. Реальная точность продолжает отставать от эталонной точности на значительную величину. Но траектория ясна: каждый год приносит лучшие модели, более богатые обучающие данные и более сложные подходы к сложным проблемам.

Nutrola существует на пересечении этих исследований и практических потребностей людей, стремящихся понять, что они едят. Оставаясь близкими к передовым академическим исследованиям и при этом сосредоточиваясь на реальной производительности, мы работаем над тем, чтобы сделать обещание легкого и точного отслеживания питания реальностью для всех.

Готовы трансформировать отслеживание питания?

Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!