Глобальный разум: почему большинство ИИ не способны распознать бирьяни, арепы и дал

Большинство ИИ для распознавания еды обучались на бургерах и салатах. Вот почему это создаёт огромный разрыв в точности для южноазиатской, латиноамериканской и ближневосточной кухонь, и как модели, обученные на глобальных данных, устраняют эту проблему.

Попросите большинство приложений для распознавания еды идентифицировать тарелку куриного бирьяни — и вы, скорее всего, получите «рис с мясом» или, что ещё хуже, «жареный рис». Последующая оценка калорийности будет ошибаться на 200–400 калорий, потому что модель не имеет представления о пропитанном топлёным маслом басмати, многослойном мариновании или обжаренном луке, вмешанном в блюдо.

Это не нишевая проблема. По данным ООН, более 5,5 миллиарда человек живут за пределами Северной Америки и Европы. Их повседневные блюда — от нигерийского джоллоф-райса до перуанского севиче и японского окономияки — систематически недопредставлены в датасетах, на которых обучаются основные модели ИИ для еды. В результате технология отлично работает для чизбургера, но подводит большинство населения планеты.

Проблема западноцентричных обучающих данных

Модели компьютерного зрения учатся на изображениях, на которых они были обучены. Наиболее широко используемые публичные датасеты еды ясно показывают, где кроется предвзятость.

Food-101, один из основополагающих бенчмарков в исследованиях распознавания еды, содержит 101 категорию продуктов. Примерно 70 процентов из них — западноевропейские или североамериканские блюда: гамбургеры, спагетти болоньезе, салат «Цезарь», яблочный пирог. Южноазиатская кухня представлена одной категорией. Африканская кухня не представлена вообще.

UECFOOD-256, разработанный в Университете электрокоммуникаций в Токио, сильно смещён в сторону японских блюд. Он отлично подходит для распознавания рамена и темпуры, но практически ничего не предлагает для южноамериканских или западноафриканских блюд.

Когда модель, обученная преимущественно на этих датасетах, сталкивается с тарелкой чоле бхатуре, у неё два варианта: ошибочно классифицировать блюдо полностью или сопоставить его с ближайшим западным аналогом. Ни один из вариантов не даёт точного подсчёта калорий.

Почему ошибочная классификация обходится дороже, чем вы думаете

Разница в калорийности между правильной и неправильной классификацией может быть огромной. Рассмотрим реальные примеры:

  • Куриный бирьяни, классифицированный как «куриный жареный рис»: бирьяни, приготовленный на топлёном масле с обжаренным луком, может содержать от 450 до 600 калорий на порцию. Типичная запись о курином жареном рисе в обычной базе данных указывает 300–380 калорий. Это потенциальный недоучёт в 200 калорий за один приём пищи.
  • Арепы, классифицированные как «кукурузный хлеб»: начинённая арепа с сыром и бобами может достигать 500 калорий. Кусок кукурузного хлеба учитывается как 170–200 калорий.
  • Дал махани, классифицированный как «чечевичный суп»: масло и сливки в традиционном дал махани доводят его до 350–450 калорий на чашку. Обычный чечевичный суп — 160–200 калорий.

За неделю эти ошибки накапливаются в сотни и даже тысячи неучтённых калорий — достаточно, чтобы полностью подорвать программу сушки или набора массы.

Сложность блюд мировой кухни

Западные блюда, как правило, имеют относительно видимые, разделимые компоненты: белок, углевод, овощ. Многие незападные кухни представляют принципиально иной вызов для компьютерного зрения.

Многослойные и смешанные блюда

Бирьяни — это многослойное блюдо. Рис, мясо, специи, обжаренный лук и жир интегрированы друг с другом, а не разложены по отдельности. На фотографии поверхности виден только верхний слой. Моле негро из Оахаки содержит более 30 ингредиентов, измельчённых в единый соус. Тайский массаман-карри объединяет кокосовое молоко, жареный арахис, картофель и мясо в единую однородную смесь.

Чтобы ИИ-модель могла точно оценить калорийность, ей нужно понимать не только то, как блюдо выглядит, но и то, что находится внутри него.

Региональные вариации одного и того же блюда

«Хумус», приготовленный в Ливане, Сирии, Израиле и Турции, будет существенно различаться по содержанию оливкового масла, соотношению тахини и размеру порции. Домашний хайдерабадский бирьяни отличается от ресторанного лакхнавского бирьяни как по технике приготовления, так и по калорийности. Тамале варьируются от региона к региону по всей Мексике и Центральной Америке — от начинки из нежирной курицы до свинины на свином жире.

Модели необходим региональный контекст, а не просто распознавание на уровне блюда, чтобы давать надёжные оценки.

Невидимые источники калорий

Многие мировые кулинарные традиции предполагают щедрое использование кулинарных жиров, которые становятся невидимыми в готовом блюде. Индийская кухня использует топлёное масло (гхи). Западноафриканские блюда часто готовят на пальмовом масле. Латиноамериканская кухня включает свиной жир и мантеку. Ближневосточная кухня щедро использует оливковое масло и сливочное масло.

Эти жиры впитываются в блюдо в процессе приготовления. Фотография не может их выявить, но они могут составлять от 30 до 50 процентов общей калорийности.

Как Nutrola подходит к распознаванию еды мировых кухонь

Создание ИИ для еды, который работает для разных кухонь, требует целенаправленных усилий на каждом этапе: сбор данных, архитектура модели и пост-распознавательное сопоставление с данными о питательной ценности.

Разнообразные обучающие данные в масштабе

Обучающий датасет Nutrola включает изображения еды, собранные из более чем 130 стран. Вместо того чтобы полагаться исключительно на общедоступные западноцентричные датасеты, система включает регионально собранные изображения с верифицированными нутрициологами этикетками. Это означает, что модель видела тысячи примеров инджеры с тибсом — не просто стоковые фото, а реальные блюда, сфотографированные в домах и ресторанах Эфиопии и Эритреи.

Нутриентные профили на уровне блюд

Вместо того чтобы разбивать каждое блюдо на обобщённые компоненты, Nutrola поддерживает нутриентные профили для блюд в том виде, в котором они реально готовятся. Дал махани — это не «чечевица + неизвестный жир». Это конкретное блюдо с известным способом приготовления, и оценка калорийности отражает масло, сливки и технику долгого тушения, которые его определяют.

Этот подход распространяется на региональные варианты. Система различает калькуттский бирьяни с картофелем и хайдерабадский дум-бирьяни, потому что их калорийные профили действительно различаются.

Мультимодальный ввод для скрытых ингредиентов

Когда одной фотографии недостаточно, Nutrola использует голосовые и текстовые подсказки для заполнения пробелов. Пользователь может сказать «это было приготовлено на кокосовом масле» или «внутри арепы есть сыр», и система скорректирует оценку соответствующим образом. Этот мультимодальный подход решает проблему невидимых калорий, с которой не могут справиться системы, основанные исключительно на фото.

Что означает улучшенное глобальное распознавание для пользователей

Для миллионов людей, которые ежедневно питаются незападной пищей, точный ИИ для еды — это не роскошная функция. Это разница между трекером питания, который работает, и тем, который незаметно саботирует их цели.

Исследование 2023 года, опубликованное в Journal of the Academy of Nutrition and Dietetics, показало, что приверженность отслеживанию питания снижается на 40 процентов, когда пользователи считают своё приложение неточным. Если ваш трекер систематически неправильно определяет ваши блюда, вы перестаёте ему доверять, а затем перестаёте им пользоваться.

Точное глобальное распознавание еды также важно для диаспорных сообществ. Индийцу-американцу во втором поколении, который в течение недели ест и дал с роти, и салаты, нужно приложение, которое одинаково точно работает с обеими кухнями. Нигерийскому студенту в Лондоне, готовящему суп эгуси, не нужно вручную вводить каждый ингредиент только потому, что ИИ никогда не видел это блюдо.

Путь вперёд для ИИ в сфере еды

Область распознавания еды движется к большему разнообразию, но прогресс неравномерен. Новые датасеты, такие как ISIA Food-500 и Nutrition5k, расширяют охват, а методы трансферного обучения позволяют моделям адаптироваться к недопредставленным кухням с меньшим количеством размеченных данных.

Ключевым отличием в будущем станут верифицированные данные о питательной ценности. Распознать, что блюдо — это бирьяни, лишь половина задачи. Сопоставление этого распознавания с точной разбивкой по калориям и макронутриентам требует регионально-специфических знаний о питании, которые выходят за рамки возможностей обычной базы данных продуктов.

Для всех, кто отслеживает питание за пределами стандартной западной диеты, вопрос к любому ИИ для еды прост: обучалась ли эта система на моей еде?

Часто задаваемые вопросы

Какое приложение лучше всего подходит для подсчёта калорий в индийской еде?

Лучший счётчик калорий для индийской еды должен обладать двумя качествами: моделью распознавания, обученной на разнообразных южноазиатских блюдах, и базой данных питательной ценности, которая учитывает традиционные методы приготовления. Приложения, обученные преимущественно на западных датасетах, склонны ошибочно классифицировать такие блюда, как бирьяни, панир тикка и дал махани, как обобщённые записи, что приводит к значительным ошибкам в калорийности. Модель Nutrola обучена на изображениях еды из более чем 130 стран и поддерживает нутриентные профили для конкретных блюд, отражающие реальные методы приготовления, включая гхи, сливки и региональные вариации.

Почему мой счётчик калорий даёт неправильные результаты для этнической еды?

Большинство массовых трекеров питания используют модели распознавания, обученные на датасетах с преобладанием западных кухонь, таких как Food-101. Когда эти модели сталкиваются с незнакомыми блюдами, они либо ошибочно классифицируют их как визуально похожее западное блюдо, либо по умолчанию используют обобщённые записи из базы данных. Нутриентные профили для этих некорректных совпадений часто отличаются на сотни калорий, особенно для блюд, приготовленных на кулинарных жирах — гхи, пальмовом масле или кокосовом молоке, — которые невидимы на фотографиях.

Может ли ИИ точно отслеживать калории в ближневосточной еде?

ИИ может точно отслеживать ближневосточную еду, если модель была специально обучена на таких блюдах, как шаурма, фаттуш, киббе и мансаф, и если база данных питательной ценности учитывает содержание оливкового масла, тахини и сливочного масла. Многие блюда ближневосточной кухни получают значительную часть калорий из жиров, добавляемых в процессе приготовления. Система, которая сочетает распознавание по фото с деталями приготовления, предоставленными пользователем, — например, количество использованного оливкового масла, — даст более надёжные оценки.

Как ИИ для еды справляется с блюдами из множества смешанных ингредиентов?

Сложные блюда со смешанными или многослойными ингредиентами — такие как моле, бирьяни и рагу — являются одной из самых трудных задач в распознавании еды. Системы, основанные исключительно на изображениях, могут анализировать только видимую поверхность, упуская внутренние слои и впитавшиеся жиры. Продвинутый ИИ для еды решает эту проблему через распознавание на уровне блюда целиком, а не отдельных компонентов, и через мультимодальный ввод, при котором пользователи могут добавлять детали о скрытых ингредиентах с помощью текста или голоса. Такой комбинированный подход значительно повышает точность для сложных многокомпонентных блюд.

Насколько точны краудсорсинговые данные о питании для международных кухонь?

Краудсорсинговые базы данных питательной ценности, как правило, наименее точны именно для международных кухонь. Записи о таких блюдах, как джоллоф-райс, севиче или пад-тай, часто добавляются пользователями, которые могут не учитывать региональные вариации, кулинарные жиры или аутентичные методы приготовления. Одна запись «бирьяни» не может отразить диапазон калорийности от лёгкого овощного бирьяни до насыщенного бараньего дум-бирьяни. Верифицированные базы данных с регионально-специфическими нутриентными профилями и детализацией на уровне вариантов предоставляют существенно более надёжные данные для незападных кухонь.

Готовы трансформировать отслеживание питания?

Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!

Почему ИИ не распознаёт незападную еду: бирьяни, дал и другие блюда | Nutrola