Чи може ШІ визначити, скільки калорій у моїй страві за фотографією?

Так, ШІ може оцінити калорії за фотографією їжі з вражаючою точністю. Ось як працює ця технологія — від комп'ютерного зору до оцінки порцій — і де вона все ще має труднощі.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Ідея виглядає настільки зручною, що важко повірити, що це реально. Ви робите фото своєї тарілки з вечерею, і за кілька секунд ШІ повідомляє, що ваша страва містить 647 калорій, 42 грами білка, 58 грамів вуглеводів і 24 грами жиру. Ніяких мірних чашок. Ніяких ваг. Ніякого введення даних у пошуковий рядок.

Але чи може ШІ дійсно це зробити? І якщо так, то наскільки добре?

Коротка відповідь — так, ШІ може оцінити калорії за фотографією їжі з практично корисною точністю. У 2026 році найкращі системи відстеження їжі на основі ШІ досягають точності оцінки калорій в межах 8-12 відсотків від значень, виміряних у лабораторії, для більшості страв. Це точніше, ніж середня ручна оцінка калорій, яка, як показують дослідження, зазвичай помиляється на 20-40 відсотків (Lichtman et al., 1992).

Довша відповідь вимагає розуміння того, що відбувається між моментом, коли ви натискаєте кнопку затвора, і моментом, коли число калорій з'являється на екрані. Це багатоступеневий процес, і кожен етап має свої можливості та обмеження.

Чотириступенева схема: від фото до калорій

Коли ви фотографуєте страву, а ШІ повертає дані про калорії, чотири різні обчислювальні процеси виконуються послідовно, зазвичай за кілька секунд.

Крок 1: Обробка зображення та виявлення їжі

Першим завданням є найосновніше: ШІ має визначити, де в зображенні є їжа, і сегментувати фото на окремі ділянки з їжею.

Це використовує клас моделей глибокого навчання, званих мережами виявлення об'єктів — зокрема, архітектури на кшталт YOLO (You Only Look Once) та її наступників, або моделі виявлення на основі трансформерів, такі як DETR. Ці моделі були навчені на мільйонах анотованих зображень їжі, де люди малювали обмежувальні рамки навколо кожного продукту.

Результатом цього кроку є набір ділянок на зображенні, кожна з яких містить підозрюваний продукт. Фото тарілки з вечерею може дати чотири ділянки: одну для білка, одну для крохмалю, одну для овочів і одну для соусу.

Що ускладнює цей крок:

  • Продукти, які перекриваються або частково приховані (листя салату під курячою грудкою)
  • Суміші страв, де інгредієнти не можна візуально розділити (рагу, запіканка)
  • Схожі продукти, розташовані поруч (два види рису поряд)
  • Непродовольчі об'єкти в кадрі (прилади, серветки, пляшки з приправами)

Крок 2: Класифікація їжі

Після того, як ШІ виявив ділянки з їжею, він має класифікувати кожну ділянку — що це за конкретний продукт?

Це використовує моделі класифікації зображень, зазвичай згорткові нейронні мережі (CNN) або трансформери зору (ViTs), навчені на позначених наборах даних з їжею. Модель бере кожну ділянку їжі і видає ймовірнісне розподілення по сотнях або тисячах категорій їжі.

Сучасні системи розпізнавання їжі працюють з вокабулярами 2000-10000+ категорій їжі. Наприклад, ШІ Nutrola навчається розпізнавати продукти з понад 50 країн, що вимагає надзвичайно широкого вокабуляру, який включає не лише "рис", а й такі відмінності, як басматі, жасминовий, суші та клейкий рис — оскільки калорійність значно відрізняється.

Що ускладнює цей крок:

  • Візуально схожі продукти з різними калорійними профілями (білий рис проти рису з цвітної капусти: 130 проти 25 калорій на чашку)
  • Регіональні варіації продуктів ( "пельмень" виглядає по-різному в Китаї, Польщі та Непалі)
  • Приготовлені страви, де метод приготування не видно (курка смажена чи запечена? Різниця в калоріях суттєва)
  • Соуси та заправки, які часто приховані або змішані

Крок 3: Оцінка розміру порції

Цей етап вважається найскладнішим у всій схемі. Правильна ідентифікація їжі необхідна, але недостатня — також потрібно знати, скільки її є.

ШІ має оцінити фізичний об'єм або вагу кожного продукту з 2D-фотографії. Це вкрай складна задача: 2D-зображення не містить повної 3D-інформації. Одна й та ж фотографія може зображати велику тарілку їжі далеко від камери або маленьку тарілку близько до камери.

Системи ШІ використовують кілька стратегій, щоб обійти це:

Масштабування за допомогою об'єкта-референсу: Тарілка сама по собі слугує еталоном. Стандартні обідні тарілки зазвичай мають діаметр 10-12 дюймів, і ШІ використовує цей розмір для оцінки масштабу продуктів. Саме тому включення краю тарілки у ваше фото покращує точність.

Вивчені статистичні дані про порції: ШІ навчився з навчальних даних, як виглядають "типові" порції. Чаша з кашею з молоком зазвичай містить 200-350 калорій. Куряча грудка на тарілці зазвичай важить 4-8 унцій. Ці статистичні дані забезпечують розумні стандартні оцінки, навіть коли точне вимірювання неможливе.

Оцінка глибини: Деякі системи використовують моделі оцінки глибини з одного зображення — ШІ, яке виводить 3D-глибину з 2D-зображення — для оцінки висоти та об'єму продуктів. Нові iPhone з датчиками LiDAR можуть надавати реальні дані про глибину, хоча не всі програми використовують цю можливість.

Моделі щільності їжі: Після оцінки об'єму ШІ застосовує специфічні моделі щільності їжі, щоб перетворити об'єм на вагу. Це необхідно, оскільки різні продукти мають дуже різну щільність — чашка шпинату важить близько 30 грамів, тоді як чашка арахісового масла важить близько 258 грамів.

Що ускладнює цей крок:

  • Прихована їжа під іншою їжею (чаша супу може містити значні інгредієнти під поверхнею)
  • Калорійно щільні інгредієнти в малих обсягах (столова ложка оливкової олії додає 120 калорій, але майже не видно)
  • Змінна щільність їжі (вільно упакований проти щільно упакованого рису)
  • Незвичайні посудини, які порушують припущення про розмір тарілки

Крок 4: Перевірка в базі даних харчування

Останній крок пов'язує виявлену їжу (з Кроку 2) та оцінену порцію (з Кроку 3) з базою даних харчування для отримання значень калорій і макронутрієнтів.

Цей етап часто ігнорується в обговореннях точності відстеження їжі за допомогою ШІ, але він критично важливий. Вихід ШІ настільки ж надійний, як і база даних, до якої він звертається.

Типи баз даних харчування:

Тип бази даних Джерело Якість Обмеження
Державні бази даних (USDA, EFSA) Лабораторні дані Висока Обмежений асортимент продуктів, переважно сирі інгредієнти
Краудсорсингові бази даних Подання користувачів Змінна Непослідовність, дублювання, помилки
Бази даних, перевірені дієтологами Професійна перевірка Дуже висока Вимагає значних постійних інвестицій
Бази даних конкретних ресторанів Дані брендів/мереж Помірна Охоплює лише конкретні заклади

Nutrola використовує 100% базу даних, перевірену дієтологами, що означає, що кожен запис про їжу був перевірений кваліфікованими фахівцями з харчування. Це забезпечує важливу точність: навіть якщо візуальна ідентифікація ШІ має незначні помилки, харчування, до якого воно звертається, є клінічно надійним. Багато конкурентних програм покладаються на краудсорсингові бази даних, де один запис для "курячого карі" міг бути поданий користувачем, який здогадувався про значення — і цей неточний запис потім отримує кожен наступний користувач.

Ландшафт точності у 2026 році

Наскільки точна ця чотириступенева схема на практиці? Відповідь значно варіюється залежно від конкретного додатку, типу їжі та умов фотографії.

Загальна продуктивність

Найкращі системи відстеження їжі на основі ШІ у 2026 році досягають наступних рівнів точності:

Показник Провідні додатки Середні додатки Додатки на ранніх стадіях
MAPE калорій (середня абсолютна відсоткова помилка) 8-12% 13-18% 19-30%
Точність ідентифікації їжі 88-94% 75-85% 60-75%
Точність оцінки порцій 80-88% 65-78% 50-65%
Частка калорій в межах 10% 65-75% 40-55% 20-35%

Для контексту, 10% MAPE на страві з 600 калоріями означає, що оцінка ШІ зазвичай знаходиться в межах 60 калорій від істинного значення. Це різниця між 600 і 660 калоріями — межа, яка є харчово незначною для практично всіх цілей.

Де ШІ досягає успіху

Деякі типи їжі майже ідеально підходять для оцінки калорій за допомогою ШІ:

  • Одинокі, чітко видимі продукти: Банан, яблуко, варене яйце. ШІ може ідентифікувати їх з майже ідеальною точністю, а порція (один середній банан, одне велике яйце) є однозначною.
  • Стандартні страви на тарілці: Білок, крохмаль і овоч на стандартній тарілці. Чітке розділення робить ідентифікацію та оцінку порцій простими.
  • Популярні ресторанні страви: Популярні страви з послідовними методами приготування. Маргарита, салат Цезар або тарілка спагетті карбонара виглядають достатньо схоже в різних ресторанах, щоб середні значення, отримані ШІ, були надійними.
  • Упаковані продукти, сфотографовані з видимими етикетками: Коли ШІ може прочитати текст на упаковці, він може звірити з базами даних продуктів для точних відповідностей.

Де ШІ все ще має труднощі

Деякі сценарії залишаються дійсно складними:

  • Приховані калорії: Олії для приготування, масло, соуси та заправки, які всмоктуються в їжу або не є візуально відмінними. Столова ложка оливкової олії (120 калорій), полита на салат, майже невидима на фото.
  • Суміші страв у мисках: Рагу, карі, супи та запіканки, де рідина приховує тверді інгредієнти. Чаша чилі, сфотографована зверху, може містити від 300 до 700 калорій залежно від вмісту м'яса, щільності бобів і вмісту жиру.
  • Обманливі розміри порцій: Плоска широка тарілка проти глибокої миски може представляти візуально схожі фотографії з дуже різними обсягами їжі.
  • Незнайомі або регіональні продукти: Продукти, які не входять у навчальний розподіл ШІ. Рідкісна традиційна страва з конкретного регіону може не відповідати жодній категорії у вокабулярі моделі.

Як підхід Nutrola вирішує ці проблеми

Система ШІ Nutrola була розроблена для пом'якшення відомих слабкостей аналізу фотографій їжі за допомогою кількох специфічних стратегій.

Різноманітні навчальні дані

ШІ Nutrola навчається на зображеннях їжі з кухонь понад 50 країн, зібраних з бази користувачів програми (з дозволом та анонімізацією). Ця широта навчальних даних означає, що ШІ стикається з крайніми випадками з кожної кулінарної культури, а не є вузько оптимізованим для дієти одного регіону.

Перевірена дієтологами система безпеки

Навіть коли візуальний аналіз ШІ є недосконалим, 100% база даних Nutrola, перевірена дієтологами, діє як коригуючий шар. Якщо ШІ ідентифікує їжу як "курка тикка масала", дані про калорії, які він повертає, були визначені професіоналом з харчування, який врахував типові методи приготування, використання олії та щільність порцій — а не випадковим користувачем, який здогадувався.

Багатофункціональні варіанти введення

Для ситуацій, коли одне фото недостатньо, Nutrola пропонує альтернативні методи ведення обліку:

  • Голосове введення: Опишіть свою страву природною мовою. Це корисно для продуктів, які ви їли раніше і не можете сфотографувати, або для додавання контексту, який ШІ не може побачити ("приготовлено на двох столових ложках кокосової олії").
  • AI Дієтолог: Запитайте ШІ про свою страву. "Я мав чашу рамену в ресторані — бульйон, напевно, був на свинині чи курятині?" AI Дієтолог може допомогти уточнити оцінки на основі розмовного контексту.
  • Ручне коригування: Після того, як ШІ надає свою первинну оцінку, ви можете коригувати порції, змінювати продукти та додавати відсутні компоненти з мінімальними натисканнями.

Безперервне навчання

Кожне коригування, яке робить користувач — коригування порції, заміна продукту, додавання пропущеного інгредієнта — потрапляє назад у навчальний процес Nutrola. З понад 2 мільйонами активних користувачів це створює величезний зворотний зв'язок, який постійно покращує точність ШІ на реальних стравах.

Наукові основи розпізнавання їжі за допомогою ШІ

Для читачів, які цікавляться технічними основами, ось короткий огляд ключових досліджень, які зробили можливим оцінювання калорій за фотографіями їжі.

Ключові етапи

2014 — Набір даних Food-101: Дослідники з ETH Zurich опублікували набір даних Food-101, що містить 101 000 зображень 101 категорії їжі. Це став першим стандартизованим еталоном для розпізнавання їжі за допомогою ШІ та каталізатором досліджень у цій галузі (Bossard et al., 2014).

2016 — Прорив у глибокому навчанні: Застосування глибоких згорткових нейронних мереж для розпізнавання їжі підвищило точність ідентифікації вище 80 відсотків вперше, що було продемонстровано дослідниками з MIT та Google (Liu et al., 2016).

2019 — Прогрес в оцінці порцій: Набір даних Nutrition5k від Google Research надав парні дані зображень їжі з лабораторно виміряним харчовим вмістом, що дозволило створити перші точні моделі оцінки порцій (Thames et al., 2021).

2022 — Революція трансформерів зору: Впровадження трансформерів зору (ViT) для розпізнавання їжі покращило точність на 5-8 відсоткових пунктів у порівнянні з традиційними підходами CNN, особливо для тонкого класифікації їжі (Dosovitskiy et al., 2022).

2024-2026 — Комерційна зрілість: Великомасштабні комерційні програми, такі як Nutrola, об'єднали досягнення в розпізнаванні їжі, оцінці порцій і якості бази даних, щоб досягти практичних рівнів точності, які підтримують щоденне відстеження калорій.

Актуальні напрямки досліджень

Наукова спільнота активно працює над кількома напрямками, які ще більше покращать точність:

  • 3D-реконструкція їжі з одиничних зображень, використовуючи генеративний ШІ для більш точної оцінки об'єму їжі
  • Розпізнавання інгредієнтів на рівні, яке ідентифікує окремі інгредієнти в змішаних стравах
  • Виявлення методу приготування, яке відрізняє смаження, запікання, варіння та парове приготування
  • Аналіз з кількох фотографій, який об'єднує види з різних кутів для кращої оцінки порцій

Практичні наслідки: Чи варто довіряти оцінкам калорій від ШІ?

Враховуючи все вищезазначене, ось збалансована оцінка того, коли і наскільки довіряти оцінкам калорій від ШІ за фотографіями їжі.

Ви можете впевнено довіряти оцінкам ШІ, коли:

  • Страва складається з чітко видимих, роздільних продуктів
  • Ви використовуєте додаток з перевіреною базою даних харчування (не краудсорсинговою)
  • Кухня добре представлена в навчальних даних програми
  • Ви переглядаєте та коригуєте вихідні дані ШІ, коли вони виглядають неправильно
  • Ваша мета — орієнтовна точність (залишатися в межах калорійного діапазону), а не точна точність

Вам слід застосувати додаткову увагу, коли:

  • Страва є складною змішаною стравою (рагу, запіканка, густе карі)
  • Використовувалося значне кількість жиру для приготування, яке не видно
  • Їжа походить з кухні або регіону, які ви підозрюєте, що недостатньо представлені в навчальних даних ШІ
  • Точні підрахунки калорій є медично необхідними (кліничні харчові сценарії)

У порівнянні з альтернативами:

Метод Типова точність Час, необхідний Послідовність
Оцінка за фото ШІ (найкращі додатки) 88-92% 3-5 секунд Висока
Ручне самозвітування 60-80% 4-7 хвилин Низька (залежно від втоми)
Ваги + перевірка бази даних 95-98% 10-15 хвилин Висока (але рідко підтримується)
Відсутність обліку 0% 0 секунд Н/А

Метод зважування є найточнішим, але практично ніхто, окрім клінічних досліджень, не підтримує його довгостроково. Оцінка за фото ШІ досягає практичного компромісу: достатньо точна, щоб бути дійсно корисною, і досить швидка, щоб бути стійкою.

Підсумок

Так, ШІ може визначити, скільки калорій у вашій страві за фотографією — і в 2026 році він робить це з точністю, яка суттєво перевершує людські оцінки. Технологія об'єднує виявлення їжі, класифікацію, оцінку порцій і перевірку бази даних харчування в процес, який триває кілька секунд.

Якість результатів сильно залежить від конкретного додатку, який ви використовуєте. Ключові фактори — це широта навчальних даних, якість бази даних харчування та точність оцінки порцій. Поєднання глобально різноманітного навчання ШІ (більше 50 країн), 100% перевіреної дієтологами бази даних і часу відповіді менше трьох секунд представляє сучасний стан технологій для аналізу фотографій їжі для споживачів.

Технологія не є ідеальною — приховані жири, складні змішані страви та незвичні продукти залишаються викликами. Але вона достатньо хороша, щоб питання змістилося з "чи може ШІ це зробити?" на "як отримати найбільш точні результати?" І цей зсув сам по собі є знаковим моментом для мільйонів людей, які підходять до відстеження харчування.


Посилання:

  • Lichtman, S. W., et al. (1992). "Різниця між самозвітованим і фактичним споживанням калорій та фізичною активністю у людей з ожирінням." New England Journal of Medicine, 327(27), 1893-1898.
  • Bossard, L., Guillaumin, M., & Van Gool, L. (2014). "Food-101 — Видобуток дискримінаційних компонентів за допомогою випадкових лісів." European Conference on Computer Vision, 446-461.
  • Liu, C., et al. (2016). "DeepFood: Розпізнавання зображень їжі на основі глибокого навчання для комп'ютерного оцінювання дієти." International Conference on Smart Homes and Health Telematics, 37-48.
  • Thames, Q., et al. (2021). "Nutrition5k: До автоматичного харчового розуміння загальної їжі." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 8903-8911.
  • Dosovitskiy, A., et al. (2022). "Зображення варте 16x16 слів: Трансформери для розпізнавання зображень в масштабах." International Conference on Learning Representations.

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!