Ми проаналізували 10 мільйонів фотографій їжі: 20 найчастіше неправильно ідентифікованих продуктів штучним інтелектом
Дані з системи розпізнавання їжі Nutrola показують, які продукти найважче правильно ідентифікувати комп'ютерному зору, чому алгоритми плутаються та як ми покращили точність.
Дані про розпізнавання їжі за допомогою штучного інтелекту
Розпізнавання їжі за допомогою штучного інтелекту змінило підходи до відстеження харчування. Замість того, щоб шукати в базах даних і вгадувати порції, ви просто фотографуєте їжу, а комп'ютерний зір виконує всю роботу. Функція Snap & Track від Nutrola обробляє мільйони зображень їжі щомісяця, і користувачі в більш ніж 50 країнах покладаються на неї як на основний метод ведення обліку.
Проте розпізнавання їжі AI не є досконалим. Деякі продукти постійно вводять в оману навіть найсучасніші моделі комп'ютерного зору. Щоб зрозуміти, де технологія досягає успіху, а де стикається з труднощами, ми проаналізували 10 мільйонів фотографій їжі, оброблених через систему Snap & Track Nutrola з січня 2025 року по січень 2026 року. Ми порівняли ідентифікації AI з виправленнями користувачів, ручними перевірками та оглядами дієтологів, щоб розрахувати точність для кожного продукту та виявити систематичні шаблони неправильної ідентифікації.
Ось що ми виявили.
Методологія
Наш аналіз включав 10,247,831 фотографій їжі, надісланих користувачами Nutrola з 53 країн. Для кожної фотографії ми відстежували:
- Початкова ідентифікація AI: Продукт(и), які AI ідентифікував з найвищим балом впевненості
- Рівень виправлення користувачем: Як часто користувач змінював ідентифікацію AI на інший продукт
- Перевірка дієтологом: Випадкова вибірка з 50,000 зображень була перевірена кваліфікованими дієтологами для встановлення точності незалежно від виправлень користувачів
- Точність top-1: Чи була правильна найвища ідентифікація AI
- Точність top-3: Чи з'явився правильний продукт серед трьох найвищих ідентифікацій AI
В цілому, Snap & Track від Nutrola досягнув точності top-1 на рівні 87.3% та точності top-3 на рівні 94.1% у всіх категоріях їжі. Ці показники відповідають опублікованим стандартам для сучасних моделей розпізнавання їжі, які зазвичай повідомляють про 80-90% точності top-1 на стандартних наборах даних, таких як Food-101 та ISIA Food-500.
Проте точність суттєво варіюється в залежності від типу їжі. Деякі категорії перевищують 95% точності top-1, тоді як інші опускаються нижче 60%.
20 найчастіше неправильно ідентифікованих продуктів
Повний рейтинг
| Ранг | Продукт | Точність Top-1 | Точність Top-3 | Найпоширеніша помилка в ідентифікації | Помилка в калоріях при неправильній ідентифікації |
|---|---|---|---|---|---|
| 1 | Кускус | 52.1% | 71.4% | Кіноа, булгур, рис | +/- 15-40 ккал на порцію |
| 2 | Грецький йогурт (природний) | 55.8% | 78.2% | Сметана, лабне, звичайний йогурт | +/- 30-80 ккал на порцію |
| 3 | Рис з цвітної капусти | 57.3% | 74.6% | Білий рис, кускус | +110-150 ккал на порцію |
| 4 | Місо-суп | 58.9% | 76.1% | Інші бульйони, даші | +/- 20-60 ккал на порцію |
| 5 | Види плоского хліба | 59.4% | 73.8% | Нан проти роти проти піти проти тортильї | +/- 50-150 ккал на шматок |
| 6 | Асаї боул | 61.2% | 79.5% | Смузі боул, змішаний ягідний боул | +/- 100-200 ккал на боул |
| 7 | Індичий бекон | 62.0% | 80.1% | Свинячий бекон | +40-70 ккал на порцію |
| 8 | Темпе | 63.4% | 77.9% | Тофу (твердий), сейтан | +/- 30-80 ккал на порцію |
| 9 | Локшина з цукіні | 64.1% | 81.3% | Звичайна паста, скляна локшина | +150-200 ккал на порцію |
| 10 | Баба гануш | 64.8% | 79.7% | Хумус | +30-60 ккал на порцію |
| 11 | Філе білого риби | 65.2% | 82.4% | Куряча грудинка, інші види білої риби | +/- 20-50 ккал на порцію |
| 12 | Протеїнові млинці | 66.1% | 83.0% | Звичайні млинці | +80-150 ккал на порцію |
| 13 | Вівсяне молоко | 67.3% | 84.2% | Звичайне молоко, мигдалеве молоко, соєве молоко | +/- 30-80 ккал на чашку |
| 14 | Темно-зелені листові овочі (приготовлені) | 67.9% | 85.1% | Шпинат проти капусти проти кольрабі проти мангольда | +/- 5-15 ккал на порцію |
| 15 | Десерти без цукру | 68.4% | 80.6% | Звичайні версії того ж десерту | +100-250 ккал на порцію |
| 16 | Зернові боули | 69.1% | 83.7% | Неправильна ідентифікація типу зернової основи | +/- 40-100 ккал на порцію |
| 17 | М'ясо на рослинній основі | 69.8% | 84.9% | Справжнє м'ясо | +/- 30-80 ккал на порцію |
| 18 | Пельмені | 70.2% | 85.6% | Вонтон проти гьози проти пирогів проти мому | +/- 20-60 ккал на шматок |
| 19 | Змішані карі страви | 70.5% | 82.3% | Плутанина між типами карі та основами | +/- 50-150 ккал на порцію |
| 20 | Вівсянка на ніч | 71.0% | 86.2% | Звичайна вівсянка, чіа пудинг | +/- 50-120 ккал на порцію |
Чому ці продукти плутають AI: п'ять шаблонів
Шаблон 1: Візуальні близнюки з різними калорійними профілями
Найпоширеніша причина неправильної ідентифікації — це продукти, які виглядають майже ідентично, але мають суттєво різні харчові профілі. Кускус і кіноа, наш найчастіше неправильно ідентифікований продукт, візуально майже не відрізняються на фотографії, особливо коли змішані з овочами або соусом. Проте кіноа містить приблизно на 20% більше калорій і значно більше білка на порцію, ніж кускус.
Аналогічно, рис з цвітної капусти та білий рис мають практично ідентичні візуальні характеристики на фото, але різниця в калоріях величезна: приблизно 25 ккал на чашку для рису з цвітної капусти проти 200+ ккал для білого рису. Коли AI неправильно ідентифікує рис з цвітної капусти як білий рис, облік калорій може бути завищений на 150 або більше калорій для однієї порції.
Грецький йогурт, сметана та лабне представляють ще один кластер візуальних близнюків. Усі три є білими, кремовими і зазвичай подаються в мисках. Грецький йогурт з повним вмістом жиру містить приблизно 130 ккал на чашку, тоді як сметана — близько 445 ккал на чашку. Неправильна ідентифікація тут може суттєво спотворити розрахунок добового споживання користувача.
Шаблон 2: Регіональні варіації схожих продуктів
Плоскі хліби зайняли п'яте місце в нашому списку, оскільки ця категорія охоплює десятки візуально схожих, але з харчової точки зору різних продуктів з різних культур. Звичайна тортилья з пшеничного борошна (приблизно 120 ккал) виглядає схоже на нан (приблизно 260 ккал) на фотографіях, особливо коли частково складена або згорнута. Рота (приблизно 100 ккал) і парата (приблизно 260 ккал, через наявність масла/масла) можуть виглядати не відрізняючи, хоча одна з них має більше ніж удвічі калорій.
Пельмені (18-е місце) представляють ту ж проблему. Японські гьози, китайські дзяози, польські пироги, непальські мому та грузинські хінкалі мають схожий форм-фактор (тестяна оболонка з начинкою), але суттєво відрізняються за розміром, товщиною оболонки, складом начинки та методом приготування (на пару, смажені або варені).
Перевага Nutrola полягає в охопленні понад 50 країн. Модель AI навчена на зображеннях їжі з усіх основних кулінарних традицій, що надає їй ширший візуальний словник, ніж моделі, які в основному навчалися на західній кулінарній фотографії. Проте внутрішньокатегорійні відмінності залишаються складними.
Шаблон 3: Продукти-замінники, які імітують оригінали
Зростання популярності дієтичних замінників створило новий клас викликів для розпізнавання. Індичий бекон імітує свинячий бекон. Рослинні бургери імітують яловичі бургери. Локшина з цукіні імітує пасту. Протеїнові млинці імітують звичайні млинці. Десерти без цукру імітують свої повноцукрові аналоги.
Ці замінники спеціально розроблені, щоб виглядати як продукти, які вони замінюють. Це і є основна мета з точки зору задоволення споживачів, але це створює фундаментальну проблему для систем візуального розпізнавання. Калорійні наслідки можуть бути суттєвими: звичайні млинці в середньому містять 175 ккал кожен, тоді як протеїнові млинці зазвичай містять 90-110 ккал кожен. Локшина з цукіні містить приблизно 20 ккал на чашку проти 220 ккал для вареної спагетті.
У нашому наборі даних замінники мали середню точність top-1 на рівні 66.7%, порівняно з 89.2% для їхніх незамінних аналогів. Це область, де контекстуальні сигнали (дієтичні уподобання користувача, минулі патерни ведення обліку) можуть допомогти, і AI Nutrola враховує ці сигнали для покращення прогнозів.
Шаблон 4: Рідкі та напіврідкі продукти
Супи, смузі боули та напої постійно важче для AI ідентифікувати, ніж тверді продукти. Місо-суп (4-е місце) — це прозора рідина з видимими шматочками тофу та водоростей, які можуть бути переплутані з іншими азійськими бульйонами. Асаї боули (6-е місце) мають візуальні характеристики, схожі на інші ягоди смузі боули, але суттєво відрізняються за калорійним вмістом в залежності від базового складу та топінгів.
Проблема з рідкими продуктами полягає в тому, що критична харчова інформація буквально невидима. Дві чашки рідини, які виглядають ідентично на фотографії, можуть містити від 10 ккал (чорна кава) до 400 ккал (висококалорійний смузі). Nutrola вирішує цю проблему, запитуючи користувачів про деталі, коли виявляє рідкі продукти: "Це звичайна чи дієтична версія?" "Який це бренд?"
Шаблон 5: Змішані страви з прихованими інгредієнтами
Страви карі (19-е місце) та зернові боули (16-е місце) представляють ширшу проблему: багатокомпонентні страви, де харчово значущі інгредієнти приховані від погляду. Тайське зелене карі може бути приготоване з кокосового молока (додає 200+ ккал на порцію) або легкого бульйону. Калорійність зернового боулу сильно залежить від того, чи є основою кіноа, білий рис, коричневий рис чи фарро, які можуть бути приховані під топінгами.
Змішані страви складають приблизно 35% усіх страв, зафіксованих користувачами Nutrola, але представляють 52% значних помилок в оцінці калорій (визначених як помилки, що перевищують 15% від справжнього калорійного вмісту страви).
Як Nutrola покращила точність
Ітеративне навчання моделі
Кожне виправлення користувача в Nutrola потрапляє назад у навчальний процес моделі AI. Коли користувач змінює "кіноа" на "кускус", це виправлення разом з оригінальним зображенням додається до навчального набору даних. Протягом 12-місячного періоду нашого аналізу цей процес безперервного навчання покращив загальну точність top-1 з 82.6% до 87.3%, що становить приріст на 4.7 відсоткових пункти.
| Квартал | Точність Top-1 | Точність Top-3 | Середня помилка в калоріях |
|---|---|---|---|
| Q1 2025 | 82.6% | 90.3% | 47 ккал |
| Q2 2025 | 84.1% | 91.8% | 41 ккал |
| Q3 2025 | 85.9% | 93.2% | 36 ккал |
| Q4 2025 | 86.8% | 93.9% | 33 ккал |
| Q1 2026 (частковий) | 87.3% | 94.1% | 31 ккал |
Контекстуальні сигнали
AI Nutrola не ідентифікує продукти у вакуумі. Він враховує контекстуальні сигнали для покращення точності:
- Дієтичний профіль користувача: Якщо користувач вказав, що дотримується рослинної дієти, модель підвищує бали впевненості для рослинних альтернатив (тофу замість курки, вівсяне молоко замість молока, рослинний бургер замість яловичини).
- Час прийому їжі: Зображення сніданків більш ймовірно містять сніданкові продукти. Це здається очевидним, але суттєво покращує точність для неоднозначних предметів, таких як вівсянка на ніч проти чіа пудингу.
- Географічне положення: Фотографія, зроблена в Токіо, з більшою ймовірністю буде місо-супом, ніж мінестронею. Nutrola обслуговує користувачів у понад 50 країнах і використовує загальні дані про місцезнаходження (з дозволу користувача) для коригування пріоритетів ідентифікації їжі.
- Минула історія ведення обліку: Якщо користувач регулярно веде облік рису з цвітної капусти, модель вчиться, що цей користувач з більшою ймовірністю споживатиме рис з цвітної капусти, ніж білий рис, коли візуальний вхід є неоднозначним.
Розпізнавання з кількох зображень
У 2025 році Nutrola впровадила можливість робити кілька фотографій однієї страви з різних кутів. Для складних страв і неоднозначних продуктів другий кут може усунути невизначеність в ідентифікації. У тестуванні розпізнавання з кількох кутів покращило точність top-1 для 20 найчастіше неправильно ідентифікованих продуктів на 8.2 відсоткових пункти.
Пороги впевненості та запити до користувачів
Коли бал впевненості AI падає нижче 75%, Nutrola пропонує користувачу три найкращі кандидати замість автоматичного ведення обліку найкращого результату. Користувачі можуть вибрати правильну ідентифікацію або ввести назву продукту. Цей прозорий підхід означає, що ідентифікації з низькою впевненістю виявляються та виправляються до того, як вони вплинуть на точність відстеження калорій.
Вплив помилок ідентифікації на калорії
Не всі неправильно ідентифіковані продукти однакові. Плутанина між капустою та шпинатом (14-е місце) має калорійний вплив 5-15 ккал на порцію, що є харчово незначним. Плутанина між рисом з цвітної капусти та білим рисом (3-тє місце) або локшиною з цукіні та пастою (9-те місце) може ввести помилки на 150-200 ккал, що достатньо, щоб суттєво вплинути на добовий калорійний бюджет.
Ми розрахували зважений вплив калорій неправильної ідентифікації в нашому наборі даних:
| Діапазон помилки в калоріях | % усіх неправильної ідентифікації | Практичний вплив |
|---|---|---|
| Менше 25 ккал | 38.2% | Невеликий |
| 25-75 ккал | 29.6% | Незначний |
| 75-150 ккал | 19.7% | Помірний, помітний з часом |
| 150-250 ккал | 9.1% | Значний, може вплинути на добові цілі |
| Понад 250 ккал | 3.4% | Важливий, еквівалентний невеликій страві |
Медіана помилки в калоріях для всіх неправильно ідентифікованих продуктів становила 42 ккал, що знаходиться в межах похибки для більшості цілей відстеження харчування. Проте хвіст розподілу (12.5% неправильної ідентифікації, які вводять помилки понад 150 ккал) — це те місце, де розпізнавання їжі AI має найбільше можливостей для покращення.
Що можуть зробити користувачі для покращення точності AI
Робіть чіткі, добре освітлені фотографії. AI працює найкраще за хорошого освітлення та чіткого верхнього виду тарілки. Темні фотографії з ресторанів і екстремальні кути знижують точність в середньому на 6 відсоткових пунктів.
Розділіть компоненти, коли це можливо. Якщо ваша страва має окремі компоненти (білок, зерно, овочі), їхнє розташування з видимим розділенням допомагає AI ідентифікувати кожен елемент окремо, а не розглядати тарілку як одну змішану страву.
Використовуйте функцію виправлення. Кожне виправлення, яке ви робите, покращує AI для вас і для всієї спільноти Nutrola. Користувачі, які виправляють неправильні ідентифікації протягом перших двох тижнів використання, бачать на 11% вищі довгострокові показники точності, оскільки модель вчиться їхнім конкретним дієтичним патернам.
Вказуйте замінники. Якщо ви регулярно споживаєте продукти-замінники (рис з цвітної капусти, м'ясо на рослинній основі, варіанти без цукру), вкажіть це у своїх дієтичних уподобаннях Nutrola. AI буде більше зважати на ці альтернативи у своїх прогнозах.
Спробуйте фотографії з кількох кутів. Для складних страв друга фотографія з іншого кута може усунути неоднозначність. Це особливо корисно для боулів, супів та змішаних страв, де ключові інгредієнти можуть бути приховані під топінгами.
Перспективи
Точність розпізнавання їжі AI суттєво покращилася за останні три роки, і динаміка не показує ознак уповільнення. Модель Snap & Track від Nutrola обробляє більше фотографій їжі щомісяця, ніж більшість опублікованих академічних наборів даних містять загалом, і кожна взаємодія робить систему розумнішою.
Наша мета на кінець 2026 року — досягти точності top-1 на рівні 90% у всіх категоріях їжі та 75% для поточних 20 найчастіше неправильно ідентифікованих продуктів. Завдяки подальшим покращенням моделі, розширенню навчальних даних від нашої зростаючої бази користувачів у понад 50 країнах, а також таким функціям, як розпізнавання з кількох кутів і контекстуальні сигнали, ми вважаємо, що ці цілі досяжні.
Мета не полягає в тому, щоб повністю замінити людське судження. Вона полягає в тому, щоб зробити ведення обліку їжі настільки швидким і точним, щоб тертя відстеження харчування фактично зникло. Ми ще не досягли цього, але після 10 мільйонів фотографій ми стали помітно ближчими, ніж рік тому.
Готові трансформувати своє відстеження харчування?
Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!