Як працює відстеження харчування за допомогою ШІ: пояснення технології (2026)
Технічне пояснення роботи технології розпізнавання їжі за допомогою ШІ у 2026 році, що охоплює комп'ютерне зору, згорткові нейронні мережі, виявлення об'єктів, оцінку обсягу, зіставлення з базами даних продуктів та аналіз харчування.
Коли ви наводите свій телефон на тарілку їжі, а додаток повідомляє, що в ній 540 калорій, 32 грами білка та 48 грамів вуглеводів, за лічені секунди відбувається вражаюча ланцюгова реакція обчислень. За цією простою взаємодією стоїть система, що спирається на десятиліття досліджень у галузі комп'ютерного зору, глибокого навчання, алгоритмів оцінки обсягу та бази даних харчування, що містять сотні тисяч записів про продукти.
У цій статті ми пояснимо, як працює ця система — від моменту, коли сенсор камери захоплює фотони, до появи значень харчування на вашому екрані. Ми розглянемо основні технології, метрики, які використовують дослідники для оцінки точності, сучасний стан справ на 2026 рік та як підхід Nutrola вписується в цю картину.
Система розпізнавання їжі на основі ШІ
Відстеження харчування за допомогою ШІ — це не один алгоритм. Це багатоступенева система, де кожен етап підживлює наступний. Спрощена версія цієї системи виглядає так:
- Захоплення зображення та попередня обробка
- Виявлення їжі (локалізація продуктів на зображенні)
- Класифікація їжі (ідентифікація кожного продукту)
- Оцінка порції та обсягу (визначення кількості кожного продукту)
- Зіставлення з базою даних харчування (пошук значень макро- та мікроелементів)
- Вивід та підтвердження користувачем
Кожен етап має свої технічні виклики та різні підходи в галузі ШІ. Давайте розглянемо їх детальніше.
Етап 1: Захоплення зображення та попередня обробка
Що відбувається
Камера смартфона захоплює сире зображення, зазвичай з роздільною здатністю від 8 до 48 мегапікселів. Перед тим як зображення потрапить до нейронної мережі, проходять етапи попередньої обробки, які нормалізують його для формату, очікуваного моделлю.
Основні операції
- Зміна розміру: Більшість моделей розпізнавання їжі приймають зображення розміром 224x224, 320x320 або 640x640 пікселів. Сире зображення змінюється в розмірі з дотриманням співвідношення сторін, з додаванням полів або обрізанням.
- Нормалізація: Значення пікселів масштабуються з їх рідного діапазону 0-255 до 0-1 або стандартизуються з використанням середніх значень та стандартних відхилень набору даних (наприклад, нормалізація ImageNet з середнім [0.485, 0.456, 0.406] та стандартним відхиленням [0.229, 0.224, 0.225]).
- Корекція кольору: Деякі системи застосовують корекцію балансу білого або вирівнювання гістограми, щоб впоратися з різноманітними умовами освітлення, за яких роблять фотографії їжі — від флуоресцентного освітлення в офісах до романтичного освітлення в ресторанах.
- Аугментація під час навчання: Під час навчання моделі (не під час інференції) зображення випадковим чином обертаються, перевертаються, змінюються кольори, обрізаються та закриваються, щоб зробити модель стійкою до реальних варіацій.
Обробка на пристрої проти хмари
Ключовим архітектурним рішенням є те, чи проходять попередня обробка та інференція на пристрої, чи в хмарі. Інференція на пристрої з використанням таких фреймворків, як Core ML (Apple), TensorFlow Lite або ONNX Runtime, зменшує затримки та працює офлайн, але обмежує розмір моделі. Хмарна інференція дозволяє використовувати більші, точніші моделі, але вимагає підключення до мережі. Nutrola використовує гібридний підхід, де легка первинна детекція виконується на пристрої, а більш обчислювально інтенсивний аналіз проводиться на сервері, коли це необхідно для досягнення точності.
Етап 2: Виявлення їжі — пошук їжі на зображенні
Проблема
Перед тим як система зможе класифікувати продукт, їй потрібно знайти кожен окремий продукт на зображенні. Тарілка може містити грильовану курку, рис і салат, кожен з яких займає різну частину кадру. Система також повинна відрізняти їжу від неїстівних об'єктів, таких як тарілки, столові прилади, серветки та руки.
Архітектури виявлення об'єктів
Виявлення їжі використовує ті ж сімейства моделей виявлення об'єктів, які живлять автономні транспортні засоби та промислову інспекцію, адаптовані для харчової сфери.
Одностадійні детектори, такі як YOLO (You Only Look Once) та SSD (Single Shot MultiBox Detector), обробляють усе зображення за один прохід і одночасно виводять обмежувальні рамки з ймовірностями класів. YOLOv8 та YOLOv9, випущені у 2023 та 2024 роках відповідно, часто використовуються в системах розпізнавання їжі завдяки їхньому балансу між швидкістю та точністю.
Двостадійні детектори, такі як Faster R-CNN, спочатку генерують пропозиції регіонів (кандидатні обмежувальні рамки, які, ймовірно, містять об'єкти), а потім класифікують кожну пропозицію. Вони зазвичай точніші, але повільніші, ніж одностадійні детектори.
Детектори на основі трансформерів, такі як DETR (DEtection TRansformer) та його нащадки, використовують механізми уваги замість анкерних рамок для виявлення об'єктів. DINO (DETR з покращеними анкерними рамками), опублікований Чжаном та ін. (2023), досяг найкращих результатів на бенчмарках COCO та був адаптований для завдань виявлення їжі.
Сегментація об'єктів
Окрім обмежувальних рамок, моделі сегментації об'єктів, такі як Mask R-CNN та SAM (Segment Anything Model, Кирилов та ін., 2023), генерують маски на рівні пікселів для кожного продукту. Це є критично важливим для змішаних страв, де обмежувальні рамки можуть значно перекриватися. Чаша рагу з видимими шматочками м'яса, картоплі та моркви виграє від сегментації, яка окреслює кожен інгредієнт.
Ключові метрики: mAP та IoU
Дослідники вимірюють точність виявлення за допомогою двох ключових метрик:
- IoU (Intersection over Union): Вимірює, наскільки добре передбачена обмежувальна рамка або маска перекривається з істинним значенням. IoU 0.5 означає 50% перекриття, що є типовим порогом для визнання виявлення правильним.
- mAP (Mean Average Precision): Середнє значення для всіх класів їжі при заданому порозі IoU. mAP@0.5 є стандартним еталоном. Найсучасніші моделі виявлення їжі досягають mAP@0.5 від 0.70 до 0.85 на публічних бенчмарках, таких як ISIA Food-500 та Food2K.
Етап 3: Класифікація їжі — ідентифікація кожного продукту
Виклик
Класифікація їжі значно складніша, ніж загальна класифікація об'єктів з кількох причин:
- Висока схожість між класами: Курка тікка масала та курка в маслі виглядають майже ідентично на фотографіях.
- Висока варіативність всередині класу: Цезар-салат може виглядати зовсім по-різному в залежності від ресторану, подачі та пропорцій інгредієнтів.
- Змішані та перекриваючі продукти: Їжа часто частково прихована, змішана або закрита соусами та прикрасами.
- Культурна та регіональна різноманітність: Один і той же візуальний вигляд може відповідати різним стравам у різних кухнях.
Згорткові нейронні мережі для класифікації
Основою більшості класифікаторів їжі є архітектура CNN, зазвичай одна з сімей ResNet, EfficientNet або ConvNeXt. Ці моделі попередньо навчені на ImageNet (більше 14 мільйонів зображень у 21,000 категоріях) за допомогою трансферного навчання, а потім доопрацьовані на специфічних наборах даних про їжу.
ResNet-50 та ResNet-101 (He et al., 2016) представили пропуски, які дозволяють навчати дуже глибокі мережі. Вони залишаються загальноприйнятими базовими моделями для класифікації їжі.
EfficientNet (Tan & Le, 2019) використовує метод комбінованого масштабування для балансування глибини, ширини та роздільної здатності мережі, досягаючи високої точності з меншою кількістю параметрів. EfficientNet-B4 до B7 є популярними виборами для класифікації їжі.
ConvNeXt (Liu et al., 2022) модернізував чисту архітектуру CNN, включивши елементи дизайну з Vision Transformers, досягаючи конкурентоспроможних результатів з простішими процедурами навчання.
Vision Transformers
Vision Transformers (ViT), представлені Досовіцьким та ін. (2020), розділяють зображення на патчі та обробляють їх за допомогою архітектур трансформерів, спочатку розроблених для тексту. Swin Transformer (Liu et al., 2021) представив ієрархічні карти ознак та зсувні вікна, що зробило трансформери практичними для завдань щільного прогнозування, включаючи розпізнавання їжі.
У 2025 та 2026 роках гібридні архітектури, які поєднують згорткове видобування ознак з механізмами уваги трансформерів, стали домінуючим підходом для високоточних класифікацій їжі. Ці моделі захоплюють як локальні текстурні ознаки, в яких CNN досягають успіху, так і глобальні контекстуальні зв'язки, з якими трансформери справляються добре.
Специфічні набори даних про їжу
Якість класифікатора значною мірою залежить від його навчальних даних. Основні набори даних для розпізнавання їжі включають:
| Набір даних | Класи | Зображення | Рік | Примітки |
|---|---|---|---|---|
| Food-101 | 101 | 101,000 | 2014 | Основний еталон |
| ISIA Food-500 | 500 | 399,726 | 2020 | Великий масштаб, китайська та західна кухня |
| Food2K | 2,000 | 1,036,564 | 2021 | Найбільший публічний набір даних для класифікації їжі |
| Nutrition5K | 5,006 страв | 5,006 | 2021 | Включає дані про харчування з Google |
| FoodSeg103 | 103 інгредієнти | 7,118 | 2021 | Анотації сегментації на рівні інгредієнтів |
Системи виробництва, такі як Nutrola, навчаються на власних наборах даних, які значно більші та різноманітніші за публічні еталони, часто містять мільйони зображень з даними, наданими користувачами (з їхньою згодою), що відображають повну різноманітність реальних контекстів споживання їжі.
Етап 4: Оцінка обсягу та порції
Чому це важливо
Правильна ідентифікація їжі як "коричневий рис" — це лише половина проблеми. Харчова цінність критично залежить від розміру порції. Сто грамів вареного коричневого рису містять приблизно 123 калорії, але порції на практиці коливаються від 75 грамів до понад 300 грамів. Без точної оцінки порції навіть ідеальна класифікація дає ненадійні підрахунки калорій.
Підходи до оцінки обсягу
Масштабування за допомогою об'єкта посилання: Деякі системи просять користувачів включити відомий об'єкт посилання (кредитну картку, монету, спеціально розроблений маркер) у кадр. Система використовує відомі розміри об'єкта для розрахунку масштабу та оцінки обсягу їжі. Цей підхід точний, але додає незручності до користувацького досвіду.
Оцінка глибини з одного зображення: Моделі глибокого навчання можуть оцінювати відносну глибину з одного 2D зображення, використовуючи архітектури, такі як MiDaS (Ranftl et al., 2020) та Depth Anything (Yang et al., 2024). У поєднанні з маскою сегментації їжі та оціненими параметрами камери система може приблизно оцінити 3D форму та обсяг кожного продукту.
LiDAR та структуроване світло: Пристрої з датчиками LiDAR (моделі iPhone Pro, iPad Pro) можуть захоплювати справжні карти глибини під час захоплення зображення. Це забезпечує інформацію про глибину на рівні міліметрів, що значно покращує точність оцінки обсягу. Дослідження 2023 року, проведене Ло та ін., опубліковане в IEEE Journal of Biomedical and Health Informatics, показало, що оцінка обсягу їжі з використанням LiDAR зменшила середню абсолютну процентну помилку з 27.3% (монокулярна) до 12.8%.
Мульти-видова реконструкція: Деякі дослідницькі системи просять користувачів захоплювати їжу з кількох кутів, що дозволяє 3D реконструкцію через структуру з руху або нейронні поля радіансу (NeRF). Цей підхід забезпечує найвищу точність, але є непрактичним для щоденного відстеження.
Навчена оцінка порцій: Найбільш практичний підхід для аналізу з одного зображення полягає в навчанні моделей на наборах даних, де розміри порцій відомі. Модель навчається оцінювати грами безпосередньо з візуального вигляду, враховуючи розмір тарілки, підказки про висоту їжі, тіні та контекстуальні підказки. Nutrola поєднує підказки монокулярної глибини з навченою оцінкою порцій, вдосконаленою мільйонами підтверджень та корекцій від користувачів, які постійно покращують модель.
Етап 5: Зіставлення з базою даних харчування
Пошук
Коли система знає ідентичність їжі та оцінену порцію, вона запитує базу даних харчування для отримання значень калорій, макро- та мікроелементів. Цей етап звучить просто, але приховує значну складність.
Джерела бази даних
- USDA FoodData Central: Золота стандарта для харчових референсних даних у Сполучених Штатах. Вона містить понад 370,000 записів про продукти в своїх базах даних Foundation, Survey (FNDDS), Legacy та Branded.
- Open Food Facts: Краудсорсингова, відкрита база даних упакованих продуктів з понад 3 мільйонами записів у всьому світі.
- Приватні бази даних: Компанії, такі як Nutrola, підтримують приватні бази даних, які об'єднують референсні дані USDA з перевіреними даними про бренди, меню ресторанів та регіональні страви, які часто пропускаються в публічних базах даних.
Проблема зіставлення
Класифікатор може вивести "грудка курки, гриль" але база даних може містити 47 записів для грильованої грудки курки з різними методами приготування, брендами та харчовими профілями. Система повинна вибрати найбільш відповідне зіставлення на основі:
- Візуальних підказок (з шкірою або без, видима олія або соус)
- Контексту користувача (попередні страви, дієтичні уподобання, місцезнаходження)
- Статистичної ймовірності (найбільш поширений метод приготування)
Декомпозиція складних страв
Для страв, які не представлені в базі даних як єдиний запис, таких як домашня смажена їжа, система повинна декомпонувати страву на її складові інгредієнти, оцінити пропорцію кожного інгредієнта та розрахувати загальні харчові значення. Це композиторське міркування є однією з найскладніших нерозв'язаних проблем у відстеженні харчування за допомогою ШІ та є сферою активних досліджень.
Етап 6: Вивід та зворотний зв'язок користувача
Презентація
Остаточний вивід представляє користувачу ідентифіковані продукти, оцінені порції та харчові значення. Добре спроектовані системи, такі як Nutrola, дозволяють користувачу підтверджувати, коригувати або виправляти кожен елемент, створюючи цикл зворотного зв'язку.
Активне навчання
Виправлення користувачів є надзвичайно цінними навчальними даними. Коли користувач змінює "жасминовий рис" на "басматі" або коригує порцію з "середньої" на "велику", це виправлення фіксується (з захистом конфіденційності) і використовується для повторного навчання моделі. Цей цикл активного навчання дозволяє системі ставати помітно точнішою з часом. Точність розпізнавання Nutrola покращилася приблизно на 15 відсоткових пунктів за останні 18 місяців, в основному завдяки цьому механізму зворотного зв'язку від користувачів.
Як вимірюється точність
Метрики точності класифікації
- Top-1 точність: Відсоток зображень, де найкраще передбачення моделі збігається з істинним значенням. Найсучасніші класифікатори їжі досягають 90-95% top-1 точності на еталонних наборах даних, таких як Food-101.
- Top-5 точність: Відсоток зображень, де правильна етикетка з'являється в п'яти найкращих передбаченнях моделі. Top-5 точність зазвичай перевищує 98% для провідних моделей.
Метрики точності харчування
- Середня абсолютна помилка (MAE): Середнє абсолютне відхилення між передбаченими та фактичними значеннями калорій/макроелементів. Для виробничих систем у 2026 році MAE для калорій зазвичай коливається від 30 до 80 ккал на страву, залежно від складності страви.
- Середня абсолютна процентна помилка (MAPE): MAE, виражена у відсотках від істинного значення. Сучасні найсучасніші системи досягають MAPE від 15 до 25% для оцінки калорій на різноманітних тестових наборах. Для контексту, навчений дієтолог, який оцінює калорії з фотографій, показує MAPE від 20 до 40% у контрольних дослідженнях (Williamson et al., 2003; Lee et al., 2012).
Порівняння еталонів
| Метод | Calorie MAPE | Час на страву | Узгодженість |
|---|---|---|---|
| AI розпізнавання фотографій (2026 SOTA) | 15-25% | ~2 секунди | Висока |
| Навчений дієтолог візуальна оцінка | 20-40% | 2-5 хвилин | Помірна |
| Ручне ведення з пошуком у базі даних | 10-20% | 3-10 хвилин | Низька (втома користувача) |
| Важена їжа з пошуком у базі даних | 3-8% | 5-15 хвилин | Висока |
Сучасний стан справ (2026)
Ключові технічні розробки
Фундаментальні моделі для їжі: Великі попередньо навчені моделі зору, доопрацьовані на харчових даних, стали домінуючою парадигмою. Моделі з 300M+ параметрами, навчені на даних харчових зображень веб-розміру, досягають міжкультурної генералізації, яка була неможливою з меншими, специфічними для набору даних моделями.
Мультимодальне розуміння: Системи тепер поєднують візуальне розпізнавання з розумінням тексту (читання описів меню, списків інгредієнтів та контексту користувача) і навіть аудіо (голосові описи страв). Це мультимодальне злиття покращує точність для неоднозначних випадків, де візуальної інформації недостатньо.
Розгортання на краю: Прогрес у квантизації моделей (INT8, INT4) та пошуку нейронних архітектур зробив можливим запуск високоякісних моделей розпізнавання їжі повністю на пристрої. Нейронний двигун Apple, DSP Hexagon Qualcomm та процесор Tensor Processing Unit Google у телефонах Pixel забезпечують спеціалізоване обладнання для інференції.
Персоналізація: Моделі адаптуються до індивідуальних звичок харчування користувачів. Якщо ви щодня їсте вівсянку з чорницею, система навчається очікувати цю комбінацію та покращує свою точність для ваших конкретних приготувань.
Відкриті виклики
Незважаючи на вражаючий прогрес, кілька викликів залишаються:
- Сховані інгредієнти: Олії, масло, цукор та інші калорійні інгредієнти, що використовуються в приготуванні, невидимі на фотографіях. Ресторанна смажена їжа може містити три столові ложки олії, які не можна виявити візуально.
- Гомогенні страви: Супи, смузі та пюре мають мінімальні візуальні ознаки для ідентифікації інгредієнтів.
- Нові продукти: Нові харчові продукти, ф'южн-страви та регіональні спеціалітети, які недостатньо представлені в навчальних даних, залишаються складними.
- Стеля оцінки порцій: Без справжньої інформації про глибину монокулярна оцінка порцій має фундаментальні обмеження точності, накладені втратою 3D інформації в 2D проекції.
Технічний підхід Nutrola
Система розпізнавання їжі Nutrola побудована на кількох принципах, які відображають сучасний стан справ:
Гібридна архітектура: Багатоступенева система використовує легкий детектор з родини YOLO для реального часу локалізації їжі, за яким слідує трансформерна класифікаційна основа для ідентифікації їжі. Це забезпечує баланс між швидкістю та точністю.
Оцінка порцій з урахуванням глибини: На пристроях з LiDAR Nutrola використовує справжні дані глибини. На стандартних пристроях модель оцінки монокулярної глибини надає приблизні підказки обсягу, доповнені навченою оцінкою порцій з історії користувача.
Безперервне навчання: Виправлення користувачів живлять цикл повторного навчання моделі щотижня, що поступово покращує точність. Кожне виправлення важиться за впевненістю та перехресно перевіряється з відомими харчовими профілями, щоб запобігти недобросовісним або помилковим оновленням.
Комплексна база даних: Харчова база даних Nutrola об'єднує USDA FoodData Central, перевірені дані про бренди та записи, валідовані користувачами, що охоплюють міжнародні кухні, які недостатньо представлені в західних базах даних.
Часто задавані питання
Наскільки точним є розпізнавання їжі за допомогою ШІ у 2026 році?
Найсучасніше розпізнавання їжі за допомогою ШІ досягає 90-95% точності класифікації top-1 на стандартних еталонах. Для оцінки калорій найкращі системи досягають середньої абсолютної процентної помилки 15-25%, що порівнянно або краще, ніж у навчених дієтологів, які оцінюють за фотографіями.
Чи працює відстеження їжі за допомогою ШІ з усіма кухнями?
Точність варіюється в залежності від представленості кухонь у навчальних даних. Західна, східноазійська та південноазійська кухні зазвичай добре представлені. Менш поширені регіональні кухні можуть мати нижчу точність, хоча цей розрив зменшується, оскільки набори даних стають різноманітнішими. Nutrola активно працює над розширенням охоплення недостатньо представлених кухонь за рахунок внесків користувачів та цілеспрямованого збору даних.
Чи може ШІ виявити сховані інгредієнти, такі як олія чи масло?
Не безпосередньо з візуальної перевірки. Це залишається одним з найбільших викликів у відстеженні харчування за допомогою ШІ. Системи пом'якшують це, використовуючи харчові профілі, специфічні для методів приготування. Наприклад, якщо страва класифікується як "ресторанний смажений рис", асоційований харчовий профіль вже враховує типове використання олії на основі даних рецептів USDA.
Чи є обробка на пристрої такою ж точною, як обробка в хмарі?
Моделі на пристрої зазвичай на 3-8% менш точні, ніж їхні хмарні аналоги через обмеження розміру, накладені на мобільне обладнання. Однак перевага затримки (миттєві результати проти 1-3 секунд мережевої затримки) та можливість роботи офлайн роблять обробку на пристрої цінною. Багато систем, включаючи Nutrola, використовують гібридний підхід.
Як розпізнавання їжі за допомогою ШІ порівнюється з скануванням штрих-кодів?
Сканування штрих-кодів є надзвичайно точним для упакованих продуктів, оскільки воно безпосередньо співвідносить UPC продукту з записом у базі даних з наданими виробником харчовими даними. Однак сканування штрих-кодів не працює для розпакованих продуктів, страв з ресторанів або домашніх страв, які складають більшість калорійного споживання більшості людей. Розпізнавання їжі за допомогою ШІ заповнює цю прогалину.
Що відбувається, коли ШІ помиляється?
Добре спроектовані системи полегшують виправлення помилок. Коли користувач виправляє неправильну ідентифікацію, виправлення виконує дві функції: воно надає користувачу точні дані для цієї страви та покращує модель для майбутніх прогнозів. Цей цикл активного навчання є одним з найпотужніших механізмів для безперервного вдосконалення.
Чи стане розпізнавання їжі за допомогою ШІ колись абсолютно точним?
Абсолютна точність малоймовірна через фундаментальні обмеження: сховані інгредієнти, ідентичні на вигляд, але різні за харчовими властивостями приготування, а також вроджена неоднозначність оцінки 3D обсягу з 2D зображень. Однак розрив між оцінкою ШІ та вимірюванням важеної їжі продовжить зменшуватися. Практична мета полягає не в досконалості, а в точності, достатній для підтримки значущого харчового відстеження з мінімальними зусиллями з боку користувача.
Висновок
Відстеження харчування за допомогою ШІ є досягненням міждисциплінарної інженерії, яке поєднує комп'ютерне зору, глибоке навчання, 3D оцінку, інженерію бази даних та науку про харчування в систему, яка надає результати за секунди. Технологія досягла рівня зрілості, де вона дійсно конкурує з людськими експертами за точністю візуальної оцінки, будучи при цьому на порядок швидшою та більш послідовною.
Розуміння того, як працює ця технологія, допомагає користувачам приймати обґрунтовані рішення про те, яким інструментам довіряти та як інтерпретувати результати. Жодна система ШІ не є ідеальною, і найбільш ефективний підхід поєднує ефективність ШІ з людським наглядом, чи то підтвердження ідентифікації їжі, коригування розміру порції, чи консультація з зареєстрованим дієтологом для клінічного керівництва.
Системи, які стануть лідерами наступного покоління відстеження харчування за допомогою ШІ, серед яких і Nutrola, — це ті, що поєднують передові моделі розпізнавання з надійними циклами зворотного зв'язку від користувачів, комплексними базами даних харчування та прозорою комунікацією про точність і обмеження.
Готові трансформувати своє відстеження харчування?
Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!