Nutrola Research Lab: Як ми перевіряємо точність розпізнавання їжі штучним інтелектом у порівнянні з лабораторним аналізом
Детальний огляд методології Nutrola Research Lab для перевірки точності розпізнавання їжі штучним інтелектом, включаючи лабораторно проаналізовані референсні страви, протоколи сліпого тестування, перехресну перевірку з даними USDA та прозорість звітності про точність.
Довіра до системи відстеження харчування на основі штучного інтелекту зводиться до одного запитання: наскільки близькі цифри, які вона надає, до реальності? Система, яка повідомляє про 450 калорій, коли фактична кількість становить 620, не лише є неточною; вона підриває всі дієтичні рішення, засновані на цих даних. У Nutrola ми вважаємо, що заяви про точність без прозорої методології не мають сенсу.
У цій статті ми детально пояснюємо, як Nutrola Research Lab перевіряє точність розпізнавання їжі. Ми описуємо наші протоколи тестування, референсні стандарти, з якими ми порівнюємо, як ми категоризуємо та зменшуємо помилки, а також метрики, які ми публікуємо. Наша мета — надати користувачам, дієтологам, розробникам та дослідникам чітке розуміння того, що означає "точність" у нашому контексті та як ми працюємо над її покращенням.
Чому важлива валідація
Більшість додатків для харчування звітують про точність, використовуючи внутрішні еталони, які оптимізовані для отримання сприятливих результатів. Поширеною практикою є тестування на частині того ж набору даних, що використовувався для навчання, що призводить до завищених показників точності, які не відображають реальну продуктивність. Модель може досягти 95% точності на власному тестовому наборі, але мати труднощі з продуктами, які насправді споживають її користувачі.
Правильна валідація вимагає тестування проти незалежної істини, використовуючи протоколи, які мінімізують упередження. У медичних та наукових контекстах це називається аналітичною валідацією, і вона передбачає порівняння виходу системи з відомим референсним стандартом за допомогою попередньо зареєстрованого протоколу. Nutrola Research Lab застосовує цей принцип до розпізнавання їжі.
Наш референсний стандарт: лабораторно проаналізовані страви
Як ми створюємо референсні страви
Основою нашого процесу валідації є бібліотека референсних страв з лабораторно підтвердженим харчовим складом. Ось як ми їх створюємо:
Вибір страв: Ми обираємо страви, які представляють різноманітність продуктів, що відстежуються користувачами Nutrola. Це включає звичайні страви (курка-гриль з рисом, паста з томатним соусом), складні багатокомпонентні страви (бібімбап, змішані плати), складні випадки (супи, смузі, страви з великою кількістю соусів) та страви з недостатньо представлених кухонь.
Приготування та зважування: Кожна страва готується на нашій тестовій кухні або замовляється з ресторанів. Кожен інгредієнт зважується на каліброваних лабораторних вагах (з точністю до 0.1 грама) перед і під час приготування. Олії для приготування, соуси, приправи та гарніри вимірюються точно.
Фотографування: Готову страву фотографують за кількох умов:
- Контрольоване освітлення (5500K денне, розсіяне)
- Природне денне світло (змінні умови)
- Внутрішнє штучне освітлення (люмінесцентне, лампи розжарювання, теплий LED)
- Кілька ракурсів (зверху, під кутом 45 градусів, на рівні очей)
- Кілька пристроїв (новий iPhone, Samsung Galaxy, Pixel, середній Android)
- Різні відстані та композиції
Кожна страва генерує від 15 до 30 фотографій за цими умовами, створюючи тестовий набір, який відображає реальну варіативність фотографій.
Лабораторний аналіз: Для підгрупи страв, які потребують найвищої точності, ми надсилаємо підготовлені зразки до сертифікованої лабораторії харчового аналізу (з використанням методів AOAC International). Лабораторія вимірює:
- Загальна енергія (бомбова калориметрія)
- Білок (метод К'єльдаля або метод згоряння Дюма)
- Загальний жир (кислотна гідролізація з подальшою екстракцією за допомогою Сокслета)
- Вуглеводи (за різницею: загальна вага мінус білок, жир, вологість і зола)
- Харчові волокна (ензимно-гравіметричний метод)
- Вміст вологи та золи
Розраховані референсні значення: Для страв, для яких лабораторний аналіз не проводиться, ми розраховуємо референсні харчові значення на основі ваг інгредієнтів, використовуючи USDA FoodData Central (бази даних SR Legacy та FNDDS) та перевірені дані виробників для брендових продуктів. Ці розраховані значення слугують вторинними референсними стандартами.
Розмір бібліотеки референсних страв
Станом на перший квартал 2026 року бібліотека Nutrola Research Lab містить:
| Категорія | Кількість |
|---|---|
| Унікальні страви з розрахованими референсними значеннями | 4,200+ |
| Унікальні страви з лабораторно проаналізованими референсними значеннями | 680+ |
| Загальна кількість референсних фотографій | 78,000+ |
| Представлені кухні | 42 |
| Покриті дієтичні моделі (кето, веганство, халяль тощо) | 18 |
Ми додаємо приблизно 50 нових референсних страв щомісяця та повторно тестуємо існуючі страви з оновленими моделями щоквартально.
Протокол сліпого тестування
Що означає "сліпий" у цьому контексті
Наш протокол тестування розроблений для запобігання будь-яким несправедливим перевагам моделі при тестуванні страв. Ми дотримуємося трьох рівнів відокремлення:
Відокремлення даних: Жодна фотографія референсної страви ніколи не з'являлася в жодному навчальному наборі даних. Ми підтримуємо сувору ізоляцію між тестовою бібліотекою та навчальними даними, що забезпечується через хешування та окрему систему зберігання з контролем доступу.
Сліпе оцінювання: Члени команди, які готують та фотографують референсні страви, відрізняються від членів команди, які розробляють та навчають моделі. Розробники моделей не бачать тестову бібліотеку до публікації результатів.
Автоматизоване оцінювання: Після того, як фотографії захоплені та референсні значення зафіксовані, процес оцінювання запускається автоматично. Фотографії надсилаються до виробничого API (того ж кінцевого пункту, що обслуговує реальних користувачів) без спеціальних маркерів, заголовків або попередньої обробки. Результати порівнюються з референсними значеннями програмно, що усуває суб'єктивне судження.
Частота тестування
Ми проводимо три типи валідаційних тестів:
Безперервне регресійне тестування: Кожне оновлення моделі оцінюється на основі повної референсної бібліотеки перед впровадженням. Модель, яка демонструє регресію в будь-якій основній категорії їжі, не впроваджується, поки регресію не буде усунуто. Це відбувається з кожним випуском моделі, зазвичай кожні один-два тижні.
Щоквартальна комплексна оцінка: Щоквартально ми проводимо повну оцінку, яка включає нові референсні страви, оновлені метрики точності по всіх категоріях, порівняння з попередніми кварталами та аналіз помилок.
Щорічний зовнішній аудит: Один раз на рік ми залучаємо незалежного третього оцінювача (кафедру харчових наук університету або незалежну тестову лабораторію), щоб провести підгрупу нашого протоколу, використовуючи страви, які вони готують і фотографують незалежно. Це запобігає системним упередженням у наших власних практиках приготування їжі або фотографування.
Як ми вимірюємо точність
Метрики ідентифікації їжі
Top-1 точність: Відсоток тестових зображень, де найвища впевненість моделі збігається з референсною етикеткою їжі. Ми звітуємо про це на трьох рівнях:
- Загалом (всі категорії їжі)
- За кухнею (наприклад, японська, мексиканська, індійська, італійська)
- За рівнем складності (прості одиночні страви, багатокомпонентні тарілки, змішані страви)
Top-3 точність: Відсоток тестових зображень, де правильна етикетка їжі з'являється в трійці найвищих прогнозів моделі. Це важливо, оскільки багато неоднозначних випадків (наприклад, крем-суп з грибів проти крем-супу з курки) вирішуються вибором користувача з короткого списку.
Відсоток виявлення: Для багатокомпонентних тарілок відсоток окремих продуктів у референсній страві, які виявляє модель. Тарілка з куркою, рисом і брокколі, де модель виявляє курку та рис, але пропускає брокколі, має відсоток виявлення 66.7%.
Метрики харчової точності
Середня абсолютна помилка (MAE): Середня абсолютна різниця між прогнозованими та референсними харчовими значеннями, звітуючи в грамах для макронутрієнтів та кілокалоріях для енергії.
Середня абсолютна відносна помилка (MAPE): MAE, виражена у відсотках від референсного значення. Це нормалізує дані для різних порцій та калорійних щільностей. Ми звітуємо про MAPE окремо для калорій, білків, вуглеводів, жирів та волокон.
Коефіцієнт кореляції (r): Кореляція Пірсона між прогнозованими та референсними значеннями в тестовому наборі. Висока кореляція (r > 0.90) вказує на те, що модель надійно ранжує страви від нижчого до вищого вмісту калорій/поживних речовин, навіть якщо абсолютні значення мають певний зсув.
Аналіз Бленда-Алтмана: Для харчової оцінки ми використовуємо графіки Бленда-Алтмана для візуалізації узгодженості між прогнозованими та референсними значеннями. Цей метод, стандартний у клінічних дослідженнях порівняння методів, показує, чи є помилки постійними в межах діапазону значень (однорідне упередження) або ж точність погіршується для дуже малих або великих порцій (пропорційне упередження).
Поточні еталони точності (Q1 2026)
| Метрика | Загалом | Простi страви | Багатокомпонентнi | Змішані страви |
|---|---|---|---|---|
| Top-1 точність ідентифікації їжі | 89.3% | 94.1% | 87.6% | 78.4% |
| Top-3 точність ідентифікації їжі | 96.1% | 98.7% | 95.2% | 90.3% |
| Відсоток виявлення (багатокомпонентні) | 91.8% | N/A | 91.8% | 85.2% |
| Калорійний MAPE | 17.2% | 12.8% | 18.4% | 24.6% |
| Білковий MAPE | 19.8% | 14.3% | 21.2% | 27.1% |
| Вуглеводний MAPE | 18.5% | 13.6% | 19.7% | 25.8% |
| Жировий MAPE | 22.4% | 16.1% | 23.8% | 31.2% |
| Калорійна кореляція (r) | 0.94 | 0.97 | 0.93 | 0.88 |
Примітки: "Прості страви" — це зображення одиночних продуктів (наприклад, яблуко, тарілка вівсянки). "Багатокомпонентні" тарілки містять два або більше окремих, візуально відокремлених елементів. "Змішані страви" — це страви, де інгредієнти поєднуються (супи, запіканки, каррі, смузі). Жировий MAPE постійно є найвищою метрикою помилки, оскільки жири, що використовуються в приготуванні, найменш візуально виявляються.
Категоризація помилок
Розуміння того, де виникають помилки, так само важливо, як і вимірювання їх величини. Ми категоризуємо помилки на п'ять типів:
Тип 1: Неправильна ідентифікація
Модель ідентифікує неправильну їжу. Приклад: класифікація курки з тайським базиліком як курки по-пекінськи. Ці помилки впливають як на точність ідентифікації, так і на оцінку харчування. Помилки неправильної ідентифікації зменшилися з 15.2% усіх прогнозів у 2024 році до 10.7% у Q1 2026.
Тип 2: Помилка оцінки порції
Їжа правильно ідентифікована, але оцінка порції значно відрізняється. Приклад: правильна ідентифікація пасти, але оцінка 200 грамів, коли фактична вага становить 140 грамів. Помилки порції є найбільшим внеском у калорійний MAPE, відповідальними за приблизно 55% загального бюджету харчової помилки.
Тип 3: Відсутній компонент
Модель не виявляє продукт, який присутній на зображенні. Приклад: не виявлення оливкової олії, що полита на салат, або пропуск маленької порції соусу. Ці помилки призводять до систематичного недооцінювання і є особливо проблематичними для калорійно щільних продуктів, які можуть бути візуально непомітними.
Тип 4: Помилка методу приготування
Їжа правильно ідентифікована на рівні продукту, але метод приготування неправильний. Приклад: правильна ідентифікація курячої грудки, але класифікація її як гриль, коли вона смажена на олії. Помилки методу приготування непропорційно впливають на оцінки жиру, оскільки методи приготування суттєво змінюють вміст жиру.
Тип 5: Помилка відображення бази даних
Їжа правильно ідентифікована, і порція розумно оцінена, але запис у харчовій базі даних, до якого вона відображається, не точно представляє конкретний варіант. Приклад: відображення часникового хліба ресторану на загальний запис часникового хліба, який не враховує використання додаткового масла рестораном. Ці помилки усуваються шляхом розширення бази даних та створення специфічних записів для ресторанів.
Розподіл помилок (Q1 2026)
| Тип помилки | Частота | Внесок у калорійну помилку |
|---|---|---|
| Тип 1: Неправильна ідентифікація | 10.7% прогнозів | 22% калорійної помилки |
| Тип 2: Оцінка порції | 34.2% прогнозів | 55% калорійної помилки |
| Тип 3: Відсутній компонент | 8.3% прогнозів | 11% калорійної помилки |
| Тип 4: Метод приготування | 5.8% прогнозів | 8% калорійної помилки |
| Тип 5: Відображення бази даних | 3.1% прогнозів | 4% калорійної помилки |
Як ми зменшуємо помилки
Безперервне покращення моделі
Нашою основною стратегією зменшення помилок є активний навчальний процес. Коли користувачі коригують ідентифікацію їжі або коригують розмір порції, ця корекція потрапляє до черги валідації. Корекції, які узгоджуються з відомими харчовими профілями (наприклад, калорійна щільність виправленого продукту потрапляє в правдоподібний діапазон), включаються до навчального набору даних для наступного оновлення моделі.
Ми перепідготовлюємо наші моделі розпізнавання щотижня. Кожне оновлення включає нові корекції, підтверджені користувачами, нові референсні зображення з дослідницької лабораторії та жорстке негативне видобування (спеціально націлене на пари продуктів, які модель часто плутає).
Цілеспрямовані програми покращення точності
Коли наша щоквартальна оцінка виявляє категорію з нижчою, ніж заплановано, точністю, ми запускаємо цілеспрямовану програму покращення:
- Збираємо додаткові навчальні дані для категорії з низькою продуктивністю
- Аналізуємо специфічні патерни помилок (чи це неправильна ідентифікація, оцінка порції чи відображення бази даних?)
- Реалізуємо цілеспрямовані виправлення (додаткові навчальні дані, коригування архітектури моделі, оновлення бази даних)
- Валідуємо покращення на основі референсної бібліотеки
- Впроваджуємо та моніторимо
У 2025 році ми запустили цілеспрямовані програми для страв південно-східної Азії, мексиканської вуличної їжі та середземноморських мезе, досягнувши покращення точності на 8-14 відсоткових пунктів у кожній категорії.
Перехресна валідація USDA
Для кожної їжі в нашій базі даних ми перехресно перевіряємо харчові значення з USDA FoodData Central. Коли прогнозовані харчові значення Nutrola для правильно ідентифікованої їжі відхиляються більш ніж на 15 відсотків від референсного значення USDA для оціненої порції, система позначає прогноз для перегляду.
Ця перехресна валідація виявляє два типи проблем:
- Прогнози моделі, які є технічно правильними ідентифікаціями, але відображаються на неправильні записи бази даних
- Записи бази даних, які містять помилки або застарілі
Ми оновлюємо нашу харчову базу даних щомісяця, включаючи оновлення USDA FoodData Central, зміни продуктів виробників та корекції, виявлені через перехресну валідацію.
Контроль якості відгуків користувачів
Не всі корекції користувачів є однаково надійними. Користувач, який змінює "білий рис" на "цвітну капусту", робить значну корекцію. Користувач, який випадково змінює розміри порцій, може вносити шум. Ми застосовуємо фільтри контролю якості:
- Корекції від користувачів з послідовними історіями відстеження мають вищу вагу
- Корекції, підтверджені кількома користувачами для одного й того ж продукту, мають пріоритет
- Корекції, які призвели б до харчово неприпустимих значень (наприклад, салат з 2000 калорій), позначаються для ручного перегляду
- Ми використовуємо статистичне виявлення викидів, щоб ідентифікувати та виключити потенційно помилкові корекції
Прозорість і обмеження
Що ми публікуємо
Nutrola Research Lab публікує наступну інформацію:
- Щоквартальні метрики точності по всіх категоріях (як показано в таблицях вище)
- Тренди точності з року в рік
- Відомі обмеження та складні категорії їжі
- Наша методологія тестування (ця стаття)
Відомі обмеження, про які ми відкриті
Приховані інгредієнти залишаються найбільшим неконтрольованим джерелом помилок. Олії для приготування, масло, цукор та сіль, додані під час приготування, невидимі на фотографіях. Наші моделі використовують пріоритети методів приготування для оцінки внеску прихованих інгредієнтів, але це статистичні середні, які можуть не відповідати практикам конкретного ресторану чи домашнього кухаря.
Гомогенні продукти (супи, смузі, пюре) мають вищі показники помилок. Коли візуальні ознаки обмежені, модель сильно покладається на контекстуальні підказки та введення користувача. Ми чітко повідомляємо про нижчу впевненість для цих категорій у додатку.
Страви з ресторанів зазвичай складніші, ніж домашні. Стандартизовані рецепти варіюються залежно від місця, шеф-кухаря та дня. Цезар-салат у ресторані може мати вдвічі більше соусу, ніж версія іншого ресторану, і жоден з них не відповідає загальному запису USDA.
Точність нижча для кухонь з меншими навчальними даними. Хоча ми активно розширюємо наше покриття, деякі регіональні кухні (Центральна Африка, Центральна Азія, Тихоокеанський регіон) мають менше прикладів для навчання і відповідно нижчу точність. Ми відображаємо індикатори впевненості, щоб користувачі могли бачити, коли модель менш впевнена.
Траєкторія покращення точності
Протягом останніх 18 місяців точність розпізнавання їжі Nutrola слідувала постійній траєкторії покращення:
| Квартал | Top-1 Точність | Калорійний MAPE | Основне покращення |
|---|---|---|---|
| Q3 2024 | 82.1% | 23.8% | Базовий рівень після оновлення архітектури |
| Q4 2024 | 84.7% | 21.4% | Розширення навчальних даних азійської кухні |
| Q1 2025 | 86.3% | 20.1% | Оцінка порцій з використанням LiDAR |
| Q2 2025 | 87.5% | 19.2% | Оновлення основної архітектури моделі |
| Q3 2025 | 88.1% | 18.6% | Інтеграція багатоконтексту |
| Q4 2025 | 88.9% | 17.8% | Поліпшення розподілу змішаних страв |
| Q1 2026 | 89.3% | 17.2% | Адаптація моделі до користувача |
Кожен відсотковий пункт покращення на цьому рівні вимагає експоненційно більше зусиль, ніж попередній. Залишкові помилки зосереджені на найскладніших випадках: візуально неоднозначних стравах, прихованих інгредієнтах, незвичних розмірах порцій та рідкісних продуктах. Продовження прогресу вимагає як кращих моделей, так і кращих референсних даних.
Часто задавані питання
Як точність Nutrola порівнюється з конкурентами?
Пряме порівняння складне, оскільки більшість конкурентів не публікують свою методологію валідації або метрики точності з такою ж деталізацією. На публічних еталонах, таких як Food-101 та ISIA Food-500, модель Nutrola демонструє результати вищого рівня. Наша реальна точність, перевірена на основі лабораторно проаналізованих страв, є тим, що ми вважаємо більш значущим показником, і ми закликаємо інші компанії прийняти подібні практики валідації.
Чому оцінка жиру менш точна, ніж оцінка білка або вуглеводів?
Жир — це найскладніший макронутрієнт для візуальної оцінки, оскільки більшість з нього приховані. Олії для приготування, масло, що розтоплюється в соусах, і жирові прожилки в м'ясі невидимі або майже невидимі на фотографіях. Крім того, жир має найвищу калорійну щільність (9 ккал/г проти 4 ккал/г для білків і вуглеводів), тому навіть незначні помилки в оцінці грамів жиру призводять до більших помилок у калоріях.
Як ви обробляєте продукти, яких немає у вашій базі даних?
Коли модель стикається з продуктом, який не може класифікувати з достатньою впевненістю, вона пропонує користувачу свої найкращі припущення та можливість вручну шукати або вводити продукт. Ці випадки з низькою впевненістю реєструються та пріоритизуються для включення в майбутні навчальні дані. Якщо певний невизнаний продукт часто з'являється серед кількох користувачів, він прискорюється для додавання як до моделі розпізнавання, так і до харчової бази даних.
Чи можу я довіряти точності для моєї конкретної дієти?
Точність варіюється в залежності від типу їжі, як показано в наших опублікованих метриках. Якщо ви в основному споживаєте прості, чітко визначені страви (грильовані білки, прості злаки, свіжі овочі), ви можете очікувати точності на вищому рівні нашого діапазону. Якщо ви часто їсте складні змішані страви, ресторанні страви з невідомими методами приготування або продукти з кухонь з обмеженими навчальними даними, точність буде на нижчому рівні. Індикатор впевненості в додатку Nutrola відображає цю варіативність на основі кожного прогнозу.
Чи продає або ділиться Nutrola моїми фотографіями їжі для навчання?
Практики даних Nutrola покриті нашою політикою конфіденційності. Корекції користувачів та фотографії їжі використовуються для покращення наших моделей розпізнавання лише з явною згодою користувача через нашу програму внесення даних. Користувачі, які відмовляються, все ще отримують вигоду від покращеної моделі (оскільки внески інших користувачів покращують її) без внесення своїх даних. Жодні особисто ідентифіковані дані про їжу не продаються третім особам.
Як часто оновлюється модель?
Модель розпізнавання перепідготовлюється та оновлюється приблизно щотижня. Основні зміни архітектури відбуваються рідше, зазвичай один-два рази на рік. Кожне оновлення проходить через наш повний протокол регресійного тестування на основі референсної бібліотеки перед впровадженням у виробництво. Користувачі отримують оновлення моделі автоматично через додаток без необхідності оновлювати сам додаток.
Висновок
Валідація — це не функція, яку ми запускаємо один раз і забуваємо. Це безперервна дисципліна, яка проходить паралельно з кожним покращенням моделі. Nutrola Research Lab існує, тому що ми віримо, що прозора звітність про точність створює довіру, яка потрібна для того, щоб відстеження харчування на основі штучного інтелекту було дійсно корисним.
Наша методологія, лабораторно проаналізовані референсні страви, протоколи сліпого тестування, перехресна валідація з USDA, систематична категоризація помилок та опубліковані метрики покликані утримувати нас на стандарті, вищому за внутрішні еталони. Ми не ідеальні. Наші метрики точності це доводять. Але ми точно знаємо, де ми відстаємо, і маємо систематичні процеси для закриття прогалин.
Для користувачів практичне значення очевидне: Nutrola надає вам харчові оцінки, які прозорі щодо своєї невизначеності, які покращуються з часом і які перевірені на основі найсуворішого референсного стандарту, який ми можемо створити. Ось як виглядає відповідальне відстеження харчування на основі штучного інтелекту.
Готові трансформувати своє відстеження харчування?
Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!