Порівняння краудсорсингових, перевірених та оцінених штучним інтелектом баз даних продуктів: точність, вартість та компроміси
Пряме порівняння трьох підходів до створення баз даних продуктів, які використовуються в додатках для відстеження калорій: краудсорсинг, професійна перевірка та оцінка штучним інтелектом. Включає дані тестування точності для 20 поширених продуктів, аналіз переваг і недоліків та рекомендації щодо методології.
Індустрія відстеження калорій використовує три принципово різні підходи для створення баз даних продуктів: краудсорсинг від користувачів, професійну перевірку на основі авторитетних джерел та оцінку на основі штучного інтелекту з використанням зображень їжі. Це не просто незначні варіації одного й того ж. Це різні методології, які дають суттєво різні результати точності, і вибір підходу є найважливішим фактором, що визначає, чи є число калорій на вашому екрані надійним.
У цій статті представлено пряме порівняння всіх трьох підходів, використовуючи дані точності, аналіз витрат і структуровану оцінку переваг і недоліків кожного методу.
Визначення трьох підходів
Краудсорсингові бази даних
У моделі краудсорсингу будь-який користувач додатка може надіслати запис про продукт, ввівши значення харчування з етикетки упаковки, оцінивши значення з пам'яті або скопіювавши дані з веб-сайту. Ці записи зазвичай стають доступними для всіх користувачів одразу або після мінімальних автоматизованих перевірок. Контроль якості залежить від інших користувачів, які позначають помилки, а також від волонтерів або малозавантажених модераторів, які переглядають позначені записи.
Основний приклад: MyFitnessPal, який накопичив понад 14 мільйонів записів завдяки відкритим внескам користувачів.
Професійно перевірені бази даних
Перевірені бази даних створюються на основі авторитетних джерел (переважно урядових баз даних харчування, таких як USDA FoodData Central) і доповнюються записами, які проходять перевірку професійних дієтологів або науковців у галузі харчування. Кожен запис має задокументовану історію, а значення перевіряються на відповідність відомим складовим діапазонам для категорії продуктів.
Основний приклад: Nutrola, яка перехресно посилається на USDA FoodData Central з національними базами даних харчування та застосовує перевірку дієтологами до своїх 1.8 мільйона записів. Cronometer, який курирує дані з USDA та NCCDB під професійним наглядом, є ще одним прикладом.
Бази даних з оцінкою штучним інтелектом
Підходи з оцінкою штучним інтелектом використовують комп'ютерний зір (конволюційні нейронні мережі, трансформери зору) для ідентифікації їжі за фотографіями та оцінки розмірів порцій за допомогою оцінки глибини або масштабування об'єктів-орієнтирів. Визначена їжа та оцінена порція потім порівнюються з базою даних для отримання оцінки калорій.
Основний приклад: Cal AI, який використовує оцінку на основі фотографій як основний метод трекінгу.
Порівняння точності: 20 поширених продуктів
Наступна таблиця порівнює точність трьох підходів для 20 поширених продуктів, використовуючи лабораторні значення USDA FoodData Central як еталон. Краудсорсингові значення представляють діапазон, знайдений у кількох записах для одного й того ж продукту в репрезентативній краудсорсинговій базі даних. Перевірені значення представляють єдиний запис з перевіреної бази даних, пов'язаної з USDA. Значення, оцінені штучним інтелектом, представляють типовий діапазон з опублікованих досліджень оцінки їжі за допомогою комп'ютерного зору, включаючи дані з Thames et al. (2021) та Meyers et al. (2015).
| Продукт (100г) | Еталон USDA (ккал) | Діапазон краудсорсингу (ккал) | Помилка краудсорсингу | Перевірене значення (ккал) | Помилка перевірки | Діапазон оцінки AI (ккал) | Помилка AI |
|---|---|---|---|---|---|---|---|
| Куряча грудинка, запечена | 165 | 130–231 | -21% до +40% | 165 | 0% | 140–210 | -15% до +27% |
| Білий рис, варений | 130 | 110–170 | -15% до +31% | 130 | 0% | 110–180 | -15% до +38% |
| Банан, сирий | 89 | 85–135 | -4% до +52% | 89 | 0% | 75–120 | -16% до +35% |
| Цільнозерновий хліб | 247 | 220–280 | -11% до +13% | 247 | 0% | 200–300 | -19% до +21% |
| Сир чеддер | 403 | 380–440 | -6% до +9% | 403 | 0% | 350–480 | -13% до +19% |
| Лосось, варений | 208 | 180–260 | -13% до +25% | 208 | 0% | 170–270 | -18% до +30% |
| Броколі, сирі | 34 | 28–55 | -18% до +62% | 34 | 0% | 25–50 | -26% до +47% |
| Грецький йогурт, натуральний | 59 | 50–130 | -15% до +120% | 59 | 0% | 50–90 | -15% до +53% |
| Мигдаль, сирий | 579 | 550–640 | -5% до +11% | 579 | 0% | 500–680 | -14% до +17% |
| Оливкова олія | 884 | 800–900 | -10% до +2% | 884 | 0% | Н/Д (рідина) | Н/Д |
| Солодка картопля, запечена | 90 | 80–120 | -11% до +33% | 90 | 0% | 75–130 | -17% до +44% |
| Фарш яловичий, 85% нежирний | 250 | 220–280 | -12% до +12% | 250 | 0% | 200–310 | -20% до +24% |
| Авокадо | 160 | 140–240 | -13% до +50% | 160 | 0% | 130–220 | -19% до +38% |
| Яйце, ціле, варене | 155 | 140–185 | -10% до +19% | 155 | 0% | 130–200 | -16% до +29% |
| Вівсянка, варена | 71 | 55–130 | -23% до +83% | 71 | 0% | 60–110 | -15% до +55% |
| Яблуко, сире | 52 | 47–72 | -10% до +38% | 52 | 0% | 40–75 | -23% до +44% |
| Макарони, варені | 131 | 110–200 | -16% до +53% | 131 | 0% | 100–180 | -24% до +37% |
| Тофу, твердий | 144 | 70–176 | -51% до +22% | 144 | 0% | 100–190 | -31% до +32% |
| Коричневий рис, варений | 123 | 110–160 | -11% до +30% | 123 | 0% | 100–170 | -19% до +38% |
| Арахісове масло | 588 | 560–640 | -5% до +9% | 588 | 0% | Н/Д (паста) | Н/Д |
Ключові спостереження з таблиці:
Діапазон краудсорсингу є найширшим для продуктів, які мають багато варіацій (грецький йогурт, вівсянка, тофу), оскільки користувачі часто плутають різні приготування, відсотки жиру чи розміри порцій. Перевірена база даних надає значення, які ідентичні еталону USDA, оскільки вона безпосередньо посилається на це джерело. Оцінка штучним інтелектом демонструє постійну варіативність, зумовлену переважно помилками оцінки розміру порцій, а не помилками ідентифікації їжі.
Комплексний аналіз переваг і недоліків
Краудсорсингові бази даних
| Аспект | Оцінка |
|---|---|
| Широта охоплення | Відмінна — мільйони записів, включаючи регіональні, ресторанні та брендові продукти |
| Швидкість нових додатків | Дуже швидка — нові продукти стають доступними протягом кількох годин після внесення користувачем |
| Точність макронутрієнтів | Від поганої до помірної — середні помилки 15-30% (Tosi et al., 2022) |
| Точність мікронутрієнтів | Погана — більшість краудсорсингових записів не містять даних про мікронутрієнти |
| Управління дублікатами | Погане — численні дублікати з суперечливими значеннями |
| Походження даних | Відсутнє — джерело значень не задокументоване |
| Вартість створення | Майже нульова — користувачі безкоштовно вносять дані |
| Вартість обслуговування | Низька — спільнота самостійно модерує з мінімальним професійним наглядом |
| Підходящість для досліджень | Обмежена — Evenepoel et al. (2020) зазначили проблеми з точністю для використання в дослідженнях |
Професійно перевірені бази даних
| Аспект | Оцінка |
|---|---|
| Широта охоплення | Хороша — 1-2 мільйони записів, що охоплюють поширені та брендові продукти |
| Швидкість нових додатків | Помірна — перевірка додає час до процесу |
| Точність макронутрієнтів | Висока — в межах 5-10% від лабораторних значень |
| Точність мікронутрієнтів | Висока — записи, отримані з USDA, містять понад 80 поживних речовин |
| Управління дублікатами | Відмінне — єдиний канонічний запис на продукт |
| Походження даних | Повне — джерело задокументоване та перевірене |
| Вартість створення | Висока — потребує праці професійних дієтологів |
| Вартість обслуговування | Помірна — постійна перевірка нових записів та оновлень |
| Підходящість для досліджень | Висока — методологія відповідає інструментам дослідницького рівня |
Бази даних з оцінкою штучним інтелектом
| Аспект | Оцінка |
|---|---|
| Широта охоплення | Теоретично необмежена — може оцінити будь-яку їжу, сфотографовану на зображенні |
| Швидкість нових додатків | Миттєва — не потрібно вводити записи в базу даних |
| Точність макронутрієнтів | Від поганої до помірної — комбінована помилка від ідентифікації + оцінки порцій |
| Точність мікронутрієнтів | Дуже погана — ШІ не може оцінити мікронутрієнти за зовнішнім виглядом |
| Управління дублікатами | Не застосовується — оцінки генеруються для кожного фото |
| Походження даних | Алгоритмічне — ваги моделі, джерела даних не підлягають відстеженню |
| Вартість створення | Висока початкова (навчання моделі), майже нульова гранична |
| Вартість обслуговування | Помірна — періодичне повторне навчання моделі необхідне |
| Підходящість для досліджень | Обмежена — Thames et al. (2021) зафіксували значну варіацію в оцінках |
Гібридні підходи: найкраще з обох світів
Деякі додатки поєднують кілька підходів, щоб зменшити слабкі сторони кожного методу.
Логування за допомогою ШІ + перевірена база даних (підхід Nutrola). Nutrola використовує розпізнавання їжі за допомогою ШІ та голосове логування як зручний засіб для ідентифікації їжі, а потім зіставляє визначену їжу з професійно перевіреною базою даних з 1.8 мільйона записів. Це поєднання зберігає швидкість і простоту логування за допомогою ШІ, забезпечуючи при цьому, що дані про харчування за кожною визначеною їжею були перехресно перевірені з USDA FoodData Central і переглянуті дієтологами. Користувач отримує переваги як зручності ШІ, так і точності перевірених даних.
Краудсорсингова база даних + алгоритмічне коригування (підхід MacroFactor). MacroFactor використовує кураторську базу даних, доповнену даними користувачів, але застосовує алгоритм, який коригує цілі калорій на основі фактичних тенденцій ваги з часом. Це частково компенсує помилки окремих записів у базі даних, використовуючи тіло користувача як остаточний еталон.
Курована база даних + маркування джерел (підхід Cronometer). Cronometer маркує кожен запис про їжу його джерелом даних (USDA, NCCDB або виробник), що дозволяє обізнаним користувачам віддавати перевагу записам з найбільш авторитетних джерел.
Як помилки накопичуються під час щоденного трекінгу
Практичний вплив підходу до бази даних стає очевидним, коли помилки накопичуються протягом дня трекінгу.
Розгляньте користувача, який реєструє 15 записів про їжу на день (п’ять прийомів їжі та закусок, кожен з яких містить в середньому три продукти):
З краудсорсинговою базою даних (середня помилка ±20%):
- Кожен запис відхиляється від фактичного значення в середньому на ±20%.
- Припускаючи випадковий розподіл помилок, щоденна оцінка може відхилитися від фактичного споживання на 200-400 калорій для дієти на 2,000 калорій.
- Протягом тижня накопичена помилка може становити 1,400-2,800 калорій, що еквівалентно всьому дефіциту, необхідному для втрати 0.5-1 фунта ваги.
З перевіреною базою даних (середня помилка ±5%):
- Кожен запис відхиляється від фактичного значення в середньому на ±5%.
- Щоденне відхилення оцінки: приблизно 50-100 калорій для дієти на 2,000 калорій.
- Накопичена помилка за тиждень: 350-700 калорій, що є керованим в межах звичайних цілей дефіциту.
З оцінкою ШІ (середня помилка ±25-35%):
- Комбінована помилка від ідентифікації їжі та оцінки порцій.
- Щоденне відхилення оцінки: 250-500+ калорій.
- Накопичена помилка за тиждень: 1,750-3,500+ калорій.
Freedman et al. (2015), публікуючи в American Journal of Epidemiology, продемонстрували, що помилки бази даних складу їжі є основним фактором, що впливає на загальну помилку оцінки харчування, часто перевищуючи внесок помилок оцінки розміру порцій. Це відкриття безпосередньо вказує на методологію бази даних як на найважливіший фактор у точності трекінгу.
Чому більшість додатків віддають перевагу краудсорсингу
Незважаючи на обмеження точності, краудсорсинг домінує в індустрії відстеження калорій з простих економічних причин.
Нульова гранична вартість. Кожен запис, надісланий користувачем, нічого не коштує додатку. Перевірені записи коштують від 5 до 15 доларів за час професійної перевірки. У масштабах ця різниця у витратах є величезною.
Швидке охоплення. Краудсорсингова база даних може додавати нові продукти протягом кількох годин після їх виходу на ринок. Перевірена база даних може займати дні або тижні.
Сприйнята всебічність. Користувачі прирівнюють "більше записів" до "кращого додатку". База даних з 14 мільйонами записів виглядає більш всебічною, ніж база даних з 1.8 мільйона записів, навіть якщо менша база даних є більш точною за кожен запис.
Мережеві ефекти. Коли більше користувачів вносять записи, база даних виглядає більш всебічною, приваблюючи більше користувачів, які вносять ще більше записів. Цей цикл винагороджує масштаб над точністю.
В результаті ми маємо ринок, де найпопулярніші додатки (MFP, FatSecret) використовують найменш точну методологію, а найточніші додатки (Nutrola, Cronometer) мають менші, але надійніші бази даних. Обізнані користувачі, які розуміють цей компроміс, постійно обирають точність замість обсягу.
Майбутнє: зближення підходів
Різниця між краудсорсинговими, перевіреними та оціненими штучним інтелектом базами даних може розмити межі, оскільки технології розвиваються.
Перевірка за допомогою ШІ. Моделі машинного навчання можуть бути навчені позначати краудсорсингові записи, які відхиляються від очікуваних складових діапазонів, автоматично виявляючи ймовірні помилки для професійної перевірки. Це може забезпечити точність на рівні перевірки для більших баз даних.
Комп'ютерний зір з перевіреною базою даних. Поточний підхід Nutrola, що використовує ШІ для ідентифікації їжі в поєднанні з перевіреною базою даних для харчування, представляє собою найкращу практику на сьогодні. Оскільки моделі розпізнавання їжі покращуються в точності, цей гібридний підхід стане все більш безшовним.
Автоматизоване перехресне посилання. Процес перехресного посилання записів про їжу з кількома національними базами даних може бути частково автоматизований, зменшуючи витрати на перевірку з кількох джерел, зберігаючи при цьому переваги точності.
Ці тенденції вказують на те, що майбутнє баз даних для відстеження калорій лежить у розумних комбінаціях зручності ШІ та перевіреної точності, а не в залежності від будь-якого одного підходу.
Часто задавані питання
Який підхід до бази даних є найточнішим для відстеження калорій?
Професійно перевірені бази даних, прив'язані до даних, проаналізованих урядом (USDA FoodData Central), є найточнішими, з типовими помилками макронутрієнтів в межах 5-10 відсотків від лабораторних значень. Краудсорсингові бази даних показують помилки 15-30 відсотків (Tosi et al., 2022), а оцінка ШІ демонструє комбіновані помилки 20-40 відсотків (Thames et al., 2021). Nutrola використовує перевірену базу даних, прив'язану до USDA, з перехресною перевіркою дієтологами.
Чому у MyFitnessPal так багато дублікатів?
Відкритий краудсорсинговий модель MyFitnessPal дозволяє будь-якому користувачу надсилати записи без перевірки на наявність існуючих дублікатів. Коли кілька користувачів кожен надсилає свою версію "курячої грудинки, вареної", база даних накопичує численні записи для одного й того ж продукту з різними значеннями харчування. Без систематичного процесу видалення дублікатів ці дублікати зберігаються і створюють плутанину для користувачів, які повинні вибирати між суперечливими записами.
Чи може оцінка калорій штучним інтелектом замінити трекінг на основі бази даних?
На даний момент — ні. Оцінка на основі фотографій, що використовує ШІ, вводить комбіновані помилки через невизначеність ідентифікації їжі та невизначеність оцінки розміру порцій. Thames et al. (2021) повідомили про помилки оцінки порцій на рівні 20-40 відсотків. Однак логування за допомогою ШІ є найефективнішим, коли використовується як зручний метод введення в поєднанні з перевіреною базою даних, що є підходом Nutrola: ШІ ідентифікує їжу, а перевірена база даних надає точні дані про харчування.
Як Nutrola поєднує дані ШІ та перевірені дані?
Nutrola використовує розпізнавання їжі за допомогою ШІ та голосове логування як зручні функції для ідентифікації їжі. Коли користувач фотографує страву або описує її голосом, ШІ ідентифікує продукти. Ці визначені продукти потім порівнюються з базою даних Nutrola з 1.8 мільйона перевірених дієтологами записів, отриманих з USDA FoodData Central та перехресно перевірених з міжнародними базами даних. Ця архітектура забезпечує зручність ШІ без шкоди для точності бази даних.
Чи є менша перевірена база даних кращою за більшу краудсорсингову базу даних?
Для точності трекінгу — так. Перевірена база даних з 1.8 мільйона записів з документованим походженням та професійною перевіркою забезпечить більш точні оцінки калорій, ніж краудсорсингова база даних з 14 мільйонами записів, що містять численні дублікати та неперевірені внески. Точність за запис важливіша за загальну кількість записів. Якщо продукт є в обох базах даних, перевірений запис майже завжди буде більш точним.
Готові трансформувати своє відстеження харчування?
Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!