Як додатки для відстеження калорій отримують свої дані про харчування: технічний аналіз за лаштунками

Докладний технічний аналіз п'яти методів, які використовують додатки для відстеження калорій для створення своїх баз даних продуктів: державні бази даних, подання виробників, лабораторний аналіз, краудсорсинг та оцінка за допомогою штучного інтелекту. Включає діаграми даних, компроміси між вартістю та точністю, а також розбір методології конкретних додатків.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Кожного разу, коли ви реєструєте їжу в додатку для відстеження калорій і бачите, як на екрані з'являється число калорій, це число звідкись взялося. Але звідки саме? Як додаток визначив, що ваш обід містить 487 калорій, 32 грами білка та 18 міліграмів вітаміну C? Відповідь залежить від того, який додаток ви використовуєте, а різниця в методах отримання даних призводить до значних відмінностей у рівні точності.

У цій статті розглядаються п'ять основних методів, які використовують додатки для відстеження калорій для створення своїх баз даних продуктів, дані, які потрібні для кожного методу, компроміси між вартістю та точністю, а також те, як конкретні додатки реалізують кожен підхід.

П'ять методів отримання даних

Метод 1: Державні бази даних про харчування

Джерело: Національні бази даних складу продуктів, які підтримуються державними установами, переважно USDA FoodData Central (США), NCCDB (Університет Міннесоти, США), AUSNUT (Food Standards Australia New Zealand), CoFID/McCance і Widdowson's (Public Health England, Великобританія) та CNF (Health Canada).

Процес:

Етап Процес Контроль якості
1. Отримання даних Завантаження або доступ до API державної бази даних Перевірка цілісності даних під час імпорту
2. Нормалізація формату Відображення полів державних даних на схему додатка Перевірка полів, перевірка конверсії одиниць
3. Стандартизація розміру порцій Перетворення на зручні для споживача порції Перевірка відповідності даним FNDDS
4. Відображення поживних речовин Відображення кодів поживних речовин у додатку Перевірка повного покриття поживних речовин
5. Тестування інтеграції Перехресна перевірка значень з джерелом Автоматичне виявлення відхилень
6. Введення для користувачів Пошуковий запис продукту з повним профілем поживних речовин Постійний моніторинг точності

Точність: Найвища. Державні бази даних використовують стандартизовані лабораторні аналітичні методи (протоколи AOAC International). Записи USDA Foundation Foods є золотим стандартом, значення яких визначаються за допомогою бомбового калориметра, аналізу К'єльдаля та хроматографічних методів.

Обмеження: Державні бази даних охоплюють загальні продукти, але мають обмежене покриття брендових продуктів, страв з ресторанів та міжнародних продуктів. База даних USDA FoodData Central Branded Food Products містить дані етикеток, подані виробниками, які регулюються, але не перевіряються незалежно.

Вартість: Низька пряма вартість (державні дані є публічно доступними), але інтеграція вимагає значних зусиль з інженерії для нормалізації форматів даних, обробки оновлень та управління відображенням між державними кодами продуктів і термінами пошуку споживачів.

Додатки, які використовують цей метод як основне джерело: Nutrola (USDA + міжнародні бази даних, перехресно перевірені), Cronometer (USDA + NCCDB), MacroFactor (USDA foundation).

Метод 2: Подання етикеток виробників

Джерело: Дані панелі харчових цінностей від виробників, доступні через бази даних штрих-кодів (Open Food Facts, API виробників), прямі подання виробників або База даних брендових продуктів USDA.

Процес:

Етап Процес Контроль якості
1. Отримання даних Сканування штрих-коду, подання виробника або OCR зображення етикетки Перевірка штрих-коду, виявлення дублікатів
2. Аналіз етикетки Витяг значень поживних речовин з формату етикетки Перевірка формату, нормалізація одиниць
3. Введення даних Відображення значень етикетки на схему бази даних Перевірка діапазону (позначення неправдоподібних значень)
4. Перевірка якості Порівняння з очікуваними діапазонами складу Автоматичне виявлення викидів
5. Введення для користувачів Пошуковий запис брендових продуктів Повідомлення про помилки користувачів

Точність: Помірна. Регламенти FDA (21 CFR 101.9) дозволяють заявленим значенням калорій перевищувати фактичні значення на 20 відсотків. Дослідження показали, що фактичний вміст калорій відхиляється від значень на етикетках в середньому на 8 відсотків (Jumpertz et al., 2013, Obesity), а окремі продукти можуть показувати відхилення, що перевищують 50 відсотків. Urban et al. (2010) виявили, що страви з ресторанів показують найбільші відхилення від заявлених значень харчування.

Обмеження: Етикетки містять лише підмножину поживних речовин (зазвичай 14-16 поживних речовин). Багато мікроелементів, окремі амінокислоти, окремі жирні кислоти та фітохімічні речовини не вказані. Крім того, дані етикеток відображають формулювання на момент етикетування; реформулювання можуть не відразу відображатися в базі даних.

Вартість: Низька до помірної. Інфраструктура сканування штрих-кодів та технологія OCR вимагають інвестицій на етапі розробки, але вартість за запис є мінімальною після налаштування систем.

Додатки, які використовують цей метод: Більшість додатків використовують це для брендових продуктів, включаючи Lose It! (значна залежність від сканування штрих-кодів), MyFitnessPal (додатково до краудсорсингу) та MacroFactor (кураторські брендові доповнення).

Метод 3: Лабораторний аналіз

Джерело: Фізичні зразки їжі, придбані в роздрібних магазинах, та аналізовані за допомогою стандартизованих методів аналітичної хімії в акредитованих лабораторіях.

Процес:

Етап Процес Контроль якості
1. Закупівля зразків Придбання репрезентативних зразків з кількох місць Дотримання протоколу відбору
2. Підготовка зразків Гомогенізація зразка відповідно до протоколів AOAC Стандартні операційні процедури
3. Проксімальний аналіз Визначення вмісту вологи, білка, жиру, золи, вуглеводів Повторні аналізи, контрольні матеріали
4. Аналіз мікроелементів HPLC, ICP-OES, AAS для вітамінів і мінералів Сертифіковані контрольні стандарти
5. Компиляція даних Запис результатів з оцінками невизначеності Рецензування результатів
6. Введення в базу даних Введення перевірених значень з документацією про походження Перехресна перевірка з існуючими даними

Точність: Найвища можлива. Аналітична невизначеність зазвичай становить 2-5 відсотків для макроелементів і 5-15 відсотків для мікроелементів, коли методи відповідають стандартам AOAC International.

Обмеження: Надзвичайно дорогий ($500-$2,000+ за продукт для повного проксимального та мікроелементного аналізу) і трудомісткий (2-4 тижні на зразок). Жоден споживчий додаток не може дозволити собі незалежно аналізувати мільйони продуктів.

Вартість: Непомірно висока для комерційного масштабу. Саме тому додатки використовують існуючий лабораторний аналіз (USDA FoodData Central), а не проводять незалежний аналіз.

Додатки, які використовують цей метод: Жоден споживчий додаток не проводить незалежний лабораторний аналіз. Додатки, які використовують дані, проаналізовані в лабораторії, отримують їх через державні бази даних (USDA, NCCDB).

Метод 4: Краудсорсинг подань користувачів

Джерело: Окремі користувачі додатка вручну вводять дані про харчування з упаковки продуктів, рецептів або особистих оцінок.

Процес:

Етап Процес Контроль якості
1. Введення користувачем Користувач вводить або сканує інформацію про харчування Базова перевірка формату
2. Подання Запис додається до бази даних (часто доступний негайно) Автоматична перевірка діапазону (за бажанням)
3. Перегляд спільноти Інші користувачі можуть позначати помилки Позначення спільнотою (непослідовно)
4. Модерація Позначені записи переглядаються модераторами Волонтерська або мінімально оплачувана модерація
5. Управління дублікатами Періодичне об'єднання дублікатів Автоматичне та ручне (часто з затримкою)

Точність: Низька до помірної. Urban et al. (2010) у Journal of the American Dietetic Association виявили, що непідготовлені особи, які вводять дані про склад їжі, мають середній рівень помилок 20-30 відсотків для вмісту енергії. Tosi et al. (2022) виявили, що краудсорсингові записи в MFP відхилялися від лабораторних значень на 28 відсотків.

Обмеження: Відсутність систематичного контролю якості. Дублікати з'являються швидше, ніж їх можна об'єднати. Один і той же продукт може мати десятки записів з різними значеннями калорій. Користувачі без навчання в галузі харчування приймають рішення про введення, що призводить до систематичних помилок (плутанина між схожими продуктами, неправильні розміри порцій, помилки з десятковими знаками).

Вартість: Практично нульова. Користувачі безкоштовно вносять працю, що є економічним драйвером домінування цієї моделі.

Додатки, які використовують цей метод як основне джерело: MyFitnessPal (14+ мільйонів краудсорсингових записів), FatSecret (модель внесків спільноти).

Метод 5: Оцінка за допомогою ШІ

Джерело: Моделі комп'ютерного зору, які ідентифікують їжу за фотографіями та алгоритмічно оцінюють харчовий вміст.

Процес:

Етап Процес Контроль якості
1. Захоплення зображення Користувач фотографує свою страву Оцінка якості зображення
2. Ідентифікація їжі CNN/Vision Transformer класифікує продукти Оцінка впевненості
3. Оцінка порції Оцінка глибини або масштабування за допомогою об'єкта-еталона Перевірка калібрування
4. Відповідність базі даних Ідентифікована їжа зіставляється з записом у базі даних Оцінка впевненості у відповідності
5. Розрахунок поживних речовин Розмір порції × значення поживних речовин на одиницю Перевірка узгодженості

Точність: Змінна. Meyers et al. (2015) повідомили про точність ідентифікації їжі 50-80 відсотків для різноманітних страв у системі Im2Calories. Thames et al. (2021) оцінили нові моделі та виявили покращену точність класифікації, але постійні проблеми з оцінкою розміру порцій, повідомляючи про середні помилки порцій 20-40 відсотків. Сумарна помилка невизначеності ідентифікації, помножена на невизначеність оцінки порцій, може призвести до оцінок калорій з широкими інтервалами впевненості.

Обмеження: Точність оцінки ШІ залежить як від моделі зору, так і від бази даних, з якою вона зіставляється. Ідеальна ідентифікація їжі, пов'язана з неточною базою даних, все ще призводить до неточного результату. Складні страви, перекриті продукти та незнайомі презентації знижують точність класифікації.

Вартість: Висока початкова інвестиція в навчання моделі та інфраструктуру, але практично нульова гранична вартість за оцінку.

Додатки, які використовують цей метод: Cal AI (основний метод), Nutrola (як зручний інтерфейс для введення, підкріплений перевіреною базою даних), різні нові додатки.

Багатоджерельний підхід Nutrola

Підхід Nutrola до отримання даних поєднує переваги кількох методів, одночасно зменшуючи їх недоліки.

Етап процесу Підхід Nutrola Мета
1. Первинне отримання даних USDA FoodData Central Лабораторний фундамент
2. Перехресна перевірка AUSNUT, CoFID, CNF, BLS та інші національні бази даних Мультиджерельна валідація
3. Виявлення розбіжностей Автоматичне порівняння між джерелами Виявлення помилок
4. Професійний огляд Огляд дієтологом позначених розбіжностей Експертне вирішення
5. Інтеграція брендових продуктів Дані виробників з верифікацією дієтолога Покриття брендів
6. Логування з підтримкою ШІ Візуальне розпізнавання та голосовий інтерфейс для введення Зручність для користувачів
7. Відповідність базі даних Ідентифіковані ШІ продукти зіставляються з перевіреними записами Гарантія точності
8. Постійний моніторинг Відгуки користувачів + періодична перевірка Постійна якість

Ключова відмінність у процесі Nutrola полягає в розділенні інтерфейсу введення (AI для розпізнавання фотографій та голосу, що оптимізує зручність) та основної бази даних (яка базується на USDA, перехресно перевірена, підтверджена дієтологами, що оптимізує точність). Ця архітектура гарантує, що швидкість і легкість введення даних за допомогою ШІ не йдуть на шкоду точності даних, оскільки кожен запис, з яким ШІ проводить зіставлення, був професійно перевірений.

В результаті отримується база даних з понад 1.8 мільйона перевірених дієтологами записів, доступних через кілька методів введення (AI для фотографій, голосове введення, сканування штрих-кодів, текстовий пошук) за €2.50 на місяць без реклами.

Узагальнення компромісів між вартістю та точністю

Метод отримання даних Вартість за запис Точність (макро) Точність (мікро) Масштабованість Швидкість виходу на ринок
Лабораторний аналіз $500–$2,000 ±2–5% ±5–15% Дуже низька Повільна (тижні)
Інтеграція державних баз даних $10–$30 ±5–10% ±10–15% Помірна Помірна (місяці)
Професійний огляд + перехресна перевірка $5–$15 ±5–10% ±10–20% Помірна Помірна
Етикетки виробників $1–$3 ±10–20% Обмежене покриття Висока Швидка (дні)
Краудсорсинг ~$0 ±15–30% Часто відсутні Дуже висока Миттєва
Оцінка ШІ <$0.01 ±20–40% Не застосовується Дуже висока Миттєва

Таблиця показує основний компроміс, з яким стикається кожен додаток для відстеження калорій: точність коштує грошей, а масштабування є дешевим. Додатки, які надають перевагу розміру бази даних, використовують краудсорсинг, оскільки це безкоштовно та швидко. Додатки, які надають перевагу точності, інвестують в інтеграцію державних даних та професійну верифікацію.

Як працюють оновлення бази даних

База даних продуктів не є статичним продуктом. Виробники їжі реформулюють продукти, нові продукти з'являються на ринку, а аналітична наука вдосконалюється. Механізм оновлення для кожного методу отримання даних суттєво відрізняється.

Державні бази даних оновлюються за визначеними циклами. USDA FoodData Central випускає основні оновлення щорічно, а компонент Foundation Foods оновлюється, коли нові аналітичні дані стають доступними. Додатки, які інтегрують державні дані, повинні повторно синхронізувати свої бази даних з кожним випуском.

Дані виробників змінюються щоразу, коли продукт реформулюється. Немає централізованої системи сповіщення про реформулювання, тому додатки повинні або періодично повторно сканувати продукти, або покладатися на користувачів для повідомлення про застарілі записи.

Краудсорсингові дані оновлюються безперервно, оскільки користувачі подають нові записи, але без контролю якості нові подання так само ймовірно можуть вносити помилки, як і виправляти їх.

Моделі ШІ вдосконалюються через періодичне повторне навчання на нових даних, але це вимагає кураторських навчальних наборів даних та обчислювальних ресурсів. Оновлення моделей відбуваються на інженерних циклах, а не на циклах харчових даних.

Оновлювальний процес Nutrola включає цикли випуску USDA, оновлення національних баз даних та постійну перевірку записів брендових продуктів, щоб підтримувати актуальність у своїх 1.8 мільйонах записів.

Чому методологія отримання даних повинна бути вашим першим критерієм відбору

Оцінюючи додатки для відстеження калорій, більшість користувачів запитують про функції: Чи є сканування штрих-кодів? Чи можу я реєструвати рецепти? Чи синхронізується з моїм фітнес-трекером? Ці запитання є розумними, але вторинними. Перше питання завжди має бути: Звідки походять дані про харчування і як вони перевіряються?

Чудово спроектований додаток з комплексними функціями, який надає неточні дані про харчування, є активно контрпродуктивним. Він створює хибну впевненість у оцінках калорій, які можуть відхилятися від реальності на 20-30 відсотків. Для користувача, який намагається досягти дефіциту в 500 калорій, 25-відсоткова систематична помилка означає різницю між досягненням дефіциту та підтриманням поточної ваги.

Порівняння методів отримання даних у цій статті надає основу для прийняття обґрунтованого рішення щодо вибору додатка. Додатки, які спираються на USDA FoodData Central з професійними шарами верифікації (Nutrola, Cronometer), пропонують принципово інший рівень надійності даних, ніж краудсорсингові альтернативи (MFP, FatSecret) або оцінка лише за допомогою ШІ (Cal AI).

Часто задавані питання

Як додатки для відстеження калорій отримують свої дані про харчування?

Додатки для відстеження калорій використовують п'ять основних методів: інтеграцію з державними базами даних (USDA FoodData Central, NCCDB), подання етикеток виробників, лабораторний аналіз (отриманий через державні бази даних), краудсорсингові подання користувачів та оцінку на основі ШІ з фотографій їжі. Кожен метод має різні профілі точності та вартості. Найбільш точні додатки, включаючи Nutrola та Cronometer, базуються на даних, проаналізованих в лабораторії, і додають шари професійної верифікації.

Чому деякі трекери калорій мають на мільйони більше записів продуктів, ніж інші?

Різниця в розмірах бази даних в основному зумовлена краудсорсингом. Додатки, такі як MyFitnessPal, дозволяють будь-якому користувачеві подавати записи, що швидко збільшує кількість записів до мільйонів. Однак багато з цих записів є дублікатами або містять помилки. Додатки з меншими, але перевіреними базами даних (1.8 мільйона перевірених дієтологами записів Nutrola, кураторські дані USDA/NCCDB Cronometer) надають перевагу точності за запис замість загальної кількості записів.

Чи є оцінка калорій за допомогою ШІ такою ж точною, як трекінг на основі бази даних?

Поточні дослідження свідчать про те, що оцінка на основі фотографій ШІ є менш точною, ніж пошук їжі у перевіреній базі даних. Thames et al. (2021) повідомили про середні помилки оцінки порцій 20-40 відсотків для систем ШІ. Однак точність оцінки ШІ сильно залежить від бази даних, з якою вона зіставляється. Nutrola використовує ШІ як зручний інтерфейс для введення (розпізнавання фотографій і голосу), одночасно зіставляючи ідентифіковані продукти з перевіреною базою даних, поєднуючи зручність ШІ з точністю бази даних.

Як часто потрібно оновлювати бази даних продуктів?

Виробники їжі регулярно реформулюють продукти, а USDA щорічно оновлює FoodData Central. Додаток повинен включати основні оновлення державних баз даних принаймні раз на рік і мати процес для оновлення записів брендових продуктів, коли відбуваються реформулювання. Краудсорсингові бази даних оновлюються безперервно, але без контролю якості, тоді як кураторські бази даних оновлюються рідше, але з перевіреною точністю.

Чи можу я перевірити, звідки мій трекер калорій отримує свої дані?

Деякі додатки є прозорими щодо своїх джерел даних. Cronometer позначає записи своїм джерелом (USDA, NCCDB або виробник). Корисним тестом є пошук загального продукту, наприклад "сирий броколі, 100г", і перевірка, чи повертає додаток один визначений запис (що вказує на кураторську базу даних) або кілька записів з різними значеннями (що вказує на краудсорсингову базу даних з проблемами дублікатів).

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!