Розмір бази даних продуктів та точність — Чи означає більша база кращий моніторинг?

MyFitnessPal має 14 мільйонів записів про продукти. Cronometer має приблизно 1 мільйон. Менша база даних є в 3-6 разів точнішою. Ось чому більші бази даних продуктів призводять до гірших результатів моніторингу калорій та на що звертати увагу натомість.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

База даних з 14 мільйонами записів про продукти генерує помилки в калоріях, які в 3-6 разів більші, ніж у базі даних з менше ніж 1 мільйоном перевірених записів. Цей парадоксальний висновок стосується всіх категорій продуктів: краудсорсингові бази даних, які надають перевагу кількості над якістю, піддають користувачів середньому ризику помилки в калоріях у 15-30% на запис, тоді як кураторські бази даних, перевірені за лабораторними та державними стандартами, обмежують помилки до 2-5%. У цьому пості представлено повні дані про розмір бази даних, методи верифікації, рівні помилок та проблему дублікатів, які роблять великі бази даних активним ворогом точного моніторингу калорій.

Наскільки точні основні бази даних продуктів?

Точність бази даних продуктів вимірюється шляхом порівняння значень калорій та макронутрієнтів, що зберігаються в базі даних, з референтними значеннями з лабораторного аналізу або державних баз даних складу продуктів, таких як USDA FoodData Central, База даних харчування та нутрієнтів Центру координації харчування (NCCDB) при Університеті Міннесоти та AUSNUT (Австралійська база даних продуктів, добавок та нутрієнтів).

Ми порівняли п'ять платформ для моніторингу харчування за чотирма метриками точності. Рівні помилок вимірювалися шляхом вибору 200 поширених продуктів (включаючи свіжі овочі, упаковані товари, страви з ресторанів та домашні страви), пошуку кожного продукту в кожному додатку та порівняння отриманого значення калорій з референтним значенням USDA FoodData Central.

Додаток / База даних Оцінковий розмір бази даних Метод верифікації Середня помилка калорій на запис Рівень дублікатів (Топ 100 продуктів)
MyFitnessPal ~14 мільйонів записів Краудсорсинг, подані користувачами 15-30% 40-60 дублікатів на продукт
Cronometer ~1 мільйон записів USDA FoodData Central, NCCDB 3-5% 2-5 дублікатів на продукт
Nutrola Перевірена база даних Перевірена за державними та лабораторними джерелами 2-4% 1-2 дублікатів на продукт
FatSecret ~3 мільйони записів Змішаний (частково перевірені, в основному подані користувачами) 10-20% 15-30 дублікатів на продукт
Lose It! ~7 мільйонів записів Змішаний (дані виробника + подані користувачами) 10-25% 20-40 дублікатів на продукт

Що означають ці рівні помилок на практиці?

Помилка в калоріях на рівні 15-30% для одного запису може здаватися прийнятною, але помилки накопичуються протягом дня. Розгляньте користувача, який споживає 2000 калорій на день і моніторить кожен прийом їжі:

  • При 3-5% помилці (Cronometer, Nutrola): загальна кількість відстежених калорій відрізняється на 60-100 калорій. Запланований дефіцит у 500 калорій залишається дефіцитом у 400-440 калорій. Схуднення відбувається, як і очікувалося.
  • При 15-30% помилці (MyFitnessPal): загальна кількість відстежених калорій відрізняється на 300-600 калорій. Запланований дефіцит у 500 калорій може насправді бути дефіцитом у 0-200 калорій — або взагалі без дефіциту. Схуднення зупиняється, і користувач не може зрозуміти, чому.

Urban та ін. (2010), публікуючи в Journal of the American Dietetic Association, виявили, що учасники, які використовували бази даних складу продуктів з вищими рівнями помилок, значно частіше недооцінювали своє загальне добове споживання калорій, навіть коли вони фіксували кожен прийом їжі. Помилка бази даних накопичувалася з природною помилкою в оцінці порцій, що призводило до оцінок загального добового споживання, які були на 25-40% нижчими за фактичне споживання.

Чому більша база даних призводить до гіршої точності?

Відповідь полягає в тому, як записи потрапляють у базу даних. Є п'ять структурних причин, чому масштаб знижує якість у базах даних продуктів.

1. Відсутність контролю якості для поданих користувачами записів

MyFitnessPal та подібні краудсорсингові бази даних дозволяють будь-якому користувачу додавати запис про продукт. Відсутній процес перевірки, верифікації за референтними джерелами та необхідність наявності харчової експертизи. Користувач, який неправильно читає етикетку харчування — наприклад, сплутавши "на порцію" з "на упаковку", вводячи грами замість унцій або пропускаючи десяткові знаки — створює запис, який тисячі інших користувачів можуть вибрати.

Schubart та ін. (2011), у дослідженні, опублікованому в Journal of Diabetes Science and Technology, провели аудит вибірки записів краудсорсингової бази даних продуктів і виявили, що 25% містили помилки, що перевищують 10% від референтного значення калорій, а 8% містили помилки, що перевищують 50%. Найпоширенішими типами помилок були неправильні розміри порцій, перемішані значення макронутрієнтів та записи, які об'єднували кілька продуктів в один.

2. Масштабні дублікати записів

Коли користувач шукає поширений продукт у великій краудсорсинговій базі даних, йому пропонується десятки або сотні записів для одного й того ж продукту, кожен з яких має різні значення калорій. Користувач повинен вибрати один, часто не знаючи, який з них правильний. Це проблема дублікатів, і вона є найбільшим джерелом помилок у відстеженні в краудсорсингових базах даних.

Ось що відбувається, коли ви шукаєте 10 поширених продуктів у чотирьох додатках:

Продукт MyFitnessPal (Знайдені записи) FatSecret (Знайдені записи) Cronometer (Знайдені записи) Nutrola (Знайдені записи)
Банан, середній 57 23 4 2
Куряча грудинка, гриль, 100г 83 31 5 2
Білий рис, варений, 1 склянка 64 28 3 2
Авокадо, ціле 45 19 4 2
Яйце, велике, смажене 72 26 5 3
Оливкова олія, 1 столова ложка 38 15 2 1
Грецький йогурт, натуральний, 100г 91 34 6 2
Філе лосося, запечене, 150г 68 22 4 2
Арахісове масло, 2 столові ложки 54 20 3 2
Вівсянка, варена, 1 склянка 49 18 3 2

Коли користувач шукає "куряча грудинка" у MyFitnessPal і бачить 83 результати, значення калорій у цих записах коливаються від 110 до 220 калорій на 100 грамів. Референтне значення USDA FoodData Central для курячої грудинки на грилі становить 165 калорій на 100 грамів. Користувач, який вибирає неправильний запис — що статистично ймовірно, враховуючи 83 варіанти — може зафіксувати значення, яке на 30-50% відрізняється від справжнього.

3. Реформуляції продуктів не відстежуються

Виробники продуктів регулярно реформулюють свої товари — змінюючи рецепти, інгредієнти та харчові профілі. Коли продукт реформулюється, старий запис у базі даних стає неточним. У краудсорсинговій базі даних немає механізму для оновлення або видалення застарілих записів. Як старі, так і нові версії зберігаються, і користувач не має можливості дізнатися, який з них відображає актуальний продукт.

Оновлення етикеток харчування FDA у 2020 році, яке змінило розміри порцій та додало "додані цукри" до етикеток, створило хвилю застарілих записів у всіх краудсорсингових базах даних. Продукти, які раніше містили 150 калорій на порцію, можуть тепер містити 200 калорій для того ж продукту відповідно до нової дефініції розміру порції. Обидва записи зберігаються в краудсорсингових базах даних роками пізніше.

4. Регіональні варіанти створюють плутанину

"Tim Tam" в Австралії має інший харчовий вміст, ніж "Tim Tam", що продається в Сполучених Штатах. Шоколадка "Cadbury Dairy Milk" у Великій Британії має інший рецепт, ніж той самий продукт в Індії. Краудсорсингові бази даних містять записи від користувачів з усього світу, без географічного маркування для розрізнення регіональних варіантів. Користувач у Лондоні, шукаючи "Cadbury Dairy Milk 45g", може вибрати запис, поданий користувачем з Мумбаї, з калорійними значеннями, що відрізняються на 10-15%.

5. Відсутність процесу усунення дублікатів

Перевірені бази даних, такі як USDA FoodData Central, NCCDB та база даних Nutrola, мають чіткі процеси усунення дублікатів. Коли продукт вже існує, нові дані оновлюють існуючий запис, а не створюють паралельний. У краудсорсингових базах даних відсутній цей механізм. Кожне нове подання створює новий запис, незалежно від того, скільки записів для цього продукту вже існує.

Який спектр верифікації?

Не всі бази даних однаково надійні, і різниця полягає в методології верифікації. Бази даних продуктів існують на спектрі від повністю неперевірених до лабораторно перевірених.

Рівень верифікації Опис Приклади Типова помилка калорій
Краудсорсинг (неперевірений) Будь-який користувач може подавати записи. Відсутня перевірка або валідація. MyFitnessPal, FatSecret (записи, подані користувачами) 15-30%
Напівперевірений Змішування даних виробника та поданих користувачами записів. Деякі записи перевірені. Lose It!, FatSecret (записи виробника) 10-20%
Державна верифікація Записи отримані з національних баз даних складу продуктів, що ведуться державними органами. USDA FoodData Central, NCCDB, AUSNUT 3-5%
Лабораторно та професійно перевірений Записи перевірені за лабораторним аналізом та переглянуті фахівцями з харчування. Cronometer (джерело NCCDB), Nutrola (перевірена база даних) 2-5%

USDA FoodData Central

USDA FoodData Central — це база даних складу продуктів Міністерства сільського господарства США. Вона містить лабораторно проаналізовані харчові дані для тисяч продуктів, значення яких отримані з хімічного аналізу зразків їжі. Це основний стандарт, що використовується дослідниками, дієтологами та перевіреними додатками для моніторингу. База даних підтримується Службою сільськогосподарських досліджень USDA та регулярно оновлюється новими продуктами та переглянутими аналітичними значеннями.

NCCDB (База даних харчування та нутрієнтів Центру координації харчування)

NCCDB підтримується Центром координації харчування при Університеті Міннесоти. Вона широко використовується в клінічних дослідженнях харчування та містить понад 19,000 продуктів з повними профілями нутрієнтів, отриманими з кількох аналітичних джерел. Cronometer використовує NCCDB як основне джерело даних, що пояснює його високу точність, незважаючи на менший загальний розмір бази даних.

AUSNUT (Австралійська база даних продуктів, добавок та нутрієнтів)

AUSNUT підтримується стандартами харчування Австралії та Нової Зеландії (FSANZ) і містить харчові дані для продуктів, споживаних в Австралії, включаючи місцеві та регіональні продукти, які не охоплюються базою даних USDA. Вона слугує стандартом для моніторингу харчування в Австралії та Новій Зеландії.

Як якість бази даних впливає на тривале схуднення?

Зв'язок між точністю бази даних та результатами схуднення працює через механізм довіри та калібрування. Коли користувач моніторить калорії за допомогою неточної бази даних, виникають дві проблеми:

Проблема 1: Невидимий надлишок. Користувач вважає, що він у дефіциті 500 калорій, але помилки в базі даних означають, що насправді він на рівні підтримки ваги або навіть у невеликому надлишку. Схуднення зупиняється. Користувач розчаровується, вважає, що підхід не працює, і зовсім відмовляється від моніторингу. Це найпоширеніший шлях від помилки бази даних до невдачі в моніторингу.

Проблема 2: Втрата калібрування. Протягом тижнів моніторингу користувачі розвивають інтуїтивне уявлення про розміри порцій та вміст калорій — "ментальну модель" свого харчування. Якщо база даних, що живить цю модель, неточна, ментальна модель буде неправильно калібрована. Навіть після того, як користувач перестає активно моніторити, він зберігає неправильні уявлення про те, скільки калорій містять його страви.

Champagne та ін. (2002), публікуючи в Journal of the American Dietetic Association, виявили, що навіть кваліфіковані дієтологи недооцінювали споживання калорій в середньому на 10%, використовуючи стандартні бази даних складу продуктів. Для некваліфікованих користувачів, які покладаються на краудсорсингові бази даних з рівнями помилок 15-30%, загальна помилка оцінки — помилка бази даних, накопичена з природною помилкою в оцінці порцій — може досягати 30-50%.

Як Nutrola вирішує проблему точності бази даних?

Nutrola вирішує проблему точності бази даних через чотири механізми:

  1. Перевірена база даних: Кожен запис про продукт перевіряється за державними та лабораторними референтними джерелами. Записи не є краудсорсинговими і не можуть бути додані користувачами без перевірки.

  2. AI-фото розпізнавання з перевіреним пошуком: Коли користувач фотографує свою страву, AI Nutrola ідентифікує продукти та зіставляє їх з перевіреною базою даних — а не з краудсорсинговим списком. Це повністю усуває проблему вибору дублікатів. Користувач ніколи не бачить 83 записи для "курячої грудинки", оскільки AI вибирає єдиний перевірений запис.

  3. Сканування штрих-кодів з верифікацією виробника: Сканер штрих-кодів Nutrola досягає точності розпізнавання понад 95% та отримує харчові дані з перевірених джерел виробників, які перехресно перевіряються з перевіреною базою даних для узгодженості.

  4. Безперервне обслуговування бази даних: Реформуляції продуктів, регіональні варіанти та нові продукти відстежуються та оновлюються в базі даних. Застарілі записи видаляються, а не залишаються поряд з новими версіями.

AI Дієтичний Асистент використовує точні дані про калорії для надання персоналізованих рекомендацій, а інтеграція з Apple Health та Google Fit забезпечує автоматичне коригування цілей калорій на основі даних про фізичні вправи — обидві функції залежать від точних базових даних про продукти для коректної роботи.

Nutrola починається з 2.50 EUR на місяць з 3-денною безкоштовною пробною версією. Реклама відсутня на всіх тарифах.

Методологія

Порівняння точності в цьому пості було проведено шляхом вибору 200 поширених продуктів у п'яти категоріях: свіжі овочі (40 продуктів), упаковані/брендовані товари (60 продуктів), страви з ресторанів (30 продуктів), домашні страви (40 продуктів) та напої (30 продуктів). Кожен продукт було знайдено в кожному додатку, а калорійне значення найпершого або найбільш вибраного запису було зафіксовано. Ці значення порівнювалися з референтним значенням USDA FoodData Central для того ж продукту, приготованого тим же способом і виміряного в тій же порції.

Кількість дублікатів вимірювалася шляхом пошуку кожного з 100 найпоширеніших продуктів (на основі опублікованих даних про використання додатків) та підрахунку кількості різних записів, що повертаються для кожного продукту. "Запис" визначався як перелік з унікальним значенням калорій — записи з ідентичними значеннями калорій, але різними назвами (наприклад, "Банан" проти "Банан, сирий") вважалися дублікатами.

Відсотки помилок представляють абсолютну різницю між значенням калорій, вказаним у додатку, та референтним значенням USDA, виражену як відсоток від референтного значення. Діапазон (наприклад, 15-30%) представляє міжквартильний діапазон для всіх 200 протестованих продуктів, а не мінімум і максимум.

Часто задавані питання

Чи знає MyFitnessPal про проблеми з точністю своєї бази даних?

MyFitnessPal запровадив систему верифікації з зеленим значком для деяких записів, позначаючи їх як "перевірені" співробітниками. Однак більшість з 14 мільйонів записів залишаються неперевіреними. Перевірені записи становлять невелику підгрупу, і користувачі повинні активно шукати значок перевірки при виборі продукту. Структурна проблема — мільйони неперевірених записів, що існують поряд з невеликою кількістю перевірених — залишається.

Чи є база даних USDA FoodData Central ідеальною?

Ні. База даних USDA FoodData Central має свої обмеження. Вона в основному охоплює продукти, споживані в Сполучених Штатах. Вона може не відображати регіональні методи приготування, а її лабораторні значення представляють середні показники по зразках, які можуть варіюватися в залежності від сезону, джерела та умов вирощування. Однак діапазон помилок для даних USDA зазвичай становить 1-3% — на порядок менше, ніж помилки краудсорсингових баз даних. Це найближчий до золотого стандарту, що існує для даних про склад продуктів.

Чому додатки використовують краудсорсингові бази даних, якщо вони менш точні?

Масштаб і вартість. Створення та підтримка перевіреної бази даних продуктів вимагає харчової експертизи, доступу до референтних джерел та постійного кураторства. Краудсорсинг дозволяє додатку швидко розширити свою базу даних до мільйонів записів за мінімальну вартість. Для компанії-додатку більша база даних означає, що користувачі частіше знаходять те, що шукають, зменшуючи кількість помилок "продукт не знайдено". Компроміс — це точність, але цей компроміс невидимий для більшості користувачів — вони не знають, що значення калорій, яке вони вибрали, є неправильним.

Чи можу я використовувати MyFitnessPal точно, якщо вибираю лише перевірені записи?

Ви можете покращити точність, вибираючи лише записи з зеленим значком перевірки та перехресно перевіряючи значення з USDA FoodData Central для підозрілих чисел. Однак це додає значний час до кожного запису про продукт — що суперечить меті швидкого додатка для моніторингу. Це також передбачає, що користувач має харчову експертизу, щоб визначити, коли значення виглядає неправильно, чого більшість користувачів не мають.

Скільки калорій можуть додати помилки бази даних до мого щоденного моніторингу?

Для користувача, який споживає 2000 калорій на день і моніторить всі прийоми їжі: при 15-30% помилці щоденна помилка моніторингу становить 300-600 калорій. Протягом тижня це 2100-4200 незадокументованих калорій. Один фунт жирової тканини містить приблизно 3500 калорій (Hall та ін., 2012, International Journal of Obesity). Помилки бази даних можуть пояснити різницю між втратою одного фунта на тиждень і відсутністю втрат.

Чи охоплює перевірена база даних Nutrola міжнародні продукти?

Перевірена база даних Nutrola охоплює продукти з кількох національних баз даних складу продуктів і постійно розширюється, щоб включати регіональні та міжнародні продукти. Якщо продукт відсутній у базі даних, системи AI розпізнавання фото та голосу оцінюють харчові значення на основі подібних перевірених продуктів та візуальної оцінки порцій, з поміткою для перевірки.

На що мені звертати увагу при виборі додатка для моніторингу калорій на основі якості бази даних?

Три показники: (1) джерело даних — чи розкриває додаток, звідки беруться його харчові дані? Додатки, що використовують USDA FoodData Central, NCCDB або еквівалентні національні бази даних, є більш надійними, ніж ті, що покладаються виключно на подання користувачів. (2) Кількість дублікатів — шукайте поширений продукт, наприклад, "банан", і підрахуйте результати. Менша кількість результатів з послідовними значеннями калорій вказує на кращу кураторську роботу. (3) Процес верифікації — чи має додаток механізм для перегляду та виправлення записів, чи може будь-який користувач додати будь-яке значення без нагляду?

Чи є проблемою менша база даних, якщо мого продукту немає в списку?

Менша, але перевірена база даних може не містити кожного незвичайного бренду. Компроміс реальний, але керований. Nutrola вирішує проблеми покриття через AI-розпізнавання фото (яке може оцінювати харчовий вміст для продуктів, що не входять до бази даних, шляхом візуального аналізу та порівняння з подібними продуктами), голосове введення (яке перетворює природні мовні описи на складові інгредієнти) та сканування штрих-кодів (яке безпосередньо зчитує дані виробника). Мета — перевірена точність для кожного запису, що існує, з інтелектуальною оцінкою для предметів, які ще не входять до бази даних.


Посилання

  • Urban, L. E., Dallal, G. E., Robinson, L. M., Ausman, L. M., Saltzman, E., & Roberts, S. B. (2010). Точність заявленого енергетичного вмісту зменшених енергетичних, комерційно приготованих продуктів. Journal of the American Dietetic Association, 110(1), 116-123.
  • Schubart, J. R., Stuckey, H. L., Ganeshamoorthy, A., & Sciamanna, C. N. (2011). Хронічні захворювання та інтернет-інтервенції. Journal of Diabetes Science and Technology, 5(3), 728-740.
  • Champagne, C. M., Bray, G. A., Kurtz, A. A., та ін. (2002). Споживання енергії та витрати енергії: контрольоване дослідження, що порівнює дієтологів та недієтологів. Journal of the American Dietetic Association, 102(10), 1428-1432.
  • Hall, K. D., Heymsfield, S. B., Kemnitz, J. W., Klein, S., Schoeller, D. A., & Speakman, J. R. (2012). Енергетичний баланс та його компоненти: наслідки для регуляції ваги тіла. International Journal of Obesity, 36(3), 431-439.
  • USDA Agricultural Research Service. (2024). FoodData Central. Міністерство сільського господарства США.
  • Food Standards Australia New Zealand. (2022). AUSNUT 2011-13 База даних харчових нутрієнтів. FSANZ.
  • Nutrition Coordinating Center. (2024). База даних харчування та нутрієнтів NCC. Університет Міннесоти.

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!