Чому Foodvisor не має голосового введення?

Foodvisor побудував свій продукт на основі AI-розпізнавання фото, залишивши голосове введення поза планами. Розглянемо, чому це рішення було доцільним для Foodvisor, чому це шкодить користувачам без рук, і як Nutrola пропонує як фото, так і голосове введення за €2.50/місяць.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Foodvisor не має голосового введення, оскільки його дизайн повністю спирається на AI-розпізнавання фото. Для користувачів, яким потрібне безруке введення разом із фото, Nutrola поєднує обидва варіанти за €2.50/місяць.

Foodvisor здобув свою репутацію завдяки одному: можливості навести камеру телефону на тарілку і дозволити комп'ютерному зору ідентифікувати продукти. Це єдине рішення — розпізнавання фото як основного способу введення — визначило всі подальші рішення щодо продукту. Структура бази даних, потік інтерфейсу, процес onboarding, навіть ціноутворення. Коли продукт побудований навколо одного унікального аспекту, функції, які виходять за його межі, зазвичай відсуваються на невизначений термін. Голосове введення — найяскравіший приклад того, що Foodvisor залишив поза увагою.

Для користувачів, які ведуть облік під час приготування їжі, водіння, прогулянки, тренувань або просто занадто втомлені, щоб відкривати камеру після вечері, відсутність голосового введення — це не дрібниця. Це різниця між інструментом, який вписується у реальне життя, і таким, що вимагає зупинитися, навести камеру і зробити знімок щоразу, коли ви їсте. У цій статті ми розглянемо, чому Foodvisor зробив цей вибір, що насправді означає голосове введення у 2026 році, і як Nutrola поєднує AI для фото та NLP для голосу в одному додатку за €2.50 на місяць.


Що таке голосове введення

Голосове введення — це не диктування. Це не "перетворення мови в текст у рядку пошуку". У сучасному додатку для харчування голосове введення — це природна мовна система: мікрофон захоплює ваше речення, модель розпізнавання мови на пристрої транскрибує його, а шар NLP, обізнаний про їжу, перетворює цей транскрипт на структуровані продукти з порціями, брендами та методами приготування. Ви кажете "дві яєчні, шматок кислого хліба і флет уайт з вівсяним молоком", і додаток створює три записи з правильними грами, макроелементами та мікроелементами — без вашого дотику до екрану.

Різниця між диктуванням і справжнім голосовим введенням полягає в парсері. Поле для диктування дає вам рядок. Двигун голосового введення дає вам страву. Він обробляє кілька елементів в одному реченні, фрази порцій, такі як "півсклянки", "жменя" або "велика чаша", назви брендів, стиль приготування ("гриль", "смажений", "на пару") і виправлення в середині речення ("ні, насправді це дві скибочки"). Без цього парсера кожна голосова функція знову перетворюється на ручне редагування — що суперечить сенсу.

Голосове введення також змінює, де і коли ви можете вести облік. Готуючи з брудними руками. Водячи між зустрічами. Прогулюючи собаку. Кладе дитину спати. Під час тренування між підходами. У будь-який момент, коли витягнути телефон, відкрити камеру, навести на тарілку і підтвердити припущення AI неможливо або неввічливо. Безруке введення дозволяє вести облік у ці моменти і зберігає журнал повним, а не відновленим пізніше о 22:00.

Найкращі реалізації також працюють на носимих пристроях. Підняли зап'ястя, швидко сказали "записати банан і протеїновий коктейль", і запис синхронізується з телефоном, не виймаючи його з сумки. Це зовсім інша категорія продуктів, ніж "камеро-орієнтовані" — і це категорія, в якій Foodvisor вирішив не змагати.


Чому Foodvisor не пріоритизує голос

Основна теза Foodvisor полягала в тому, що найскладніша проблема в обліку харчування — це ідентифікація їжі, і комп'ютерне бачення є правильним рішенням. Протягом багатьох років ця теза залишалася в силі. Команда активно інвестувала в навчання моделі розпізнавання на французькій та європейській кухні, створюючи візуальну базу даних страв і вдосконалюючи оцінку порцій за допомогою глибинних підказок з фото. Все в додатку — головний екран з камерою, кнопка "Сканувати" як основний заклик до дії, преміум-коучинг, побудований на основі фотоаналізу — підкріплює цю ставку.

Коли продукт настільки сфокусований, додавання голосу — це не маленька функція. Це другий продукт з другим потоком, інтеграцією бази даних, набором крайових випадків (акценти, фоновий шум, омоніми, кілька елементів, фрази порцій) і другим стандартом якості. Погане впровадження голосу гірше, ніж його відсутність, оскільки парсер, який неправильно розпізнає "куряча грудка" як "куряча латунь", руйнує довіру. Здається, Foodvisor зробив раціональний вибір для свого етапу: продовжувати вдосконалювати фото, а не розпорошувати інженерні зусилля на другий спосіб введення.

Існує також ринкова причина. Найбільша демографічна група Foodvisor — це європейці, які готують їжу і готові витягувати камеру під час прийому їжі. Голосове введення вирішує проблеми, які є більш актуальними для американського стилю їжі в автомобілях, тренувань у спортзалах і користувачів, які використовують носимі пристрої — сегменти, на які MyFitnessPal та нові учасники, такі як Nutrola, зосередилися більше. Без сильного сигналу про те, що його основні користувачі потребують голосу, у Foodvisor не було причин порушувати працюючий UX з камерою.

Вартість для користувачів все ж реальна. Якщо ви їсте поза досяжністю камери, якщо готуєте з брудними руками, якщо ваші окуляри запотівають над гарячою сковородою, якщо ви батько, який веде облік однією рукою, потік лише з фото просто не охоплює ці моменти. Це та прогалина, яку заповнює голосове введення — і та прогалина, яку було створено для закриття Nutrola.


Як працює голосове введення Nutrola

Nutrola розглядає голос як основний спосіб введення, а не як додаткове поле для транскрипції. Процес розроблений від початку до кінця, щоб ви могли вести облік повної страви в одному реченні без дотику до екрану:

  • Розпізнавання мови на пристрої, щоб диктування працювало в режимі польоту, у підвальному спортзалі або на літаку без підключення до мережі.
  • NLP-парсер, обізнаний про їжу, навчений на мільйонах реальних записаних страв, а не лише на загальному мовленні.
  • Парсинг кількох елементів в одному реченні: "курячий салат Цезар, хлібна паличка і дієтична кола" автоматично перетворюється на три записи.
  • Визначення порцій: "півсклянки рису", "дві столові ложки арахісового масла", "стейк розміром з долоню", "велике яблуко" відповідають правильній вазі в грамах.
  • Визнання брендів: сказавши "чаша Chipotle з подвійним курячим", ви отримуєте запис Chipotle з бази даних з 1.8M+ перевірених продуктів, а не загальну чашу.
  • Увага до способу приготування: "гриль", "смажений", "на пару", "сирий", "запечений" змінюють макроси, які запис витягує.
  • Виправлення на льоту: "насправді зробіть це дві скибочки" оновлює останній запис без повторного диктування.
  • 14 мов, включаючи англійську, іспанську, французьку, німецьку, італійську, португальську, голландську, данську, шведську, норвезьку, польську, турецьку, японську та корейську — кожна з рідною харчовою лексикою, а не лише перекладеними рядками.
  • Диктування на зап'ясті з Apple Watch і Wear OS, щоб телефон залишався в кишені.
  • Голосове введення CarPlay та Android Auto під час водіння, без необхідності візуального інтерфейсу.
  • Безруке "Записати мій звичайний сніданок" — ярлик, який повторює збережений шаблон за голосовою командою.
  • Об'єднаний журнал з фото AI: той самий список записів приймає фото-скани (менше ніж за 3 секунди), сканування штрих-кодів, ручний пошук і голос — що б не було швидшим у той момент.

Результат полягає в тому, що користувачі Nutrola, які додають голос до свого робочого процесу, ведуть облік більш послідовно протягом усього дня, а не лише під час прийомів їжі. Щоденник відстеження залишається повним, оскільки інструмент адаптується до моменту, а не вимагає, щоб момент адаптувався до нього.


Порівняння голосового введення: Foodvisor проти MyFitnessPal проти Nutrola

Можливість Foodvisor MyFitnessPal Nutrola
Нативне голосове введення Ні Обмежене (преміум) Так (усі рівні)
Парсинг кількох елементів в одному реченні Ні Частковий Так
Визнання фраз порцій Ні Частковий Так
Визнання назви бренду голосом Ні Частковий Так
Увага до способу приготування Ні Ні Так
Голосове введення на пристрої (офлайн) Ні Ні Так
Диктування Apple Watch / Wear OS Ні Ні Так
Голосове введення CarPlay / Android Auto Ні Ні Так
Підтримувані голосові мови 0 ~3 14
Працює разом з AI фото в одному журналі Н/Д Ні Так
Розмір перевіреної бази даних продуктів ~300K ~14M, надісланих користувачами 1.8M+ перевірених
Відстежувані нутрієнти ~40 ~30 100+
Реклама Так Так Ні
Ціна за запис Безкоштовно + преміум Безкоштовно + преміум Безкоштовний рівень + €2.50/місяць

Модель чітка. Foodvisor відмінно справляється з одним способом введення і не намагається пропонувати інший. MyFitnessPal додав голосові функції, але тримає їх за преміумом і обмежує мови. Nutrola розглядає голос як основну складову поряд з фото та штрих-кодом, на всіх рівнях і на всіх поверхнях, з якими користувач насправді взаємодіє.


Який додаток підходить саме вам?

Найкраще, якщо ви хочете лише AI-логування фото європейської кухні

Foodvisor залишається хорошим вибором, якщо ваше життя з ведення обліку на 95 відсотків складається з тарілки на столі, а страви, які ви їсте, є європейськими. Його модель розпізнавання була налаштована на цей контекст і все ще забезпечує хорошу точність для французької, італійської та середземноморської кухні. Якщо ви ніколи не ведете облік під час руху, ніколи не ведете без рук і не проти витягувати камеру щоразу, прогалина у функціях вас не турбуватиме. Ви відчуєте відсутність голосу лише в крайніх випадках — але саме в цих крайніх випадках записи зазвичай пропускаються.

Найкраще, якщо вам потрібна велика база даних, надіслана користувачами, і випадкове голосове введення

MyFitnessPal — це середній варіант. База даних продуктів величезна, голос доступний частково за преміум, а екосистема зріла. Компроміси реальні: точність варіюється, оскільки більшість записів надіслані користувачами, реклама присутня в безкоштовному рівні, а парсер голосу не обробляє речення з кількома елементами так чисто, як у Nutrola. Якщо ви вже глибоко в екосистемі MFP з роками даних, вартість переходу є вагомою причиною залишитися.

Найкраще, якщо ви хочете і голос, і фото, без рук скрізь, за найнижчою ціною

Nutrola створена для користувачів, які відмовляються вибирати між фото та голосом. Один і той же додаток веде облік тарілки менш ніж за 3 секунди через камеру, парсить повну страву з диктованого речення, сканує штрих-код і синхронізується з Apple Watch або Wear OS для ведення обліку на зап'ясті — все це на безкоштовному рівні, який дійсно можна використовувати, або за €2.50 на місяць за повний набір функцій. Ніякої реклами на всіх рівнях, 1.8M+ перевірених продуктів, 100+ нутрієнтів і 14 мов для голосу. Якщо ви хочете, щоб інструмент підходив вашому життю, а не навпаки, це ваш вибір.


FAQ: Foodvisor, голосове введення та альтернативи

Чи має Foodvisor будь-яке голосове введення?

Foodvisor підтримує диктування на рівні пристрою в полях текстового пошуку, оскільки iOS і Android надають системні клавіатури з кнопкою мікрофона. Це не голосове введення. Це транскрибує рядок у рядок пошуку і все ще вимагає, щоб ви натиснули результат, підтвердили порцію та зберегли. Немає обізнаного про їжу NLP-парсингу, обробки речень з кількома елементами, інтерпретації фраз порцій і безрукого робочого процесу. Практично це те ж саме, що і набір тексту, просто з меншою кількістю натискань.

Чи додасть Foodvisor голосове введення в майбутньому?

Публічні сигнали дорожньої карти не вказували на голос як пріоритет. Команда зосередилася на поліпшенні точності розпізнавання фото, розширенні покриття страв і вдосконаленні преміум-коучингу. Ця спрямованість є виправданою — фото є їхньою перевагою — але це означає, що користувачі, яким потрібен голос, не повинні планувати на основі запуску Foodvisor. Якщо голос важливий для вашого робочого процесу, правильний крок — використовувати інструмент, який вже пропонує цю функцію, а не чекати.

Наскільки точний парсер голосу Nutrola в шумному середовищі?

Процес використовує розпізнавання мови на пристрої з придушенням шуму, навчений на аудіопрофілях кухні, спортзалу та автомобіля. У контрольованих тестах він точно обробляє короткі речення про страви навіть на фоні музики, що грає, течії води або дорожнього шуму. Довші та складніші речення погіршуються, як ви й очікуєте, тому парсер підтримує виправлення на льоту: ви можете додати "насправді зробіть це на грилі, а не смажене", і останній запис оновлюється без початку знову.

Чи можу я використовувати голосове введення безкоштовно в Nutrola?

Так. Голосове введення доступне на безкоштовному рівні разом з AI для фото, скануванням штрих-кодів та ручним пошуком. План за €2.50 на місяць відкриває глибші функції — планування харчування на кілька днів, просунуте відстеження мікронутрієнтів, повний набір для Apple Watch і Wear OS, а також повний розподіл 100+ нутрієнтів — але саме голос не є платним. Це свідомий вибір дизайну: метод введення, який існує лише для платних користувачів, фрагментує досвід і заважає прийняттю.

Чи працює голосове введення на Apple Watch без мого телефону поблизу?

Так, з годинником, підключеним до LTE або Wi-Fi. Розпізнавання на пристрої обробляє транскрипцію локально, а запис синхронізується наступного разу, коли годинник досягає телефону або хмари. Якщо ви на годиннику лише з Wi-Fi поза діапазоном Bluetooth телефону, запис ставиться в чергу і синхронізується при повторному підключенні. Поведінка Wear OS аналогічна на підтримуваних годинниках.

Чи є голосове введення приватним? Куди йде аудіо?

Аудіо для голосового введення Nutrola обробляється на пристрої за замовчуванням. Транскрибований текст, а не сире аудіо, надсилається на парсинговий шар для відображення в записах про їжу. Аудіо не зберігається на сервері. Це відрізняється від загальної служби хмарного диктування, яка завантажує сиру мову для транскрипції, і це одна з причин, чому функція працює офлайн.

Як голосове введення Nutrola порівнюється з набором тексту в MyFitnessPal?

Набір повної страви в MFP займає кілька екранів: спочатку шукаєте перший елемент, вибираєте порцію, зберігаєте, шукаєте другий елемент, вибираєте порцію, зберігаєте і так далі. Голосове введення Nutrola для тієї ж страви — це одне речення і одне підтвердження. Для сніданку з трьох елементів це приблизно в 10 разів швидше, а що важливіше, це працює, коли ваші руки недоступні — саме тоді ведення обліку найчастіше пропускається.


Остаточний вердикт

Відсутність голосового введення в Foodvisor — це не помилка чи недогляд. Це логічний результат стратегії продукту, яка зробила ставку на AI-розпізнавання фото і вирішила зосередитися на цьому аспекті, а не розпорошуватися на методи введення. Для користувачів, чиє життя з ведення обліку вписується в цю ставку — тарілка на столі, готовність до камери, європейська кухня — Foodvisor залишається розумним інструментом.

Для всіх інших обмеження лише з фото є саме тією причиною, чому записи пропускаються. Готуючи з борошном на руках, ведучи облік смузі під час поїздки, диктуючи перекус у спортзалі між підходами, зберігаючи замовлення в ресторані, поки офіціант йде — це ті моменти, для яких існує голосове введення, і це ті моменти, до яких Foodvisor не може дістатися.

Nutrola була створена з протилежною передумовою: жоден окремий метод введення не виграє в кожній ситуації, тому кожен метод введення повинен бути основним. Розпізнавання фото за 3 секунди, 1.8M+ перевірених продуктів, 100+ відстежуваних нутрієнтів, 14 мов для голосу з обізнаним NLP, диктування на зап'ясті, офлайн-режим, ніякої реклами, безкоштовний рівень, який дійсно можна використовувати, і €2.50 на місяць за повний набір функцій. Якщо ви хочете, щоб трекер йшов у ногу з вашим днем, а не переривав його, вибір очевидний.

Почніть з безкоштовного рівня Nutrola, запишіть свої наступні три страви голосом і порівняйте результат з поточним потоком лише з фото. Трекер, який охоплює більше моментів, — це трекер, з яким ви насправді будете залишатися.

Готові трансформувати своє відстеження харчування?

Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!