Pourquoi Foodvisor n'a-t-il pas de saisie vocale ?

19 avril 2026

Foodvisor a construit l'ensemble de son produit autour de la reconnaissance photo par IA, laissant de côté la saisie vocale. Nous expliquons pourquoi cette décision a du sens pour Foodvisor, pourquoi elle nuit aux utilisateurs en mode mains libres, et comment Nutrola propose à la fois la saisie photo et vocale pour 2,50 €/mois.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Foodvisor ne propose pas de saisie vocale car son design repose entièrement sur la reconnaissance photo par IA. Pour les utilisateurs qui ont besoin d'une saisie mains libres en plus de la photo, Nutrola combine les deux pour 2,50 €/mois.

Foodvisor a bâti sa réputation sur un principe : pointer l'appareil photo d'un téléphone vers une assiette et laisser le modèle de vision par ordinateur identifier les aliments. Ce choix unique — la reconnaissance photo comme principal mode d'entrée — a influencé toutes les décisions de produit qui ont suivi : structure de la base de données, flux de l'interface utilisateur, onboarding, même tarification. Lorsqu'un produit est construit autour d'un seul différenciateur, les fonctionnalités qui sortent de ce cadre ont tendance à être repoussées indéfiniment. La saisie vocale est l'exemple le plus clair de ce que Foodvisor a laissé de côté.

Pour les utilisateurs qui suivent leur alimentation en cuisinant, en conduisant, en marchant, en soulevant des poids, ou simplement trop fatigués pour ouvrir un appareil photo après le dîner, l'absence de saisie vocale n'est pas une omission mineure. C'est la différence entre un outil qui s'intègre dans la vie réelle et un autre qui exige que vous vous arrêtiez, visiez et preniez une photo à chaque repas. Cet article examine pourquoi Foodvisor a fait ce choix, ce que la saisie vocale apporte réellement en 2026, et comment Nutrola combine à la fois l'IA photo et le traitement du langage naturel vocal dans une seule application au prix de 2,50 € par mois.

Ce que signifie réellement la saisie vocale

La saisie vocale n'est pas de la dictée. Ce n'est pas "la parole en texte dans une barre de recherche". Dans une application de nutrition moderne, la saisie vocale est un pipeline de langage naturel : le microphone capture votre phrase, un modèle de reconnaissance vocale sur l'appareil la transcrit, et une couche NLP consciente des aliments analyse cette transcription en éléments alimentaires structurés avec portions, marques et méthodes de cuisson. Vous dites "deux œufs brouillés, une tranche de pain au levain, et un flat white avec du lait d'avoine", et l'application crée trois entrées de journal avec les bons grammes, les bons macronutriments et les bons micronutriments — sans que vous n'ayez à toucher l'écran.

La différence entre la dictée et la véritable saisie vocale réside dans l'analyseur. Un champ de dictée vous donne une chaîne de caractères. Un moteur de saisie vocale vous donne un repas. Il gère plusieurs éléments dans une seule phrase, des expressions de portions comme "une demi-tasse", "une poignée", ou "un grand bol", les noms de marques, le style de préparation ("grillé", "frit", "cuit à la vapeur"), et les corrections en cours de phrase ("non attends, fais plutôt deux tranches"). Sans cet analyseur, chaque fonctionnalité vocale retombe dans l'édition manuelle — ce qui va à l'encontre de l'objectif.

La saisie vocale change également le moment et le lieu où vous pouvez enregistrer. Cuisiner avec des mains grasses. Conduire entre des réunions. Marcher le chien. Endormir un enfant. Pendant l'entraînement entre deux séries. Tout moment où sortir un téléphone, ouvrir un appareil photo, cadrer une assiette et confirmer la supposition de l'IA est impossible ou impoli. La saisie mains libres permet de suivre son alimentation dans ces moments-là et maintient le journal complet au lieu de le deviner rétroactivement à 22h.

Les meilleures implémentations fonctionnent également sur des appareils portables. Un mouvement de poignet, une rapide commande "enregistrer une banane et un shake protéiné", et l'entrée se synchronise avec le téléphone sans que celui-ci ne sorte jamais du sac. C'est une catégorie de produit différente de "camera-first" — et c'est la catégorie dans laquelle Foodvisor a choisi de ne pas concurrencer.

Pourquoi Foodvisor n'a pas priorisé la saisie vocale

La thèse fondatrice de Foodvisor était que le problème le plus difficile dans le suivi nutritionnel est l'identification des aliments, et que la vision par ordinateur est la bonne solution. Pendant des années, cette thèse a tenu. L'équipe a investi massivement dans l'entraînement du modèle de reconnaissance sur la cuisine française et européenne, construisant une base de données visuelle de plats et affinant l'estimation des portions à partir des indices de profondeur des photos. Tout dans l'application — l'écran d'accueil orienté caméra, le bouton "Scanner" comme principale action, le coaching premium basé sur l'analyse photo — renforce ce choix.

Lorsqu'un produit est aussi concentré, ajouter la voix n'est pas une petite fonctionnalité. C'est un second produit avec un second pipeline, une seconde intégration de base de données, un second ensemble de cas particuliers (accents, bruit de fond, homonymes, plusieurs éléments, expressions de portions), et un second niveau de qualité. Lancer une fonctionnalité vocale de manière bâclée est pire que de ne pas la lancer, car un analyseur qui interprète mal "poitrine de poulet" comme "laiton de poulet" détruit la confiance. Foodvisor semble avoir fait le choix rationnel pour sa phase : continuer à affiner l'avantage photo plutôt que de diluer l'ingénierie à travers un second mode d'entrée.

Il y a aussi une raison de marché. La plus grande démographie de Foodvisor est européenne, axée sur la cuisine, et prête à sortir un appareil photo lors d'un repas. La saisie vocale résout des problèmes plus aigus pour les habitudes alimentaires de style américain, les flux de travail axés sur la salle de sport, et les utilisateurs d'appareils portables — des segments sur lesquels MyFitnessPal et de nouveaux entrants comme Nutrola se sont davantage concentrés. Sans un signal fort que ses utilisateurs principaux exigent la voix, Foodvisor n'a eu que peu de raisons de perturber une expérience utilisateur fonctionnelle axée sur la caméra.

Le coût pour les utilisateurs est réel de toute façon. Si vous mangez hors de portée d'un appareil photo, si vous cuisinez avec des mains sales, si vos lunettes s'embuent au-dessus d'une poêle chaude, si vous êtes un parent qui enregistre d'une main, le flux photo uniquement ne couvre tout simplement pas ces moments. C'est le vide que la saisie vocale comble — et le vide que Nutrola a été conçu pour combler.

Comment fonctionne la saisie vocale de Nutrola

Nutrola traite la voix comme une entrée de première classe, et non comme un champ de transcription ajouté. Le pipeline est conçu de bout en bout pour que vous puissiez enregistrer un repas complet en une seule phrase sans toucher l'écran :

Reconnaissance vocale sur l'appareil pour que la dictée fonctionne en mode avion, dans une salle de sport souterraine, ou dans un avion sans connexion de données.
Analyseur NLP conscient des aliments entraîné sur des millions de repas réellement enregistrés, pas seulement sur un langage générique.
Analyse de plusieurs éléments dans une seule phrase : "salade César au poulet, un pain à l'ail, et un cola light" devient automatiquement trois entrées.
Reconnaissance des expressions de portions : "une demi-tasse de riz", "deux cuillères à soupe de beurre de cacahuète", "une steak de la taille d'une paume", "une grande pomme" correspondent à des poids en grammes corrects.
Reconnaissance des marques : dire "bol Chipotle avec double poulet" extrait l'entrée Chipotle de la base de données de 1,8M+ aliments vérifiés, pas d'un bol générique.
Connaissance des méthodes de cuisson : "grillé", "frit", "cuit à la vapeur", "cru", "cuit au four" modifient les macronutriments que l'entrée extrait.
Correction en temps réel : "en fait, fais plutôt deux tranches" met à jour la dernière entrée sans nécessiter de nouvelle dictée.
14 langues couvrant l'anglais, l'espagnol, le français, l'allemand, l'italien, le portugais, le néerlandais, le danois, le suédois, le norvégien, le polonais, le turc, le japonais et le coréen — chacune avec un vocabulaire alimentaire natif, pas seulement des chaînes traduites.
Dictée au poignet depuis l'Apple Watch et Wear OS, de sorte que le téléphone puisse rester dans votre poche.
Saisie vocale CarPlay et Android Auto pendant la conduite, sans interface visuelle requise.
Raccourci mains libres "Enregistre mon petit déjeuner habituel" qui répète un modèle enregistré par commande vocale.
Journal unifié avec IA photo : la même liste d'entrées accepte les scans photo (en moins de 3 secondes), les scans de codes-barres, la recherche manuelle et la voix — quel que soit le moyen le plus rapide à ce moment-là.

Le résultat est que les utilisateurs de Nutrola qui ajoutent la voix à leur flux de travail enregistrent plus régulièrement tout au long de la journée, pas seulement lors des repas assis. Le journal de suivi reste complet parce que l'outil s'adapte au moment au lieu d'exiger que le moment s'adapte à lui.

Comparaison de la saisie vocale : Foodvisor vs MyFitnessPal vs Nutrola

Capacité	Foodvisor	MyFitnessPal	Nutrola
Saisie vocale native	Non	Limitée (premium)	Oui (tous les niveaux)
Analyse de plusieurs éléments dans une phrase	Non	Partielle	Oui
Reconnaissance des expressions de portions	Non	Partielle	Oui
Reconnaissance des marques par la voix	Non	Partielle	Oui
Connaissance des méthodes de cuisson	Non	Non	Oui
Voix sur appareil (hors ligne)	Non	Non	Oui
Dictée Apple Watch / Wear OS	Non	Non	Oui
Saisie vocale CarPlay / Android Auto	Non	Non	Oui
Langues vocales prises en charge	0	~3	14
Fonctionne avec l'IA photo dans le même journal	N/A	Non	Oui
Taille de la base de données d'aliments vérifiés	~300K	~14M soumis par les utilisateurs	1.8M+ vérifiés
Nutriments suivis	~40	~30	100+
Publicités	Oui	Oui	Zéro
Prix d'entrée	Gratuit + premium	Gratuit + premium	Niveau gratuit + 2,50 €/mois

Le schéma est clair. Foodvisor excelle dans un mode d'entrée et ne prétend pas en offrir un autre. MyFitnessPal a ajouté des fonctionnalités vocales mais les garde derrière un paywall et limite les langues. Nutrola traite la voix comme un pilier central aux côtés de la photo et du code-barres, sur chaque niveau et chaque surface que l'utilisateur touche réellement.

Quelle application est faite pour vous ?

Meilleur si vous voulez uniquement une saisie photo IA dans la cuisine européenne

Foodvisor reste un bon choix si votre vie de suivi est à 95 % assise à une table et que les plats que vous mangez sont européens. Son modèle de reconnaissance a été ajusté pour ce contexte et continue de fournir une précision solide sur les aliments français, italiens et méditerranéens. Si vous ne suivez jamais en vous déplaçant, que vous ne suivez jamais mains libres, et que cela ne vous dérange pas de sortir l'appareil photo à chaque fois, le manque de fonctionnalités ne vous dérangera pas. Vous ne manquerez la voix que dans des cas particuliers — mais ces cas particuliers sont souvent là où les journaux échouent.

Meilleur si vous avez une grande base de données soumise par les utilisateurs et une saisie vocale occasionnelle

MyFitnessPal est le juste milieu. La base de données alimentaire est énorme, la voix est partiellement disponible derrière un paywall, et l'écosystème est mature. Les compromis sont réels : la précision varie car la plupart des entrées sont soumises par des utilisateurs, des publicités sont présentes dans le niveau gratuit, et le parseur vocal ne gère pas les phrases à plusieurs éléments aussi bien que celui de Nutrola. Si vous êtes déjà bien ancré dans l'écosystème MFP avec des années de données, le coût de changement est une raison légitime de rester.

Meilleur si vous voulez à la fois la voix et la photo, mains libres partout, au prix le plus bas

Nutrola est conçu pour les utilisateurs qui refusent de choisir entre photo et voix. La même application enregistre une assiette en moins de 3 secondes via l'appareil photo, analyse un repas complet à partir d'une phrase dictée, scanne un code-barres, et se synchronise avec l'Apple Watch ou Wear OS pour une saisie au poignet — le tout sur un niveau gratuit réellement utilisable, ou 2,50 € par mois pour l'ensemble des fonctionnalités. Zéro publicité sur chaque niveau, 1,8M+ d'aliments vérifiés, 100+ nutriments, et 14 langues vocales. Si vous voulez un outil qui s'adapte à votre vie plutôt que l'inverse, c'est le choix à faire.

FAQ : Foodvisor, saisie vocale et alternatives

Foodvisor a-t-il une saisie vocale ?

Foodvisor prend en charge la dictée au niveau de l'appareil dans les champs de recherche de texte, car iOS et Android exposent des claviers système avec un bouton micro. Ce n'est pas de la saisie vocale. Cela transcrit une chaîne dans la barre de recherche et nécessite toujours que vous tapiez un résultat, confirmiez la portion et sauvegardiez. Il n'y a pas d'analyse NLP consciente des aliments, pas de gestion de phrases à plusieurs éléments, pas d'interprétation des expressions de portions, et pas de flux de travail mains libres. En pratique, c'est la même chose que de taper, juste avec moins de frappes.

Foodvisor ajoutera-t-il la saisie vocale dans une mise à jour future ?

Les signaux de la feuille de route publique n'ont pas indiqué que la voix était une priorité. L'équipe s'est concentrée sur l'amélioration de la précision de la reconnaissance photo, l'expansion de la couverture des plats, et le perfectionnement du coaching premium. Ce choix est défendable — la photo est leur atout — mais cela signifie que les utilisateurs qui ont besoin de voix ne devraient pas compter sur un lancement de Foodvisor. Si la voix est importante pour votre flux de travail, la bonne démarche est d'utiliser un outil qui l'offre déjà, plutôt que d'attendre.

Quelle est la précision du parseur vocal de Nutrola dans des environnements bruyants ?

Le pipeline utilise la reconnaissance vocale sur l'appareil avec suppression du bruit entraînée sur des profils audio de cuisine, de salle de sport et de voiture. Dans des tests contrôlés, il analyse des phrases de repas courtes avec une grande précision même sur fond de musique, d'eau courante ou de bruit de route. Les phrases plus longues et plus complexes se dégradent comme on peut s'y attendre, c'est pourquoi le parseur prend en charge la correction en temps réel : vous pouvez ajouter "en fait, fais-le plutôt grillé, pas frit" et la dernière entrée se met à jour sans recommencer.

Puis-je utiliser la saisie vocale gratuitement sur Nutrola ?

Oui. La saisie vocale est disponible sur le niveau gratuit aux côtés de l'IA photo, du scan de code-barres et de la recherche manuelle. Le plan à 2,50 €/mois débloque des fonctionnalités plus avancées — planification de repas sur plusieurs jours, suivi des objectifs en micronutriments, suite complète pour Apple Watch et Wear OS, et la répartition complète des 100+ nutriments — mais la voix elle-même n'est pas payante. C'est un choix de conception délibéré : une méthode d'entrée qui n'existe que pour les utilisateurs payants fragmente l'expérience et décourage l'adoption.

La saisie vocale fonctionne-t-elle sur l'Apple Watch sans mon téléphone à proximité ?

Oui, avec une montre connectée en LTE ou Wi-Fi. La reconnaissance sur l'appareil gère la transcription localement, et l'entrée analysée se synchronise la prochaine fois que la montre atteint le téléphone ou le cloud. Si vous êtes sur une montre uniquement Wi-Fi hors de portée Bluetooth du téléphone, l'entrée est mise en file d'attente et se synchronise lors de la reconnexion. Le comportement de Wear OS est équivalent sur les montres prises en charge.

La saisie vocale est-elle privée ? Où va l'audio ?

L'audio pour la saisie vocale de Nutrola est traité sur l'appareil par défaut. Le texte transcrit, et non l'audio brut, est envoyé à la couche d'analyse pour être mappé dans des entrées alimentaires. L'audio n'est pas stocké sur le serveur. Cela diffère d'un service de dictée cloud générique qui télécharge la parole brute pour transcription, et c'est une des raisons pour lesquelles la fonctionnalité fonctionne hors ligne.

Comment la voix de Nutrola se compare-t-elle à la saisie dans MyFitnessPal ?

Taper un repas complet dans MFP prend plusieurs écrans : rechercher le premier élément, choisir la portion, sauvegarder, rechercher le deuxième élément, choisir la portion, sauvegarder, et ainsi de suite. Une saisie vocale Nutrola du même repas est une seule phrase et une confirmation. Pour un petit déjeuner de trois éléments, cela représente environ une amélioration de vitesse de 10x, et plus important encore, cela fonctionne lorsque vos mains sont indisponibles — ce qui est souvent le moment où l'enregistrement est sauté.

Verdict final

L'absence de saisie vocale dans Foodvisor n'est pas un bug ou un oubli. C'est le résultat logique d'une stratégie produit qui a misé sur la reconnaissance photo par IA et a choisi de rester concentrée sur cet atout plutôt que de se disperser à travers des méthodes d'entrée. Pour les utilisateurs dont la vie de suivi s'inscrit dans ce cadre — assiette à table, appareil photo prêt, cuisine européenne — Foodvisor reste un outil raisonnable.

Pour tous les autres, la contrainte photo uniquement est exactement la raison pour laquelle des entrées sont manquées. Cuisiner avec de la farine sur les mains, enregistrer un smoothie pendant un trajet, dicter une collation de gym entre deux séries, sauvegarder une commande au restaurant pendant que le serveur s'éloigne — ce sont les moments pour lesquels la saisie vocale existe, et ce sont les moments que Foodvisor ne peut pas atteindre.

Nutrola a été conçu sur le principe opposé : aucune méthode d'entrée unique ne gagne dans chaque situation, donc chaque méthode d'entrée doit être de première classe. Reconnaissance photo en moins de 3 secondes, base de données de 1,8M+ d'aliments vérifiés, suivi de 100+ nutriments, 14 langues vocales avec NLP conscient des aliments, dictée au poignet, mode hors ligne, zéro publicité, un niveau gratuit réellement utilisable, et 2,50 € par mois pour l'ensemble des fonctionnalités. Si vous voulez un tracker qui suit votre journée au lieu de l'interrompre, le choix est clair.

Commencez avec le niveau gratuit de Nutrola, enregistrez vos trois prochains repas par voix, et comparez le résultat avec le flux photo uniquement auquel vous êtes habitué. Le tracker qui s'adapte à plus de moments est celui avec lequel vous resterez réellement.

Prêt à transformer votre suivi nutritionnel ?

Rejoignez des millions de personnes qui ont transformé leur parcours santé avec Nutrola !

Commencer maintenant