Hvordan Voice Logging AI Forstår Naturligt Sprog til Følgning af Mad
En teknisk dybdegående analyse af NLP-pipelinen bag stemmebaseret madlogging — fra automatisk talegenkendelse og navngiven enhedsgenkendelse til fødevarediskriminering, mængdenormalisering og tillidsscorer.
At sige "Jeg har lige spist to røræg med cheddar på fuldkornsbrød" ind i din telefon og se det blive til en fuldt logget måltid med præcise makroer føles næsten magisk. Bag denne problemfri oplevelse ligger en sofistikeret natural language processing pipeline, der omdanner rå lyd til strukturerede ernæringsdata på under to sekunder. At forstå denne pipeline afslører, hvorfor stemmelogging er blevet en af de hurtigste og mest præcise måder at holde styr på, hvad du spiser.
Voice logging AI bruger en flertrins NLP-pipeline — automatisk talegenkendelse (ASR), intention klassifikation, navngiven enhedsgenkendelse (NER), fødevarediskriminering, mængdenormalisering, databasekortlægning og tillidsscorer — til at omdanne talte måltidsbeskrivelser til præcise, verificerede ernæringsposter.
Denne artikel gennemgår hvert trin i pipelinen, forklarer den underliggende teknologi og viser præcist, hvordan en enkelt talt sætning bliver til en komplet madlog.
Den Syv-Trins NLP Pipeline til Voice Food Logging
Stemmesbaseret madtracking er ikke en enkelt algoritme. Det er en kæde af specialiserede modeller, hvor hver enkelt løser en forskellig del af problemet. Når du taler en måltidsbeskrivelse, passerer dine ord gennem syv forskellige behandlingsstadier, før en ernæringspost vises i din log.
Tabellen nedenfor viser en enkelt ytring gennem hele pipelinen:
| Trin | Proces | Input | Output |
|---|---|---|---|
| 1. ASR | Tale-til-tekst | Lydvågform | "to røræg med cheddar på fuldkornsbrød" |
| 2. Intention Genkendelse | Klassificer brugerens intention | Rå transkription | Intention: food_logging (tillid 0.97) |
| 3. NER | Udtræk fødevareenheder | Klassificeret transkription | [røræg, cheddar, fuldkornsbrød] |
| 4. Diskriminering | Afklar tvetydige enheder | Rå fødevareenheder | [røræg (USDA: 01132), cheddarost (USDA: 01009), fuldkornsbrød, ristet (USDA: 20090)] |
| 5. Mængdenormalisering | Standardiser mængder | "to", standardportion | [2 store æg (100g), 1 skive cheddar (28g), 2 skiver toast (56g)] |
| 6. Databasekortlægning | Matche til verificerede poster | Diskriminerede enheder + mængder | Komplette ernæringsprofiler med kalorier, protein, fedt, kulhydrater, mikronæringsstoffer |
| 7. Tillidsscorer | Vurder sikkerhed | Alle pipeline outputs | Samlet tillid: 0.94 — logges automatisk |
Hvert trin afhænger af forskellige maskinlæringsteknikker, og fejl i ethvert trin påvirker de efterfølgende. At få hele pipelinen til at fungere korrekt er det, der adskiller pålidelig stemmelogging fra frustrerende gætteri.
Trin 1: Automatisk Talegenkendelse (ASR) — Omdannelse af Lyd til Tekst
Den første udfordring er at omdanne en rå lydvågform til tekst. Moderne ASR-systemer bruger transformer-baserede arkitekturer — den samme familie af modeller, der ligger bag store sprogmodeller som GPT og Claude — trænet på hundrede tusinde timer af flersproget tale data.
Hvordan ASR Fungerer til Fødevarebeskrivelser
ASR-modeller behandler lyd i tre faser:
Feature extraction: Den rå lydvågform omdannes til et spektrogram, en visuel repræsentation af lydfrekvenser over tid. Spektrogrammet opdeles derefter i overlappende rammer, typisk 25 millisekunder brede med en 10-millisekunders stride.
Encoder behandling: En transformer encoder behandler spektrogramrammerne og lærer de kontekstuelle relationer mellem lyde. Modellen forstår for eksempel, at fonemsekvensen for "cheddar" er mere sandsynlig i konteksten af madrelateret tale end "chedder" eller "checker."
Decoder generation: En transformer decoder genererer den mest sandsynlige tekstsekvens ved hjælp af beam search til at evaluere flere hypoteser samtidig. Decoderen anvender sprogmodelprobabiliteter til at løse akustiske tvetydigheder.
Moderne ASR-systemer som Whisper (OpenAI, 2022) opnår ordfejlprocenter under 5 procent på ren engelsk tale. For fødespecifik vokabular kan finjustering på måltidsbeskrivelser øge nøjagtigheden endnu mere, med ordfejlprocenter under 3 procent på almindelige fødevarer.
Udfordringen med Fødevarevokabular
Fødevarer vokabular præsenterer unikke ASR-udfordringer:
- Låneord og fremmedord: Ord som "gnocchi," "tzatziki," og "acai" følger udtale regler fra deres kildesprog.
- Homofoner: "Flower" vs. "flour," "leek" vs. "leak," "mussel" vs. "muscle."
- Mærkenavne: Tusinder af proprietære fødevareprodukter, der måske ikke optræder i generelle træningsdata.
- Regionale udtaler: "Pecan" udtales forskelligt i forskellige engelsktalende regioner.
Finjustering af ASR-modeller på fødevare-domænedatasæt — typisk indeholdende 5.000 til 50.000 timer af madrelateret tale — adresserer disse udfordringer ved at lære modellen de statistiske mønstre, der er specifikke for måltidsbeskrivelser.
Trin 2: Intention Genkendelse — Er Dette en Anmodning om Madlogging?
Ikke alt, hvad en bruger siger til en ernæringsapp, er en måltidsbeskrivelse. Intention genkendelse klassificerer transkriptionen i en af flere kategorier:
| Intention | Eksempel Ytring | Handling |
|---|---|---|
| food_logging | "Jeg havde en kylling Caesar salat til frokost" | Rute til NER-pipeline |
| water_logging | "Jeg drak to glas vand" | Log vandindtag |
| spørgsmål | "Hvor mange kalorier er der i en avocado?" | Rute til AI-assistent |
| korrektion | "Faktisk var det brune ris, ikke hvide ris" | Rediger tidligere post |
| sletning | "Fjern mit sidste måltid" | Slet post |
Intention klassifikation bruger typisk en finjusteret transformer model, der behandler hele transkriptionen og outputter en sandsynlighedsfordeling på tværs af alle mulige intentioner. For madlogging er tærsklen sat højt — normalt over 0.90 tillid — for at undgå utilsigtet at logge en afslappet omtale af mad.
Forskning fra Association for Computational Linguistics (ACL, 2023) har vist, at domænespecifikke intention klassifikatorer opnår F1-scorer over 0.96, når de er finjusteret på så få som 10.000 mærkede eksempler, hvilket gør dette til et af de mere pålidelige stadier i pipelinen.
Trin 3: Navngiven Enhedsgenkendelse (NER) — Udtrækning af Fødevareenheder
Navngiven enhedsgenkendelse er det trin, hvor AI identificerer og udtrækker de specifikke fødevarer, mængder og modifikatorer fra en sætning. Dette er den centrale sproglige udfordring ved stemmebaseret madlogging.
Enhedstyper i Fødevare NER
En fødevarespecifik NER-model er trænet til at genkende flere enhedstyper:
| Enhedstype | Tag | Eksempler |
|---|---|---|
| Fødevare | FOOD | røræg, kyllingebryst, brune ris |
| Mængde | QTY | to, 200 gram, en kop, halv |
| Modifikator | MOD | grillet, med cheddar, fedtfattig, økologisk |
| Mærke | BRAND | Chobani, Barilla, Kirkland |
| Måltidskontekst | MEAL | til morgenmad, som snack, efter træning |
| Beholder | CONT | en skål med, en tallerken med, et glas med |
For eksempel ytringen "to røræg med cheddar på fuldkornsbrød," producerer NER-modellen:
[QTY: to] [FOOD: røræg] [MOD: med cheddar] [MOD: på fuldkornsbrød]
Kompositionelle Fødevarebeskrivelser
En af de sværeste NER-udfordringer er kompositionelle fødevarebeskrivelser — måltider beskrevet som kombinationer af ingredienser snarere end enkeltretter. Når nogen siger "kyllingesteg med broccoli, peberfrugter og sojasauce over jasminris," skal modellen bestemme, om dette er én sammensat ret eller fem separate elementer.
Moderne NER-systemer håndterer dette ved hjælp af et BIO (Beginning, Inside, Outside) tagging-system forbedret med afhængighedsparsing. Afhængighedsparseren identificerer syntaktiske relationer mellem ord, så "kyllingesteg" forstås som en enkelt ret, mens "broccoli, peberfrugter og sojasauce" genkendes som dens komponenter, og "jasminris" identificeres som et separat tilbehør.
Benchmark-ydeevne på fødevare NER datasæt som FoodBase (2019) og TAC-KBP fødevareenhedskorpus viser F1-scorer på 0.89 til 0.93 for udtrækning af fødevareenheder, med fejl koncentreret om sjældne eller meget regionale retter.
Trin 4: Fødevareenheds Diskriminering — Hvad Mener Du Egentlig?
Når fødevareenhederne er udtrukket, skal pipelinen afklare tvetydigheder. Naturligt sprog er fyldt med ord, der kan referere til forskellige fødevarer afhængigt af kontekst, region eller personlige vaner.
Almindelige Diskriminationsudfordringer
| Tvetydigt Begreb | Mulige Fortolkninger | Afklaringssignal |
|---|---|---|
| Chips | Kartoffelchips (US), pomfritter (UK), tortillaschips, bananchips | Brugerens lokalitet, forudgående modifikatorer, måltidskontekst |
| Biscuit | Småkager (UK), scone-lignende brød (US South), kiks (dele af Asien) | Brugerens lokalitet, ledsagende fødevarer |
| Jelly | Gelé dessert (US), frugtbevarelse (UK) | Måltidskontekst (på toast vs. som dessert) |
| Pudding | Cremet dessert (US), bagt ret som Yorkshire pudding (UK) | Måltidskontekst, modifikatorer |
| Corn | Majs på kolbe, dåsemajs, majsmel, popcorn | Modifikatorer, tilberedningskontekst |
| Toast | Brødskive, en skål | Intention klassifikation (allerede afklaret) |
Diskriminering afhænger af flere signaler:
- Brugerens lokalitet: Appens sprog- og regionsindstillinger giver en stærk prior. En australsk bruger, der siger "chips," betyder sandsynligvis tykkere pomfritter; en amerikansk bruger betyder sandsynligvis tynde kartoffelchips.
- Kontekstuelle modifikatorer: "Chips med ketchup" antyder pomfritter; "chips med salsa" antyder tortillaschips; "pose chips" antyder pakkede kartoffelchips.
- Måltidshistorik: Hvis en bruger regelmæssigt logger britisk-inspirerede måltider, justerer diskriminationsmodellen sine priorer i overensstemmelse hermed.
- Indlejringslighed: Transformer-baserede indlejringer placerer fødevarer i et semantisk rum, hvor kontekstmæssigt lignende fødevarer klumper sammen, hvilket gør det muligt for modellen at vælge den fortolkning, der bedst passer til den omgivende sproglige kontekst.
Trin 5: Mængdenormalisering — Omdannelse af Naturligt Sprog til Gram
Folk beskriver sjældent fødevaremængder i gram. De siger "en kop," "en håndfuld," "en stor skål," "to skiver," eller slet ikke noget (som antyder en standardportion). Mængdenormalisering omdanner disse naturlige beskrivelser til standardiserede metriske mængder, der kan kortlægges til databaseposter.
Almindelige Mængdeudtryk og Deres Normaliserede Værdier
| Naturlig Beskrivelse | Fødevarekontekst | Normaliseret Værdi | Kilde |
|---|---|---|---|
| En kop | Kogte ris | 186g | USDA standard reference |
| En kop | Mælk | 244g (244ml) | USDA standard reference |
| En håndfuld | Blandede nødder | 28–30g | Ernæringsforskning konsensus |
| En håndfuld | Blåbær | 40–50g | USDA serveringsestimat |
| En skive | Brød | 25–30g | Branchegennemsnit |
| En skive | Pizza (stor, 14") | 107g | USDA standard reference |
| En skål | Morgenmad med mælk | 240–300g i alt | FDA referencebeløb |
| Et stykke | Kyllingebryst | 120–174g | USDA standard portioner |
| En dråbe | Olivenolie | 5–7ml | Kulinarisk standard |
| Et splash | Sojasauce | 5ml | Kulinarisk standard |
Kompleksiteten her er, at "en kop" ris (186g) har en meget anderledes vægt end "en kop" spinat (30g) eller "en kop" mel (125g). Mængdenormalisering skal være fødevarebevidst, ikke blot enhedsbevidst.
Moderne tilgange bruger opslagstabeller for veldefinerede enheder (kop, spiseskefuld, teske) kombineret med lærte regressionsmodeller for vage mængder (håndfuld, dråbe, stor skål). Disse regressionsmodeller er trænet på portionsstørrelsesdatasæt fra USDA's Food and Nutrient Database for Dietary Studies (FNDDS) og lignende kilder.
Når ingen mængde er angivet — som i "Jeg fik røræg og toast" — falder systemet tilbage på standard USDA referenceportioner, som repræsenterer den mængde, der typisk indtages ved en enkelt spisesituation.
Trin 6: Databasekortlægning — Matche Enheder til Verificerede Ernæringsdata
Med diskriminerede fødevareenheder og normaliserede mængder i hånden, skal pipelinen matche hver post til en specifik post i en ernæringsdatabase. Her mødes NLP-pipelinen med fødevarevidenskabsdatabasen.
Matchingprocessen
Databasekortlægning bruger en kombination af:
- Præcise strenge matching: Direkte opslag af fødevare navnet i databasen. Hurtig og pålidelig for almindelige fødevarer.
- Usikker strenge matching: Levenshtein afstand og lignende algoritmer håndterer stavevariationer, forkortede navne og mindre transskriptionsfejl. "Scrmbled eggs" matcher stadig "scrambled eggs."
- Semantisk søgning: Transformer-baserede sætning indlejringer muliggør match baseret på betydning snarere end præcise ord. "Sunny side up" matcher databaseposten for "stegt æg, ikke røræg," selvom ordene knap overlapper.
- Hierarkisk fallback: Hvis der ikke findes et præcist fødevarematch, falder systemet tilbage til den nærmeste overordnede kategori. "Bedstemor's specielle kødboller" ville kortlægges til "hjemmelavet kødboller" i USDA databasen.
Kvaliteten af den underliggende database er kritisk på dette stadium. En verificeret ernæringsdatabase med poster, der er hentet fra officielle fødevarekompositionstabeller (USDA FoodData Central, EFSA, FSANZ) og valideret af ernæringseksperter, giver langt mere pålidelige resultater end brugerindsendte databaser, hvor alle kan tilføje poster.
Nutrola bruger en verificeret ernæringsdatabase med poster, der er krydsrefereret mod officielle fødevarekompositiondata, hvilket betyder, at de endelige kalorie- og makroværdier, der returneres af stemmeloggingpipen, er baseret på laboratorie-analyserede ernæringsdata snarere end crowdsourcede estimater. Kombineret med stregkodescanning, der dækker over 95 procent af pakkede produkter, opnår databasekortlægningsstadiet høje matchrater på tværs af både hele fødevarer og pakkede produkter.
Trin 7: Tillidsscorer — Hvornår Skal Man Logge og Hvornår Skal Man Spørge
Det sidste trin aggregerer tillidsscorer fra hvert forudgående trin til en samlet sikkerhedsmåling. Denne score bestemmer, om systemet logger måltidet automatisk, beder brugeren om at bekræfte eller anmoder om afklaring.
Tillidstræk og Handlinger
| Samlet Tillid | Handling | Eksempel Scenario |
|---|---|---|
| 0.95–1.00 | Log automatisk | Almindeligt måltid, klare mængder, præcist database match |
| 0.80–0.94 | Log med bekræftelsesprompt | Lidt tvetydig mængde eller fødevarevariant |
| 0.60–0.79 | Vis de 2–3 bedste muligheder for brugerens valg | Tvetydigt fødevare navn eller flere mulige match |
| Under 0.60 | Bed brugeren om at omformulere eller give flere detaljer | Uklart tale, ukendt fødevare eller meget tvetydig beskrivelse |
Tillidsscorer er ikke et enkelt tal, men en vægtet kombination af del-scorer:
- ASR tillid: Hvor sikker var tale-til-tekst modellen? (Målt ved den posterior sandsynlighed af den dekodede sekvens)
- NER tillid: Hvor klart blev fødevareenheder identificeret? (Målt ved enhed grænse F1)
- Diskriminering tillid: Var der en klar vinder blandt mulige fortolkninger? (Målt ved sandsynlighedsforskellen mellem top-1 og top-2 kandidater)
- Database match tillid: Hvor tæt var matchen til en verificeret databasepost? (Målt ved kosinuslighed af indlejringer)
Dette flerlagede tillidssystem er det, der gør det muligt for stemmelogging at være både hurtigt og præcist. Høj-tillids fortolkninger logges øjeblikkeligt, mens lav-tillids tilfælde udløser målrettede afklaringsspørgsmål i stedet for generiske fejlmeddelelser.
Hvordan Transformer Modeller og Store Sprogmodeller Forbedrer Voice Food Logging
Hele pipelinen, der er beskrevet ovenfor, er blevet transformeret af fremkomsten af transformer-arkitekturer (Vaswani et al., 2017) og store sprogmodeller (LLMs). Ældre stemmelogging systemer brugte separate, uafhængigt trænede modeller til hvert trin. Moderne systemer bruger i stigende grad enhedlige transformer-modeller, der håndterer flere trin samtidig.
Nøglefremskridt
- End-to-end ASR: Transformer-baserede ASR-modeller som Whisper behandler lyd direkte til tekst uden mellemled af fonemrepræsentationer, hvilket reducerer fejlpropagation.
- Kontekstuel NER: Fortrænede sprogmodeller som BERT og dets varianter forstår madtermer i kontekst, hvilket dramatisk forbedrer enhedsudtrækningen for kompositionelle beskrivelser.
- Zero-shot diskriminering: Store sprogmodeller kan diskriminere fødevaretermer, de aldrig har set i træningsdata, ved at udnytte deres brede verdensviden. En model, der har læst millioner af opskrifter og madbeskrivelser, forstår, at "chips og guac" betyder tortillaschips med guacamole uden nogensinde at være eksplicit trænet på den sætning.
- Samtalecorrection: LLM'er muliggør naturlige opfølgende samtaler. Hvis AI logger "hvide ris" og brugeren siger "faktisk var det blomkålsris," forstår modellen dette som en korrektion og opdaterer posten i overensstemmelse hermed.
Nutrola's AI Diet Assistant udnytter disse muligheder, så brugerne ikke kun kan logge måltider med stemmen, men også stille opfølgende spørgsmål, anmode om ændringer og få ernæringsindsigt gennem naturlig samtale.
Real-World Nøjagtighed: Hvordan Voice Logging Sammenlignes med Andre Metoder
Et naturligt spørgsmål er, hvordan stemmeloggingens nøjagtighed sammenlignes med manuel tekstindtastning, stregkodescanning og foto-baseret logging.
| Logging Metode | Gennemsnitlig Kalorie Nøjagtighed | Gennemsnitlig Tid pr. Indtastning | Brugerindsats |
|---|---|---|---|
| Manuel tekst søgning | 85–90% (afhænger af brugerens valg) | 45–90 sekunder | Høj |
| Stregkodescanning | 97–99% (kun pakkede fødevarer) | 5–10 sekunder | Lav |
| Fotologging (AI) | 85–92% (varierer efter fødevarekompleksitet) | 3–8 sekunder | Lav |
| Voice logging (AI) | 88–94% (varierer efter beskrivelses klarhed) | 5–15 sekunder | Meget lav |
Fordelen ved stemmeloggingens nøjagtighed kommer fra rigdommen af naturligt sprog. Et foto kan ikke skelne mellem sødmælk og skummetmælk, men en stemmebeskrivelse kan. Et foto har svært ved lagdelte retter som burritos, men en talt beskrivelse — "kyllingeburrito med sorte bønner, salsa, creme fraiche og guacamole" — giver AI'en eksplicit ingrediensinformation.
Kombinationen af stemmelogging med fotologging dækker svaghederne ved hver metode. Stemmen giver ingrediensdetaljer; fotos giver visuel portionsestimering. Ved at bruge begge metoder sammen, som understøttet i Nutrola's multimodale logging-system sammen med stregkodescanning, opnås den højeste praktiske nøjagtighed for daglig madtracking.
Privatliv og Behandling på Enheden
Stemmedata er iboende personlige. Moderne stemmelogging systemer adresserer privatliv gennem flere arkitektoniske valg:
- On-device ASR: Tale-til-tekst konvertering sker på brugerens enhed, så rå lyd aldrig forlader telefonen.
- Kun tekstoverførsel: Kun den transskriberede tekst sendes til cloud-servere til NER og databasekortlægning.
- Ingen lydlagring: Lydoptagelser slettes straks efter transskription.
- Krypteret pipeline: Alle data, der overføres mellem behandlingsstadier, bruger ende-til-ende kryptering.
Disse foranstaltninger sikrer, at bekvemmeligheden ved stemmelogging ikke kommer på bekostning af privatliv. Nutrola behandler stemmedata med disse privatlivsorienterede principper og synkroniserer ernæringsresultater til Apple Health og Google Fit uden at eksponere rå lyddata.
Ofte Stillede Spørgsmål
Hvor præcist er stemmefoodlogging sammenlignet med manuelt at indtaste fødevarer?
Voice food logging opnår i gennemsnit 88 til 94 procent kalorienøjagtighed, sammenligneligt med eller lidt bedre end manuel tekst søgning (85 til 90 procent). Fordelen ved stemmen er, at brugerne naturligt giver mere detaljerede beskrivelser — herunder tilberedningsmetoder, saucer og ingrediensspecifikationer — hvilket giver AI'en mere information at arbejde med end en simpel tekstsøgningsforespørgsel.
Kan stemmelogging AI forstå fødevarebeskrivelser med flere elementer i én sætning?
Ja. Moderne NER-modeller er trænet til at udtrække flere fødevareenheder fra en enkelt ytring. At sige "en grillet kyllingsalat med avocado, cherrytomater og balsamico dressing" vil producere fire eller fem distinkte fødevareenheder, hver kortlagt til sin egen databasepost med individuelle kalorie- og makroværdier.
Hvad sker der, når AI'en ikke er sikker på, hvad jeg sagde?
Systemet bruger flerlagede tillidsscorer. Hvis den samlede tillid falder under 0.80, vil du se en bekræftelsesprompt, der viser AI'ens bedste fortolkning. Under 0.60 vil appen bede dig om at præcisere — for eksempel "Betydede du kartoffelchips eller pomfritter?" Denne tilgang minimerer både falske logs og unødvendige afbrydelser.
Fungerer stemmelogging offline?
Moderne on-device ASR-modeller kan konvertere tale til tekst uden en internetforbindelse. Dog kræver databasekortlægning og diskriminering typisk en serverforbindelse for at få adgang til den fulde ernæringsdatabase. Nogle apps, herunder Nutrola, cacher ofte loggede fødevarer lokalt, så dine mest almindelige måltider kan logges med stemmen, selv uden forbindelse.
Hvordan håndterer stemmelogging accenter og ikke-native engelsktalende?
Nuværende ASR-modeller som Whisper er trænet på forskelligartede, flersprogede taledata, der dækker et bredt spektrum af accenter. Ordfejlprocenter for accentueret engelsk er typisk 2 til 5 procentpoint højere end for native speakers, men fødespecifik vokabular — som i høj grad er standardiseret — har tendens til at blive genkendt mere pålideligt end generel tale. Finjustering på fødevare-domæne lyd reducerer yderligere nøjagtighedsgabet.
Hvilken NLP-teknologi driver stemmefoodlogging?
Pipelinen bruger transformer-baserede modeller på næsten hvert trin. Automatisk talegenkendelse bruger encoder-decoder transformere (svarende til Whisper-arkitekturen). Intention genkendelse og NER bruger finjusterede BERT-familie modeller. Diskriminering og databasekortlægning bruger sætningstransformere til semantisk lighed. Store sprogmodeller giver samtalecorrection og zero-shot forståelse af nye fødevarebeskrivelser.
Kan jeg korrigere et stemme-logged måltid efterfølgende?
Ja. Stemmelogging-systemer med LLM-drevne assistenter understøtter naturlige korrektioner. Du kan sige "ændre ris til blomkålsris" eller "fjern osten fra mit sidste måltid," og AI'en vil fortolke korrektionen og opdatere den eksisterende post i stedet for at oprette en ny. Nutrola's AI Diet Assistant understøtter denne samtale-redigeringsarbejdsgang.
Hvor hurtigt er stemmefoodlogging fra tale til logget post?
End-to-end latenstid for en typisk måltidsbeskrivelse er 1.5 til 3 sekunder. ASR tager 0.3 til 0.8 sekunder for en kort ytring. NER og diskriminering tilføjer 0.2 til 0.5 sekunder. Databasekortlægning og tillidsscorer tager yderligere 0.3 til 0.7 sekunder. Netværkslatens tegner sig for resten. Resultatet er en loggingoplevelse, der føles næsten øjeblikkelig.
Er stemmelogging bedre end fotologging til at spore kalorier?
Ingen af metoderne er universelt bedre. Stemmelogging udmærker sig, når du kan beskrive ingredienser præcist — til hjemmelavede måltider, blandede retter og fødevarer, der ser ens ud, men adskiller sig ernæringsmæssigt (som sødmælk vs. skummetmælk). Fotologging udmærker sig for visuelt distinkte fødevarer, hvor portionsstørrelse er den primære variabel. At bruge begge metoder sammen giver den mest omfattende tracking, hvilket er grunden til, at Nutrola understøtter foto-, stemme-, stregkode- og manuel logging i en enkelt app, der starter ved kun 2.50 euro om måneden med en 3-dages gratis prøveperiode.
Klar til at forvandle din ernæringsregistrering?
Bliv en del af de tusindvis, der har forvandlet deres sundhedsrejse med Nutrola!