Tale Logging på 10 Språk — Hvor Godt Forstår AI Ikke-Engelske Måltider?
Vi testet tale logging av mat på 10 språk med 10 standardiserte måltider. Se hvilke språk AI håndterer best, hvor den sliter, og hvordan flerspråklig NLP muliggjør nøyaktig ernæringssporing verden over.
Tale logging av mat på engelsk fungerer bemerkelsesverdig godt. Men hva skjer når du beskriver måltidene dine på mandarin, tyrkisk eller arabisk? Med ernæringssporingsapper som ekspanderer globalt, er evnen til å forstå talte matbeskrivelser på flere språk ikke lenger en ønskelig funksjon — det er et kjernekrav. Vi satte flerspråklig tale logging på prøve med 10 standardiserte måltider beskrevet på 10 språk, og målte nøyaktigheten i matgjenkjenning, mengdebehandling og databasetilpasning.
I 100 måltid-språk kombinasjoner identifiserte AI tale logging korrekt hovedmatvaren 91 prosent av gangene. Engelsk, spansk og portugisisk oppnådde høyest nøyaktighet (95 til 97 prosent), mens tonale språk som mandarin og språk med kompleks morfologi som tyrkisk og arabisk viste nøyaktighet mellom 83 og 89 prosent — fortsatt brukbart, men med hyppigere behov for avklaringer.
Testen: 10 Måltider, 10 Språk, 100 Kombinasjoner
Vi valgte 10 måltider som spenner over globale kjøkken og presenterer ulike NLP-utfordringer — sammensatte ingredienser, kulturelt spesifikke retter, numeriske mengder og beskrivelsene med mange modifikatorer. Hvert måltid ble beskrevet på alle 10 språk av morsmålstalere, og tale logging-prosessen ble evaluert på tre kriterier:
- Matgjenkjenning: Gjenkjente AI korrekt hovedmatvaren(e)?
- Mengdenøyaktighet: Ble numeriske mengder og porsjonsstørrelser tolket korrekt?
- Databasetilpasning: Ble den riktige ernæringsdatabasen valgt?
De 10 Testmåltidene
| Måltid # | Beskrivelse (Engelsk) | Hoved NLP Utfordring |
|---|---|---|
| 1 | To rørte egg med cheddarost | Mengde + modifikator |
| 2 | Grillet kyllingbryst med dampet brokkoli | To separate elementer + tilberedningsmetode |
| 3 | En bolle misosuppe med tofu | Beholdermengde + kulturelt spesifikk rett |
| 4 | Spaghetti Bolognese med parmesan | Sammensatt rettnavn + topping |
| 5 | En stor gresk salat med feta og olivenoljedressing | Størrelsesmodifikator + flere ingredienser |
| 6 | 200 gram hvit ris med grillet laks | Eksakt metrisk mengde + to elementer |
| 7 | En håndfull mandler og en banan | Vag mengde + konjunksjon |
| 8 | Kylling shawarma-wrap med tahini-saus | Kulturelt spesifikk + sammensatt element |
| 9 | To skiver fullkornsbrød med peanøttsmør | Mengde + flerordede matnavn |
| 10 | Svart kaffe og en blåbærmuffins | Modifikator (svart) + sammensatt matnavn |
De 10 Språkene
Språkene ble valgt for å dekke ulike språklige familier, skriftsystemer og fonologiske trekk:
- Engelsk — Germansk, latinsk alfabet, referansebasis
- Spansk — Romansk, latinsk alfabet, kjønnsbestemte substantiv
- Mandarin Kinesisk — Sino-tibetansk, logografisk skriftsystem, tonalt (4 toner)
- Tysk — Germansk, latinsk alfabet, sammensatte ord, grammatiske kasus
- Tyrkisk — Tyrkisk, latinsk alfabet, agglutinativ morfologi
- Fransk — Romansk, latinsk alfabet, liaison og elisjon i tale
- Japansk — Japonisk, blandet skriftsystem (kanji/hiragana/katakana), høflighetsnivåer i tale
- Koreansk — Koreansk, Hangul-skrift, subjekt-objekt-verb ordstilling
- Portugisisk — Romansk, latinsk alfabet, nasale vokaler
- Arabisk — Semittisk, arabisk skrift (høyre-til-venstre), rotbasert morfologi, diglossi
Fullstendige Resultater: Nøyaktighet i Matgjenkjenning etter Språk og Måltid
Tabellen nedenfor viser om AI korrekt identifiserte hovedmatvaren(e) for hvert måltid på hvert språk. En hake indikerer korrekt identifikasjon; en X indikerer en feil eller betydelig misidentifikasjon.
| Måltid | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. Rørte egg + cheddar | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. Kyllingbryst + brokkoli | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. Miso suppe + tofu | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. Spaghetti Bolognese | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. Gresk salat + feta | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g ris + laks | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. Håndfull mandler + banan | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. Kylling shawarma-wrap | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. Brød + peanøttsmør | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. Svart kaffe + muffin | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| Totalt (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
Nøyaktighet i Mengdebehandling etter Språk
Mengdebehandling måler om AI korrekt tolket numeriske mengder, vage mengder ("en håndfull," "en bolle"), og metriske målinger. Dette testes separat fordi et system kan identifisere maten korrekt, men tildele feil porsjonsstørrelse.
| Språk | Eksakt Numerisk (f.eks. "200g", "to") | Vag Mengde (f.eks. "en håndfull") | Standard Porsjon (ingen mengde oppgitt) | Total Mengdenøyaktighet |
|---|---|---|---|---|
| Engelsk | 98% | 89% | 94% | 94% |
| Spansk | 97% | 87% | 93% | 92% |
| Portugisisk | 97% | 86% | 93% | 92% |
| Fransk | 96% | 85% | 92% | 91% |
| Tysk | 96% | 84% | 91% | 90% |
| Japansk | 93% | 80% | 90% | 88% |
| Koreansk | 92% | 79% | 89% | 87% |
| Tyrkisk | 91% | 78% | 88% | 86% |
| Mandarin Kinesisk | 90% | 76% | 88% | 85% |
| Arabisk | 89% | 74% | 87% | 83% |
Eksakte numeriske mengder tolkes godt på tvers av alle språk fordi tall følger relativt forutsigbare mønstre. Vage mengder utgjør den største utfordringen, spesielt i språk der ekvivalenten til "en håndfull" eller "en bolle" bruker idiomatiske uttrykk uten direkte oversettelse til engelsk.
Språkspesifikke Utfordringer og Hvordan NLP Pipeline Håndterer Dem
Mandarin Kinesisk: Tonale Distinksjoner og Måleord
Mandarin Kinesisk presenterer to store utfordringer for tale logging av mat.
Tonale tvetydigheter i ASR: Mandarin har fire toner pluss en nøytral tone, og mange matrelaterte ord skiller seg kun ved tone. For eksempel, "tang" med stigende tone (andre tone) betyr suppe, mens "tang" med fallende tone (fjerde tone) betyr sukker. ASR-modeller må korrekt identifisere tonen fra lydsignalet, noe som er vanskeligere i støyende omgivelser eller med rask tale.
Måleord (klassifikatorer): Kinesisk bruker spesifikke måleord (量词) mellom tall og substantiv. Frasen for "to egg" er "两个鸡蛋" (liǎng gè jīdàn), der "个" er måleordet. Ulike matvarer krever forskjellige måleord — "片" (piàn) for skiver, "碗" (wǎn) for boller, "杯" (bēi) for kopper. NER-modellen må gjenkjenne disse klassifikatorene som mengdeindikatorer snarere enn matmodifikatorer.
Til tross for disse utfordringene oppnådde mandarin tale logging 87 prosent nøyaktighet i matgjenkjenning fordi ASR-modellene som brukes i moderne systemer (inkludert flerspråklig Whisper) er trent på omfattende mandarin tale-data, og kinesisk matvokabular er godt representert i treningskorpuset.
Tysk: Sammensatte Ord og Grammatiske Kasus
Tysk lager sammensatte substantiv ved å sammenføye ord uten mellomrom. "Vollkornbrot" (fullkornsbrød) er et enkelt ord sammensatt av "Voll" (hel) + "korn" (korn) + "Brot" (brød). NER-modellen må dekomponere disse sammensetningene for å kartlegge dem korrekt.
Vanlige sammensatte matord på tysk inkluderer:
| Tysk Sammensatt | Komponenter | Engelsk Ekvivalent |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | Peanøttsmør |
| Hühnerbrust | Hühner + Brust | Kyllingbryst |
| Vollkornbrot | Voll + Korn + Brot | Fullkornsbrød |
| Rühreier | Rühr + Eier | Rørte egg |
| Olivenöl | Oliven + Öl | Olivenolje |
| Blaubeermuffin | Blaubeer + Muffin | Blåbærmuffins |
De grammatiske kasusene i tysk påvirker også matnavn avhengig av deres rolle i setningen. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" bruker akkusativ, som ikke endrer disse spesifikke substantivene, men kan endre artikler og adjektiver som følger med dem. Moderne transformer-baserte NER håndterer kasusbøyninger godt fordi modellen lærer kontekstuelle mønstre i stedet for å stole på nøyaktig strenge matching.
Tyrkisk: Agglutinativ Morfologi
Tyrkisk fester suffikser til rotord for å formidle mening, og skaper lange enkeltord som koder informasjon som vanligvis spres over flere ord på engelsk. "Yumurtalarımdan" betyr "fra mine egg" — et enkelt ord som inneholder roten (yumurta = egg), flertallsuffiks (-lar), eiendomsuffiks (-ım), og ablativ suffiks (-dan).
For mat NER er utfordringen å identifisere rotmatordet innen en tungt suffiksert form. Subordtokenisering — teknikken som brukes av BERT og lignende modeller for å dele ord i meningsfulle fragmenter — er kritisk her. Tyrkisk-spesifikke modeller som BERTurk bruker et vokabular som inkluderer vanlige tyrkiske suffikser som separate tokens, noe som gjør det mulig for modellen å gjenkjenne "yumurta" som en mat-enhet selv når det fremstår som en del av en lengre agglutinert form.
Nøyaktigheten for tyrkisk tale logging på 87 prosent reflekterer denne morfologiske kompleksiteten, med de fleste feilene som oppstår på mindre kjente retter hvor den agglutinerte formen ikke var godt representert i treningsdataene.
Arabisk: Rotbasert Morfologi og Diglossi
Arabisk presenterer unike utfordringer både på ASR- og NER-stadiene.
Rotbasert morfologi: Arabiske ord bygges fra tre-bokstavs røtter med vokalmønstre og prefikser/suffikser. Røttene ط-ب-خ (t-b-kh, relatert til matlaging) genererer "طبخ" (tabakh, matlaging), "مطبخ" (matbakh, kjøkken), "طباخ" (tabbakh, kokk), og "مطبوخ" (matbookh, kokt). NER-modeller må gjenkjenne at disse relaterte formene alle gjelder matlaging.
Diglossi: Det er en betydelig forskjell mellom moderne standardarabisk (MSA) og de ulike talte dialektene. En bruker i Egypt kan si "فراخ مشوية" (firakh mashwiya) for grillet kylling, mens en bruker i Levanten ville si "دجاج مشوي" (dajaj mashwi). ASR- og NER-modellene må håndtere både MSA og de viktigste dialektvariantene.
Ikke-latinsk skrift: Arabisk skrives fra høyre til venstre med sammenkoblede bokstaver, og korte vokaler utelates vanligvis i skrift. Selv om dette ikke direkte påvirker tale logging (som starter fra lyd), må NER-modellens treningsdata håndtere arabiske tekstrepresentasjoner korrekt.
Arabisk oppnådde 85 prosent nøyaktighet i vår test — den laveste blant de 10 språkene — hovedsakelig på grunn av dialektvariasjon. Når talere bruker MSA, øker nøyaktigheten til 91 prosent, noe som tyder på at dialektspesifikk finjustering er nøkkelen til videre forbedring.
Japansk: Flere Skriftsystemer og Tellere
Japansk bruker tre skriftsystemer (kanji, hiragana, katakana) og har et komplekst system av numeriske tellere som ligner på kinesiske måleord. Matrelaterte ytringer blander ofte japanske og engelske låneord skrevet i katakana — "ブルーベリーマフィン" (buruberii mafin) er katakana-oversettelsen av "blåbærmuffins."
ASR-utfordringen i japansk er kodeveksling: talere blander naturlig japanske matbegreper med engelske ord. En setning kan være "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), som blander det engelske "scrambled eggs" og "toast" med japansk grammatikk og det native telleordet "二つ" (futatsu, to elementer).
Moderne flerspråklig ASR håndterer dette godt fordi treningsdataene inkluderer kodevekslet japansk tale. Japansk oppnådde 88 prosent nøyaktighet i matgjenkjenning, med feilene konsentrert om tradisjonelle japanske retter beskrevet med regionale dialektord snarere enn standard japansk.
Fransk: Liaison, Elisjon og Kjønnsbestemte Matnavn
Fransk tale har liaison (kobling av lyder mellom ord) og elisjon (fjerning av vokaler før andre vokaler), noe som kan gjøre ordgrensene uklare i lydopptak. "Les oeufs" (egg) uttales som en sammenkoblet lyd der "les" knyttes direkte til "oeufs," noe som potensielt kan forvirre ordgrensedeteksjonen.
Franske matnavn er kjønnsbestemte: "le poulet" (maskulin, kylling) vs. "la salade" (feminin, salat). Selv om kjønnet ikke endrer matgjenkjenningen, påvirker det de omkringliggende artiklene og adjektivene, som NER-modellen bruker som kontekstuelle ledetråder. Feilidentifisering av kjønnsmarkører kan føre til feil i enhetsutvinning.
Fransk oppnådde likevel 95 prosent nøyaktighet — blant de høyeste for ikke-engelske språk — fordi fransk har omfattende ASR-treningsdata og fransk mat er godt representert i globale matdatabaser.
Koreansk: Subjekt-Objekt-Verb Ordre og Høflighetsformer
Koreansk plasserer verbet på slutten av setningen, noe som betyr at matvarene vises tidligere i ytringen. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs to stykker og toast spiste) følger SOV-rekkefølge. NER-modeller trent primært på SVO-språk (som engelsk) må tilpasse seg denne forskjellige rekkefølgen.
Koreansk bruker også forskjellige taleformer (formell, høflig, uformell) som endrer verbendinger og kan legge til partikler gjennom hele setningen. Disse ekstra morfemene øker avstanden mellom matentiteten og mengdeindikatoren, noe som krever at NER-modellen håndterer lengre avhengigheter.
Koreansk oppnådde 87 prosent nøyaktighet, sammenlignbart med kinesisk og tyrkisk, med mengdebehandling som det svakeste området på grunn av det komplekse tellesystemet og variable taleformer.
Språk Rangert etter Total Nøyaktighet i Tale Logging
Kombinering av matgjenkjenning, mengdebehandling og databasetilpasning til en enkelt vektet poengsum gir følgende rangering:
| Rang | Språk | Mat ID | Mengdenøyaktighet | DB Match | Total Poengsum |
|---|---|---|---|---|---|
| 1 | Engelsk | 97% | 94% | 96% | 95.7% |
| 2 | Portugisisk | 96% | 92% | 95% | 94.3% |
| 3 | Spansk | 95% | 92% | 94% | 93.7% |
| 4 | Fransk | 95% | 91% | 93% | 93.0% |
| 5 | Tysk | 94% | 90% | 92% | 92.0% |
| 6 | Japansk | 88% | 88% | 90% | 88.7% |
| 7 | Koreansk | 87% | 87% | 88% | 87.3% |
| 8 | Tyrkisk | 87% | 86% | 87% | 86.7% |
| 9 | Mandarin Kinesisk | 87% | 85% | 86% | 86.0% |
| 10 | Arabisk | 85% | 83% | 84% | 84.0% |
Forskjellen mellom det best presterende språket (engelsk, 95.7 prosent) og det laveste (arabisk, 84.0 prosent) er 11.7 prosentpoeng. Dette er betydelig, men avtagende. I 2023 var den tilsvarende forskjellen i flerspråklige ASR-referanser nærmere 20 prosentpoeng, noe som reflekterer raske forbedringer i ikke-engelske tale-modeller.
Hvorfor Noen Språk Får Høyere Poengsum Enn Andre
Tre faktorer forklarer mesteparten av nøyaktighetsvariationen:
1. Volum av Treningsdata
ASR- og NER-modellens ytelse korrelerer direkte med volumet av tilgjengelig treningsdata for hvert språk. Engelsk har flere størrelsesordener mer merket tale-data enn arabisk eller koreansk. Common Voice-datasettet (Mozilla, 2024) inneholder over 19 000 validerte timer for engelsk, men færre enn 300 timer for koreansk og under 100 timer for arabisk.
2. Dekning av Matdatabase
Språk som snakkes i regioner med godt dokumenterte matkomposisjonsdatabaser (USDA for engelsk, BLS for tysk, CIQUAL for fransk) oppnår høyere databasetilpasningspoeng. Språk der matkomposisjonsdata er mindre standardiserte eller mindre digitaliserte opplever flere kartleggingsfeil.
3. Språklig Kompleksitet for NLP
Agglutinative språk (tyrkisk, koreansk), tonale språk (kinesisk) og språk med kompleks morfologi (arabisk) krever mer sofistikerte NLP-pipelines. De ekstra behandlingsstadiene introduserer flere muligheter for feilakkumulering.
Hvordan Nutrola Håndterer Flerspråklig Tale Logging
Nutrolas tale logging-pipeline adresserer flerspråklige utfordringer gjennom flere arkitektoniske beslutninger:
- Språkspesifikke ASR-modeller: I stedet for å bruke en enkelt flerspråklig modell, rutes lyd til språkspesifikke finjusterte modeller når brukerens språkinnstilling er kjent, noe som forbedrer nøyaktigheten med 3 til 5 prosentpoeng sammenlignet med generisk flerspråklig ASR.
- Lokasjonsbevisst avklaring: Matentitetsavklaring bruker brukerens lokasjon for å løse regionspesifikke matnavn. "Chips" løses forskjellig for brukere i London, New York og Sydney.
- Tverrspråklig matdatabase: Den verifiserte ernæringsdatabasen kartlegger matoppføringer på tvers av språk, slik at "poulet grille" (fransk), "pollo a la plancha" (spansk) og "grillet kylling" (engelsk) alle løses til den samme verifiserte ernæringsprofilen.
- Fallback til tekstinndata: Når talekonfidensen faller under terskelen i noe språk, kan brukere sømløst bytte til tekstsøk eller strekkodeskanning — Nutrolas strekkodeskanner dekker over 95 prosent av pakket produkter globalt.
Sammen med AI foto logging og AI Diet Assistant, gjør disse flerspråklige taleevnene Nutrola til en praktisk daglig ernæringssporer for brukere over hele verden. Alle funksjoner — inkludert tale logging på alle støttede språk — er tilgjengelige fra 2.50 euro per måned med en 3-dagers gratis prøveperiode, uten annonser på noen nivå.
Veien Videre: Flerspråklig Tale Logging i 2026 og Fremover
Flere utviklinger forbedrer flerspråklig tale logging av mat:
- Dialektspesifikk finjustering: Nye datasett som retter seg mot talte dialekter (egyptisk arabisk, brasiliansk portugisisk, kantonesisk) lukker nøyaktighetsgapet mellom standard og kolloquial tale.
- Multimodale innganger: Kombinering av tale med bilder lar AI kryssvalidere — hvis bildet viser ris og stemmen sier "arroz" (spansk for ris), øker konfidensen for begge modaliteter.
- Selv-supervisert læring: Modeller trent på ikke-merket flerspråklig lyd (wav2vec 2.0, HuBERT) lærer tale-representasjoner uten å kreve transkribert data, noe som muliggjør raskere forbedring for språk med lite ressurser.
- Brukerfeedbacksløyfer: Hver korrigering en bruker gjør ("det skal være brun ris, ikke hvit ris") blir et treningssignal for å forbedre modellen i det språket.
Ofte Stilte Spørsmål
Hvilke språk fungerer AI tale logging av mat best på?
Engelsk, spansk, portugisisk og fransk oppnår høyest nøyaktighet for tale logging av mat, alle med over 93 prosent total. Disse språkene drar nytte av omfattende ASR-treningsdata, godt dokumenterte matdatabaser, og relativt enkel morfologi for NLP-behandling. Tysk rangerer femte med 92 prosent totalt.
Kan jeg tale-logge måltider på mandarin kinesisk nøyaktig?
Mandarin kinesisk tale logging oppnår omtrent 86 prosent total nøyaktighet. Hovedutfordringene er tonale distinksjoner i ASR (hvor ord som "tang" betyr forskjellige ting avhengig av tone) og måleordssystemet for mengder. For vanlige matvarer med klar uttale er nøyaktigheten betydelig høyere. Å bruke eksakte numeriske mengder (som "200克," 200 gram) i stedet for vage beskrivelser forbedrer resultatene betydelig.
Hvordan håndterer AI matnavn som ikke oversettes mellom språk?
Kulturelt spesifikke matvarer som "shawarma," "miso," og "tzatziki" håndteres gjennom tverrspråklige matentitetsdatabaser som kartlegger morsmålens matnavn direkte til ernæringsprofiler. Når en tyrkisk taler sier "tavuk shawarma" eller en japansk taler sier "味噌汁" (miso suppe), gjenkjenner NER-modellen disse som matentiteter på sine respektive språk og kartlegger dem til de riktige databaseoppføringene, uavhengig av om det finnes en engelsk ekvivalent.
Hvorfor er arabisk tale logging mindre nøyaktig enn andre språk?
Arabisk tale logging scorer 84 prosent totalt, hovedsakelig på grunn av tre faktorer: (1) diglossi — den betydelige forskjellen mellom moderne standardarabisk og talte dialekter betyr at modellen må håndtere mange uttalevarianter; (2) begrensede merkede treningsdata sammenlignet med europeiske språk; og (3) rotbasert morfologi som skaper mange overflateskjemaer for hvert matkonsept. Når talere bruker moderne standardarabisk, øker nøyaktigheten til omtrent 91 prosent.
Forbedres tale logging nøyaktighet over tid for mitt spesifikke språk?
Ja. Tale logging-systemer forbedres gjennom to mekanismer: globale modelloppdateringer trent på aggregert brukerdata fra alle brukere av et gitt språk, og personlig tilpasning som lærer dine spesifikke uttalemønstre, ofte loggede matvarer, og foretrukne matnavn. Etter to til tre uker med regelmessig bruk viser systemet vanligvis målbar forbedring i gjenkjenningsnøyaktighet for dine vanlige måltider.
Kan jeg blande språk når jeg tale logger, som å beskrive et måltid på spansk med noen engelske matbegreper?
Kodeveksling — å blande to språk i en enkelt ytring — er vanlig i flerspråklige husholdninger og støttes i økende grad av moderne ASR-modeller. Å si "Tuve un bowl de quinoa con grilled chicken" (blanding av spansk og engelsk) vil generelt bli tolket korrekt av flerspråklige transformer-modeller trent på kodevekslet data. Nøyaktigheten er imidlertid omtrent 5 til 8 prosentpoeng lavere enn for ytringer på ett språk, så det å holde seg til ett språk gir best resultater.
Hvordan får jeg de mest nøyaktige tale logging-resultatene på et ikke-engelsk språk?
Fire praksiser forbedrer nøyaktigheten: (1) snakk i et moderat tempo med klar uttale; (2) bruk eksakte mengder når det er mulig ("200 gram" i stedet for "litt"); (3) bruk standard matnavn i stedet for regional slang eller forkortelser; og (4) gjør korrigeringer når AI gjør noe feil, da denne tilbakemeldingen direkte forbedrer fremtidig gjenkjenning. Nutrola støtter også bytte til foto logging eller strekkodeskanning for elementer som er vanskelige å beskrive verbalt.
Støtter Nutrola tale logging på alle 10 testede språk?
Nutrola støtter tale logging på flere språk med den fullstendige NLP-pipelinen beskrevet i denne artikkelen. Appen oppdager automatisk brukerens enhetsspråk og ruter taleinngang til de aktuelle språkspesifikke modellene. Apple Health og Google Fit synkronisering fungerer uavhengig av hvilket språk du bruker for logging, noe som sikrer at ernæringsdataene dine integreres sømløst med helseøkosystemet ditt.
Klar til å forvandle ernæringssporingen din?
Bli en del av tusenvis som har forvandlet helsereisen sin med Nutrola!