Äänilokitus 10 Kielellä — Kuinka Hyvin AI Ymmärtää Ei-Englantilaisia Ruokia?

Testasimme ääniruokaloggausta kymmenellä kielellä kymmenellä standardoidulla aterialla. Katso, mitkä kielet AI hallitsee parhaiten, missä se kamppailee ja kuinka monikielinen NLP mahdollistaa tarkan ravitsemusseurannan ympäri maailmaa.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Ääniruokaloggaus englanniksi toimii erinomaisesti. Mutta mitä tapahtuu, kun kuvaat ateriasi mandariinikiinaksi, turkiksi tai arabiaksi? Ravitsemusseurantasovellusten laajentuessa globaalisti kyky ymmärtää puhuttuja ruokakuvaus useilla kielillä ei ole enää vain mukava lisä — se on keskeinen vaatimus. Testasimme monikielistä ääniloggausta kymmenellä standardoidulla aterialla, arvioiden ruokien tunnistustarkkuutta, määrien käsittelyä ja tietokannan yhteensopivuutta.

Sadassa ateria-kieliyhdistelmässä AI-ääniloggaus tunnisti pääruoan oikein 91 prosenttia ajasta. Englanti, espanja ja portugali saavuttivat korkeimman tarkkuuden (95–97 prosenttia), kun taas tonaaliset kielet, kuten mandariinikiina, sekä monimutkaisella morfologialla varustetut kielet, kuten turkki ja arabia, näyttivät tarkkuutta 83–89 prosenttia — edelleen käyttökelpoista, mutta vaativat useammin tarkennuksia.

Testi: 10 Ateriaa, 10 Kieltä, 100 Yhdistelmää

Valitsimme kymmenen ateriaa, jotka kattavat maailman eri keittiöitä ja esittävät erilaisia NLP-haasteita — yhdisteet, kulttuurispesifiset ruoat, numeeriset määrät ja modifier-painotteiset kuvaukset. Jokainen ateria kuvattiin kaikilla kymmenellä kielellä äidinkielenään puhuvien toimesta, ja ääniloggausputkea arvioitiin kolmella kriteerillä:

  1. Ruoan tunnistus: Tunnistiko AI oikein pääruoan?
  2. Määrätarkkuus: Käsiteltiinkö numeeriset määrät ja annoskoot oikein?
  3. Tietokannan yhteensopivuus: Valittiinko oikea ravitsemustietokannan merkintä?

10 Testiateriaa

Ateria # Kuvaus (englanniksi) Keskeinen NLP-haaste
1 Kaksi munakokkelia cheddar-juustolla Määrä + modifier
2 Grillattu kanafilee höyrytetyn brokkolin kanssa Kaksi erillistä ainetta + valmistustapa
3 Kulhollinen misokeittoa tofulla Astiamäärä + kulttuurispesifinen ruoka
4 Spagetti Bolognese parmesaanilla Yhdistetty ruoan nimi + lisäke
5 Suuri kreikkalainen salaatti fetajuustolla ja oliiviöljykastikkeella Koon modifier + useita aineksia
6 200 grammaa valkoista riisiä grillatun lohen kanssa Tarkka metristen määrien + kaksi ainetta
7 Kourallinen manteleita ja banaani Epämääräinen määrä + konjunktio
8 Kana shawarma -wrap tahinikastikkeella Kulttuurispesifinen + yhdistetty tuote
9 Kaksi viipaletta täysjyväleipää maapähkinävoilla Määrä + monisanaiset ruoan nimet
10 Musta kahvi ja mustikkamuffini Modifier (musta) + yhdistetty ruoan nimi

10 Kieltä

Kielet valittiin kattamaan erilaisia kieliperheitä, kirjoitusjärjestelmiä ja fonologisia piirteitä:

  • Englanti — germaaninen, latinalainen kirjoitus, vertailupohja
  • Espanja — romaaninen, latinalainen kirjoitus, sukupuolittuneet substantiivit
  • Mandariinikiina — sino-tibetiläinen, logografinen kirjoitus, tonaalinen (4 sävyä)
  • Saksa — germaaninen, latinalainen kirjoitus, yhdisteet, kieliopilliset tapaukset
  • Turkki — turkkilainen, latinalainen kirjoitus, agglutinoiva morfologia
  • Ranska — romaaninen, latinalainen kirjoitus, liitokset ja elisio puheessa
  • Japani — japanilainen, sekoitettu kirjoitus (kanji/hiragana/katakana), kunnioittavat puhetasot
  • Korea — korealainen, hangul-kirjoitus, subjekti-objekti-verbi sanajärjestys
  • Portugali — romaaninen, latinalainen kirjoitus, nenääänteet
  • Arabia — semitti, arabialainen kirjoitus (oikealta vasemmalle), juuriperustainen morfologia, diglossia

Täydelliset Tulokset: Ruoan Tunnistustarkkuus Kieleittäin ja Aterioittain

Alla oleva taulukko näyttää, tunnistiko AI oikein pääruoan jokaiselle aterialle kussakin kielessä. Vihreä rastimerkki tarkoittaa oikeaa tunnistusta; punainen X tarkoittaa epäonnistumista tai merkittävää väärintunnistusta.

Ateria EN ES ZH DE TR FR JA KO PT AR
1. Munakokkelit + cheddar 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Kanafilee + brokkoli 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Misokeitto + tofu 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Spagetti Bolognese 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Kreikkalainen salaatti + feta 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g riisiä + lohi 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. Kourallinen manteleita + banaani 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Kana shawarma -wrap 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Leipä + maapähkinävoi 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Musta kahvi + muffini 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Yhteensä (/100) 97 95 87 94 87 95 88 87 96 85

Määrien Käsittelyn Tarkkuus Kieleittäin

Määrien käsittely mittaa, tunnistiko AI oikein numeeriset määrät, epämääräiset määrät ("kourallinen", "kulhollinen") ja metristen mittausten. Tämä testataan erikseen, koska järjestelmä voi tunnistaa ruoan oikein, mutta määrittää väärän annoskoko.

Kieli Tarkka numeerinen (esim. "200g", "kaksi") Epämääräinen määrä (esim. "kourallinen") Oletusannos (ilman määrää) Kokonaismäärätarkkuus
Englanti 98% 89% 94% 94%
Espanja 97% 87% 93% 92%
Portugali 97% 86% 93% 92%
Ranska 96% 85% 92% 91%
Saksa 96% 84% 91% 90%
Japani 93% 80% 90% 88%
Korea 92% 79% 89% 87%
Turkki 91% 78% 88% 86%
Mandariinikiina 90% 76% 88% 85%
Arabia 89% 74% 87% 83%

Tarkat numeeriset määrät käsitellään hyvin kaikilla kielillä, koska numerot seuraavat suhteellisen ennustettavia kaavoja. Epämääräiset määrät esittävät suurimman haasteen, erityisesti kielissä, joissa "kourallinen" tai "kulhollinen" käyttää idiomattisia ilmauksia, joilla ei ole suoraa englanninkielistä käännöstä.

Kieleen Liittyvät Haasteet ja Kuinka NLP-putki Käsittelee Ne

Mandariinikiina: Tonaaliset Eroavaisuudet ja Mittasanoja

Mandariinikiina tuo esiin kaksi merkittävää haastetta ääniruokaloggaamiselle.

Tonaalinen epäselvyys ASR:ssä: Mandariinikiinassa on neljä sävyä plus neutraali sävy, ja monet ruokaan liittyvät sanat eroavat vain sävyn perusteella. Esimerkiksi "tang" nousevalla sävyllä (toinen sävy) tarkoittaa keittoa, kun taas "tang" laskevalla sävyllä (neljäs sävy) tarkoittaa sokeria. ASR-mallien on tunnistettava sävy ääniaaltomuodosta, mikä on vaikeaa meluisissa ympäristöissä tai nopeassa puheessa.

Mittasanat (luokittelijat): Kiinassa käytetään erityisiä mittasanoja (量词) numeroiden ja substantiivien välissä. Ilmaus "kaksi munaa" on "两个鸡蛋" (liǎng gè jīdàn), jossa "个" on mittasana. Eri ruoat vaativat erilaisia mittasanoja — "片" (piàn) viipaleille, "碗" (wǎn) kulhoille, "杯" (bēi) kupeille. NER-mallin on tunnistettava nämä luokittelijat määrinä eikä ruoan modifierina.

Huolimatta näistä haasteista mandariinikiinan ääniloggaus saavutti 87 prosentin ruokien tunnistustarkkuuden, koska modernien järjestelmien (mukaan lukien monikielinen Whisper) ASR-mallit on koulutettu laajalla mandariinikiinan puhedataalla, ja kiinalainen ruokasanasto on hyvin edustettuna koulutusmateriaaleissa.

Saksa: Yhdisteet ja Kieliopilliset Tapaukset

Saksa luo yhdisteitä liittämällä sanoja ilman välejä. "Vollkornbrot" (täysjyväleipä) on yksi sana, joka koostuu "Voll" (kokonainen) + "korn" (jyvä) + "Brot" (leipä). NER-mallin on purettava nämä yhdisteet, jotta ne voidaan kartoittaa oikein.

Yleisiä saksalaisia ruokayhdisteitä ovat:

Saksan Yhdiste Komponentit Englanninkielinen Vastine
Erdnussbutter Erdnuss + Butter Maapähkinävoi
Hühnerbrust Hühner + Brust Kanafilee
Vollkornbrot Voll + Korn + Brot Täysjyväleipä
Rühreier Rühr + Eier Munakokkelit
Olivenöl Oliven + Öl Oliiviöljy
Blaubeermuffin Blaubeer + Muffin Mustikkamuffini

Saksan kieliopilliset tapaukset vaikuttavat myös ruokanimien muotoon lauseessa. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" käyttää akkusatiivimuotoa, joka ei muuta näitä erityisiä substantiiveja, mutta voi muuttaa niitä ympäröiviä artikkeleita ja adjektiiveja. Moderni transformer-pohjainen NER käsittelee tapamuutoksia hyvin, koska malli oppii kontekstuaalisia kaavoja sen sijaan, että se perustuisi tarkkaan merkkijonojen vertailuun.

Turkki: Agglutiivinen Morfologia

Turkissa liitetään päätteitä juurisanoihin merkityksen välittämiseksi, luoden pitkiä yksittäisiä sanoja, jotka koodavat tietoa, joka yleensä jakautuu useisiin sanoihin englanniksi. "Yumurtalarımdan" tarkoittaa "munistani" — yksi sana, joka sisältää juuren (yumurta = muna), monikko-päätteen (-lar), omistus-päätteen (-ım) ja ablatiivimuoto-päätteen (-dan).

Ruoka-NER:ssä haasteena on tunnistaa juurisana monimutkaisessa päätteiden muodossa. Alasanat-tokenointi — tekniikka, jota BERT ja vastaavat mallit käyttävät sanojen jakamiseen merkityksellisiin osiin — on tässä kriittistä. Turkkiin erikoistuneet mallit, kuten BERTurk, käyttävät sanastoa, joka sisältää yleisiä turkkilaisia päätteitä erillisinä tokeneina, mikä mahdollistaa mallin tunnistaa "yumurta" ruokaintiana, vaikka se esiintyisi osana pidempää agglutinoitua muotoa.

Turkin ääniloggaustarkkuus 87 prosenttia heijastaa tätä morfologisen monimutkaisuuden tasoa, ja useimmat virheet tapahtuivat vähemmän tunnetuissa ruoissa, joissa agglutinoitu muoto ei ollut hyvin edustettuna koulutusdatassa.

Arabia: Juuriin Perustuva Morfologia ja Diglossia

Arabia tuo esiin ainutlaatuisia haasteita sekä ASR- että NER-vaiheissa.

Juuriin perustuva morfologia: Arabialaiset sanat rakennetaan kolmen kirjaimen juurista, joissa on vokaalikaavoja ja etuliitteitä/ loppuliitteitä. Juuri ط-ب-خ (t-b-kh, joka liittyy ruoanlaittoon) tuottaa "طبخ" (tabakh, ruoanlaitto), "مطبخ" (matbakh, keittiö), "طباخ" (tabbakh, kokki) ja "مطبوخ" (matbookh, kypsennetty). NER-mallien on tunnistettava, että nämä liittyvät muodot liittyvät kaikki ruoan valmistukseen.

Diglossia: Modernin standardiarabian (MSA) ja eri puhuttujen murteiden välillä on merkittävä ero. Käyttäjä Egyptissä saattaa sanoa "فراخ مشوية" (firakh mashwiya) grillatusta kanasta, kun taas Levantin käyttäjä sanoo "دجاج مشوي" (dajaj mashwi). ASR- ja NER-mallien on käsiteltävä sekä MSA:ta että suuria murteiden variantteja.

Ei-latinalainen kirjoitus: Arabia kirjoitetaan oikealta vasemmalle yhdistetyillä kirjaimilla, ja lyhyet vokaalit jätetään yleensä pois kirjoituksessa. Vaikka tämä ei suoraan vaikuta ääniloggaamiseen (joka alkaa äänestä), NER-mallin koulutusdatassa on käsiteltävä arabialaisten tekstiesitysten oikein.

Arabia saavutti testissämme 85 prosentin tarkkuuden — alhaisin kymmenestä kielestä — pääasiassa murteiden vaihtelun vuoksi. Kun puhujat käyttivät MSA:ta, tarkkuus nousi 91 prosenttiin, mikä viittaa siihen, että murteisiin erikoistunut hienosäätö on avain lisäparannuksiin.

Japani: Useat Kirjoitusjärjestelmät ja Laskijat

Japani käyttää kolmea kirjoitusjärjestelmää (kanji, hiragana, katakana) ja sillä on monimutkainen numerollisten laskijoiden järjestelmä, joka muistuttaa kiinalaisia mittasanoja. Ruokaan liittyvä puhe sekoittaa usein japanilaisia ja englanninkielisiä lainasanoja, jotka on kirjoitettu katakanalla — "ブルーベリーマフィン" (buruberii mafin) on katakanalla kirjoitettu "mustikkamuffini".

ASR-haaste japanissa on koodinvaihto: puhujat sekoittavat luonnollisesti japanilaisia ruokatermejä englanninkielisiin sanoihin. Lause voisi olla "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), jossa sekoitetaan englanninkieliset "scrambled eggs" ja "toast" japanilaisen kieliopin ja alkuperäisen laskijan "二つ" (futatsu, kaksi tuotetta) kanssa.

Moderni monikielinen ASR käsittelee tätä hyvin, koska koulutusdata sisältää koodinvaihtoa japanilaisessa puheessa. Japanin ruokien tunnistustarkkuus oli 88 prosenttia, ja virheet keskittyivät perinteisiin japanilaisiin ruokiin, joita kuvattiin alueellisten murteiden termeillä sen sijaan, että käytettäisiin standardijapania.

Ranska: Liitos, Elisio ja Sukupuolittuneet Ruokanimet

Ranskalaisessa puheessa esiintyy liitoksia (äänteiden yhdistämistä sanojen välillä) ja elisiota (vokaalien pudottamista toisten vokaalien edessä), mikä voi tehdä sanarajoista epäselviä äänitteessä. "Les oeufs" (munat) lausutaan yhdistettynä äänenä, jossa "les" yhdistyy suoraan "oeufs":iin, mikä voi hämmentää sanarajojen tunnistamista.

Ranskalaiset ruokanimet ovat sukupuolittuneita: "le poulet" (maskuliininen, kana) vs. "la salade" (feminiininen, salaatti). Vaikka sukupuoli ei muuta ruokien tunnistusta, se vaikuttaa ympäröiviin artikkeleihin ja adjektiiveihin, joita NER-malli käyttää kontekstuaalisina vihjeinä. Sukupuolimerkkien väärintunnistaminen voi johtaa virheisiin entiteettien poiminnassa.

Ranska saavutti silti 95 prosentin tarkkuuden — yksi korkeimmista ei-englanninkielisistä kielistä — koska ranskalla on laaja ASR-koulutusdata ja ranskalainen keittiö on hyvin edustettuna maailmanlaajuisissa ruokadatabankeissa.

Korea: Subjekti-Objekti-Verbi Järjestys ja Kunnioittavat Muodot

Korea sijoittaa verbit lauseen loppuun, mikä tarkoittaa, että ruokaesineet esiintyvät aikaisemmin lauseessa. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) seuraa SOV-järjestystä. NER-mallit, jotka on koulutettu pääasiassa SVO-kielille (kuten englanti), on mukautettava tähän erilaiseen järjestykseen.

Korea käyttää myös erilaisia puhetasoja (virallinen, kohtelias, rento), jotka muuttavat verbimuotoja ja voivat lisätä partikkeleita lauseen eri osiin. Nämä lisäosat lisäävät etäisyyttä ruokaentiteetin ja sen määrän merkin välille, mikä vaatii NER-mallin käsittelemään pidempiä riippuvuuksia.

Korean tarkkuus oli 87 prosenttia, mikä on verrattavissa kiinaan ja turkkiin, ja määrien käsittely oli heikoin alue monimutkaisen laskijajärjestelmän ja vaihtelevaan puhetasoon liittyen.

Kielet Luokiteltuna Yhteensä Ääniloggaustarkkuuden Mukaan

Yhdistämällä ruokien tunnistus, määrien käsittely ja tietokannan yhteensopivuus yhdeksi painotetuksi pisteeksi saadaan seuraava luokitus:

Sija Kieli Ruoan ID Määrätarkkuus DB Yhteensopivuus Kokonaispisteet
1 Englanti 97% 94% 96% 95.7%
2 Portugali 96% 92% 95% 94.3%
3 Espanja 95% 92% 94% 93.7%
4 Ranska 95% 91% 93% 93.0%
5 Saksa 94% 90% 92% 92.0%
6 Japani 88% 88% 90% 88.7%
7 Korea 87% 87% 88% 87.3%
8 Turkki 87% 86% 87% 86.7%
9 Mandariinikiina 87% 85% 86% 86.0%
10 Arabia 85% 83% 84% 84.0%

Erotus parhaiten suoriutuvan kielen (englanti, 95.7 prosenttia) ja huonoimman (arabia, 84.0 prosenttia) välillä on 11.7 prosenttiyksikköä. Tämä on merkittävä, mutta kaventuva. Vuonna 2023 monikielisten ASR-vertailujen vastaava ero oli lähempänä 20 prosenttiyksikköä, mikä heijastaa nopeita parannuksia ei-englanninkielisissä puhemalleissa.

Miksi Jotkut Kielet Saavat Korkeampia Pisteitä kuin Toiset

Kolme tekijää selittää suurimman osan tarkkuuden vaihtelusta:

1. Koulutusdatamäärä

ASR- ja NER-mallien suorituskyky korreloi suoraan kunkin kielen saatavilla olevan koulutusdatamäärän kanssa. Englannilla on moninkertaisesti enemmän merkittyä puhedataa kuin arabiaksi tai koreaksi. Common Voice -dataset (Mozilla, 2024) sisältää yli 19 000 validoitua tuntia englanniksi, mutta alle 300 tuntia koreaksi ja alle 100 tuntia arabiaksi.

2. Ruokadatabankin Katto

Kielet, joita puhutaan alueilla, joilla on hyvin dokumentoituja ruokakoostumustietokantoja (USDA englanniksi, BLS saksaksi, CIQUAL ranskaksi), saavuttavat korkeammat tietokannan yhteensopivuuspisteet. Kielet, joissa ruokakoostumustiedot eivät ole yhtä standardoituja tai digitoituja, kokevat enemmän kartoitusvirheitä.

3. Kielellinen Monimutkaisuus NLP:ssä

Agglutiiviset kielet (turkki, korea), tonaaliset kielet (kiina) ja kielet, joilla on monimutkainen morfologia (arabia), vaativat monimutkaisempia NLP-putkia. Lisäkäsittelyvaiheet tuovat lisää mahdollisuuksia virheiden kertymiseen.

Kuinka Nutrola Käsittelee Monikielistä Ääniloggausta

Nutrolan ääniloggausputki käsittelee monikielisiä haasteita useiden arkkitehtonisten päätösten kautta:

  • Kielikohtaiset ASR-mallit: Sen sijaan, että käytettäisiin yhtä monikielistä mallia, putki ohjaa ääntä kielikohtaisille hienosäädetyille malleille, kun käyttäjän kieliasetus on tiedossa, mikä parantaa tarkkuutta 3–5 prosenttiyksikköä verrattuna yleisiin monikielisiin ASR-malleihin.
  • Paikallisesti tietoinen erottelu: Ruokaentiteettien erottelu käyttää käyttäjän sijaintia alueellisten ruokanimien ratkaisemiseksi. "Chips" ratkaistaan eri tavalla Lontoossa, New Yorkissa ja Sydneyssä.
  • Ylikielinen ruokadatabankki: Vahvistettu ravitsemustietokanta kartoittaa ruokaesityksiä eri kielillä, joten "poulet grille" (ranskaksi), "pollo a la plancha" (espanjaksi) ja "grilled chicken" (englanniksi) kaikki viittaavat samaan vahvistettuun ravitsemusprofiiliin.
  • Varajärjestelmä tekstisyötteelle: Kun äänen luottamus laskee alle kynnyksen missä tahansa kielessä, käyttäjät voivat saumattomasti vaihtaa tekstihakuun tai viivakoodin skannaukseen — Nutrolan viivakoodiskanneri kattaa yli 95 prosenttia pakatuista tuotteista maailmanlaajuisesti.

Yhdistettynä AI-valokuvaloggaamiseen ja AI-ruokavalioavustajaan, nämä monikieliset äänitoiminnot tekevät Nutrolasta käytännöllisen päivittäisen ravitsemusseurannan työkalun käyttäjille ympäri maailmaa. Kaikki ominaisuudet — mukaan lukien ääniloggaus kaikilla tuetuilla kielillä — ovat saatavilla alkaen 2.50 euroa kuukaudessa 3 päivän ilmaisen kokeilujakson kanssa, ilman mainoksia kaikilla tasoilla.

Tulevaisuus: Monikielinen Ääniloggaus Vuonna 2026 ja Sen Jälkeen

Useat kehitykset parantavat monikielistä ääniruokaloggausta:

  • Murteisiin erikoistunut hienosäätö: Uudet datasetit, jotka kohdistuvat puhuttuihin murteisiin (egyptiläinen arabia, brasilialainen portugali, kantoninkiina), kaventavat tarkkuuseroa standardin ja puhekielen välillä.
  • Monimuotoiset syötteet: Äänen yhdistäminen valokuviin mahdollistaa AI:n ristivarmistaa — jos valokuva näyttää riisiä ja ääni sanoo "arroz" (espanjaksi riisi), luottamus kasvaa molemmille modaliteeteille.
  • Itseohjautuva oppiminen: Mallit, jotka on koulutettu merkitsemättömällä monikielisellä äänellä (wav2vec 2.0, HuBERT), oppivat puhe-esityksiä ilman transkriboituja tietoja, mikä mahdollistaa nopeamman parannuksen vähäresursseilla kielillä.
  • Käyttäjäpalautejärjestelmät: Jokainen korjaus, jonka käyttäjä tekee ("sen pitäisi olla ruskea riisi, ei valkoinen riisi"), muuttuu koulutusmerkiksi mallin parantamiseksi kyseisellä kielellä.

Usein Kysytyt Kysymykset

Missä kielissä AI-ääniruokaloggaus toimii parhaiten?

Englanti, espanja, portugali ja ranska saavuttavat korkeimman tarkkuuden ääniruokaloggaamisessa, kaikki yli 93 prosenttia kokonaispisteistä. Nämä kielet hyötyvät laajasta ASR-koulutusdatasta, hyvin dokumentoiduista ruokadatabankeista ja suhteellisen yksinkertaisesta morfologiasta NLP-käsittelyssä. Saksa sijoittuu viidenneksi 92 prosentilla kokonaispisteistä.

Voinko äänilogata aterioita mandariinikiinaksi tarkasti?

Mandariinikiinan ääniloggaus saavuttaa noin 86 prosentin kokonaispisteen tarkkuuden. Päähaasteet ovat tonaaliset erottelut ASR:ssä (missä sanat kuten "tang" tarkoittavat eri asioita sävyn mukaan) ja mittasana-järjestelmä määrille. Yleisille ruoille, joilla on selkeä ääntämys, tarkkuus on huomattavasti korkeampi. Tarkkojen numeeristen määrien (kuten "200克," 200 grammaa) käyttäminen epämääräisten kuvausten sijaan parantaa tuloksia merkittävästi.

Kuinka AI käsittelee ruokanimet, jotka eivät käänny eri kielille?

Kulttuurisesti spesifiset ruoat, kuten "shawarma," "miso" ja "tzatziki," käsitellään ylirajaisissa ruokaintia-databankeissa, jotka kartoittavat äidinkieliset ruokanimet suoraan ravitsemusprofiileihin. Kun turkkilainen puhuja sanoo "tavuk shawarma" tai japanilainen puhuja sanoo "味噌汁" (miso keitto), NER-malli tunnistaa nämä ruokaintiana omilla kielillään ja kartoittaa ne asianmukaisiin tietokannan merkintöihin, riippumatta siitä, onko englanninkielistä vastinetta olemassa.

Miksi arabian ääniloggaus on vähemmän tarkka kuin muilla kielillä?

Arabian ääniloggaus saa 84 prosentin kokonaispisteet, pääasiassa kolmen tekijän vuoksi: (1) diglossia — merkittävä ero modernin standardiarabian ja puhuttujen murteiden välillä tarkoittaa, että mallin on käsiteltävä monia ääntämisvariantteja; (2) rajoitettu merkitty koulutusdata verrattuna eurooppalaisiin kieliin; ja (3) juuriperustainen morfologia, joka luo monia pinnallisia muotoja jokaiselle ruokakäsitteelle. Kun puhujat käyttävät modernia standardiarabiaa, tarkkuus nousee noin 91 prosenttiin.

Paraneeko ääniloggaustarkkuus ajan myötä omalla kielelläni?

Kyllä. Ääniloggausjärjestelmät paranevat kahden mekanismin kautta: globaalit mallipäivitykset, jotka on koulutettu aggregoiduista käyttäjätiedoista kaikilta kyseisen kielen käyttäjiltä, ja henkilökohtainen mukautuminen, joka oppii omat ääntämismallit, usein lokatut ruoat ja suosikkiruokanimet. Kahden tai kolmen viikon säännöllisen käytön jälkeen järjestelmä näyttää yleensä mitattavaa parannusta tunnistustarkkuudessa tavallisille aterioillesi.

Voinko sekoittaa kieliä ääniloggaamisessa, kuten kuvata ateria espanjaksi ja käyttää joitakin englanninkielisiä ruokatermejä?

Koodinvaihto — kahden kielen sekoittaminen yhdessä lausessa — on yleistä monikielisissä kotitalouksissa ja modernit ASR-mallit tukevat tätä yhä enemmän. Sanomalla "Tuve un bowl de quinoa con grilled chicken" (sekoittaen espanjaa ja englantia) yleensä tulkitaan oikein monikielisillä transformer-malleilla, jotka on koulutettu koodinvaihtodatalle. Tarkkuus on kuitenkin noin 5–8 prosenttiyksikköä alhaisempi kuin yksikielisissä lausumissa, joten pysyminen yhdessä kielessä tuottaa parhaat tulokset.

Kuinka saan tarkimmat ääniloggaustulokset ei-englanninkielisellä kielellä?

Neljä käytäntöä parantaa tarkkuutta: (1) puhu kohtuullisella vauhdilla ja selkeällä ääntämisellä; (2) käytä tarkkoja määriä, kun mahdollista ("200 grammaa" sen sijaan, että sanoisit "hieman"); (3) käytä standardeja ruokanimityksiä alueellisen slangin tai lyhenteiden sijaan; ja (4) tee korjauksia, kun AI tekee virheitä, sillä tämä palaute parantaa suoraan tulevaa tunnistusta. Nutrola tukee myös siirtymistä valokuvaloggaamiseen tai viivakoodiskannaukseen vaikeasti kuvattaville tuotteille.

Tukeeko Nutrola ääniloggausta kaikilla kymmenellä testatulla kielellä?

Nutrola tukee ääniloggausta useilla kielillä koko tässä artikkelissa kuvattujen NLP-putkien avulla. Sovellus tunnistaa automaattisesti käyttäjän laitteiston kielen ja ohjaa äänen syötteen asianmukaisille kielikohtaisille malleille. Apple Health ja Google Fit -synkronointi toimii riippumatta siitä, mitä kieltä käytät lokkaamiseen, varmistaen, että ravitsemustietosi integroituvat saumattomasti terveysjärjestelmääsi.

Valmis muuttamaan ravitsemusseurantaasi?

Liity tuhansien joukkoon, jotka ovat muuttaneet terveysmatkansa Nutrola avulla!