Καταγραφή Φωνής σε 10 Γλώσσες — Πόσο Καλά Κατανοεί η Τεχνητή Νοημοσύνη τα Γεύματα που Δεν Είναι Αγγλικά;

Δοκιμάσαμε την καταγραφή φωνής για τρόφιμα σε 10 γλώσσες με 10 τυποποιημένα γεύματα. Δείτε ποιες γλώσσες χειρίζεται καλύτερα η Τεχνητή Νοημοσύνη, πού δυσκολεύεται και πώς η πολύγλωσση NLP ενισχύει την ακριβή παρακολούθηση διατροφής παγκοσμίως.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Η καταγραφή φωνής για τρόφιμα στα Αγγλικά λειτουργεί εξαιρετικά. Τι συμβαίνει όμως όταν περιγράφετε τα γεύματά σας στα Μανδαρινικά, Τουρκικά ή Αραβικά; Με τις εφαρμογές παρακολούθησης διατροφής να επεκτείνονται παγκοσμίως, η ικανότητα κατανόησης των προφορικών περιγραφών τροφίμων σε πολλές γλώσσες δεν είναι πια απλώς μια επιθυμητή δυνατότητα — είναι μια βασική απαίτηση. Δοκιμάσαμε την πολύγλωσση καταγραφή φωνής με 10 τυποποιημένα γεύματα που περιγράφηκαν σε 10 γλώσσες, μετρώντας την ακρίβεια αναγνώρισης τροφίμων, την ανάλυση ποσοτήτων και την αντιστοίχιση βάσεων δεδομένων.

Σε 100 συνδυασμούς γεύματος-γλώσσας, η καταγραφή φωνής AI αναγνώρισε σωστά το κύριο τρόφιμο το 91% των περιπτώσεων. Τα Αγγλικά, Ισπανικά και Πορτογαλικά πέτυχαν την υψηλότερη ακρίβεια (95 έως 97 τοις εκατό), ενώ οι τονικές γλώσσες όπως τα Μανδαρινικά και γλώσσες με σύνθετη μορφολογία όπως τα Τουρκικά και Αραβικά παρουσίασαν ακρίβεια μεταξύ 83 και 89 τοις εκατό — ακόμα χρήσιμη, αλλά με πιο συχνές προτροπές για διευκρινίσεις.

Η Δοκιμή: 10 Γεύματα, 10 Γλώσσες, 100 Συνδυασμοί

Επιλέξαμε 10 γεύματα που καλύπτουν παγκόσμιες κουζίνες και παρουσιάζουν διαφορετικές προκλήσεις για την NLP — σύνθετα συστατικά, πολιτιστικά συγκεκριμένα πιάτα, αριθμητικές ποσότητες και περιγραφές με πολλές τροποποιήσεις. Κάθε γεύμα περιγράφηκε σε όλες τις 10 γλώσσες από φυσικούς ομιλητές, και η διαδικασία καταγραφής φωνής αξιολογήθηκε με τρία κριτήρια:

  1. Αναγνώριση τροφίμων: Αναγνώρισε σωστά η AI το κύριο τρόφιμο;
  2. Ακρίβεια ποσοτήτων: Αναλύθηκαν σωστά οι αριθμητικές ποσότητες και τα μεγέθη μερίδων;
  3. Αντιστοίχιση βάσης δεδομένων: Επιλέχθηκε η σωστή καταχώρηση στη βάση δεδομένων διατροφής;

Τα 10 Γεύματα Δοκιμής

Γεύμα # Περιγραφή (Αγγλικά) Κύρια Πρόκληση NLP
1 Δύο αυγά scrambled με τυρί cheddar Ποσότητα + τροποποιητής
2 Στήθος κοτόπουλου ψητό με ατμισμένο μπρόκολο Δύο ξεχωριστά είδη + μέθοδος προετοιμασίας
3 Ένα μπολ miso soup με tofu Ποσότητα δοχείου + πολιτιστικά συγκεκριμένο πιάτο
4 Σπαγγέτι Bolognese με παρμεζάνα Σύνθετο όνομα πιάτου + επικάλυψη
5 Μια μεγάλη ελληνική σαλάτα με φέτα και ελαιόλαδο Τροποποιητής μεγέθους + πολλά συστατικά
6 200 γραμμάρια λευκού ρυζιού με ψητό σολομό Ακριβής μετρική ποσότητα + δύο είδη
7 Μια χούφτα αμύγδαλα και μια μπανάνα Ασαφής ποσότητα + σύνδεσμος
8 Wrap κοτόπουλου shawarma με σάλτσα ταχίνι Πολιτιστικά συγκεκριμένο + σύνθετο είδος
9 Δύο φέτες ψωμί ολικής άλεσης με φυστικοβούτυρο Ποσότητα + ονόματα τροφίμων πολλών λέξεων
10 Μαύρος καφές και ένα blueberry muffin Τροποποιητής (μαύρος) + σύνθετο όνομα τροφίμου

Οι 10 Γλώσσες

Οι γλώσσες επιλέχθηκαν για να καλύψουν ποικιλία γλωσσικών οικογενειών, συστημάτων γραφής και φωνολογικών χαρακτηριστικών:

  • Αγγλικά — Γερμανική, Λατινικό αλφάβητο, αναφορά βάσης
  • Ισπανικά — Ρομαντική, Λατινικό αλφάβητο, έμφυλα ουσιαστικά
  • Μανδαρινικά — Σινο-Θιβετιανή, λογογραφικό σύστημα, τονική (4 τόνοι)
  • Γερμανικά — Γερμανική, Λατινικό αλφάβητο, σύνθετες λέξεις, γραμματικές πτώσεις
  • Τουρκικά — Τουρκική, Λατινικό αλφάβητο, αγγλιντική μορφολογία
  • Γαλλικά — Ρομαντική, Λατινικό αλφάβητο, σύνδεση και ελίωση στην ομιλία
  • Ιαπωνικά — Ιαπωνική, μικτό σύστημα (καντζι/χιραγκάνα/κατακάνα), επίπεδα τιμής ομιλίας
  • Κορεατικά — Κορεατική, σύστημα Hangul, σειρά υποκειμένου-αντικειμένου-ρήματος
  • Πορτογαλικά — Ρομαντική, Λατινικό αλφάβητο, ρινικές φωνές
  • Αραβικά — Σεμιτική, αραβικό αλφάβητο (δεξιά προς αριστερά), ριζοσπαστική μορφολογία, διγλωσσία

Πλήρη Αποτελέσματα: Ακρίβεια Αναγνώρισης Τροφίμων κατά Γλώσσα και Γεύμα

Ο παρακάτω πίνακας δείχνει αν η AI αναγνώρισε σωστά τα κύρια τρόφιμα για κάθε γεύμα σε κάθε γλώσσα. Ένα τικ υποδεικνύει σωστή αναγνώριση, ενώ ένα Χ υποδεικνύει αποτυχία ή σημαντική λανθασμένη αναγνώριση.

Γεύμα EN ES ZH DE TR FR JA KO PT AR
1. Scrambled eggs + cheddar 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. Chicken breast + broccoli 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. Miso soup + tofu 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. Spaghetti Bolognese 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. Greek salad + feta 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g rice + salmon 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. Handful almonds + banana 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. Chicken shawarma wrap 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. Bread + peanut butter 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. Black coffee + muffin 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
Σύνολο (/100) 97 95 87 94 87 95 88 87 96 85

Ακρίβεια Ανάλυσης Ποσοτήτων κατά Γλώσσα

Η ανάλυση ποσοτήτων μετρά αν η AI ερμήνευσε σωστά αριθμητικά ποσά, ασαφείς ποσότητες ("μια χούφτα", "ένα μπολ") και μετρικές μετρήσεις. Αυτό δοκιμάζεται ξεχωριστά γιατί ένα σύστημα μπορεί να αναγνωρίσει σωστά το τρόφιμο αλλά να αποδώσει λάθος μέγεθος μερίδας.

Γλώσσα Ακριβής Αριθμητικός (π.χ., "200g", "δύο") Ασαφής Ποσότητα (π.χ., "μια χούφτα") Προεπιλεγμένη Μερίδα (χωρίς αναφερόμενη ποσότητα) Συνολική Ακρίβεια Ποσοτήτων
Αγγλικά 98% 89% 94% 94%
Ισπανικά 97% 87% 93% 92%
Πορτογαλικά 97% 86% 93% 92%
Γαλλικά 96% 85% 92% 91%
Γερμανικά 96% 84% 91% 90%
Ιαπωνικά 93% 80% 90% 88%
Κορεατικά 92% 79% 89% 87%
Τουρκικά 91% 78% 88% 86%
Μανδαρινικά 90% 76% 88% 85%
Αραβικά 89% 74% 87% 83%

Οι ακριβείς αριθμητικές ποσότητες αναλύονται καλά σε όλες τις γλώσσες γιατί οι αριθμοί ακολουθούν σχετικά προβλέψιμα πρότυπα. Οι ασαφείς ποσότητες παρουσιάζουν τη μεγαλύτερη πρόκληση, ειδικά σε γλώσσες όπου η αντίστοιχη έκφραση για "μια χούφτα" ή "ένα μπολ" χρησιμοποιεί ιδιωματικές εκφράσεις χωρίς άμεση μετάφραση στα Αγγλικά.

Γλωσσικές Προκλήσεις και Πώς η NLP Διαδικασία τις Αντιμετωπίζει

Μανδαρινικά: Τονικές Διακρίσεις και Μετρολογικές Λέξεις

Τα Μανδαρινικά παρουσιάζουν δύο κύριες προκλήσεις για την καταγραφή φωνής τροφίμων.

Τονική αμφισημία στην ASR: Τα Μανδαρινικά έχουν τέσσερις τόνους συν έναν ουδέτερο τόνο, και πολλές λέξεις που σχετίζονται με τρόφιμα διαφέρουν μόνο κατά τον τόνο. Για παράδειγμα, το "tang" με ανυψωμένο τόνο (δεύτερος τόνος) σημαίνει σούπα, ενώ το "tang" με φθίνουσα τονικότητα (τέταρτος τόνος) σημαίνει ζάχαρη. Τα μοντέλα ASR πρέπει να αναγνωρίσουν σωστά τον τόνο από το ηχητικό κύμα, κάτι που είναι πιο δύσκολο σε θορυβώδεις περιβάλλοντα ή με γρήγορη ομιλία.

Μετρολογικές λέξεις (κατηγοριοποιητές): Τα Κινέζικα χρησιμοποιούν συγκεκριμένες μετρολογικές λέξεις (量词) ανάμεσα σε αριθμούς και ουσιαστικά. Η φράση για "δύο αυγά" είναι "两个鸡蛋" (liǎng gè jīdàn), όπου το "个" είναι η μετρολογική λέξη. Διάφορα τρόφιμα απαιτούν διαφορετικές μετρολογικές λέξεις — "片" (piàn) για φέτες, "碗" (wǎn) για μπολ, "杯" (bēi) για κούπες. Το μοντέλο NER πρέπει να αναγνωρίσει αυτούς τους κατηγοριοποιητές ως δείκτες ποσότητας και όχι ως τροποποιητές τροφίμων.

Παρά αυτές τις προκλήσεις, η καταγραφή φωνής στα Μανδαρινικά πέτυχε 87 τοις εκατό ακρίβεια αναγνώρισης τροφίμων γιατί τα μοντέλα ASR που χρησιμοποιούνται σε σύγχρονα συστήματα (συμπεριλαμβανομένου του πολύγλωσσου Whisper) είναι εκπαιδευμένα σε εκτενή δεδομένα ομιλίας στα Μανδαρινικά, και το λεξιλόγιο τροφίμων στα Κινέζικα είναι καλά εκπροσωπημένο σε εκπαιδευτικά σώματα.

Γερμανικά: Σύνθετες Λέξεις και Γραμματικές Πτώσεις

Τα Γερμανικά δημιουργούν σύνθετα ουσιαστικά συνενώνοντας λέξεις χωρίς κενά. Το "Vollkornbrot" (ψωμί ολικής άλεσης) είναι μια λέξη που αποτελείται από "Voll" (ολόκληρο) + "korn" (σπόρος) + "Brot" (ψωμί). Το μοντέλο NER πρέπει να αποσυνθέσει αυτές τις σύνθετες λέξεις για να τις χαρτογραφήσει σωστά.

Κοινές σύνθετες λέξεις τροφίμων στα Γερμανικά περιλαμβάνουν:

Γερμανική Σύνθετη Συστατικά Αγγλική Ισοδύναμη
Erdnussbutter Erdnuss + Butter Φυστικοβούτυρο
Hühnerbrust Hühner + Brust Στήθος κοτόπουλου
Vollkornbrot Voll + Korn + Brot Ψωμί ολικής άλεσης
Rühreier Rühr + Eier Scrambled eggs
Olivenöl Oliven + Öl Ελαιόλαδο
Blaubeermuffin Blaubeer + Muffin Blueberry muffin

Οι γραμματικές πτώσεις στα Γερμανικά επηρεάζουν επίσης τα ονόματα τροφίμων ανάλογα με το ρόλο τους στην πρόταση. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" χρησιμοποιεί την αιτιατική πτώση, η οποία δεν αλλάζει αυτά τα συγκεκριμένα ουσιαστικά αλλά μπορεί να μεταβάλει τα άρθρα και τα επίθετα που τα συνοδεύουν. Οι σύγχρονες NER που βασίζονται σε μετασχηματιστές χειρίζονται καλά τις πτώσεις γιατί το μοντέλο μαθαίνει τα συμφραζόμενα πρότυπα αντί να βασίζεται σε ακριβή ταυτοποίηση συμβολοσειρών.

Τουρκικά: Αγγλιντική Μορφολογία

Τα Τουρκικά προσθέτουν επιθήματα στις ρίζες των λέξεων για να μεταδώσουν νόημα, δημιουργώντας μεγάλες λέξεις που κωδικοποιούν πληροφορίες που συνήθως διασκορπίζονται σε πολλές λέξεις στα Αγγλικά. Το "Yumurtalarımdan" σημαίνει "από τα αυγά μου" — μια λέξη που περιέχει τη ρίζα (yumurta = αυγό), το πληθυντικό επίθημα (-lar), το κτητικό επίθημα (-ım) και το αφαιρετικό επίθημα (-dan).

Για την αναγνώριση τροφίμων NER, η πρόκληση είναι η αναγνώριση της ρίζας τροφίμου μέσα σε μια βαριά επιθηματική μορφή. Η υποδιαίρεση λέξεων — η τεχνική που χρησιμοποιείται από το BERT και παρόμοια μοντέλα για να σπάσει τις λέξεις σε σημασιολογικά τμήματα — είναι κρίσιμη εδώ. Τα τουρκικά μοντέλα όπως το BERTurk χρησιμοποιούν ένα λεξιλόγιο που περιλαμβάνει κοινά τουρκικά επιθήματα ως ξεχωριστούς τόνους, επιτρέποντας στο μοντέλο να αναγνωρίζει το "yumurta" ως οντότητα τροφίμου ακόμα και όταν εμφανίζεται ως μέρος μιας μεγαλύτερης αγγλιντικής μορφής.

Η ακρίβεια καταγραφής φωνής στα Τουρκικά του 87 τοις εκατό αντικατοπτρίζει αυτή τη μορφολογική πολυπλοκότητα, με τα περισσότερα σφάλματα να συμβαίνουν σε λιγότερο κοινά πιάτα όπου η αγγλιντική μορφή δεν ήταν καλά εκπροσωπημένη σε δεδομένα εκπαίδευσης.

Αραβικά: Ριζοσπαστική Μορφολογία και Διγλωσσία

Τα Αραβικά παρουσιάζουν μοναδικές προκλήσεις τόσο στο στάδιο ASR όσο και στο στάδιο NER.

Ριζοσπαστική μορφολογία: Οι αραβικές λέξεις κατασκευάζονται από τριγράμματες ρίζες με μοτίβα φωνηέντων και προθέσεων/επιθημάτων. Η ρίζα ط-ب-خ (t-b-kh, που σχετίζεται με το μαγείρεμα) παράγει "طبخ" (tabakh, μαγείρεμα), "مطبخ" (matbakh, κουζίνα), "طباخ" (tabbakh, μάγειρας) και "مطبوخ" (matbookh, μαγειρεμένο). Τα μοντέλα NER πρέπει να αναγνωρίσουν ότι αυτές οι σχετικές μορφές σχετίζονται όλες με την προετοιμασία τροφίμων.

Διγλωσσία: Υπάρχει σημαντική διαφορά μεταξύ της Σύγχρονης Κλασικής Αραβικής (MSA) και των διαφόρων ομιλούμενων διαλέκτων. Ένας χρήστης στην Αίγυπτο μπορεί να πει "فراخ مشوية" (firakh mashwiya) για ψητό κοτόπουλο, ενώ ένας χρήστης στη Λεβάντα θα πει "دجاج مشوي" (dajaj mashwi). Τα μοντέλα ASR και NER πρέπει να χειρίζονται τόσο την MSA όσο και τις κύριες διαλέκτους.

Μη Λατινικό αλφάβητο: Τα Αραβικά γράφονται από δεξιά προς αριστερά με συνδεδεμένα γράμματα, και τα σύντομα φωνήεντα συνήθως παραλείπονται στη γραφή. Αν και αυτό δεν επηρεάζει άμεσα την καταγραφή φωνής (η οποία ξεκινά από τον ήχο), τα δεδομένα εκπαίδευσης του μοντέλου NER πρέπει να χειρίζονται σωστά τις αραβικές γραφικές αναπαραστάσεις.

Η ακρίβεια στα Αραβικά πέτυχε 85 τοις εκατό στην δοκιμή μας — η χαμηλότερη ανάμεσα στις 10 γλώσσες — κυρίως λόγω της διακύμανσης διαλέκτων. Όταν οι ομιλητές χρησιμοποίησαν MSA, η ακρίβεια ανέβηκε στο 91 τοις εκατό, υποδεικνύοντας ότι η ειδική προσαρμογή στις διαλέκτους είναι το κλειδί για περαιτέρω βελτίωση.

Ιαπωνικά: Πολλαπλά Συστήματα Γραφής και Μετρητές

Τα Ιαπωνικά χρησιμοποιούν τρία συστήματα γραφής (καντζι, χιραγκάνα, κατακάνα) και έχουν ένα πολύπλοκο σύστημα αριθμητικών μετρητών παρόμοιο με τις μετρολογικές λέξεις στα Κινέζικα. Η ομιλία που σχετίζεται με τα τρόφιμα συχνά συνδυάζει ιαπωνικές λέξεις με αγγλικές λέξεις δανεισμένες γραμμένες σε κατακάνα — "ブルーベリーマフィン" (buruberii mafin) είναι η κατακανική αναπαράσταση του "blueberry muffin."

Η πρόκληση ASR στα Ιαπωνικά είναι η εναλλαγή κωδίκων: οι ομιλητές αναμιγνύουν φυσικά ιαπωνικούς όρους τροφίμων με αγγλικές λέξεις. Μια πρόταση μπορεί να είναι "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), συνδυάζοντας την αγγλικής προέλευσης "scrambled eggs" και "toast" με ιαπωνική γραμματική και τον εγγενή μετρητή "二つ" (futatsu, δύο είδη).

Οι σύγχρονες ASR που υποστηρίζουν πολλές γλώσσες χειρίζονται αυτό καλά γιατί τα δεδομένα εκπαίδευσης περιλαμβάνουν ομιλία στα Ιαπωνικά με εναλλαγή κωδίκων. Η ακρίβεια αναγνώρισης τροφίμων στα Ιαπωνικά πέτυχε 88 τοις εκατό, με τα σφάλματα να συγκεντρώνονται σε παραδοσιακά ιαπωνικά πιάτα που περιγράφονται με όρους τοπικών διαλέκτων αντί για τυπικά ιαπωνικά.

Γαλλικά: Σύνδεση, Ελίωση και Έμφυλα Ονόματα Τροφίμων

Η ομιλία στα Γαλλικά περιλαμβάνει σύνδεση (σύνδεση ήχων μεταξύ λέξεων) και ελίωση (παράλειψη φωνηέντων πριν από άλλα φωνήεντα), γεγονός που μπορεί να καθιστά ασαφή τα όρια των λέξεων στον ήχο. "Les oeufs" (τα αυγά) προφέρεται ως συνδεδεμένος ήχος όπου το "les" συνδέεται άμεσα με το "oeufs," κάτι που μπορεί να προκαλέσει σύγχυση στην ανίχνευση ορίων λέξεων.

Τα ονόματα τροφίμων στα Γαλλικά είναι έμφυλα: "le poulet" (αρσενικό, κοτόπουλο) έναντι "la salade" (θηλυκό, σαλάτα). Ενώ το γένος δεν αλλάζει την αναγνώριση τροφίμου, επηρεάζει τα συνοδευτικά άρθρα και τα επίθετα, τα οποία το μοντέλο NER χρησιμοποιεί ως συμφραζόμενα στοιχεία. Η λανθασμένη αναγνώριση των δεικτών γένους μπορεί να προκαλέσει σφάλματα στην εξαγωγή οντοτήτων.

Ωστόσο, τα Γαλλικά πέτυχαν 95 τοις εκατό ακρίβεια — ανάμεσα στις υψηλότερες για μη αγγλικές γλώσσες — γιατί τα Γαλλικά διαθέτουν εκτενή δεδομένα εκπαίδευσης ASR και η γαλλική κουζίνα είναι καλά εκπροσωπημένη σε παγκόσμιες βάσεις δεδομένων τροφίμων.

Κορεατικά: Σειρά Υποκειμένου-Αντικειμένου-Ρήματος και Τιμές

Τα Κορεατικά τοποθετούν το ρήμα στο τέλος της πρότασης, πράγμα που σημαίνει ότι τα τρόφιμα εμφανίζονται νωρίτερα στην έκφραση. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs δύο κομμάτια και toast έφαγα) ακολουθεί τη σειρά SOV. Τα μοντέλα NER που εκπαιδεύονται κυρίως σε γλώσσες SVO (όπως τα Αγγλικά) πρέπει να προσαρμοστούν σε αυτή τη διαφορετική διάταξη.

Τα Κορεατικά χρησιμοποιούν επίσης διαφορετικά επίπεδα ομιλίας (επίσημο, ευγενικό, καθημερινό) που αλλάζουν τις καταλήξεις των ρημάτων και μπορούν να προσθέσουν μόρια σε όλη την πρόταση. Αυτές οι επιπλέον μορφές αυξάνουν την απόσταση μεταξύ της οντότητας τροφίμου και του δείκτη ποσότητας, απαιτώντας από το μοντέλο NER να χειρίζεται μεγαλύτερες εξαρτήσεις.

Η ακρίβεια στα Κορεατικά πέτυχε 87 τοις εκατό, συγκρίσιμη με τα Κινέζικα και Τουρκικά, με την ανάλυση ποσοτήτων να είναι η πιο αδύναμη περιοχή λόγω του πολύπλοκου συστήματος μετρητών και των μεταβαλλόμενων επιπέδων ομιλίας.

Γλώσσες Καταταγμένες κατά Γενική Ακρίβεια Καταγραφής Φωνής

Συνδυάζοντας την αναγνώριση τροφίμων, την ανάλυση ποσοτήτων και την αντιστοίχιση βάσεων δεδομένων σε μία μόνο σταθμισμένη βαθμολογία παράγεται η εξής κατάταξη:

Θέση Γλώσσα Αναγνώριση Τροφίμου Ακρίβεια Ποσοτήτων Αντιστοίχιση DB Συνολική Βαθμολογία
1 Αγγλικά 97% 94% 96% 95.7%
2 Πορτογαλικά 96% 92% 95% 94.3%
3 Ισπανικά 95% 92% 94% 93.7%
4 Γαλλικά 95% 91% 93% 93.0%
5 Γερμανικά 94% 90% 92% 92.0%
6 Ιαπωνικά 88% 88% 90% 88.7%
7 Κορεατικά 87% 87% 88% 87.3%
8 Τουρκικά 87% 86% 87% 86.7%
9 Μανδαρινικά 87% 85% 86% 86.0%
10 Αραβικά 85% 83% 84% 84.0%

Η διαφορά μεταξύ της γλώσσας με την καλύτερη απόδοση (Αγγλικά, 95.7 τοις εκατό) και της χαμηλότερης (Αραβικά, 84.0 τοις εκατό) είναι 11.7 ποσοστιαίες μονάδες. Αυτό είναι σημαντικό αλλά μειώνεται. Το 2023, η αντίστοιχη διαφορά σε πολυγλωσσες ASR benchmarks ήταν κοντά στις 20 ποσοστιαίες μονάδες, αντικατοπτρίζοντας τις ταχείες βελτιώσεις στα μη αγγλικά μοντέλα ομιλίας.

Γιατί Ορισμένες Γλώσσες Έχουν Υψηλότερες Βαθμολογίες από Άλλες

Τρεις παράγοντες εξηγούν τη μεγαλύτερη ακρίβεια:

1. Όγκος Δεδομένων Εκπαίδευσης

Η απόδοση των μοντέλων ASR και NER συσχετίζεται άμεσα με τον όγκο των διαθέσιμων δεδομένων εκπαίδευσης για κάθε γλώσσα. Τα Αγγλικά διαθέτουν παραπάνω από 19,000 ώρες επιβεβαιωμένων δεδομένων ομιλίας, ενώ τα Αραβικά λιγότερες από 100 ώρες.

2. Κάλυψη Βάσης Δεδομένων Τροφίμων

Γλώσσες που ομιλούνται σε περιοχές με καλά τεκμηριωμένες βάσεις δεδομένων σύνθεσης τροφίμων (USDA για Αγγλικά, BLS για Γερμανικά, CIQUAL για Γαλλικά) επιτυγχάνουν υψηλότερες βαθμολογίες αντιστοίχισης βάσεων δεδομένων. Γλώσσες όπου τα δεδομένα σύνθεσης τροφίμων είναι λιγότερο τυποποιημένα ή λιγότερο ψηφιοποιημένα βλέπουν περισσότερες αποτυχίες χαρτογράφησης.

3. Γλωσσική Πολυπλοκότητα για την NLP

Οι αγγλιντικές γλώσσες (Τουρκικά, Κορεατικά), οι τονικές γλώσσες (Κινέζικα) και οι γλώσσες με σύνθετη μορφολογία (Αραβικά) απαιτούν πιο εξελιγμένες διαδικασίες NLP. Τα επιπλέον στάδια επεξεργασίας εισάγουν περισσότερες ευκαιρίες για συσσώρευση σφαλμάτων.

Πώς η Nutrola Αντιμετωπίζει την Πολύγλωσση Καταγραφή Φωνής

Η διαδικασία καταγραφής φωνής της Nutrola αντιμετωπίζει τις πολύγλωσσες προκλήσεις μέσω αρκετών αρχιτεκτονικών αποφάσεων:

  • Γλώσσα-ειδικά μοντέλα ASR: Αντί να χρησιμοποιεί ένα μόνο πολυγλωσσικό μοντέλο, η διαδικασία δρομολογεί τον ήχο σε γλώσσα-ειδικά μοντέλα που έχουν βελτιωθεί όταν είναι γνωστή η γλώσσα του χρήστη, βελτιώνοντας την ακρίβεια κατά 3 έως 5 ποσοστιαίες μονάδες σε σύγκριση με γενικά πολυγλωσσικά ASR.
  • Αποσαφήνιση με βάση την τοποθεσία: Η αποσαφήνιση οντοτήτων τροφίμων χρησιμοποιεί την τοποθεσία του χρήστη για να επιλύσει ονόματα τροφίμων που είναι συγκεκριμένα για την περιοχή. Το "Chips" επιλύεται διαφορετικά για χρήστες στο Λονδίνο, τη Νέα Υόρκη και το Σίδνεϊ.
  • Διασυνοριακή βάση δεδομένων τροφίμων: Η επαληθευμένη βάση δεδομένων διατροφής χαρτογραφεί τις καταχωρήσεις τροφίμων σε πολλές γλώσσες, έτσι ώστε το "poulet grille" (Γαλλικά), το "pollo a la plancha" (Ισπανικά) και το "grilled chicken" (Αγγλικά) να αντιστοιχούν στο ίδιο επαληθευμένο προφίλ διατροφής.
  • Εναλλακτική είσοδος κειμένου: Όταν η εμπιστοσύνη φωνής πέφτει κάτω από το όριο σε οποιαδήποτε γλώσσα, οι χρήστες μπορούν να αλλάξουν εύκολα σε αναζήτηση κειμένου ή σάρωση γραμμωτού κώδικα — ο σαρωτής γραμμωτού κώδικα της Nutrola καλύπτει πάνω από 95 τοις εκατό των συσκευασμένων προϊόντων παγκοσμίως.

Σε συνδυασμό με την καταγραφή φωτογραφιών AI και τον AI Diet Assistant, αυτές οι πολύγλωσσες δυνατότητες φωνής καθιστούν τη Nutrola έναν πρακτικό καθημερινό παρακολούθηση διατροφής για χρήστες παγκοσμίως. Όλες οι δυνατότητες — συμπεριλαμβανομένης της καταγραφής φωνής σε όλες τις υποστηριζόμενες γλώσσες — είναι διαθέσιμες με τιμή από 2.50 ευρώ το μήνα με 3ήμερη δωρεάν δοκιμή, χωρίς διαφημίσεις σε οποιοδήποτε επίπεδο.

Ο Δρόμος Μπροστά: Πολύγλωσση Καταγραφή Φωνής το 2026 και Μετά

Πολλές εξελίξεις βελτιώνουν την πολύγλωσση καταγραφή φωνής τροφίμων:

  • Εξειδικευμένη προσαρμογή διαλέκτων: Νέα δεδομένα που στοχεύουν σε ομιλούμενες διαλέκτους (Αιγυπτιακά Αραβικά, Βραζιλιάνικα Πορτογαλικά, Καντονέζικα) κλείνουν την ακρίβεια μεταξύ τυπικής και καθομιλουμένης ομιλίας.
  • Πολυτροπικές εισροές: Ο συνδυασμός φωνής με φωτογραφίες επιτρέπει στην AI να διασταυρώνει — αν η φωτογραφία δείχνει ρύζι και η φωνή λέει "arroz" (ισπανικά για ρύζι), η εμπιστοσύνη αυξάνεται και για τις δύο μεθόδους.
  • Αυτοεπιβλεπόμενη μάθηση: Μοντέλα που εκπαιδεύονται σε μη επισημασμένα πολύγλωσσα ηχητικά δεδομένα (wav2vec 2.0, HuBERT) μαθαίνουν αναπαραστάσεις ομιλίας χωρίς να απαιτούν μεταγραφές, επιτρέποντας ταχύτερη βελτίωση για γλώσσες με περιορισμένους πόρους.
  • Κύκλοι ανατροφοδότησης χρηστών: Κάθε διόρθωση που κάνει ένας χρήστης ("αυτό θα έπρεπε να είναι καφέ ρύζι, όχι λευκό ρύζι") γίνεται σήμα εκπαίδευσης για τη βελτίωση του μοντέλου σε αυτή τη γλώσσα.

Συχνές Ερωτήσεις

Σε ποιες γλώσσες λειτουργεί καλύτερα η καταγραφή φωνής τροφίμων AI;

Τα Αγγλικά, Ισπανικά, Πορτογαλικά και Γαλλικά επιτυγχάνουν την υψηλότερη ακρίβεια στην καταγραφή φωνής τροφίμων, όλα με βαθμολογία άνω του 93 τοις εκατό συνολικά. Αυτές οι γλώσσες επωφελούνται από εκτενή δεδομένα εκπαίδευσης ASR, καλά τεκμηριωμένες βάσεις δεδομένων τροφίμων και σχετικά απλή μορφολογία για την επεξεργασία NLP. Τα Γερμανικά κατατάσσονται πέμπτα με 92 τοις εκατό συνολικά.

Μπορώ να καταγράψω γεύματα στα Μανδαρινικά με ακρίβεια;

Η καταγραφή φωνής στα Μανδαρινικά επιτυγχάνει περίπου 86 τοις εκατό συνολική ακρίβεια. Οι κύριες προκλήσεις είναι οι τονικές διακρίσεις στην ASR (όπου λέξεις όπως "tang" σημαίνουν διαφορετικά πράγματα ανάλογα με τον τόνο) και το σύστημα μετρολογικών λέξεων για ποσότητες. Για κοινά τρόφιμα με σαφή προφορά, η ακρίβεια είναι σημαντικά υψηλότερη. Η χρήση ακριβών αριθμητικών ποσοτήτων (όπως "200克," 200 γραμμάρια) αντί για ασαφείς περιγραφές βελτιώνει σημαντικά τα αποτελέσματα.

Πώς χειρίζεται η AI τα ονόματα τροφίμων που δεν μεταφράζονται σε άλλες γλώσσες;

Πολιτιστικά συγκεκριμένα τρόφιμα όπως το "shawarma," "miso," και "tzatziki" αντιμετωπίζονται μέσω διασυνοριακών βάσεων δεδομένων οντοτήτων τροφίμων που χαρτογραφούν τα ονόματα τροφίμων στη γλώσσα τους απευθείας σε προφίλ διατροφής. Όταν ένας Τουρκικός ομιλητής λέει "tavuk shawarma" ή ένας Ιαπωνικός ομιλητής λέει "味噌汁" (σούπα miso), το μοντέλο NER αναγνωρίζει αυτές τις οντότητες τροφίμων στις αντίστοιχες γλώσσες τους και τις χαρτογραφεί στις κατάλληλες καταχωρήσεις βάσεων δεδομένων, ανεξαρτήτως αν υπάρχει αγγλικό ισοδύναμο.

Γιατί η καταγραφή φωνής στα Αραβικά είναι λιγότερο ακριβής από άλλες γλώσσες;

Η καταγραφή φωνής στα Αραβικά βαθμολογεί 84 τοις εκατό συνολικά, κυρίως λόγω τριών παραγόντων: (1) διγλωσσία — η σημαντική διαφορά μεταξύ της Σύγχρονης Κλασικής Αραβικής και των ομιλούμενων διαλέκτων σημαίνει ότι το μοντέλο πρέπει να χειρίζεται πολλές παραλλαγές προφοράς; (2) περιορισμένα επισημασμένα δεδομένα εκπαίδευσης σε σύγκριση με τις ευρωπαϊκές γλώσσες; και (3) ριζοσπαστική μορφολογία που δημιουργεί πολλές επιφανειακές μορφές για κάθε έννοια τροφίμου. Όταν οι ομιλητές χρησιμοποιούν τη Σύγχρονη Κλασική Αραβική, η ακρίβεια αυξάνεται σε περίπου 91 τοις εκατό.

Βελτιώνεται η ακρίβεια καταγραφής φωνής με την πάροδο του χρόνου για τη συγκεκριμένη γλώσσα μου;

Ναι. Τα συστήματα καταγραφής φωνής βελτιώνονται μέσω δύο μηχανισμών: παγκόσμιες ενημερώσεις μοντέλων που εκπαιδεύονται σε συγκεντρωμένα δεδομένα χρηστών σε όλους τους χρήστες μιας δεδομένης γλώσσας και εξατομικευμένη προσαρμογή που μαθαίνει τα συγκεκριμένα πρότυπα προφοράς σας, τα τρόφιμα που καταγράφετε συχνά και τα προτιμώμενα ονόματα τροφίμων. Μετά από δύο έως τρεις εβδομάδες τακτικής χρήσης, το σύστημα συνήθως δείχνει μετρήσιμη βελτίωση στην ακρίβεια αναγνώρισης για τα κοινά γεύματά σας.

Μπορώ να αναμιγνύω γλώσσες κατά την καταγραφή φωνής, όπως να περιγράφω ένα γεύμα στα Ισπανικά με μερικούς αγγλικούς όρους τροφίμων;

Η εναλλαγή κωδίκων — η ανάμειξη δύο γλωσσών σε μία μόνο έκφραση — είναι κοινή σε πολύγλωσσες οικογένειες και υποστηρίζεται όλο και περισσότερο από τα σύγχρονα μοντέλα ASR. Λέγοντας "Tuve un bowl de quinoa con grilled chicken" (ανάμειξη Ισπανικών και Αγγλικών) θα αναλυθεί γενικά σωστά από τα πολυγλωσσικά μοντέλα μετασχηματιστών που εκπαιδεύονται σε δεδομένα με εναλλαγή κωδίκων. Ωστόσο, η ακρίβεια είναι περίπου 5 έως 8 ποσοστιαίες μονάδες χαμηλότερη από τις εκφράσεις μίας γλώσσας, επομένως η παραμονή σε μία γλώσσα παράγει τα καλύτερα αποτελέσματα.

Πώς μπορώ να πετύχω τα πιο ακριβή αποτελέσματα καταγραφής φωνής σε μια μη αγγλική γλώσσα;

Τέσσερις πρακτικές βελτιώνουν την ακρίβεια: (1) μιλήστε με μέτριο ρυθμό και καθαρή προφορά; (2) χρησιμοποιήστε ακριβείς ποσότητες όταν είναι δυνατόν ("200 γραμμάρια" αντί για "λίγο"); (3) χρησιμοποιήστε τυπικά ονόματα τροφίμων αντί για τοπική αργκό ή συντομογραφίες; και (4) κάντε διορθώσεις όταν η AI κάνει κάποιο λάθος, καθώς αυτή η ανατροφοδότηση βελτιώνει άμεσα τη μελλοντική αναγνώριση. Η Nutrola υποστηρίζει επίσης την εναλλαγή σε καταγραφή φωτογραφιών ή σάρωση γραμμωτού κώδικα για αντικείμενα που είναι δύσκολο να περιγραφούν προφορικά.

Υποστηρίζει η Nutrola την καταγραφή φωνής σε όλες τις 10 δοκιμασμένες γλώσσες;

Η Nutrola υποστηρίζει την καταγραφή φωνής σε πολλές γλώσσες με την πλήρη διαδικασία NLP που περιγράφεται σε αυτό το άρθρο. Η εφαρμογή ανιχνεύει αυτόματα τη γλώσσα της συσκευής του χρήστη και δρομολογεί την είσοδο φωνής στα κατάλληλα γλώσσα-ειδικά μοντέλα. Οι συγχρονισμοί με το Apple Health και το Google Fit λειτουργούν ανεξαρτήτως της γλώσσας που χρησιμοποιείτε για την καταγραφή, διασφαλίζοντας ότι τα δεδομένα διατροφής σας ενσωματώνονται ομαλά με το οικοσύστημα υγείας σας.

Έτοιμοι να Μεταμορφώσετε την Παρακολούθηση της Διατροφής σας;

Εγγραφείτε σε χιλιάδες που έχουν μεταμορφώσει το ταξίδι της υγείας τους με το Nutrola!