רישום קולי ב-10 שפות — עד כמה טוב ה-AI מבין מנות שאינן באנגלית?
בדקנו רישום קולי של מזון ב-10 שפות עם 10 מנות סטנדרטיות. גלו אילו שפות ה-AI מצליח להבין הכי טוב, היכן הוא נתקל בקשיים, ואיך NLP רב-לשוני מאפשר מעקב מדויק אחר תזונה ברחבי העולם.
רישום קולי של מזון באנגלית עובד בצורה מרשימה. אבל מה קורה כשמתארים את המנות שלכם במנדרינית, טורקית או ערבית? עם התפשטות אפליקציות המעקב אחר תזונה ברחבי העולם, היכולת להבין תיאורים קוליים של מזון בשפות שונות הפכה לדרישה בסיסית ולא רק לתכונה רצויה. בדקנו את רישום הקול הרב-לשוני עם 10 מנות סטנדרטיות המתוארות ב-10 שפות, תוך מדידת דיוק זיהוי המזון, פענוח הכמויות והתאמת הנתונים.
בין 100 שילובי מנה-שפה, רישום הקול של ה-AI זיהה נכון את פריט המזון העיקרי ב-91 אחוז מהמקרים. אנגלית, ספרדית ופורטוגזית השיגו את הדיוק הגבוה ביותר (95 עד 97 אחוז), בעוד ששפות טונליות כמו מנדרינית ושפות עם מורפולוגיה מורכבת כמו טורקית וערבית הראו דיוק בין 83 ל-89 אחוז — עדיין שימושי, אך עם יותר בקשות הבהרה.
הבדיקה: 10 מנות, 10 שפות, 100 שילובים
בחרנו 10 מנות המייצגות מטבחים עולמיים ומציגות אתגרים שונים ב-NLP — מרכיבים מורכבים, מנות ספציפיות תרבותית, כמויות מספריות ותיאורים עשירים במודיפיקציות. כל מנה תוארה ב-10 השפות על ידי דוברים ילידים, וצינור רישום הקול נבחן על פי שלושה קריטריונים:
- זיהוי מזון: האם ה-AI זיהה נכון את פריט המזון העיקרי?
- דיוק הכמויות: האם הכמויות המספריות וגדלי המנות פוענחו נכון?
- התאמת נתונים: האם נבחרה רשומת התזונה הנכונה ממסד הנתונים?
10 המנות הנבדקות
| מספר מנה | תיאור (אנגלית) | אתגר NLP מרכזי |
|---|---|---|
| 1 | שני ביצים מקושקשות עם גבינת צ'דר | כמות + מודיפיקטור |
| 2 | חזה עוף בגריל עם ברוקולי מאודה | שני פריטים נפרדים + שיטת הכנה |
| 3 | קערת מרק מיסו עם טופו | כמות בקונטיינר + מנה ספציפית תרבותית |
| 4 | ספגטי בולונז עם פרמזן | שם מנה מורכבת + תוספת |
| 5 | סלט יווני גדול עם גבינת פטה ורוטב שמן זית | מודיפיקטור גודל + מרכיבים מרובים |
| 6 | 200 גרם אורז לבן עם סלמון בגריל | כמות מדויקת במידות מטריות + שני פריטים |
| 7 | חופן שקדים ובננה | כמות מעורפלת + חיבור |
| 8 | פיתה שווארמה עם רוטב טחינה | ספציפי תרבותית + פריט מורכב |
| 9 | שתי פרוסות לחם חיטה מלאה עם חמאת בוטנים | כמות + שמות מזון מרובי מילים |
| 10 | קפה שחור ומאפין אוכמניות | מודיפיקטור (שחור) + שם מזון מורכב |
10 השפות
השפות נבחרו כדי לכסות משפחות לשוניות מגוונות, מערכות כתיבה ותכונות פונולוגיות:
- אנגלית — גרמנית, כתב לטיני, בסיס השוואה
- ספרדית — רומנטית, כתב לטיני, שמות מגדריים
- מנדרינית — סינו-טיבטית, כתב לוגוגרפי, טונלי (4 טונים)
- גרמנית — גרמנית, כתב לטיני, שמות מורכבים, מקרים דקדוקיים
- טורקית — טורקית, כתב לטיני, מורפולוגיה אגלטינאטיבית
- צרפתית — רומנטית, כתב לטיני, ליאז' והעלמות בדיבור
- יפנית — יפנית, כתב מעורב (קאנג'י/היראגנה/קטקנה), רמות דיבור מכובדות
- קוריאנית — קוריאנית, כתב האנגול, סדר מילים נושא-אובייקט-פועל
- פורטוגזית — רומנטית, כתב לטיני, תנועות אף
- ערבית — שמית, כתב ערבי (מימין לשמאל), מורפולוגיה מבוססת שורש, דיגלוסיה
תוצאות מלאות: דיוק זיהוי המזון לפי שפה ומנה
הטבלה למטה מציגה האם ה-AI זיהה נכון את פריט המזון העיקרי עבור כל מנה בכל שפה. סימן וי מציין זיהוי נכון; X מציין כישלון או זיהוי שגוי משמעותי.
| מנה | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. ביצים מקושקשות + גבינת צ'דר | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. חזה עוף + ברוקולי | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. מרק מיסו + טופו | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. ספגטי בולונז | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. סלט יווני + פטה | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200 גרם אורז + סלמון | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. חופן שקדים + בננה | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. פיתה שווארמה | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. לחם + חמאת בוטנים | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. קפה שחור + מאפין | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| סה"כ (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
דיוק פענוח הכמויות לפי שפה
פענוח הכמויות מודד האם ה-AI פענח נכון כמויות מספריות, כמויות מעורפלות ("חופן," "קערה") ומידות מטריות. זה נבדק בנפרד כי מערכת עשויה לזהות את המזון נכון אך להקצות את גודל המנה השגוי.
| שפה | מספר מדויק (למשל, "200 גרם", "שניים") | כמות מעורפלת (למשל, "חופן") | מנה ברירת מחדל (בלי כמות מצוינת) | דיוק הכמויות הכולל |
|---|---|---|---|---|
| אנגלית | 98% | 89% | 94% | 94% |
| ספרדית | 97% | 87% | 93% | 92% |
| פורטוגזית | 97% | 86% | 93% | 92% |
| צרפתית | 96% | 85% | 92% | 91% |
| גרמנית | 96% | 84% | 91% | 90% |
| יפנית | 93% | 80% | 90% | 88% |
| קוריאנית | 92% | 79% | 89% | 87% |
| טורקית | 91% | 78% | 88% | 86% |
| מנדרינית | 90% | 76% | 88% | 85% |
| ערבית | 89% | 74% | 87% | 83% |
כמויות מספריות מדויקות מפוענחות היטב בכל השפות כי מספרים עוקבים אחרי דפוסים יחסית צפויים. כמויות מעורפלות מציגות את האתגר הגדול ביותר, במיוחד בשפות שבהן המקבילה ל"חופן" או "קערה" משתמשת בביטויים אידיומטיים שאין להם תרגום ישיר לאנגלית.
אתגרים ספציפיים לשפה ואיך צינור ה-NLP מתמודד איתם
מנדרינית: הבחנות טונליות ומילות מדידה
מנדרינית מציגה שני אתגרים מרכזיים לרישום קולי של מזון.
עמימות טונלית ב-ASR: למנדרינית יש ארבעה טונים בנוסף לטון ניטרלי, ורבים מהמילים הקשורות למזון נבדלות רק בטון. לדוגמה, "טאנג" עם טון עולה (טון שני) פירושו מרק, בעוד "טאנג" עם טון יורד (טון רביעי) פירושו סוכר. מודלים של ASR חייבים לזהות נכון את הטון מהגלי קול, דבר שמקשה בסביבות רועשות או בדיבור מהיר.
מילות מדידה (מילות סיווג): סינית משתמשת במילות סיווג ספציפיות בין מספרים לשמות עצם. הביטוי ל"שני ביצים" הוא "两个鸡蛋" (liǎng gè jīdàn), כאשר "个" היא מילת הסיווג. מזונות שונים דורשים מילות סיווג שונות — "片" (piàn) לפרוסות, "碗" (wǎn) לקערות, "杯" (bēi) לכוסות. מודל ה-NER חייב לזהות את המילים הללו כסימני כמות ולא כמודיפיקטורים של מזון.
למרות האתגרים הללו, רישום הקול במנדרינית השיג דיוק של 87 אחוז בזיהוי המזון כי מודלי ה-ASR בשימוש במערכות מודרניות (כולל Whisper רב-לשוני) מאומנים על נתוני דיבור מנדרינית נרחבים, ואוצר המילים הקולינרי הסיני מיוצג היטב בקורפוסים האימוניים.
גרמנית: שמות מורכבים ומקרים דקדוקיים
גרמנית יוצרת שמות עצם מורכבים על ידי חיבור מילים ללא רווחים. "Vollkornbrot" (לחם מחיטה מלאה) הוא מילה אחת המורכבת מ-"Voll" (שלם) + "korn" (דגן) + "Brot" (לחם). מודל ה-NER חייב לפרק את השמות המורכבים הללו כדי למפות אותם נכון.
שמות מזון מורכבים נפוצים בגרמנית כוללים:
| שם מורכב גרמני | רכיבים | מקביל באנגלית |
|---|---|---|
| Erdnussbutter | Erdnuss + Butter | חמאת בוטנים |
| Hühnerbrust | Hühner + Brust | חזה עוף |
| Vollkornbrot | Voll + Korn + Brot | לחם מחיטה מלאה |
| Rühreier | Rühr + Eier | ביצים מקושקשות |
| Olivenöl | Oliven + Öl | שמן זית |
| Blaubeermuffin | Blaubeer + Muffin | מאפין אוכמניות |
המקרים הדקדוקיים בגרמנית משפיעים גם על שמות המזון בהתאם לתפקידם במשפט. "Ich hatte zwei Scheiben Brot mit Erdnussbutter" משתמש במקרה האקוזטיבי, שאינו משנה את השמות הללו אך יכול לשנות את המאמרים וה adjectives הנלווים להם. מודל ה-NER המודרני מבוסס הטרנספורמר מתמודד היטב עם הטיית המקרים כי המודל לומד דפוסים הקשרים ולא מתבסס על התאמה מדויקת של מחרוזות.
טורקית: מורפולוגיה אגלטינאטיבית
טורקית מצרפת סופיות לשורשי מילים כדי להעביר משמעות, מה שיוצר מילים ארוכות שמקודדות מידע שבדרך כלל מפוזר על פני מספר מילים באנגלית. "Yumurtalarımdan" פירושו "מביצים שלי" — מילה אחת המכילה את השורש (yumurta = ביצה), סופית ריבוי (-lar), סופית בעלות (-ım) וסופית אבלאטיבית (-dan).
ל-NER של מזון, האתגר הוא לזהות את השורש של המילה המזון בתוך צורתה המורכבת. טוקניזציה של תתי מילים — הטכניקה בה משתמשים מודלים כמו BERT כדי לפרק מילים לפיסות משמעותיות — היא קריטית כאן. מודלים ספציפיים לטורקית כמו BERTurk משתמשים באוצר מילים שכולל סופיות טורקיות נפוצות כמילים נפרדות, מה שמאפשר למודל לזהות "yumurta" כישות מזון גם כאשר היא מופיעה כחלק מצורת אגלטינאטיבית ארוכה יותר.
דיוק רישום הקול בטורקית של 87 אחוז משקף את המורכבות המורפולוגית הזו, כאשר רוב השגיאות מתרחשות על מנות פחות נפוצות שבהן הצורה האגלטינאטיבית לא הייתה מיוצגת היטב בנתוני האימון.
ערבית: מורפולוגיה מבוססת שורש ודיגלוסיה
ערבית מציגה אתגרים ייחודיים בשני שלבי ASR ו-NER.
מורפולוגיה מבוססת שורש: מילים בערבית נבנות משורשים בני שלוש אותיות עם דפוסי תנועות והקדמות/סופיות. השורש ط-ب-خ (t-b-kh, הקשור לבישול) מייצר "طبخ" (tabakh, בישול), "مطبخ" (matbakh, מטבח), "طباخ" (tabbakh, טבח) ו-"مطبوخ" (matbookh, מבושל). מודלי NER חייבים לזהות שכל הצורות הללו שייכות להכנה של מזון.
דיגלוסיה: יש הבדל משמעותי בין ערבית מודרנית תקנית (MSA) לבין הדיאלקטים השונים המדוברים. משתמש במצרים עשוי לומר "فراخ مشوية" (firakh mashwiya) עבור עוף בגריל, בעוד שמשתמש בלבנט יאמר "دجاج مشوي" (dajaj mashwi). מודלי ASR ו-NER חייבים להתמודד עם MSA ועם וריאנטים דיאלקטיים מרכזיים.
כתב לא לטיני: ערבית נכתבת מימין לשמאל עם אותיות מחוברות, ותנועות קצרות בדרך כלל מושמטות בכתיבה. בעוד שזה לא משפיע ישירות על רישום הקול (המבוסס על אודיו), נתוני האימון של מודל ה-NER חייבים להתמודד נכון עם ייצוגי טקסט בערבית.
ערבית השיגה דיוק של 85 אחוז בבדיקתנו — הנמוך ביותר מבין 10 השפות — בעיקר בשל שונות הדיאלקטים. כאשר דוברים השתמשו ב-MSA, הדיוק עלה ל-91 אחוז, מה שמעיד על כך שהכנה ספציפית לדיאלקט היא המפתח לשיפור נוסף.
יפנית: כתבים מרובים ומספרים
יפנית משתמשת בשלוש מערכות כתיבה (קאנג'י, היראגנה, קטקנה) ויש לה מערכת מורכבת של מספרים דקדוקיים דומים למילות מדידה סיניות. דיבור הקשור למזון לעיתים קרובות מערבב בין מונחים יפניים לבין מילים בשאילה מאנגלית — "ブルーベリーマフィン" (buruberii mafin) הוא הכתיב בקטקנה של "מאפין אוכמניות."
האתגר ב-ASR ביפנית הוא החלפת קודים: דוברים מערבבים באופן טבעי בין מונחי מזון יפניים לבין מילים שמקורן באנגלית. משפט עשוי להיות "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), המערבב את "ביצים מקושקשות" ו"טוסט" עם דקדוק יפני ומספרים מקומיים.
מודלי ASR רב-לשוניים מודרניים מתמודדים עם זה היטב כי נתוני האימון כוללים דיבור יפני מעורב. יפנית השיגה דיוק של 88 אחוז בזיהוי המזון, כאשר השגיאות מרוכזות במנות יפניות מסורתיות המתוארות באמצעות מונחים בדיאלקט אזורי ולא ביפנית סטנדרטית.
צרפתית: ליאז' והעלמות ושמות מזון מגדריים
דיבור צרפתי כולל ליאז' (קישור צלילים בין מילים) והעלמות (השמטת תנועות לפני תנועות אחרות), מה שעלול להקשות על זיהוי גבולות המילים באודיו. "Les oeufs" (הביצים) נשמע כמו צליל מחובר שבו "les" מתחבר ישירות ל-"oeufs," דבר שעשוי לבלבל את זיהוי גבולות המילים.
שמות המזון בצרפתית הם מגדריים: "le poulet" (זכר, עוף) מול "la salade" (נקבה, סלט). בעוד שהמגדר לא משנה את זיהוי המזון, הוא משפיע על המאמרים וה-adjectives הסובבים, אשר מודל ה-NER משתמש בהם כאותות הקשר. זיהוי שגוי של סימני מגדר יכול להוביל לטעויות בהפקת ישויות.
עם זאת, צרפתית השיגה דיוק של 95 אחוז — מהגבוהים ביותר בין השפות שאינן אנגלית — כי יש נתוני ASR נרחבים בצרפתית ומטבח צרפתי מיוצג היטב במאגרי המזון הגלובליים.
קוריאנית: סדר נושא-אובייקט-פועל ורמות כבוד
קוריאנית מציבה את הפועל בסוף המשפט, מה שאומר שהפריטים המזוניים מופיעים מוקדם יותר באמירה. "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) עוקבת אחרי סדר N-O-V. מודלי NER שאומנו בעיקר על שפות S-V-O (כמו אנגלית) צריכים להסתגל לסדר הזה.
קוריאנית גם משתמשת ברמות דיבור שונות (פורמליות, מנומסות, רגילות) שמשנות את סופי הפועל ויכולות להוסיף חלקיקים ברחבי המשפט. מורפומות נוספות אלו מגבירות את המרחק בין הישות המזונית לבין סימן הכמות שלה, ודורשות ממודל ה-NER להתמודד עם תלותים ארוכי טווח.
קוריאנית השיגה דיוק של 87 אחוז, דומה למנדרינית ולטורקית, כאשר פענוח הכמויות היה האזור החלש ביותר בשל מערכת הספירה המורכבת ורמות הדיבור המשתנות.
שפות מדורגות לפי דיוק רישום הקול הכולל
שילוב של זיהוי מזון, פענוח כמויות והתאמת נתונים לדרגת ניקוד אחת מייצר את הדירוג הבא:
| דירוג | שפה | זיהוי מזון | דיוק הכמויות | התאמת DB | ניקוד כולל |
|---|---|---|---|---|---|
| 1 | אנגלית | 97% | 94% | 96% | 95.7% |
| 2 | פורטוגזית | 96% | 92% | 95% | 94.3% |
| 3 | ספרדית | 95% | 92% | 94% | 93.7% |
| 4 | צרפתית | 95% | 91% | 93% | 93.0% |
| 5 | גרמנית | 94% | 90% | 92% | 92.0% |
| 6 | יפנית | 88% | 88% | 90% | 88.7% |
| 7 | קוריאנית | 87% | 87% | 88% | 87.3% |
| 8 | טורקית | 87% | 86% | 87% | 86.7% |
| 9 | מנדרינית | 87% | 85% | 86% | 86.0% |
| 10 | ערבית | 85% | 83% | 84% | 84.0% |
הפער בין השפה עם הביצועים הגבוהים ביותר (אנגלית, 95.7 אחוז) לבין השפה עם הביצועים הנמוכים ביותר (ערבית, 84.0 אחוז) הוא 11.7 אחוזים. זה משמעותי אך מצטמצם. בשנת 2023, הפער המקביל במדדי ASR רב-לשוניים היה קרוב ל-20 אחוזים, מה שמעיד על שיפורים מהירים במודלים של דיבור שאינם באנגלית.
מדוע חלק מהשפות מקבלות ציונים גבוהים יותר מאחרות
שלושה גורמים מסבירים את רוב השונות בדיוק:
1. נפח נתוני האימון
ביצועי מודלי ASR ו-NER מתוארים ישירות עם נפח נתוני האימון הזמינים לכל שפה. לאנגלית יש פי כמה וכמה יותר נתוני דיבור מסומנים מאשר לערבית או לקוריאנית. מאגר הנתונים Common Voice (Mozilla, 2024) מכיל מעל 19,000 שעות מאומתות לאנגלית אך פחות מ-300 שעות לקוריאנית ופחות מ-100 שעות לערבית.
2. כיסוי מאגרי המזון
שפות המדוברות באזורים עם מאגרי נתונים מתועדים היטב על הרכב המזון (USDA לאנגלית, BLS לגרמנית, CIQUAL לצרפתית) משיגות ציונים גבוהים יותר בהתאמת נתונים. שפות שבהן נתוני הרכב המזון פחות סטנדרטיים או פחות ממוחשבים רואות יותר כישלונות במיפוי.
3. מורכבות לשונית עבור NLP
שפות אגלטינאטיביות (טורקית, קוריאנית), שפות טונליות (סינית) ושפות עם מורפולוגיה מורכבת (ערבית) דורשות צינורות NLP מתקדמים יותר. שלבי העיבוד הנוספים מציגים יותר הזדמנויות לצבירת שגיאות.
איך Nutrola מתמודדת עם רישום קולי רב-לשוני
צינור רישום הקול של Nutrola מתמודד עם אתגרים רב-לשוניים באמצעות מספר החלטות ארכיטקטוניות:
- מודלי ASR ספציפיים לשפה: במקום להשתמש במודל רב-לשוני אחד, הצינור מנתב אודיו למודלים מותאמים אישית לפי שפה כאשר שפת המשתמש ידועה, מה שמשפר את הדיוק ב-3 עד 5 אחוזים בהשוואה ל-ASR רב-לשוני כללי.
- הבהרה מודעת לאזור: הבהרת ישויות המזון משתמשת במיקום של המשתמש כדי לפתור שמות מזון ספציפיים לאזור. "Chips" נפתרת בצורה שונה עבור משתמשים בלונדון, ניו יורק וסידני.
- מאגר נתוני מזון חוצה שפות: מאגר התזונה המאומת ממפה רשומות מזון בין שפות, כך ש-"poulet grille" (צרפתית), "pollo a la plancha" (ספרדית) ו-"grilled chicken" (אנגלית) כולם מתאימים לאותו פרופיל תזונה מאומת.
- גיבוי לכניסת טקסט: כאשר רמת הביטחון של הקול יורדת מתחת לסף בכל שפה, משתמשים יכולים לעבור בקלות לחיפוש טקסטואלי או לסריקת ברקוד — סורק הברקוד של Nutrola מכסה מעל 95 אחוז מהמוצרים הארוזים ברחבי העולם.
בשילוב עם רישום תמונות AI ועוזר התזונה AI, יכולות הקול הרב-לשוניות הללו הופכות את Nutrola למעקב תזונה מעשי יומיומי עבור משתמשים ברחבי העולם. כל הפיצ'רים — כולל רישום קולי בכל השפות הנתמכות — זמינים החל מ-2.50 יורו לחודש עם ניסיון חינם של 3 ימים, ללא פרסומות בכל רמה.
הדרך קדימה: רישום קולי רב-לשוני בשנת 2026 ואילך
מספר התפתחויות משפרות את רישום הקול הרב-לשוני של מזון:
- התאמה ספציפית לדיאלקט: מערכי נתונים חדשים הממוקדים בדיאלקטים מדוברים (ערבית מצרית, פורטוגזית ברזילאית, קנטונזית) סוגרים את הפער בדיוק בין דיבור סטנדרטי לדיבור קולוקווי.
- קלטים מולטי-מודליים: שילוב קול עם תמונות מאפשר ל-AI לבצע בדיקות צולבות — אם התמונה מראה אורז והקול אומר "arroz" (ספרדית לאורז), הביטחון עולה עבור שני המודלים.
- למידה עצמית מפוקחת: מודלים שאומנו על אודיו רב-לשוני לא מסומן (wav2vec 2.0, HuBERT) לומדים ייצוגי דיבור מבלי לדרוש נתוני תמלול, מה שמאפשר שיפור מהיר יותר לשפות עם משאבים נמוכים.
- מעגלי משוב של משתמשים: כל תיקון שמשתמש עושה ("זה צריך להיות אורז חום, לא אורז לבן") הופך לאות אימון לשיפור המודל בשפה זו.
שאלות נפוצות
באילו שפות רישום הקול של AI עובד הכי טוב?
אנגלית, ספרדית, פורטוגזית וצרפתית משיגות את הדיוק הגבוה ביותר לרישום קולי של מזון, כולן מקבלות ציונים מעל 93 אחוזים בסך הכל. שפות אלו נהנות מנתוני ASR נרחבים, מאגרי מזון מתועדים היטב ומורפולוגיה יחסית פשוטה לעיבוד NLP. גרמנית מדורגת חמישית עם 92 אחוז בסך הכל.
האם אני יכול לרשום מנות במנדרינית בצורה מדויקת?
רישום קולי במנדרינית משיג דיוק של כ-86 אחוז בסך הכל. האתגרים המרכזיים הם הבחנות טונליות ב-ASR (כאשר מילים כמו "טאנג" משמעותן שונה בהתאם לטון) ומערכת מילות המדידה עבור כמויות. עבור מזונות נפוצים עם הגייה ברורה, הדיוק גבוה בהרבה. שימוש בכמויות מספריות מדויקות (כמו "200克," 200 גרם) במקום תיאורים מעורפלים משפר את התוצאות באופן משמעותי.
איך ה-AI מתמודד עם שמות מזון שאינם מתורגמים בין שפות?
מזונות ספציפיים תרבותית כמו "שווארמה," "מיסו" ו"טזציקי" מטופלים באמצעות מאגרי ישויות מזון חוצי שפות הממפים שמות מזון בשפת המקור ישירות לפרופילים תזונתיים. כאשר דובר טורקי אומר "tavuk shawarma" או דובר יפני אומר "味噌汁" (מרק מיסו), מודל ה-NER מזהה את המונחים הללו כישויות מזון בשפותיהם וממפה אותם לרשומות המתאימות במאגר, ללא קשר אם קיים מקביל באנגלית.
מדוע רישום הקול בערבית פחות מדויק מאשר בשפות אחרות?
רישום הקול בערבית מקבל 84 אחוז בסך הכל, בעיקר בשל שלושה גורמים: (1) דיגלוסיה — ההבדל המשמעותי בין ערבית מודרנית תקנית לדיאלקטים המדוברים פירושו שהמודל צריך להתמודד עם הרבה וריאנטים של הגייה; (2) נתוני אימון מסומנים מוגבלים בהשוואה לשפות אירופיות; ו-(3) מורפולוגיה מבוססת שורש שמייצרת הרבה צורות שטח עבור כל מושג מזון. כאשר דוברים משתמשים בערבית מודרנית תקנית, הדיוק עולה לכ-91 אחוז.
האם הדיוק של רישום הקול משתפר עם הזמן עבור השפה הספציפית שלי?
כן. מערכות רישום הקול משתפרות דרך שני מנגנונים: עדכוני מודל גלובליים שאומנו על נתוני משתמשים מצטברים בכל המשתמשים של שפה נתונה, והתאמה אישית שלומדת את דפוסי ההגייה הספציפיים שלך, את המזונות שנרשמים לעיתים קרובות ואת שמות המזון המועדפים. לאחר שבועיים עד שלושה של שימוש רגיל, המערכת בדרך כלל מראה שיפור מדוד בדיוק הזיהוי עבור המנות הנפוצות שלך.
האם אני יכול לערבב שפות כאשר אני רושם קולי, כמו לתאר מנה בספרדית עם כמה מונחים באנגלית?
החלפת קודים — ערבוב בין שתי שפות באמירה אחת — היא נפוצה במשפחות רב-לשוניות ותמיכה זו הולכת ומתרקמת במודלי ASR מודרניים. לומר "Tuve un bowl de quinoa con grilled chicken" (מערבב ספרדית ואנגלית) בדרך כלל יתפרש נכון על ידי מודלים רב-לשוניים מאומנים על נתוני דיבור מעורבים. עם זאת, הדיוק נמוך בערך 5 עד 8 אחוזים לעומת אמירות בשפה אחת, כך שהישארות בשפה אחת מניבה את התוצאות הטובות ביותר.
איך אני יכול להשיג את תוצאות רישום הקול המדויקות ביותר בשפה שאינה אנגלית?
ארבעה פרקטיקות משפרות את הדיוק: (1) דבר בקצב מתון עם הגייה ברורה; (2) השתמש בכמויות מדויקות כאשר זה אפשרי ("200 גרם" במקום "קצת"); (3) השתמש בשמות מזון סטנדרטיים ולא בסלנג אזורי או קיצורים; ו-(4) בצע תיקונים כאשר ה-AI טועה, כי משוב זה משפר ישירות את ההכרה בעתיד. Nutrola גם תומכת במעבר לרישום תמונות או סריקת ברקוד עבור פריטים שקשה לתאר בעל פה.
האם Nutrola תומכת ברישום קולי בכל 10 השפות שנבדקו?
Nutrola תומכת ברישום קולי בשפות רבות עם הצינור NLP המלא המתואר במאמר זה. האפליקציה מזהה אוטומטית את שפת המכשיר של המשתמש ומנתבת את הקלט הקולי למודלים המותאמים לשפה המתאימה. סנכרון עם Apple Health ו-Google Fit עובד ללא קשר לשפה שבה אתה משתמש לרישום, מה שמבטיח שהנתונים התזונתיים שלך משתלבים בצורה חלקה עם האקוסystem הבריאותי שלך.
מוכנים לשנות את מעקב התזונה שלכם?
הצטרפו לאלפים ששינו את מסע הבריאות שלהם עם Nutrola!