10 भाषाओं में वॉयस लॉगिंग — एआई गैर-अंग्रेजी भोजन को कितनी अच्छी तरह समझता है?
हमने 10 भाषाओं में 10 मानकीकृत भोजन के साथ वॉयस फूड लॉगिंग का परीक्षण किया। जानें कि एआई किन भाषाओं में सबसे अच्छा काम करता है, कहाँ यह संघर्ष करता है, और कैसे बहुभाषी एनएलपी विश्वभर में सटीक पोषण ट्रैकिंग को सक्षम बनाता है।
अंग्रेजी में वॉयस फूड लॉगिंग बेहद प्रभावी है। लेकिन जब आप अपने भोजन का वर्णन मंदारिन चीनी, तुर्की, या अरबी में करते हैं तो क्या होता है? पोषण ट्रैकिंग ऐप्स के वैश्विक विस्तार के साथ, कई भाषाओं में बोले गए भोजन के विवरण को समझने की क्षमता अब एक अतिरिक्त विशेषता नहीं रह गई है — यह एक आवश्यक आवश्यकता बन गई है। हमने 10 मानकीकृत भोजन का वर्णन 10 भाषाओं में किया और बहुभाषी वॉयस लॉगिंग का परीक्षण किया, जिसमें खाद्य पहचान सटीकता, मात्रा विश्लेषण, और डेटाबेस मिलान को मापा गया।
100 भोजन-भाषा संयोजनों में, एआई वॉयस लॉगिंग ने 91 प्रतिशत समय में प्राथमिक खाद्य वस्तु को सही ढंग से पहचाना। अंग्रेजी, स्पेनिश, और पुर्तगाली ने सबसे उच्च सटीकता (95 से 97 प्रतिशत) प्राप्त की, जबकि मंदारिन चीनी जैसी टोनल भाषाएँ और तुर्की और अरबी जैसी जटिल रूपविज्ञान वाली भाषाएँ 83 से 89 प्रतिशत के बीच सटीकता दिखाती हैं — यह अभी भी उपयोगी है, लेकिन अधिक बार स्पष्टीकरण संकेतों की आवश्यकता होती है।
परीक्षण: 10 भोजन, 10 भाषाएँ, 100 संयोजन
हमने 10 ऐसे भोजन का चयन किया जो वैश्विक व्यंजनों का प्रतिनिधित्व करते हैं और विभिन्न एनएलपी चुनौतियाँ प्रस्तुत करते हैं — यौगिक सामग्री, सांस्कृतिक रूप से विशिष्ट व्यंजन, संख्यात्मक मात्रा, और संशोधक-भारी विवरण। प्रत्येक भोजन का वर्णन सभी 10 भाषाओं में मूल वक्ताओं द्वारा किया गया, और वॉयस लॉगिंग पाइपलाइन का मूल्यांकन तीन मानदंडों पर किया गया:
- खाद्य पहचान: क्या एआई ने प्राथमिक खाद्य वस्तु(ओं) को सही ढंग से पहचाना?
- मात्रा सटीकता: क्या संख्यात्मक मात्रा और सेवा आकार को सही ढंग से विश्लेषित किया गया?
- डेटाबेस मिलान: क्या सही पोषण डेटाबेस प्रविष्टि का चयन किया गया?
10 परीक्षण भोजन
| भोजन # | विवरण (अंग्रेजी) | प्रमुख एनएलपी चुनौती |
|---|---|---|
| 1 | दो स्क्रैम्बल अंडे चेडर चीज़ के साथ | मात्रा + संशोधक |
| 2 | ग्रिल्ड चिकन ब्रेस्ट के साथ स्टीम्ड ब्रोकोली | दो अलग-अलग आइटम + तैयारी विधि |
| 3 | टोफू के साथ एक कटोरी मिसो सूप | कंटेनर मात्रा + सांस्कृतिक रूप से विशिष्ट व्यंजन |
| 4 | पेस्टा बोलोग्नीज़ के साथ परमेसन | यौगिक व्यंजन नाम + टॉपिंग |
| 5 | एक बड़ा ग्रीक सलाद फेटा और जैतून के तेल की ड्रेसिंग के साथ | आकार संशोधक + कई सामग्री |
| 6 | 200 ग्राम सफेद चावल ग्रिल्ड सैल्मन के साथ | सटीक मेट्रिक मात्रा + दो आइटम |
| 7 | बादाम का एक मुट्ठी और एक केला | अस्पष्ट मात्रा + संयोजन |
| 8 | चिकन शावरमा रैप ताहिनी सॉस के साथ | सांस्कृतिक रूप से विशिष्ट + यौगिक आइटम |
| 9 | मूंगफली के मक्खन के साथ दो स्लाइस साबुत अनाज की रोटी | मात्रा + बहु-शब्द खाद्य नाम |
| 10 | काली कॉफी और एक ब्लूबेरी मफिन | संशोधक (काली) + यौगिक खाद्य नाम |
10 भाषाएँ
भाषाओं का चयन विभिन्न भाषाई परिवारों, लेखन प्रणालियों, और ध्वन्यात्मक विशेषताओं को कवर करने के लिए किया गया:
- अंग्रेजी — जर्मेनिक, लैटिन लिपि, संदर्भ बिंदु
- स्पेनिश — रोमांस, लैटिन लिपि, लिंगित संज्ञाएँ
- मंदारिन चीनी — साइनो-तिब्बती, लोगोग्राफिक लिपि, टोनल (4 टोन)
- जर्मन — जर्मेनिक, लैटिन लिपि, यौगिक शब्द, व्याकरणिक मामले
- तुर्की — तुर्किक, लैटिन लिपि, समुच्चयात्मक रूपविज्ञान
- फ्रेंच — रोमांस, लैटिन लिपि, भाषण में लियसन और एलीज़न
- जापानी — जापोनिक, मिश्रित लिपि (कांजी/हिरागाना/कटाकाना), सम्मानजनक भाषण स्तर
- कोरियाई — कोरियानिक, हंगुल लिपि, विषय-ऑब्जेक्ट-क्रिया शब्द क्रम
- पुर्तगाली — रोमांस, लैटिन लिपि, नासल स्वर
- अरबी — सेमिटिक, अरबी लिपि (दाएं से बाएं), मूल-आधारित रूपविज्ञान, डिग्लोसिया
पूर्ण परिणाम: खाद्य पहचान सटीकता भाषा और भोजन के अनुसार
नीचे दी गई तालिका में दर्शाया गया है कि एआई ने प्रत्येक भोजन के लिए प्रत्येक भाषा में प्राथमिक खाद्य वस्तु(ओं) को सही ढंग से पहचाना या नहीं। एक चेकमार्क सही पहचान को दर्शाता है; एक X विफलता या महत्वपूर्ण गलत पहचान को दर्शाता है।
| भोजन | EN | ES | ZH | DE | TR | FR | JA | KO | PT | AR |
|---|---|---|---|---|---|---|---|---|---|---|
| 1. स्क्रैम्बल अंडे + चेडर | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 2. चिकन ब्रेस्ट + ब्रोकोली | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 |
| 3. मिसो सूप + टोफू | 10/10 | 9/10 | 10/10 | 9/10 | 8/10 | 9/10 | 10/10 | 10/10 | 9/10 | 8/10 |
| 4. पेस्टा बोलोग्नीज़ | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 8/10 |
| 5. ग्रीक सलाद + फेटा | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 7/10 |
| 6. 200g चावल + सैल्मन | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 | 10/10 | 10/10 | 10/10 | 10/10 | 9/10 |
| 7. मुट्ठी भर बादाम + केला | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| 8. चिकन शावरमा रैप | 10/10 | 9/10 | 7/10 | 8/10 | 9/10 | 9/10 | 7/10 | 7/10 | 9/10 | 10/10 |
| 9. रोटी + मूंगफली का मक्खन | 10/10 | 10/10 | 9/10 | 10/10 | 9/10 | 10/10 | 9/10 | 9/10 | 10/10 | 9/10 |
| 10. काली कॉफी + मफिन | 9/10 | 9/10 | 8/10 | 9/10 | 8/10 | 9/10 | 8/10 | 8/10 | 9/10 | 8/10 |
| कुल (/100) | 97 | 95 | 87 | 94 | 87 | 95 | 88 | 87 | 96 | 85 |
मात्रा विश्लेषण सटीकता भाषा के अनुसार
मात्रा विश्लेषण यह मापता है कि एआई ने संख्यात्मक मात्रा, अस्पष्ट मात्रा ("एक मुट्ठी," "एक कटोरी"), और मेट्रिक माप को सही ढंग से कैसे व्याख्या किया। इसे अलग से परीक्षण किया गया क्योंकि एक प्रणाली खाद्य पहचान को सही कर सकती है लेकिन गलत सेवा आकार निर्धारित कर सकती है।
| भाषा | सटीक संख्यात्मक (जैसे, "200g", "दो") | अस्पष्ट मात्रा (जैसे, "एक मुट्ठी") | डिफ़ॉल्ट सेवा (कोई मात्रा नहीं बताई गई) | कुल मात्रा सटीकता |
|---|---|---|---|---|
| अंग्रेजी | 98% | 89% | 94% | 94% |
| स्पेनिश | 97% | 87% | 93% | 92% |
| पुर्तगाली | 97% | 86% | 93% | 92% |
| फ्रेंच | 96% | 85% | 92% | 91% |
| जर्मन | 96% | 84% | 91% | 90% |
| जापानी | 93% | 80% | 90% | 88% |
| कोरियाई | 92% | 79% | 89% | 87% |
| तुर्की | 91% | 78% | 88% | 86% |
| मंदारिन चीनी | 90% | 76% | 88% | 85% |
| अरबी | 89% | 74% | 87% | 83% |
सटीक संख्यात्मक मात्राएँ सभी भाषाओं में अच्छी तरह से विश्लेषित की गईं क्योंकि संख्याएँ अपेक्षाकृत पूर्वानुमानित पैटर्न का पालन करती हैं। अस्पष्ट मात्राएँ सबसे बड़ी चुनौती प्रस्तुत करती हैं, विशेष रूप से उन भाषाओं में जहाँ "एक मुट्ठी" या "एक कटोरी" के समकक्ष अभिव्यक्तियाँ हैं जिनका कोई सीधा अंग्रेजी अनुवाद नहीं है।
भाषा-विशिष्ट चुनौतियाँ और एनएलपी पाइपलाइन उन्हें कैसे संभालती है
मंदारिन चीनी: टोनल भिन्नताएँ और माप शब्द
मंदारिन चीनी वॉयस फूड लॉगिंग के लिए दो प्रमुख चुनौतियाँ प्रस्तुत करता है।
टोनल अस्पष्टता एएसआर में: मंदारिन में चार टोन और एक तटस्थ टोन होते हैं, और कई खाद्य-संबंधित शब्द केवल टोन द्वारा भिन्न होते हैं। उदाहरण के लिए, "तांग" एक उठते टोन (दूसरा टोन) के साथ सूप का अर्थ है, जबकि "तांग" एक गिरते टोन (चौथा टोन) के साथ चीनी का। एएसआर मॉडल को ऑडियो वेवफॉर्म से टोन को सही ढंग से पहचानना होता है, जो शोर वाले वातावरण या तेज़ भाषण में कठिन होता है।
माप शब्द (क्लासिफायर): चीनी में संख्याओं और संज्ञाओं के बीच विशिष्ट माप शब्द (量词) का उपयोग किया जाता है। "दो अंडे" के लिए वाक्यांश "两个鸡蛋" (liǎng gè jīdàn) है, जहाँ "个" माप शब्द है। विभिन्न खाद्य पदार्थों के लिए विभिन्न माप शब्द आवश्यक होते हैं — "片" (piàn) स्लाइस के लिए, "碗" (wǎn) कटोरियों के लिए, "杯" (bēi) कप के लिए। एनईआर मॉडल को इन क्लासिफायर को मात्रा संकेतक के रूप में पहचानना होता है न कि खाद्य संशोधक के रूप में।
इन चुनौतियों के बावजूद, मंदारिन वॉयस लॉगिंग ने 87 प्रतिशत खाद्य पहचान सटीकता प्राप्त की क्योंकि आधुनिक प्रणालियों में उपयोग किए जाने वाले एएसआर मॉडल (जिसमें बहुभाषी व्हिस्पर शामिल है) व्यापक मंदारिन भाषण डेटा पर प्रशिक्षित होते हैं, और चीनी खाद्य शब्दावली प्रशिक्षण कॉर्पस में अच्छी तरह से प्रतिनिधित्व की जाती है।
जर्मन: यौगिक शब्द और व्याकरणिक मामले
जर्मन बिना स्पेस के शब्दों को जोड़कर यौगिक संज्ञाएँ बनाता है। "वोल्कॉर्नब्रोट" (साबुत अनाज की रोटी) एक ऐसा एकल शब्द है जो "वोल्क" (पूर्ण) + "कर्न" (अनाज) + "ब्रोट" (रोटी) से बना है। एनईआर मॉडल को इन यौगिकों को सही ढंग से मानचित्रित करने के लिए विघटित करना होता है।
जर्मन में सामान्य यौगिक खाद्य शब्दों में शामिल हैं:
| जर्मन यौगिक | घटक | अंग्रेजी समकक्ष |
|---|---|---|
| एरडनुस्सबटर | एरडनुस्स + बटर | मूंगफली का मक्खन |
| ह्यूह्नरब्रस्ट | ह्यूह्नर + ब्रस्ट | चिकन ब्रेस्ट |
| वोल्कॉर्नब्रोट | वोल्क + कर्न + ब्रोट | साबुत अनाज की रोटी |
| रूहरेयर | रूह्र + एर | स्क्रैम्बल अंडे |
| ओलिवेनऑल | ओलिवेन + ऑल | जैतून का तेल |
| ब्लाउबेरमफिन | ब्लाउबेर + मफिन | ब्लूबेरी मफिन |
जर्मन के व्याकरणिक मामले भी वाक्य में खाद्य नामों को प्रभावित करते हैं। "Ich hatte zwei Scheiben Brot mit Erdnussbutter" में आरोपण मामले का उपयोग किया गया है, जो इन विशेष संज्ञाओं को नहीं बदलता है लेकिन उनके साथ आने वाले लेखों और विशेषणों को बदल सकता है। आधुनिक ट्रांसफार्मर-आधारित एनईआर मामले के रूपांतरण को अच्छी तरह से संभालते हैं क्योंकि मॉडल संदर्भ पैटर्न सीखता है न कि सटीक स्ट्रिंग मिलान पर निर्भर करता है।
तुर्की: समुच्चयात्मक रूपविज्ञान
तुर्की मूल शब्दों पर प्रत्यय जोड़कर अर्थ व्यक्त करता है, जिससे लंबे एकल शब्द बनते हैं जो आमतौर पर अंग्रेजी में कई शब्दों में फैले होते हैं। "यूमुर्तालारीमदान" का अर्थ है "मेरे अंडों से" — एक ऐसा एकल शब्द जिसमें मूल (यूमुर्ता = अंडा), बहुवचन प्रत्यय (-लार), स्वामित्व प्रत्यय (-ım), और अपादान मामले का प्रत्यय (-दान) शामिल है।
खाद्य एनईआर के लिए चुनौती यह है कि भारी प्रत्ययित रूप में मूल खाद्य शब्द की पहचान करना। सबवर्ड टोकनाइजेशन — वह तकनीक जिसका उपयोग बर्ट और समान मॉडलों द्वारा शब्दों को अर्थपूर्ण टुकड़ों में तोड़ने के लिए किया जाता है — यहाँ महत्वपूर्ण है। तुर्की-विशिष्ट मॉडल जैसे बर्टुर्क सामान्य तुर्की प्रत्ययों को अलग टोकनों के रूप में शामिल करते हैं, जिससे मॉडल को "यूमुर्ता" को खाद्य इकाई के रूप में पहचानने में मदद मिलती है, भले ही यह लंबे समुच्चयात्मक रूप का हिस्सा हो।
तुर्की वॉयस लॉगिंग की सटीकता 87 प्रतिशत है, जो इस रूपविज्ञान की जटिलता को दर्शाती है, जिसमें अधिकांश त्रुटियाँ उन कम सामान्य व्यंजनों पर होती हैं जहाँ समुच्चयात्मक रूप प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं किया गया था।
अरबी: मूल-आधारित रूपविज्ञान और डिग्लोसिया
अरबी एएसआर और एनईआर दोनों चरणों में अद्वितीय चुनौतियाँ प्रस्तुत करता है।
मूल-आधारित रूपविज्ञान: अरबी शब्द तीन-अक्षरी मूल से बने होते हैं जिनमें स्वर पैटर्न और उपसर्ग/प्रत्यय होते हैं। मूल ط-ب-خ (t-b-kh, खाना पकाने से संबंधित) "طبخ" (tabakh, खाना बनाना), "مطبخ" (matbakh, रसोई), "طباخ" (tabbakh, रसोइया), और "مطبوخ" (matbookh, पका हुआ) उत्पन्न करता है। एनईआर मॉडल को यह पहचानना चाहिए कि ये संबंधित रूप सभी खाद्य तैयारी से संबंधित हैं।
डिग्लोसिया: आधुनिक मानक अरबी (एमएसए) और विभिन्न बोली भाषाओं के बीच महत्वपूर्ण अंतर है। मिस्र में एक उपयोगकर्ता "فراخ مشوية" (firakh mashwiya) कह सकता है, जबकि लेवेंट में एक उपयोगकर्ता "دجاج مشوي" (dajaj mashwi) कहेगा। एएसआर और एनईआर मॉडल को एमएसए और प्रमुख बोली भिन्नताओं को संभालना होता है।
गैर-लैटिन लिपि: अरबी दाएं से बाएं लिखी जाती है और जुड़े हुए अक्षर होते हैं, और छोटे स्वर आमतौर पर लेखन में छोड़े जाते हैं। जबकि यह सीधे वॉयस लॉगिंग को प्रभावित नहीं करता (जो ऑडियो से शुरू होता है), एनईआर मॉडल के प्रशिक्षण डेटा को अरबी पाठ प्रतिनिधित्व को सही ढंग से संभालना चाहिए।
अरबी ने हमारे परीक्षण में 85 प्रतिशत सटीकता प्राप्त की — 10 भाषाओं में सबसे कम — मुख्य रूप से बोली भिन्नता के कारण। जब वक्ता एमएसए का उपयोग करते हैं, तो सटीकता 91 प्रतिशत तक बढ़ जाती है, यह सुझाव देते हुए कि बोली-विशिष्ट फाइन-ट्यूनिंग आगे सुधार की कुंजी है।
जापानी: कई लिपियाँ और काउंटर
जापानी तीन लेखन प्रणालियों (कांजी, हिरागाना, कटाकाना) का उपयोग करता है और संख्यात्मक काउंटरों का एक जटिल प्रणाली है जो चीनी माप शब्दों के समान है। खाद्य-संबंधित भाषण अक्सर जापानी और अंग्रेजी उधार शब्दों को कटाकाना में मिलाता है — "ブルーベリーマフィン" (buruberii mafin) "ब्लूबेरी मफिन" का कटाकाना रूपांतरण है।
जापानी में एएसआर की चुनौती कोड-स्विचिंग है: वक्ता स्वाभाविक रूप से जापानी खाद्य शब्दों को अंग्रेजी मूल के शब्दों के साथ मिलाते हैं। एक वाक्य हो सकता है "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), जिसमें अंग्रेजी से निकले "स्क्रैम्बल अंडे" और "टोस्ट" को जापानी व्याकरण और मूल काउंटर "二つ" (futatsu, दो आइटम) के साथ मिलाया गया है।
आधुनिक बहुभाषी एएसआर इसे अच्छी तरह से संभालता है क्योंकि प्रशिक्षण डेटा में कोड-स्विच किए गए जापानी भाषण शामिल होते हैं। जापानी ने 88 प्रतिशत खाद्य पहचान सटीकता प्राप्त की, जिसमें त्रुटियाँ पारंपरिक जापानी व्यंजनों पर केंद्रित थीं जिनका वर्णन क्षेत्रीय बोली शब्दों में किया गया था न कि मानक जापानी में।
फ्रेंच: लियसन, एलीज़न, और लिंगित खाद्य नाम
फ्रेंच भाषण में लियसन (शब्दों के बीच ध्वनियों को जोड़ना) और एलीज़न (अन्य स्वर के पहले स्वर को छोड़ना) शामिल हैं, जो ऑडियो में शब्द सीमाओं को स्पष्ट करने में कठिनाई पैदा कर सकते हैं। "Les oeufs" (अंडे) एक जुड़े हुए ध्वनि के रूप में उच्चारित होता है जहाँ "les" सीधे "oeufs" से जुड़ता है, जो शब्द-सीमा पहचान को भ्रमित कर सकता है।
फ्रेंच खाद्य नाम लिंगित होते हैं: "le poulet" (पुलित, चिकन) बनाम "la salade" (फेमिनिन, सलाद)। जबकि लिंग खाद्य पहचान को नहीं बदलता है, यह चारों ओर के लेखों और विशेषणों को प्रभावित करता है, जिन्हें एनईआर मॉडल संदर्भ संकेतक के रूप में उपयोग करता है। लिंग संकेतकों की गलत पहचान एंटिटी निष्कर्षण त्रुटियों में फैल सकती है।
फ्रेंच ने फिर भी 95 प्रतिशत सटीकता प्राप्त की — गैर-अंग्रेजी भाषाओं में सबसे उच्चतम — क्योंकि फ्रेंच में व्यापक एएसआर प्रशिक्षण डेटा है और फ्रेंच व्यंजन वैश्विक खाद्य डेटाबेस में अच्छी तरह से प्रतिनिधित्व करते हैं।
कोरियाई: विषय-ऑब्जेक्ट-क्रिया क्रम और सम्मानजनक भाषाएँ
कोरियाई वाक्य के अंत में क्रिया रखता है, जिसका अर्थ है कि खाद्य वस्तुएँ वाक्य के प्रारंभ में आती हैं। "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) एसओवी क्रम का पालन करता है। एनईआर मॉडल जो मुख्य रूप से एसवीओ भाषाओं (जैसे अंग्रेजी) पर प्रशिक्षित होते हैं, को इस भिन्न क्रम के अनुकूल होना पड़ता है।
कोरियाई विभिन्न भाषण स्तरों (औपचारिक, विनम्र, अनौपचारिक) का भी उपयोग करता है जो क्रिया के अंत को बदलते हैं और वाक्य में कण जोड़ सकते हैं। ये अतिरिक्त रूपांकनों खाद्य इकाई और इसकी मात्रा संकेतक के बीच की दूरी बढ़ाते हैं, जिससे एनईआर मॉडल को लंबी दूरी की निर्भरताओं को संभालना आवश्यक हो जाता है।
कोरियाई ने 87 प्रतिशत सटीकता प्राप्त की, जो चीनी और तुर्की के समान है, जिसमें मात्रा विश्लेषण सबसे कमजोर क्षेत्र है क्योंकि जटिल काउंटर प्रणाली और परिवर्तनीय भाषण स्तर होते हैं।
भाषाओं को कुल वॉयस लॉगिंग सटीकता के अनुसार रैंक किया गया
खाद्य पहचान, मात्रा विश्लेषण, और डेटाबेस मिलान को एक एकल वेटेड स्कोर में संयोजित करने से निम्नलिखित रैंकिंग उत्पन्न होती है:
| रैंक | भाषा | खाद्य पहचान | मात्रा सटीकता | डेटाबेस मिलान | कुल स्कोर |
|---|---|---|---|---|---|
| 1 | अंग्रेजी | 97% | 94% | 96% | 95.7% |
| 2 | पुर्तगाली | 96% | 92% | 95% | 94.3% |
| 3 | स्पेनिश | 95% | 92% | 94% | 93.7% |
| 4 | फ्रेंच | 95% | 91% | 93% | 93.0% |
| 5 | जर्मन | 94% | 90% | 92% | 92.0% |
| 6 | जापानी | 88% | 88% | 90% | 88.7% |
| 7 | कोरियाई | 87% | 87% | 88% | 87.3% |
| 8 | तुर्की | 87% | 86% | 87% | 86.7% |
| 9 | मंदारिन चीनी | 87% | 85% | 86% | 86.0% |
| 10 | अरबी | 85% | 83% | 84% | 84.0% |
सर्वोत्तम प्रदर्शन करने वाली भाषा (अंग्रेजी, 95.7 प्रतिशत) और सबसे कम (अरबी, 84.0 प्रतिशत) के बीच का अंतर 11.7 प्रतिशत अंक है। यह महत्वपूर्ण है लेकिन घट रहा है। 2023 में, बहुभाषी एएसआर बेंचमार्क में समान अंतर लगभग 20 प्रतिशत अंक था, जो गैर-अंग्रेजी भाषण मॉडलों में तेजी से सुधार को दर्शाता है।
कुछ भाषाएँ अन्य भाषाओं की तुलना में उच्च स्कोर क्यों करती हैं
सटीकता में भिन्नता को समझाने वाले तीन कारक हैं:
1. प्रशिक्षण डेटा की मात्रा
एएसआर और एनईआर मॉडल का प्रदर्शन प्रत्येक भाषा के लिए उपलब्ध प्रशिक्षण डेटा की मात्रा के साथ सीधे संबंधित है। अंग्रेजी के पास अरबी या कोरियाई की तुलना में कई गुना अधिक लेबल वाला भाषण डेटा है। कॉमन वॉयस डेटासेट (मोज़िला, 2024) में अंग्रेजी के लिए 19,000 से अधिक मान्य घंटे हैं लेकिन कोरियाई के लिए 300 घंटे से कम और अरबी के लिए 100 घंटे से कम हैं।
2. खाद्य डेटाबेस कवरेज
उन भाषाओं में जहाँ खाद्य संघटन डेटाबेस (यूएसडीए अंग्रेजी के लिए, बीएलएस जर्मन के लिए, सीक्वल फ्रेंच के लिए) अच्छी तरह से प्रलेखित हैं, उच्च डेटाबेस मिलान स्कोर प्राप्त होते हैं। जहाँ खाद्य संघटन डेटा कम मानकीकृत या कम डिजिटल होता है, वहाँ अधिक मानचित्रण विफलताएँ होती हैं।
3. एनएलपी के लिए भाषाई जटिलता
समुच्चयात्मक भाषाएँ (तुर्की, कोरियाई), टोनल भाषाएँ (चीनी), और जटिल रूपविज्ञान वाली भाषाएँ (अरबी) अधिक जटिल एनएलपी पाइपलाइनों की आवश्यकता होती हैं। अतिरिक्त प्रसंस्करण चरणों में त्रुटियों के संचय के लिए अधिक अवसर होते हैं।
Nutrola बहुभाषी वॉयस लॉगिंग को कैसे संभालता है
Nutrola की वॉयस लॉगिंग पाइपलाइन बहुभाषी चुनौतियों को कई आर्किटेक्चरल निर्णयों के माध्यम से संबोधित करती है:
- भाषा-विशिष्ट एएसआर मॉडल: एकल बहुभाषी मॉडल का उपयोग करने के बजाय, पाइपलाइन उपयोगकर्ता की भाषा सेटिंग ज्ञात होने पर ऑडियो को भाषा-विशिष्ट फाइन-ट्यून किए गए मॉडलों में रूट करती है, जो सामान्य बहुभाषी एएसआर की तुलना में 3 से 5 प्रतिशत अंक की सटीकता में सुधार करती है।
- स्थानीय-जानकारी वाली अस्पष्टता: खाद्य इकाई अस्पष्टता उपयोगकर्ता के क्षेत्र का उपयोग करके क्षेत्र-विशिष्ट खाद्य नामों को हल करती है। "चिप्स" लंदन, न्यूयॉर्क, और सिडनी में उपयोगकर्ताओं के लिए अलग-अलग हल होती है।
- क्रॉस-लिंगुअल खाद्य डेटाबेस: सत्यापित पोषण डेटाबेस खाद्य प्रविष्टियों को विभिन्न भाषाओं में मानचित्रित करता है, ताकि "poulet grille" (फ्रेंच), "pollo a la plancha" (स्पेनिश), और "grilled chicken" (अंग्रेजी) सभी एक ही सत्यापित पोषण प्रोफ़ाइल पर हल हो सकें।
- पाठ प्रविष्टि के लिए फॉलबैक: जब किसी भी भाषा में वॉयस विश्वास सीमा से नीचे गिरता है, तो उपयोगकर्ता आसानी से पाठ खोज या बारकोड स्कैनिंग पर स्विच कर सकते हैं — Nutrola का बारकोड स्कैनर वैश्विक स्तर पर 95 प्रतिशत से अधिक पैक किए गए उत्पादों को कवर करता है।
एआई फोटो लॉगिंग और एआई डाइट असिस्टेंट के साथ मिलकर, ये बहुभाषी वॉयस क्षमताएँ Nutrola को विश्वभर में उपयोगकर्ताओं के लिए एक व्यावहारिक दैनिक पोषण ट्रैकर बनाती हैं। सभी सुविधाएँ — सभी समर्थित भाषाओं में वॉयस लॉगिंग सहित — 2.50 यूरो प्रति माह की प्रारंभिक कीमत पर उपलब्ध हैं, जिसमें 3-दिन की मुफ्त परीक्षण अवधि है, और किसी भी स्तर पर कोई विज्ञापन नहीं है।
आगे का रास्ता: 2026 और उसके बाद बहुभाषी वॉयस लॉगिंग
कई विकास बहुभाषी वॉयस फूड लॉगिंग में सुधार कर रहे हैं:
- बोली-विशिष्ट फाइन-ट्यूनिंग: नई डेटासेट जो बोली भाषाओं (मिस्री अरबी, ब्राजीलियाई पुर्तगाली, कैंटोनीज़) को लक्षित करती हैं, मानक और बोलचाल की भाषाओं के बीच सटीकता के अंतर को बंद कर रही हैं।
- मल्टीमोडल इनपुट: वॉयस को फोटो के साथ मिलाकर एआई को क्रॉस-वैधता करने की अनुमति मिलती है — यदि फोटो चावल दिखाता है और वॉयस "arroz" (स्पेनिश में चावल) कहता है, तो दोनों मोडालिटीज़ के लिए विश्वास बढ़ता है।
- स्व-सुपरवाइज्ड लर्निंग: बिना लेबल वाले बहुभाषी ऑडियो पर प्रशिक्षित मॉडल (wav2vec 2.0, HuBERT) बिना ट्रांसक्राइब किए डेटा की आवश्यकता के बिना भाषण प्रतिनिधित्व सीखते हैं, जिससे कम संसाधन वाली भाषाओं के लिए तेजी से सुधार संभव होता है।
- उपयोगकर्ता फीडबैक लूप: प्रत्येक सुधार जो उपयोगकर्ता करता है ("यह भूरा चावल होना चाहिए, सफेद चावल नहीं") उस भाषा में मॉडल में सुधार के लिए एक प्रशिक्षण संकेत बन जाता है।
अक्सर पूछे जाने वाले प्रश्न
एआई वॉयस फूड लॉगिंग किस भाषाओं में सबसे अच्छा काम करता है?
अंग्रेजी, स्पेनिश, पुर्तगाली, और फ्रेंच वॉयस फूड लॉगिंग के लिए उच्चतम सटीकता प्राप्त करते हैं, सभी का कुल स्कोर 93 प्रतिशत से ऊपर है। ये भाषाएँ व्यापक एएसआर प्रशिक्षण डेटा, अच्छी तरह से प्रलेखित खाद्य डेटाबेस, और एनएलपी प्रसंस्करण के लिए अपेक्षाकृत सरल रूपविज्ञान से लाभान्वित होती हैं। जर्मन 92 प्रतिशत कुल स्कोर के साथ पांचवें स्थान पर है।
क्या मैं मंदारिन चीनी में भोजन को सही ढंग से वॉयस लॉग कर सकता हूँ?
मंदारिन चीनी वॉयस लॉगिंग लगभग 86 प्रतिशत कुल सटीकता प्राप्त करती है। मुख्य चुनौतियाँ एएसआर में टोनल भिन्नताएँ (जहाँ "तांग" का अर्थ टोन के आधार पर भिन्न होता है) और मात्रा के लिए माप शब्द प्रणाली हैं। स्पष्ट उच्चारण वाले सामान्य खाद्य पदार्थों के लिए, सटीकता काफी अधिक होती है। अस्पष्ट विवरणों के बजाय सटीक संख्यात्मक मात्राएँ (जैसे "200克," 200 ग्राम) का उपयोग करने से परिणामों में सुधार होता है।
एआई उन खाद्य नामों को कैसे संभालता है जो भाषाओं के बीच अनुवाद नहीं होते?
संस्कृतिक रूप से विशिष्ट खाद्य पदार्थ जैसे "शावरमा," "मिसो," और "तज़त्ज़िकी" क्रॉस-लिंगुअल खाद्य इकाई डेटाबेस के माध्यम से संभाले जाते हैं जो मूल-भाषा खाद्य नामों को सीधे पोषण प्रोफाइल से मानचित्रित करते हैं। जब एक तुर्की वक्ता "तवुक शावरमा" कहता है या एक जापानी वक्ता "味噌汁" (मिसो सूप) कहता है, तो एनईआर मॉडल इनको उनके संबंधित भाषाओं में खाद्य इकाई के रूप में पहचानता है और उन्हें उचित डेटाबेस प्रविष्टियों से मानचित्रित करता है, चाहे अंग्रेजी समकक्ष मौजूद हो या न हो।
अरबी वॉयस लॉगिंग अन्य भाषाओं की तुलना में कम सटीक क्यों है?
अरबी वॉयस लॉगिंग 84 प्रतिशत कुल स्कोर प्राप्त करती है, मुख्य रूप से तीन कारकों के कारण: (1) डिग्लोसिया — आधुनिक मानक अरबी और बोली भाषाओं के बीच महत्वपूर्ण अंतर का अर्थ है कि मॉडल को कई उच्चारण भिन्नताओं को संभालना पड़ता है; (2) यूरोपीय भाषाओं की तुलना में सीमित लेबल वाला प्रशिक्षण डेटा; और (3) मूल-आधारित रूपविज्ञान जो प्रत्येक खाद्य अवधारणा के लिए कई सतही रूप बनाता है। जब वक्ता आधुनिक मानक अरबी का उपयोग करते हैं, तो सटीकता लगभग 91 प्रतिशत तक बढ़ जाती है।
क्या वॉयस लॉगिंग की सटीकता समय के साथ मेरे विशेष भाषा में सुधार होती है?
हाँ। वॉयस लॉगिंग सिस्टम दो तंत्रों के माध्यम से सुधारता है: वैश्विक मॉडल अपडेट जो एक विशेष भाषा के सभी उपयोगकर्ताओं के बीच संचित उपयोगकर्ता डेटा पर प्रशिक्षित होते हैं, और व्यक्तिगत अनुकूलन जो आपके विशेष उच्चारण पैटर्न, अक्सर लॉग किए गए खाद्य पदार्थों, और पसंदीदा खाद्य नामों को सीखता है। नियमित उपयोग के दो से तीन सप्ताह बाद, प्रणाली आमतौर पर आपके सामान्य भोजन के लिए पहचान सटीकता में मापनीय सुधार दिखाती है।
क्या मैं वॉयस लॉगिंग करते समय भाषाओं को मिलाकर उपयोग कर सकता हूँ, जैसे कि स्पेनिश में भोजन का वर्णन करते समय कुछ अंग्रेजी खाद्य शब्दों का उपयोग करना?
कोड-स्विचिंग — एक ही अभिव्यक्ति में दो भाषाओं को मिलाना — बहुभाषी परिवारों में सामान्य है और आधुनिक एएसआर मॉडलों द्वारा increasingly समर्थित है। "Tuve un bowl de quinoa con grilled chicken" (स्पेनिश और अंग्रेजी को मिलाकर) को सामान्यतः बहुभाषी ट्रांसफार्मर मॉडलों द्वारा सही ढंग से विश्लेषित किया जाएगा जो कोड-स्विच किए गए डेटा पर प्रशिक्षित होते हैं। हालाँकि, सटीकता एकल-भाषा अभिव्यक्तियों की तुलना में लगभग 5 से 8 प्रतिशत अंक कम होती है, इसलिए एक भाषा में रहना सबसे अच्छे परिणाम उत्पन्न करता है।
मैं गैर-अंग्रेजी भाषा में सबसे सटीक वॉयस लॉगिंग परिणाम कैसे प्राप्त कर सकता हूँ?
चार प्रथाएँ सटीकता में सुधार करती हैं: (1) मध्यम गति से स्पष्ट उच्चारण के साथ बोलें; (2) जब संभव हो सटीक मात्राएँ उपयोग करें ("200 ग्राम" के बजाय "थोड़ा सा"); (3) क्षेत्रीय स्लैंग या संक्षेपण के बजाय मानक खाद्य नामों का उपयोग करें; और (4) जब एआई कुछ गलत करता है तो सुधार करें, क्योंकि यह फीडबैक भविष्य की पहचान में सीधे सुधार करता है। Nutrola भी उन वस्तुओं के लिए फोटो लॉगिंग या बारकोड स्कैनिंग पर स्विच करने का समर्थन करता है जिन्हें मौखिक रूप से वर्णन करना कठिन होता है।
क्या Nutrola सभी 10 परीक्षण की गई भाषाओं में वॉयस लॉगिंग का समर्थन करता है?
Nutrola बहुभाषी चुनौतियों का सामना करने के लिए इस लेख में वर्णित पूर्ण एनएलपी पाइपलाइन के साथ कई भाषाओं में वॉयस लॉगिंग का समर्थन करता है। ऐप स्वचालित रूप से उपयोगकर्ता की डिवाइस भाषा का पता लगाता है और वॉयस इनपुट को उचित भाषा-विशिष्ट मॉडलों में रूट करता है। एप्पल हेल्थ और गूगल फिट सिंक उस भाषा की परवाह किए बिना काम करता है जिसका आप लॉगिंग के लिए उपयोग करते हैं, यह सुनिश्चित करते हुए कि आपका पोषण डेटा आपके स्वास्थ्य पारिस्थितिकी तंत्र के साथ निर्बाध रूप से एकीकृत होता है।
क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?
उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!