10 भाषाओं में वॉयस लॉगिंग — एआई गैर-अंग्रेजी भोजन को कितनी अच्छी तरह समझता है?

हमने 10 भाषाओं में 10 मानकीकृत भोजन के साथ वॉयस फूड लॉगिंग का परीक्षण किया। जानें कि एआई किन भाषाओं में सबसे अच्छा काम करता है, कहाँ यह संघर्ष करता है, और कैसे बहुभाषी एनएलपी विश्वभर में सटीक पोषण ट्रैकिंग को सक्षम बनाता है।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

अंग्रेजी में वॉयस फूड लॉगिंग बेहद प्रभावी है। लेकिन जब आप अपने भोजन का वर्णन मंदारिन चीनी, तुर्की, या अरबी में करते हैं तो क्या होता है? पोषण ट्रैकिंग ऐप्स के वैश्विक विस्तार के साथ, कई भाषाओं में बोले गए भोजन के विवरण को समझने की क्षमता अब एक अतिरिक्त विशेषता नहीं रह गई है — यह एक आवश्यक आवश्यकता बन गई है। हमने 10 मानकीकृत भोजन का वर्णन 10 भाषाओं में किया और बहुभाषी वॉयस लॉगिंग का परीक्षण किया, जिसमें खाद्य पहचान सटीकता, मात्रा विश्लेषण, और डेटाबेस मिलान को मापा गया।

100 भोजन-भाषा संयोजनों में, एआई वॉयस लॉगिंग ने 91 प्रतिशत समय में प्राथमिक खाद्य वस्तु को सही ढंग से पहचाना। अंग्रेजी, स्पेनिश, और पुर्तगाली ने सबसे उच्च सटीकता (95 से 97 प्रतिशत) प्राप्त की, जबकि मंदारिन चीनी जैसी टोनल भाषाएँ और तुर्की और अरबी जैसी जटिल रूपविज्ञान वाली भाषाएँ 83 से 89 प्रतिशत के बीच सटीकता दिखाती हैं — यह अभी भी उपयोगी है, लेकिन अधिक बार स्पष्टीकरण संकेतों की आवश्यकता होती है।

परीक्षण: 10 भोजन, 10 भाषाएँ, 100 संयोजन

हमने 10 ऐसे भोजन का चयन किया जो वैश्विक व्यंजनों का प्रतिनिधित्व करते हैं और विभिन्न एनएलपी चुनौतियाँ प्रस्तुत करते हैं — यौगिक सामग्री, सांस्कृतिक रूप से विशिष्ट व्यंजन, संख्यात्मक मात्रा, और संशोधक-भारी विवरण। प्रत्येक भोजन का वर्णन सभी 10 भाषाओं में मूल वक्ताओं द्वारा किया गया, और वॉयस लॉगिंग पाइपलाइन का मूल्यांकन तीन मानदंडों पर किया गया:

  1. खाद्य पहचान: क्या एआई ने प्राथमिक खाद्य वस्तु(ओं) को सही ढंग से पहचाना?
  2. मात्रा सटीकता: क्या संख्यात्मक मात्रा और सेवा आकार को सही ढंग से विश्लेषित किया गया?
  3. डेटाबेस मिलान: क्या सही पोषण डेटाबेस प्रविष्टि का चयन किया गया?

10 परीक्षण भोजन

भोजन # विवरण (अंग्रेजी) प्रमुख एनएलपी चुनौती
1 दो स्क्रैम्बल अंडे चेडर चीज़ के साथ मात्रा + संशोधक
2 ग्रिल्ड चिकन ब्रेस्ट के साथ स्टीम्ड ब्रोकोली दो अलग-अलग आइटम + तैयारी विधि
3 टोफू के साथ एक कटोरी मिसो सूप कंटेनर मात्रा + सांस्कृतिक रूप से विशिष्ट व्यंजन
4 पेस्टा बोलोग्नीज़ के साथ परमेसन यौगिक व्यंजन नाम + टॉपिंग
5 एक बड़ा ग्रीक सलाद फेटा और जैतून के तेल की ड्रेसिंग के साथ आकार संशोधक + कई सामग्री
6 200 ग्राम सफेद चावल ग्रिल्ड सैल्मन के साथ सटीक मेट्रिक मात्रा + दो आइटम
7 बादाम का एक मुट्ठी और एक केला अस्पष्ट मात्रा + संयोजन
8 चिकन शावरमा रैप ताहिनी सॉस के साथ सांस्कृतिक रूप से विशिष्ट + यौगिक आइटम
9 मूंगफली के मक्खन के साथ दो स्लाइस साबुत अनाज की रोटी मात्रा + बहु-शब्द खाद्य नाम
10 काली कॉफी और एक ब्लूबेरी मफिन संशोधक (काली) + यौगिक खाद्य नाम

10 भाषाएँ

भाषाओं का चयन विभिन्न भाषाई परिवारों, लेखन प्रणालियों, और ध्वन्यात्मक विशेषताओं को कवर करने के लिए किया गया:

  • अंग्रेजी — जर्मेनिक, लैटिन लिपि, संदर्भ बिंदु
  • स्पेनिश — रोमांस, लैटिन लिपि, लिंगित संज्ञाएँ
  • मंदारिन चीनी — साइनो-तिब्बती, लोगोग्राफिक लिपि, टोनल (4 टोन)
  • जर्मन — जर्मेनिक, लैटिन लिपि, यौगिक शब्द, व्याकरणिक मामले
  • तुर्की — तुर्किक, लैटिन लिपि, समुच्चयात्मक रूपविज्ञान
  • फ्रेंच — रोमांस, लैटिन लिपि, भाषण में लियसन और एलीज़न
  • जापानी — जापोनिक, मिश्रित लिपि (कांजी/हिरागाना/कटाकाना), सम्मानजनक भाषण स्तर
  • कोरियाई — कोरियानिक, हंगुल लिपि, विषय-ऑब्जेक्ट-क्रिया शब्द क्रम
  • पुर्तगाली — रोमांस, लैटिन लिपि, नासल स्वर
  • अरबी — सेमिटिक, अरबी लिपि (दाएं से बाएं), मूल-आधारित रूपविज्ञान, डिग्लोसिया

पूर्ण परिणाम: खाद्य पहचान सटीकता भाषा और भोजन के अनुसार

नीचे दी गई तालिका में दर्शाया गया है कि एआई ने प्रत्येक भोजन के लिए प्रत्येक भाषा में प्राथमिक खाद्य वस्तु(ओं) को सही ढंग से पहचाना या नहीं। एक चेकमार्क सही पहचान को दर्शाता है; एक X विफलता या महत्वपूर्ण गलत पहचान को दर्शाता है।

भोजन EN ES ZH DE TR FR JA KO PT AR
1. स्क्रैम्बल अंडे + चेडर 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
2. चिकन ब्रेस्ट + ब्रोकोली 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10 10/10 9/10
3. मिसो सूप + टोफू 10/10 9/10 10/10 9/10 8/10 9/10 10/10 10/10 9/10 8/10
4. पेस्टा बोलोग्नीज़ 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 8/10
5. ग्रीक सलाद + फेटा 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 7/10
6. 200g चावल + सैल्मन 10/10 10/10 10/10 10/10 9/10 10/10 10/10 10/10 10/10 9/10
7. मुट्ठी भर बादाम + केला 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
8. चिकन शावरमा रैप 10/10 9/10 7/10 8/10 9/10 9/10 7/10 7/10 9/10 10/10
9. रोटी + मूंगफली का मक्खन 10/10 10/10 9/10 10/10 9/10 10/10 9/10 9/10 10/10 9/10
10. काली कॉफी + मफिन 9/10 9/10 8/10 9/10 8/10 9/10 8/10 8/10 9/10 8/10
कुल (/100) 97 95 87 94 87 95 88 87 96 85

मात्रा विश्लेषण सटीकता भाषा के अनुसार

मात्रा विश्लेषण यह मापता है कि एआई ने संख्यात्मक मात्रा, अस्पष्ट मात्रा ("एक मुट्ठी," "एक कटोरी"), और मेट्रिक माप को सही ढंग से कैसे व्याख्या किया। इसे अलग से परीक्षण किया गया क्योंकि एक प्रणाली खाद्य पहचान को सही कर सकती है लेकिन गलत सेवा आकार निर्धारित कर सकती है।

भाषा सटीक संख्यात्मक (जैसे, "200g", "दो") अस्पष्ट मात्रा (जैसे, "एक मुट्ठी") डिफ़ॉल्ट सेवा (कोई मात्रा नहीं बताई गई) कुल मात्रा सटीकता
अंग्रेजी 98% 89% 94% 94%
स्पेनिश 97% 87% 93% 92%
पुर्तगाली 97% 86% 93% 92%
फ्रेंच 96% 85% 92% 91%
जर्मन 96% 84% 91% 90%
जापानी 93% 80% 90% 88%
कोरियाई 92% 79% 89% 87%
तुर्की 91% 78% 88% 86%
मंदारिन चीनी 90% 76% 88% 85%
अरबी 89% 74% 87% 83%

सटीक संख्यात्मक मात्राएँ सभी भाषाओं में अच्छी तरह से विश्लेषित की गईं क्योंकि संख्याएँ अपेक्षाकृत पूर्वानुमानित पैटर्न का पालन करती हैं। अस्पष्ट मात्राएँ सबसे बड़ी चुनौती प्रस्तुत करती हैं, विशेष रूप से उन भाषाओं में जहाँ "एक मुट्ठी" या "एक कटोरी" के समकक्ष अभिव्यक्तियाँ हैं जिनका कोई सीधा अंग्रेजी अनुवाद नहीं है।

भाषा-विशिष्ट चुनौतियाँ और एनएलपी पाइपलाइन उन्हें कैसे संभालती है

मंदारिन चीनी: टोनल भिन्नताएँ और माप शब्द

मंदारिन चीनी वॉयस फूड लॉगिंग के लिए दो प्रमुख चुनौतियाँ प्रस्तुत करता है।

टोनल अस्पष्टता एएसआर में: मंदारिन में चार टोन और एक तटस्थ टोन होते हैं, और कई खाद्य-संबंधित शब्द केवल टोन द्वारा भिन्न होते हैं। उदाहरण के लिए, "तांग" एक उठते टोन (दूसरा टोन) के साथ सूप का अर्थ है, जबकि "तांग" एक गिरते टोन (चौथा टोन) के साथ चीनी का। एएसआर मॉडल को ऑडियो वेवफॉर्म से टोन को सही ढंग से पहचानना होता है, जो शोर वाले वातावरण या तेज़ भाषण में कठिन होता है।

माप शब्द (क्लासिफायर): चीनी में संख्याओं और संज्ञाओं के बीच विशिष्ट माप शब्द (量词) का उपयोग किया जाता है। "दो अंडे" के लिए वाक्यांश "两个鸡蛋" (liǎng gè jīdàn) है, जहाँ "个" माप शब्द है। विभिन्न खाद्य पदार्थों के लिए विभिन्न माप शब्द आवश्यक होते हैं — "片" (piàn) स्लाइस के लिए, "碗" (wǎn) कटोरियों के लिए, "杯" (bēi) कप के लिए। एनईआर मॉडल को इन क्लासिफायर को मात्रा संकेतक के रूप में पहचानना होता है न कि खाद्य संशोधक के रूप में।

इन चुनौतियों के बावजूद, मंदारिन वॉयस लॉगिंग ने 87 प्रतिशत खाद्य पहचान सटीकता प्राप्त की क्योंकि आधुनिक प्रणालियों में उपयोग किए जाने वाले एएसआर मॉडल (जिसमें बहुभाषी व्हिस्पर शामिल है) व्यापक मंदारिन भाषण डेटा पर प्रशिक्षित होते हैं, और चीनी खाद्य शब्दावली प्रशिक्षण कॉर्पस में अच्छी तरह से प्रतिनिधित्व की जाती है।

जर्मन: यौगिक शब्द और व्याकरणिक मामले

जर्मन बिना स्पेस के शब्दों को जोड़कर यौगिक संज्ञाएँ बनाता है। "वोल्कॉर्नब्रोट" (साबुत अनाज की रोटी) एक ऐसा एकल शब्द है जो "वोल्क" (पूर्ण) + "कर्न" (अनाज) + "ब्रोट" (रोटी) से बना है। एनईआर मॉडल को इन यौगिकों को सही ढंग से मानचित्रित करने के लिए विघटित करना होता है।

जर्मन में सामान्य यौगिक खाद्य शब्दों में शामिल हैं:

जर्मन यौगिक घटक अंग्रेजी समकक्ष
एरडनुस्सबटर एरडनुस्स + बटर मूंगफली का मक्खन
ह्यूह्नरब्रस्ट ह्यूह्नर + ब्रस्ट चिकन ब्रेस्ट
वोल्कॉर्नब्रोट वोल्क + कर्न + ब्रोट साबुत अनाज की रोटी
रूहरेयर रूह्र + एर स्क्रैम्बल अंडे
ओलिवेनऑल ओलिवेन + ऑल जैतून का तेल
ब्लाउबेरमफिन ब्लाउबेर + मफिन ब्लूबेरी मफिन

जर्मन के व्याकरणिक मामले भी वाक्य में खाद्य नामों को प्रभावित करते हैं। "Ich hatte zwei Scheiben Brot mit Erdnussbutter" में आरोपण मामले का उपयोग किया गया है, जो इन विशेष संज्ञाओं को नहीं बदलता है लेकिन उनके साथ आने वाले लेखों और विशेषणों को बदल सकता है। आधुनिक ट्रांसफार्मर-आधारित एनईआर मामले के रूपांतरण को अच्छी तरह से संभालते हैं क्योंकि मॉडल संदर्भ पैटर्न सीखता है न कि सटीक स्ट्रिंग मिलान पर निर्भर करता है।

तुर्की: समुच्चयात्मक रूपविज्ञान

तुर्की मूल शब्दों पर प्रत्यय जोड़कर अर्थ व्यक्त करता है, जिससे लंबे एकल शब्द बनते हैं जो आमतौर पर अंग्रेजी में कई शब्दों में फैले होते हैं। "यूमुर्तालारीमदान" का अर्थ है "मेरे अंडों से" — एक ऐसा एकल शब्द जिसमें मूल (यूमुर्ता = अंडा), बहुवचन प्रत्यय (-लार), स्वामित्व प्रत्यय (-ım), और अपादान मामले का प्रत्यय (-दान) शामिल है।

खाद्य एनईआर के लिए चुनौती यह है कि भारी प्रत्ययित रूप में मूल खाद्य शब्द की पहचान करना। सबवर्ड टोकनाइजेशन — वह तकनीक जिसका उपयोग बर्ट और समान मॉडलों द्वारा शब्दों को अर्थपूर्ण टुकड़ों में तोड़ने के लिए किया जाता है — यहाँ महत्वपूर्ण है। तुर्की-विशिष्ट मॉडल जैसे बर्टुर्क सामान्य तुर्की प्रत्ययों को अलग टोकनों के रूप में शामिल करते हैं, जिससे मॉडल को "यूमुर्ता" को खाद्य इकाई के रूप में पहचानने में मदद मिलती है, भले ही यह लंबे समुच्चयात्मक रूप का हिस्सा हो।

तुर्की वॉयस लॉगिंग की सटीकता 87 प्रतिशत है, जो इस रूपविज्ञान की जटिलता को दर्शाती है, जिसमें अधिकांश त्रुटियाँ उन कम सामान्य व्यंजनों पर होती हैं जहाँ समुच्चयात्मक रूप प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं किया गया था।

अरबी: मूल-आधारित रूपविज्ञान और डिग्लोसिया

अरबी एएसआर और एनईआर दोनों चरणों में अद्वितीय चुनौतियाँ प्रस्तुत करता है।

मूल-आधारित रूपविज्ञान: अरबी शब्द तीन-अक्षरी मूल से बने होते हैं जिनमें स्वर पैटर्न और उपसर्ग/प्रत्यय होते हैं। मूल ط-ب-خ (t-b-kh, खाना पकाने से संबंधित) "طبخ" (tabakh, खाना बनाना), "مطبخ" (matbakh, रसोई), "طباخ" (tabbakh, रसोइया), और "مطبوخ" (matbookh, पका हुआ) उत्पन्न करता है। एनईआर मॉडल को यह पहचानना चाहिए कि ये संबंधित रूप सभी खाद्य तैयारी से संबंधित हैं।

डिग्लोसिया: आधुनिक मानक अरबी (एमएसए) और विभिन्न बोली भाषाओं के बीच महत्वपूर्ण अंतर है। मिस्र में एक उपयोगकर्ता "فراخ مشوية" (firakh mashwiya) कह सकता है, जबकि लेवेंट में एक उपयोगकर्ता "دجاج مشوي" (dajaj mashwi) कहेगा। एएसआर और एनईआर मॉडल को एमएसए और प्रमुख बोली भिन्नताओं को संभालना होता है।

गैर-लैटिन लिपि: अरबी दाएं से बाएं लिखी जाती है और जुड़े हुए अक्षर होते हैं, और छोटे स्वर आमतौर पर लेखन में छोड़े जाते हैं। जबकि यह सीधे वॉयस लॉगिंग को प्रभावित नहीं करता (जो ऑडियो से शुरू होता है), एनईआर मॉडल के प्रशिक्षण डेटा को अरबी पाठ प्रतिनिधित्व को सही ढंग से संभालना चाहिए।

अरबी ने हमारे परीक्षण में 85 प्रतिशत सटीकता प्राप्त की — 10 भाषाओं में सबसे कम — मुख्य रूप से बोली भिन्नता के कारण। जब वक्ता एमएसए का उपयोग करते हैं, तो सटीकता 91 प्रतिशत तक बढ़ जाती है, यह सुझाव देते हुए कि बोली-विशिष्ट फाइन-ट्यूनिंग आगे सुधार की कुंजी है।

जापानी: कई लिपियाँ और काउंटर

जापानी तीन लेखन प्रणालियों (कांजी, हिरागाना, कटाकाना) का उपयोग करता है और संख्यात्मक काउंटरों का एक जटिल प्रणाली है जो चीनी माप शब्दों के समान है। खाद्य-संबंधित भाषण अक्सर जापानी और अंग्रेजी उधार शब्दों को कटाकाना में मिलाता है — "ブルーベリーマフィン" (buruberii mafin) "ब्लूबेरी मफिन" का कटाकाना रूपांतरण है।

जापानी में एएसआर की चुनौती कोड-स्विचिंग है: वक्ता स्वाभाविक रूप से जापानी खाद्य शब्दों को अंग्रेजी मूल के शब्दों के साथ मिलाते हैं। एक वाक्य हो सकता है "スクランブルエッグ二つとトースト" (sukuranburu eggu futatsu to toosuto), जिसमें अंग्रेजी से निकले "स्क्रैम्बल अंडे" और "टोस्ट" को जापानी व्याकरण और मूल काउंटर "二つ" (futatsu, दो आइटम) के साथ मिलाया गया है।

आधुनिक बहुभाषी एएसआर इसे अच्छी तरह से संभालता है क्योंकि प्रशिक्षण डेटा में कोड-स्विच किए गए जापानी भाषण शामिल होते हैं। जापानी ने 88 प्रतिशत खाद्य पहचान सटीकता प्राप्त की, जिसमें त्रुटियाँ पारंपरिक जापानी व्यंजनों पर केंद्रित थीं जिनका वर्णन क्षेत्रीय बोली शब्दों में किया गया था न कि मानक जापानी में।

फ्रेंच: लियसन, एलीज़न, और लिंगित खाद्य नाम

फ्रेंच भाषण में लियसन (शब्दों के बीच ध्वनियों को जोड़ना) और एलीज़न (अन्य स्वर के पहले स्वर को छोड़ना) शामिल हैं, जो ऑडियो में शब्द सीमाओं को स्पष्ट करने में कठिनाई पैदा कर सकते हैं। "Les oeufs" (अंडे) एक जुड़े हुए ध्वनि के रूप में उच्चारित होता है जहाँ "les" सीधे "oeufs" से जुड़ता है, जो शब्द-सीमा पहचान को भ्रमित कर सकता है।

फ्रेंच खाद्य नाम लिंगित होते हैं: "le poulet" (पुलित, चिकन) बनाम "la salade" (फेमिनिन, सलाद)। जबकि लिंग खाद्य पहचान को नहीं बदलता है, यह चारों ओर के लेखों और विशेषणों को प्रभावित करता है, जिन्हें एनईआर मॉडल संदर्भ संकेतक के रूप में उपयोग करता है। लिंग संकेतकों की गलत पहचान एंटिटी निष्कर्षण त्रुटियों में फैल सकती है।

फ्रेंच ने फिर भी 95 प्रतिशत सटीकता प्राप्त की — गैर-अंग्रेजी भाषाओं में सबसे उच्चतम — क्योंकि फ्रेंच में व्यापक एएसआर प्रशिक्षण डेटा है और फ्रेंच व्यंजन वैश्विक खाद्य डेटाबेस में अच्छी तरह से प्रतिनिधित्व करते हैं।

कोरियाई: विषय-ऑब्जेक्ट-क्रिया क्रम और सम्मानजनक भाषाएँ

कोरियाई वाक्य के अंत में क्रिया रखता है, जिसका अर्थ है कि खाद्य वस्तुएँ वाक्य के प्रारंभ में आती हैं। "스크램블 에그 두 개와 토스트를 먹었어요" (scrambled eggs two pieces and toast ate) एसओवी क्रम का पालन करता है। एनईआर मॉडल जो मुख्य रूप से एसवीओ भाषाओं (जैसे अंग्रेजी) पर प्रशिक्षित होते हैं, को इस भिन्न क्रम के अनुकूल होना पड़ता है।

कोरियाई विभिन्न भाषण स्तरों (औपचारिक, विनम्र, अनौपचारिक) का भी उपयोग करता है जो क्रिया के अंत को बदलते हैं और वाक्य में कण जोड़ सकते हैं। ये अतिरिक्त रूपांकनों खाद्य इकाई और इसकी मात्रा संकेतक के बीच की दूरी बढ़ाते हैं, जिससे एनईआर मॉडल को लंबी दूरी की निर्भरताओं को संभालना आवश्यक हो जाता है।

कोरियाई ने 87 प्रतिशत सटीकता प्राप्त की, जो चीनी और तुर्की के समान है, जिसमें मात्रा विश्लेषण सबसे कमजोर क्षेत्र है क्योंकि जटिल काउंटर प्रणाली और परिवर्तनीय भाषण स्तर होते हैं।

भाषाओं को कुल वॉयस लॉगिंग सटीकता के अनुसार रैंक किया गया

खाद्य पहचान, मात्रा विश्लेषण, और डेटाबेस मिलान को एक एकल वेटेड स्कोर में संयोजित करने से निम्नलिखित रैंकिंग उत्पन्न होती है:

रैंक भाषा खाद्य पहचान मात्रा सटीकता डेटाबेस मिलान कुल स्कोर
1 अंग्रेजी 97% 94% 96% 95.7%
2 पुर्तगाली 96% 92% 95% 94.3%
3 स्पेनिश 95% 92% 94% 93.7%
4 फ्रेंच 95% 91% 93% 93.0%
5 जर्मन 94% 90% 92% 92.0%
6 जापानी 88% 88% 90% 88.7%
7 कोरियाई 87% 87% 88% 87.3%
8 तुर्की 87% 86% 87% 86.7%
9 मंदारिन चीनी 87% 85% 86% 86.0%
10 अरबी 85% 83% 84% 84.0%

सर्वोत्तम प्रदर्शन करने वाली भाषा (अंग्रेजी, 95.7 प्रतिशत) और सबसे कम (अरबी, 84.0 प्रतिशत) के बीच का अंतर 11.7 प्रतिशत अंक है। यह महत्वपूर्ण है लेकिन घट रहा है। 2023 में, बहुभाषी एएसआर बेंचमार्क में समान अंतर लगभग 20 प्रतिशत अंक था, जो गैर-अंग्रेजी भाषण मॉडलों में तेजी से सुधार को दर्शाता है।

कुछ भाषाएँ अन्य भाषाओं की तुलना में उच्च स्कोर क्यों करती हैं

सटीकता में भिन्नता को समझाने वाले तीन कारक हैं:

1. प्रशिक्षण डेटा की मात्रा

एएसआर और एनईआर मॉडल का प्रदर्शन प्रत्येक भाषा के लिए उपलब्ध प्रशिक्षण डेटा की मात्रा के साथ सीधे संबंधित है। अंग्रेजी के पास अरबी या कोरियाई की तुलना में कई गुना अधिक लेबल वाला भाषण डेटा है। कॉमन वॉयस डेटासेट (मोज़िला, 2024) में अंग्रेजी के लिए 19,000 से अधिक मान्य घंटे हैं लेकिन कोरियाई के लिए 300 घंटे से कम और अरबी के लिए 100 घंटे से कम हैं।

2. खाद्य डेटाबेस कवरेज

उन भाषाओं में जहाँ खाद्य संघटन डेटाबेस (यूएसडीए अंग्रेजी के लिए, बीएलएस जर्मन के लिए, सीक्वल फ्रेंच के लिए) अच्छी तरह से प्रलेखित हैं, उच्च डेटाबेस मिलान स्कोर प्राप्त होते हैं। जहाँ खाद्य संघटन डेटा कम मानकीकृत या कम डिजिटल होता है, वहाँ अधिक मानचित्रण विफलताएँ होती हैं।

3. एनएलपी के लिए भाषाई जटिलता

समुच्चयात्मक भाषाएँ (तुर्की, कोरियाई), टोनल भाषाएँ (चीनी), और जटिल रूपविज्ञान वाली भाषाएँ (अरबी) अधिक जटिल एनएलपी पाइपलाइनों की आवश्यकता होती हैं। अतिरिक्त प्रसंस्करण चरणों में त्रुटियों के संचय के लिए अधिक अवसर होते हैं।

Nutrola बहुभाषी वॉयस लॉगिंग को कैसे संभालता है

Nutrola की वॉयस लॉगिंग पाइपलाइन बहुभाषी चुनौतियों को कई आर्किटेक्चरल निर्णयों के माध्यम से संबोधित करती है:

  • भाषा-विशिष्ट एएसआर मॉडल: एकल बहुभाषी मॉडल का उपयोग करने के बजाय, पाइपलाइन उपयोगकर्ता की भाषा सेटिंग ज्ञात होने पर ऑडियो को भाषा-विशिष्ट फाइन-ट्यून किए गए मॉडलों में रूट करती है, जो सामान्य बहुभाषी एएसआर की तुलना में 3 से 5 प्रतिशत अंक की सटीकता में सुधार करती है।
  • स्थानीय-जानकारी वाली अस्पष्टता: खाद्य इकाई अस्पष्टता उपयोगकर्ता के क्षेत्र का उपयोग करके क्षेत्र-विशिष्ट खाद्य नामों को हल करती है। "चिप्स" लंदन, न्यूयॉर्क, और सिडनी में उपयोगकर्ताओं के लिए अलग-अलग हल होती है।
  • क्रॉस-लिंगुअल खाद्य डेटाबेस: सत्यापित पोषण डेटाबेस खाद्य प्रविष्टियों को विभिन्न भाषाओं में मानचित्रित करता है, ताकि "poulet grille" (फ्रेंच), "pollo a la plancha" (स्पेनिश), और "grilled chicken" (अंग्रेजी) सभी एक ही सत्यापित पोषण प्रोफ़ाइल पर हल हो सकें।
  • पाठ प्रविष्टि के लिए फॉलबैक: जब किसी भी भाषा में वॉयस विश्वास सीमा से नीचे गिरता है, तो उपयोगकर्ता आसानी से पाठ खोज या बारकोड स्कैनिंग पर स्विच कर सकते हैं — Nutrola का बारकोड स्कैनर वैश्विक स्तर पर 95 प्रतिशत से अधिक पैक किए गए उत्पादों को कवर करता है।

एआई फोटो लॉगिंग और एआई डाइट असिस्टेंट के साथ मिलकर, ये बहुभाषी वॉयस क्षमताएँ Nutrola को विश्वभर में उपयोगकर्ताओं के लिए एक व्यावहारिक दैनिक पोषण ट्रैकर बनाती हैं। सभी सुविधाएँ — सभी समर्थित भाषाओं में वॉयस लॉगिंग सहित — 2.50 यूरो प्रति माह की प्रारंभिक कीमत पर उपलब्ध हैं, जिसमें 3-दिन की मुफ्त परीक्षण अवधि है, और किसी भी स्तर पर कोई विज्ञापन नहीं है।

आगे का रास्ता: 2026 और उसके बाद बहुभाषी वॉयस लॉगिंग

कई विकास बहुभाषी वॉयस फूड लॉगिंग में सुधार कर रहे हैं:

  • बोली-विशिष्ट फाइन-ट्यूनिंग: नई डेटासेट जो बोली भाषाओं (मिस्री अरबी, ब्राजीलियाई पुर्तगाली, कैंटोनीज़) को लक्षित करती हैं, मानक और बोलचाल की भाषाओं के बीच सटीकता के अंतर को बंद कर रही हैं।
  • मल्टीमोडल इनपुट: वॉयस को फोटो के साथ मिलाकर एआई को क्रॉस-वैधता करने की अनुमति मिलती है — यदि फोटो चावल दिखाता है और वॉयस "arroz" (स्पेनिश में चावल) कहता है, तो दोनों मोडालिटीज़ के लिए विश्वास बढ़ता है।
  • स्व-सुपरवाइज्ड लर्निंग: बिना लेबल वाले बहुभाषी ऑडियो पर प्रशिक्षित मॉडल (wav2vec 2.0, HuBERT) बिना ट्रांसक्राइब किए डेटा की आवश्यकता के बिना भाषण प्रतिनिधित्व सीखते हैं, जिससे कम संसाधन वाली भाषाओं के लिए तेजी से सुधार संभव होता है।
  • उपयोगकर्ता फीडबैक लूप: प्रत्येक सुधार जो उपयोगकर्ता करता है ("यह भूरा चावल होना चाहिए, सफेद चावल नहीं") उस भाषा में मॉडल में सुधार के लिए एक प्रशिक्षण संकेत बन जाता है।

अक्सर पूछे जाने वाले प्रश्न

एआई वॉयस फूड लॉगिंग किस भाषाओं में सबसे अच्छा काम करता है?

अंग्रेजी, स्पेनिश, पुर्तगाली, और फ्रेंच वॉयस फूड लॉगिंग के लिए उच्चतम सटीकता प्राप्त करते हैं, सभी का कुल स्कोर 93 प्रतिशत से ऊपर है। ये भाषाएँ व्यापक एएसआर प्रशिक्षण डेटा, अच्छी तरह से प्रलेखित खाद्य डेटाबेस, और एनएलपी प्रसंस्करण के लिए अपेक्षाकृत सरल रूपविज्ञान से लाभान्वित होती हैं। जर्मन 92 प्रतिशत कुल स्कोर के साथ पांचवें स्थान पर है।

क्या मैं मंदारिन चीनी में भोजन को सही ढंग से वॉयस लॉग कर सकता हूँ?

मंदारिन चीनी वॉयस लॉगिंग लगभग 86 प्रतिशत कुल सटीकता प्राप्त करती है। मुख्य चुनौतियाँ एएसआर में टोनल भिन्नताएँ (जहाँ "तांग" का अर्थ टोन के आधार पर भिन्न होता है) और मात्रा के लिए माप शब्द प्रणाली हैं। स्पष्ट उच्चारण वाले सामान्य खाद्य पदार्थों के लिए, सटीकता काफी अधिक होती है। अस्पष्ट विवरणों के बजाय सटीक संख्यात्मक मात्राएँ (जैसे "200克," 200 ग्राम) का उपयोग करने से परिणामों में सुधार होता है।

एआई उन खाद्य नामों को कैसे संभालता है जो भाषाओं के बीच अनुवाद नहीं होते?

संस्कृतिक रूप से विशिष्ट खाद्य पदार्थ जैसे "शावरमा," "मिसो," और "तज़त्ज़िकी" क्रॉस-लिंगुअल खाद्य इकाई डेटाबेस के माध्यम से संभाले जाते हैं जो मूल-भाषा खाद्य नामों को सीधे पोषण प्रोफाइल से मानचित्रित करते हैं। जब एक तुर्की वक्ता "तवुक शावरमा" कहता है या एक जापानी वक्ता "味噌汁" (मिसो सूप) कहता है, तो एनईआर मॉडल इनको उनके संबंधित भाषाओं में खाद्य इकाई के रूप में पहचानता है और उन्हें उचित डेटाबेस प्रविष्टियों से मानचित्रित करता है, चाहे अंग्रेजी समकक्ष मौजूद हो या न हो।

अरबी वॉयस लॉगिंग अन्य भाषाओं की तुलना में कम सटीक क्यों है?

अरबी वॉयस लॉगिंग 84 प्रतिशत कुल स्कोर प्राप्त करती है, मुख्य रूप से तीन कारकों के कारण: (1) डिग्लोसिया — आधुनिक मानक अरबी और बोली भाषाओं के बीच महत्वपूर्ण अंतर का अर्थ है कि मॉडल को कई उच्चारण भिन्नताओं को संभालना पड़ता है; (2) यूरोपीय भाषाओं की तुलना में सीमित लेबल वाला प्रशिक्षण डेटा; और (3) मूल-आधारित रूपविज्ञान जो प्रत्येक खाद्य अवधारणा के लिए कई सतही रूप बनाता है। जब वक्ता आधुनिक मानक अरबी का उपयोग करते हैं, तो सटीकता लगभग 91 प्रतिशत तक बढ़ जाती है।

क्या वॉयस लॉगिंग की सटीकता समय के साथ मेरे विशेष भाषा में सुधार होती है?

हाँ। वॉयस लॉगिंग सिस्टम दो तंत्रों के माध्यम से सुधारता है: वैश्विक मॉडल अपडेट जो एक विशेष भाषा के सभी उपयोगकर्ताओं के बीच संचित उपयोगकर्ता डेटा पर प्रशिक्षित होते हैं, और व्यक्तिगत अनुकूलन जो आपके विशेष उच्चारण पैटर्न, अक्सर लॉग किए गए खाद्य पदार्थों, और पसंदीदा खाद्य नामों को सीखता है। नियमित उपयोग के दो से तीन सप्ताह बाद, प्रणाली आमतौर पर आपके सामान्य भोजन के लिए पहचान सटीकता में मापनीय सुधार दिखाती है।

क्या मैं वॉयस लॉगिंग करते समय भाषाओं को मिलाकर उपयोग कर सकता हूँ, जैसे कि स्पेनिश में भोजन का वर्णन करते समय कुछ अंग्रेजी खाद्य शब्दों का उपयोग करना?

कोड-स्विचिंग — एक ही अभिव्यक्ति में दो भाषाओं को मिलाना — बहुभाषी परिवारों में सामान्य है और आधुनिक एएसआर मॉडलों द्वारा increasingly समर्थित है। "Tuve un bowl de quinoa con grilled chicken" (स्पेनिश और अंग्रेजी को मिलाकर) को सामान्यतः बहुभाषी ट्रांसफार्मर मॉडलों द्वारा सही ढंग से विश्लेषित किया जाएगा जो कोड-स्विच किए गए डेटा पर प्रशिक्षित होते हैं। हालाँकि, सटीकता एकल-भाषा अभिव्यक्तियों की तुलना में लगभग 5 से 8 प्रतिशत अंक कम होती है, इसलिए एक भाषा में रहना सबसे अच्छे परिणाम उत्पन्न करता है।

मैं गैर-अंग्रेजी भाषा में सबसे सटीक वॉयस लॉगिंग परिणाम कैसे प्राप्त कर सकता हूँ?

चार प्रथाएँ सटीकता में सुधार करती हैं: (1) मध्यम गति से स्पष्ट उच्चारण के साथ बोलें; (2) जब संभव हो सटीक मात्राएँ उपयोग करें ("200 ग्राम" के बजाय "थोड़ा सा"); (3) क्षेत्रीय स्लैंग या संक्षेपण के बजाय मानक खाद्य नामों का उपयोग करें; और (4) जब एआई कुछ गलत करता है तो सुधार करें, क्योंकि यह फीडबैक भविष्य की पहचान में सीधे सुधार करता है। Nutrola भी उन वस्तुओं के लिए फोटो लॉगिंग या बारकोड स्कैनिंग पर स्विच करने का समर्थन करता है जिन्हें मौखिक रूप से वर्णन करना कठिन होता है।

क्या Nutrola सभी 10 परीक्षण की गई भाषाओं में वॉयस लॉगिंग का समर्थन करता है?

Nutrola बहुभाषी चुनौतियों का सामना करने के लिए इस लेख में वर्णित पूर्ण एनएलपी पाइपलाइन के साथ कई भाषाओं में वॉयस लॉगिंग का समर्थन करता है। ऐप स्वचालित रूप से उपयोगकर्ता की डिवाइस भाषा का पता लगाता है और वॉयस इनपुट को उचित भाषा-विशिष्ट मॉडलों में रूट करता है। एप्पल हेल्थ और गूगल फिट सिंक उस भाषा की परवाह किए बिना काम करता है जिसका आप लॉगिंग के लिए उपयोग करते हैं, यह सुनिश्चित करते हुए कि आपका पोषण डेटा आपके स्वास्थ्य पारिस्थितिकी तंत्र के साथ निर्बाध रूप से एकीकृत होता है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!