कैसे वॉइस लॉगिंग एआई प्राकृतिक भाषा को खाद्य ट्रैकिंग के लिए समझता है

वॉइस-आधारित खाद्य लॉगिंग के पीछे की NLP पाइपलाइन का तकनीकी गहराई से अध्ययन — स्वचालित भाषण पहचान और नामित इकाई पहचान से लेकर खाद्य अस्पष्टता, मात्रा मानकीकरण, और आत्मविश्वास स्कोरिंग तक।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

"मैंने अभी दो स्क्रैम्बल अंडे चेडर के साथ पूरे गेहूं की टोस्ट पर खाए" जैसे वाक्य को अपने फोन में बोलने और उसे एक पूर्ण लॉग किए गए भोजन के रूप में सटीक मैक्रोज़ के साथ देखना लगभग जादुई लगता है। इस सहज अनुभव के पीछे एक जटिल प्राकृतिक भाषा प्रसंस्करण पाइपलाइन है जो कच्चे ऑडियो को संरचित पोषण डेटा में दो सेकंड से भी कम समय में बदल देती है। इस पाइपलाइन को समझने से यह स्पष्ट होता है कि वॉइस लॉगिंग क्यों खाने की ट्रैकिंग का सबसे तेज और सटीक तरीका बन गया है।

वॉइस लॉगिंग एआई एक बहु-चरणीय NLP पाइपलाइन का उपयोग करता है — स्वचालित भाषण पहचान (ASR), इरादा वर्गीकरण, नामित इकाई पहचान (NER), खाद्य अस्पष्टता, मात्रा मानकीकरण, डेटाबेस मैपिंग, और आत्मविश्वास स्कोरिंग — ताकि बोले गए भोजन के विवरण को सटीक, सत्यापित पोषण प्रविष्टियों में बदला जा सके।

यह लेख उस पाइपलाइन के प्रत्येक चरण के माध्यम से चलता है, अंतर्निहित तकनीक को समझाता है, और दिखाता है कि कैसे एक बोले गए वाक्य को एक पूर्ण खाद्य लॉग प्रविष्टि में बदला जाता है।

वॉइस फूड लॉगिंग के लिए सात-चरणीय NLP पाइपलाइन

वॉइस-आधारित खाद्य ट्रैकिंग कोई एकल एल्गोरिदम नहीं है। यह विशेषीकृत मॉडलों की एक श्रृंखला है, प्रत्येक समस्या के एक अलग हिस्से को हल करता है। जब आप भोजन का विवरण बोलते हैं, तो आपके शब्द सात अलग-अलग प्रसंस्करण चरणों से गुजरते हैं, इससे पहले कि एक पोषण प्रविष्टि आपके लॉग में दिखाई दे।

नीचे दी गई तालिका एकल उच्चारण को पूरी पाइपलाइन के माध्यम से दर्शाती है:

चरण प्रक्रिया इनपुट आउटपुट
1. ASR स्पीच-टू-टेक्स्ट ऑडियो वेवफॉर्म "दो स्क्रैम्बल अंडे चेडर के साथ पूरे गेहूं की टोस्ट पर"
2. इरादा पहचान उपयोगकर्ता के इरादे को वर्गीकृत करें कच्चा ट्रांसक्रिप्ट इरादा: खाद्य_लॉगिंग (आत्मविश्वास 0.97)
3. NER खाद्य इकाइयों को निकालें वर्गीकृत ट्रांसक्रिप्ट [स्क्रैम्बल अंडे, चेडर, पूरे गेहूं की टोस्ट]
4. अस्पष्टता अस्पष्ट इकाइयों को हल करें कच्ची खाद्य इकाइयाँ [स्क्रैम्बल अंडे (USDA: 01132), चेडर चीज़ (USDA: 01009), पूरे गेहूं की ब्रेड, टोस्टेड (USDA: 20090)]
5. मात्रा मानकीकरण मात्रा को मानकीकृत करें "दो", डिफ़ॉल्ट सर्विंग [2 बड़े अंडे (100g), 1 स्लाइस चेडर (28g), 2 स्लाइस टोस्ट (56g)]
6. डेटाबेस मैपिंग सत्यापित प्रविष्टियों से मेल करें अस्पष्ट इकाइयाँ + मात्राएँ कैलोरी, प्रोटीन, वसा, कार्ब्स, सूक्ष्म पोषक तत्वों के साथ पूर्ण पोषण प्रोफाइल
7. आत्मविश्वास स्कोरिंग निश्चितता का आकलन करें सभी पाइपलाइन आउटपुट कुल आत्मविश्वास: 0.94 — स्वचालित रूप से लॉग करें

प्रत्येक चरण विभिन्न मशीन लर्निंग तकनीकों पर निर्भर करता है, और किसी भी चरण में विफलता नीचे की ओर प्रभाव डालती है। पूरी पाइपलाइन को सही करना ही विश्वसनीय वॉइस लॉगिंग को निराशाजनक अनुमान से अलग करता है।

चरण 1: स्वचालित भाषण पहचान (ASR) — ऑडियो को टेक्स्ट में बदलना

पहली चुनौती कच्चे ऑडियो वेवफॉर्म को टेक्स्ट में बदलना है। आधुनिक ASR सिस्टम ट्रांसफार्मर-आधारित आर्किटेक्चर का उपयोग करते हैं — जो बड़े भाषा मॉडलों जैसे GPT और क्लॉड के पीछे के मॉडल परिवार हैं — जो सैकड़ों हजारों घंटों की बहुभाषी भाषण डेटा पर प्रशिक्षित होते हैं।

खाद्य विवरणों के लिए ASR कैसे काम करता है

ASR मॉडल ऑडियो को तीन चरणों में संसाधित करते हैं:

  1. विशेषता निष्कर्षण: कच्चे ऑडियो वेवफॉर्म को एक स्पेक्ट्रोग्राम में परिवर्तित किया जाता है, जो समय के साथ ऑडियो आवृत्तियों का दृश्य प्रतिनिधित्व है। स्पेक्ट्रोग्राम को ओवरलैपिंग फ्रेम में विभाजित किया जाता है, जो आमतौर पर 25 मिलीसेकंड चौड़े होते हैं और 10 मिलीसेकंड की स्ट्राइड होती है।

  2. एन्कोडर प्रोसेसिंग: एक ट्रांसफार्मर एन्कोडर स्पेक्ट्रोग्राम फ्रेम को संसाधित करता है, ध्वनियों के बीच संदर्भ संबंधों को सीखता है। उदाहरण के लिए, मॉडल समझता है कि "चेडर" के लिए ध्वनि अनुक्रम खाद्य-संबंधित भाषण के संदर्भ में "चेडर" या "चेकर्स" की तुलना में अधिक संभावित है।

  3. डीकोडर जनरेशन: एक ट्रांसफार्मर डीकोडर सबसे संभावित टेक्स्ट अनुक्रम उत्पन्न करता है, जो एक साथ कई परिकल्पनाओं का मूल्यांकन करने के लिए बीम सर्च का उपयोग करता है। डीकोडर ध्वनिक अस्पष्टताओं को हल करने के लिए भाषा मॉडल संभावनाओं को लागू करता है।

आधुनिक ASR सिस्टम जैसे Whisper (OpenAI, 2022) साफ अंग्रेजी भाषण पर 5 प्रतिशत से कम शब्द त्रुटि दर प्राप्त करते हैं। खाद्य विशेष शब्दावली के लिए, भोजन के विवरणों पर फाइन-ट्यूनिंग सटीकता को और भी बढ़ा सकता है, जिसमें सामान्य खाद्य शब्दों पर शब्द त्रुटि दर 3 प्रतिशत से कम होती है।

खाद्य शब्दावली की चुनौती

खाद्य शब्दावली अद्वितीय ASR चुनौतियाँ प्रस्तुत करती है:

  • उधार के शब्द और विदेशी शर्तें: "ग्नोच्ची," "तज़त्ज़िकी," और "अकै" जैसे शब्द अपने स्रोत भाषाओं के उच्चारण नियमों का पालन करते हैं।
  • समध्वनियाँ: "फ्लावर" बनाम "फ्लोर," "लीक" बनाम "लीक," "मसल" बनाम "मसल।"
  • ब्रांड नाम: हजारों स्वामित्व वाले खाद्य उत्पादों के नाम जो सामान्य प्रशिक्षण डेटा में नहीं मिल सकते।
  • क्षेत्रीय उच्चारण: "पेकान" का उच्चारण अंग्रेजी बोलने वाले क्षेत्रों में अलग-अलग होता है।

खाद्य-डोमेन डेटासेट पर ASR मॉडलों को फाइन-ट्यूनिंग करना — जो आमतौर पर 5,000 से 50,000 घंटों के खाद्य-संबंधित भाषण को शामिल करते हैं — इन चुनौतियों को संबोधित करता है, मॉडल को भोजन के विवरणों के लिए विशिष्ट सांख्यिकीय पैटर्न सिखाता है।

चरण 2: इरादा पहचान — क्या यह खाद्य लॉगिंग अनुरोध है?

उपयोगकर्ता द्वारा पोषण ऐप को कहा गया हर कुछ भी भोजन का विवरण नहीं होता। इरादा पहचान ट्रांसक्रिप्ट को कई श्रेणियों में से एक में वर्गीकृत करती है:

इरादा उदाहरण उच्चारण क्रिया
खाद्य_लॉगिंग "मैंने दोपहर के भोजन के लिए चिकन सीज़र सलाद खाया" NER पाइपलाइन की ओर मार्गदर्शन करें
पानी_लॉगिंग "मैंने दो गिलास पानी पिया" पानी की खपत लॉग करें
प्रश्न "एक एवोकाडो में कितनी कैलोरी होती है?" AI सहायक की ओर मार्गदर्शन करें
सुधार "असल में वह ब्राउन राइस था, सफेद चावल नहीं" पिछले प्रविष्टि को संपादित करें
विलोपन "मेरे पिछले भोजन को हटा दें" प्रविष्टि हटाएं

इरादा वर्गीकरण आमतौर पर एक फाइन-ट्यून किया हुआ ट्रांसफार्मर मॉडल का उपयोग करता है जो पूरे ट्रांसक्रिप्ट को संसाधित करता है और सभी संभावित इरादों के बीच एक संभावना वितरण आउटपुट करता है। खाद्य लॉगिंग के लिए, थ्रेशोल्ड उच्च सेट किया गया है — आमतौर पर 0.90 आत्मविश्वास से ऊपर — ताकि भोजन के आकस्मिक उल्लेख को गलती से लॉग करने से बचा जा सके।

कंप्यूटर विज्ञान के लिए एसोसिएशन (ACL, 2023) से अनुसंधान ने दिखाया है कि डोमेन-विशिष्ट इरादा वर्गीकरणकर्ता 10,000 लेबल किए गए उदाहरणों पर फाइन-ट्यूनिंग करने पर 0.96 से ऊपर के F1 स्कोर प्राप्त करते हैं, जिससे यह पाइपलाइन के अधिक विश्वसनीय चरणों में से एक बनता है।

चरण 3: नामित इकाई पहचान (NER) — खाद्य इकाइयों को निकालना

नामित इकाई पहचान वह चरण है जहां एआई विशेष खाद्य वस्तुओं, मात्राओं और संशोधकों को वाक्य से पहचानता और निकालता है। यह वॉइस फूड लॉगिंग की मुख्य भाषाई चुनौती है।

खाद्य NER में इकाई प्रकार

खाद्य-विशिष्ट NER मॉडल को कई इकाई प्रकारों को पहचानने के लिए प्रशिक्षित किया गया है:

इकाई प्रकार टैग उदाहरण
खाद्य वस्तु FOOD स्क्रैम्बल अंडे, चिकन ब्रेस्ट, ब्राउन राइस
मात्रा QTY दो, 200 ग्राम, एक कप, आधा
संशोधक MOD ग्रिल्ड, चेडर के साथ, कम वसा, जैविक
ब्रांड BRAND चोबानी, बैरिला, किर्कलैंड
भोजन संदर्भ MEAL नाश्ते के लिए, नाश्ते के रूप में, कसरत के बाद
कंटेनर CONT एक कटोरी, एक प्लेट, एक गिलास

उदाहरण उच्चारण "दो स्क्रैम्बल अंडे चेडर के साथ पूरे गेहूं की टोस्ट पर," NER मॉडल निम्नलिखित उत्पन्न करता है:

[QTY: दो] [FOOD: स्क्रैम्बल अंडे] [MOD: चेडर के साथ] [MOD: पूरे गेहूं की टोस्ट पर]

संयोजक खाद्य विवरण

NER की एक सबसे कठिन चुनौती संयोजक खाद्य विवरण हैं — भोजन को सामग्री के संयोजनों के रूप में वर्णित किया जाता है न कि एकल व्यंजन नामों के रूप में। जब कोई कहता है "चिकन स्टर फ्राई ब्रोकोली, बेल मिर्च, और सोया सॉस के साथ जैस्मीन चावल पर," तो मॉडल को यह निर्धारित करना होगा कि यह एक संयोजित व्यंजन है या पांच अलग-अलग आइटम।

आधुनिक NER सिस्टम इस समस्या को BIO (Beginning, Inside, Outside) टैगिंग योजना का उपयोग करके संभालते हैं, जिसे निर्भरता पार्सिंग के साथ बढ़ाया गया है। निर्भरता पार्सर शब्दों के बीच व्याकरणिक संबंधों की पहचान करता है, ताकि "चिकन स्टर फ्राई" को एक ही व्यंजन के रूप में समझा जा सके जबकि "ब्रोकोली, बेल मिर्च, और सोया सॉस" को इसके घटक के रूप में पहचाना जा सके, और "जैस्मीन चावल" को एक अलग सहायक के रूप में पहचाना जा सके।

खाद्य NER डेटासेट जैसे FoodBase (2019) और TAC-KBP खाद्य इकाई कॉर्पस पर बेंचमार्क प्रदर्शन 0.89 से 0.93 के F1 स्कोर दिखाता है खाद्य इकाई निकासी के लिए, जिसमें त्रुटियाँ दुर्लभ या अत्यधिक क्षेत्रीय व्यंजनों पर केंद्रित होती हैं।

चरण 4: खाद्य इकाई अस्पष्टता — आप वास्तव में क्या मतलब रखते हैं?

एक बार खाद्य इकाइयाँ निकाली जाने के बाद, पाइपलाइन को अस्पष्टताओं को हल करना होगा। प्राकृतिक भाषा में ऐसे शब्द होते हैं जो संदर्भ, क्षेत्र या व्यक्तिगत आदत के आधार पर विभिन्न खाद्य पदार्थों को संदर्भित कर सकते हैं।

सामान्य अस्पष्टता चुनौतियाँ

अस्पष्ट शब्द संभावित व्याख्याएँ समाधान संकेत
चिप्स आलू चिप्स (US), फ्रेंच फ्राइज (UK), टॉर्टिला चिप्स, केला चिप्स उपयोगकर्ता स्थान, पूर्ववर्ती संशोधक, भोजन संदर्भ
बिस्किट कुकी (UK), स्कोन जैसा ब्रेड (US South), क्रैकर (एशिया के कुछ हिस्सों) उपयोगकर्ता स्थान, साथ में खाद्य पदार्थ
जेली जिलेटिन डेसर्ट (US), फल संरक्षण (UK) भोजन संदर्भ (टोस्ट पर बनाम मिठाई के रूप में)
पुडिंग क्रीमी मिठाई (US), बेक्ड डिश जैसे यॉर्कशायर पुडिंग (UK) भोजन संदर्भ, संशोधक
मक्का भुट्टा, कैन में मक्का, मक्का का आटा, पॉपकॉर्न संशोधक, तैयारी संदर्भ
टोस्ट ब्रेड का टुकड़ा, एक पीने का टोस्ट इरादा वर्गीकरण (पहले से ही हल किया गया)

अस्पष्टता कई संकेतों पर निर्भर करती है:

  1. उपयोगकर्ता स्थान: ऐप की भाषा और क्षेत्र सेटिंग्स एक मजबूत पूर्वानुमान प्रदान करती हैं। एक ऑस्ट्रेलियाई उपयोगकर्ता जो "चिप्स" कहता है, अधिक संभावना है कि वह मोटे कटे हुए फ्राइज का मतलब रखता है; एक अमेरिकी उपयोगकर्ता अधिक संभावना है कि वह पतले आलू चिप्स का मतलब रखता है।
  2. संदर्भ संशोधक: "चिप्स के साथ केचप" फ्राइज का सुझाव देता है; "चिप्स के साथ सालसा" टॉर्टिला चिप्स का सुझाव देता है; "चिप्स का पैकेट" पैकेज्ड आलू चिप्स का सुझाव देता है।
  3. भोजन इतिहास: यदि उपयोगकर्ता नियमित रूप से ब्रिटिश-शैली के भोजन को लॉग करता है, तो अस्पष्टता मॉडल अपने पूर्वानुमानों को तदनुसार समायोजित करता है।
  4. एम्बेडिंग समानता: ट्रांसफार्मर-आधारित एम्बेडिंग खाद्य पदार्थों को एक अर्थात्मक स्थान में रखती हैं जहां संदर्भ में समान खाद्य पदार्थ एक साथ क्लस्टर होते हैं, जिससे मॉडल को सबसे उपयुक्त व्याख्या चुनने में मदद मिलती है।

चरण 5: मात्रा मानकीकरण — प्राकृतिक भाषा को ग्राम में बदलना

लोग लगभग कभी भी खाद्य मात्राओं का वर्णन ग्राम में नहीं करते। वे कहते हैं "एक कप," "एक मुट्ठी," "एक बड़ा कटोरा," "दो स्लाइस," या बस कुछ नहीं कहते (जो एक मानक सर्विंग का संकेत देता है)। मात्रा मानकीकरण इन प्राकृतिक विवरणों को मानकीकृत मेट्रिक मात्राओं में बदलता है जिन्हें डेटाबेस प्रविष्टियों से जोड़ा जा सकता है।

सामान्य मात्रा अभिव्यक्तियाँ और उनके मानकीकृत मान

प्राकृतिक अभिव्यक्ति खाद्य संदर्भ मानकीकृत मान स्रोत
एक कप पका हुआ चावल 186g USDA मानक संदर्भ
एक कप दूध 244g (244ml) USDA मानक संदर्भ
एक मुट्ठी मिश्रित नट्स 28–30g पोषण अनुसंधान सहमति
एक मुट्ठी ब्लूबेरी 40–50g USDA सर्विंग अनुमान
एक स्लाइस ब्रेड 25–30g उद्योग औसत
एक स्लाइस पिज्जा (बड़ा, 14") 107g USDA मानक संदर्भ
एक कटोरा दूध के साथ अनाज 240–300g कुल FDA संदर्भ मात्रा
एक टुकड़ा चिकन ब्रेस्ट 120–174g USDA मानक भाग
एक बूंद जैतून का तेल 5–7ml पाक मानक
एक छींटा सोया सॉस 5ml पाक मानक

यहाँ जटिलता यह है कि "एक कप" चावल (186g) "एक कप" पालक (30g) या "एक कप" आटे (125g) से बहुत अलग वजन रखता है। मात्रा मानकीकरण खाद्य-जानकारी से भरा होना चाहिए, केवल यूनिट-जानकारी से नहीं।

आधुनिक दृष्टिकोण अच्छी तरह से परिभाषित इकाइयों (कप, चम्मच, चाय का चम्मच) के लिए लुकअप टेबल का उपयोग करते हैं, जो अस्पष्ट मात्राओं (मुट्ठी, बूंद, बड़ा कटोरा) के लिए सीखे गए रिग्रेशन मॉडलों के साथ मिलकर। ये रिग्रेशन मॉडल USDA के खाद्य और पोषक तत्व डेटाबेस (FNDDS) और समान स्रोतों से भाग-आकार डेटासेट पर प्रशिक्षित होते हैं।

जब कोई मात्रा निर्दिष्ट नहीं की जाती — जैसे "मैंने स्क्रैम्बल अंडे और टोस्ट खाया" — तो सिस्टम मानक USDA संदर्भ भागों पर डिफ़ॉल्ट होता है, जो एक ही खाने के अवसर में आमतौर पर खाए जाने वाले मात्रा का प्रतिनिधित्व करते हैं।

चरण 6: डेटाबेस मैपिंग — इकाइयों को सत्यापित पोषण डेटा से मिलाना

अस्पष्ट खाद्य इकाइयों और मानकीकृत मात्राओं के साथ, पाइपलाइन को प्रत्येक आइटम को पोषण डेटाबेस में एक विशिष्ट प्रविष्टि से मिलाना होगा। यहीं पर NLP पाइपलाइन खाद्य विज्ञान डेटाबेस से मिलती है।

मिलान प्रक्रिया

डेटाबेस मैपिंग का उपयोग संयोजन करता है:

  1. सटीक स्ट्रिंग मिलान: खाद्य नाम का डेटाबेस में सीधे लुकअप। सामान्य खाद्य पदार्थों के लिए तेज और विश्वसनीय।
  2. फजी स्ट्रिंग मिलान: लेवेनस्टीन दूरी और समान एल्गोरिदम वर्तनी भिन्नताओं, संक्षिप्त नामों, और छोटे ट्रांसक्रिप्शन त्रुटियों को संभालते हैं। "स्क्रम्बल अंडे" अभी भी "स्क्रैम्बल अंडे" से मेल खाता है।
  3. अर्थात्मक खोज: ट्रांसफार्मर-आधारित वाक्य एम्बेडिंग अर्थ के आधार पर मिलान करने में सक्षम बनाती हैं न कि सटीक शब्दों के आधार पर। "सनी साइड अप" "तले हुए अंडे, न कि स्क्रैम्बल" के लिए डेटाबेस प्रविष्टि से मेल खाता है, भले ही शब्दों में बहुत कम ओवरलैप हो।
  4. हायरार्किकल फॉलबैक: यदि कोई सटीक खाद्य मिलान नहीं है, तो सिस्टम निकटतम माता-पिता श्रेणी पर वापस लौटता है। "दादी की विशेष मीटलोफ" USDA डेटाबेस में "मीटलोफ, घरेलू" से मैप होगा।

इस चरण में अंतर्निहित डेटाबेस की गुणवत्ता महत्वपूर्ण है। एक सत्यापित पोषण डेटाबेस जिसमें सरकारी खाद्य संरचना तालिकाओं (USDA FoodData Central, EFSA, FSANZ) से प्राप्त प्रविष्टियाँ होती हैं और पोषण विशेषज्ञों द्वारा मान्य होती हैं, उपयोगकर्ता-प्रस्तावित डेटाबेस की तुलना में कहीं अधिक विश्वसनीय परिणाम प्रदान करता है, जहाँ कोई भी प्रविष्टियाँ जोड़ सकता है।

Nutrola एक सत्यापित पोषण डेटाबेस का उपयोग करता है जिसमें प्रविष्टियाँ आधिकारिक खाद्य संरचना डेटा के खिलाफ क्रॉस-रेफरेंस की जाती हैं, जिसका अर्थ है कि वॉइस लॉगिंग पाइपलाइन द्वारा लौटाए गए अंतिम कैलोरी और मैक्रो मान प्रयोगशाला-विश्लेषित पोषण डेटा पर आधारित होते हैं न कि भीड़-स्रोत अनुमान पर। पैकेज्ड उत्पादों के 95 प्रतिशत से अधिक को कवर करने वाले बारकोड स्कैनिंग के साथ मिलकर, डेटाबेस मैपिंग चरण पूरे खाद्य पदार्थों और पैकेज्ड उत्पादों के बीच उच्च मिलान दर प्राप्त करता है।

चरण 7: आत्मविश्वास स्कोरिंग — कब लॉग करें और कब पूछें

अंतिम चरण आत्मविश्वास स्कोर को प्रत्येक पूर्ववर्ती चरण से एक समग्र निश्चितता मेट्रिक में समेकित करता है। यह स्कोर निर्धारित करता है कि सिस्टम भोजन को स्वचालित रूप से लॉग करता है, उपयोगकर्ता से पुष्टि करने के लिए पूछता है, या स्पष्टीकरण मांगता है।

आत्मविश्वास थ्रेशोल्ड और क्रियाएँ

कुल आत्मविश्वास क्रिया उदाहरण परिदृश्य
0.95–1.00 स्वचालित रूप से लॉग करें सामान्य भोजन, स्पष्ट मात्राएँ, सटीक डेटाबेस मिलान
0.80–0.94 पुष्टि संकेत के साथ लॉग करें थोड़ी अस्पष्ट मात्रा या खाद्य भिन्नता
0.60–0.79 उपयोगकर्ता चयन के लिए शीर्ष 2–3 विकल्प दिखाएँ अस्पष्ट खाद्य नाम या कई संभावित मिलान
0.60 से नीचे उपयोगकर्ता से फिर से वाक्यांश देने या अधिक विवरण प्रदान करने के लिए पूछें अस्पष्ट भाषण, अज्ञात खाद्य, या अत्यधिक अस्पष्ट विवरण

आत्मविश्वास स्कोर एक एकल संख्या नहीं है बल्कि उप-स्कोर का एक भारित संयोजन है:

  • ASR आत्मविश्वास: भाषण-से-टेक्स्ट मॉडल कितनी निश्चितता से था? (डीकोड किए गए अनुक्रम की पश्चात संभाव्यता द्वारा मापा गया)
  • NER आत्मविश्वास: खाद्य इकाइयाँ कितनी स्पष्टता से पहचानी गईं? (इकाई सीमा F1 द्वारा मापा गया)
  • अस्पष्टता आत्मविश्वास: क्या संभावित व्याख्याओं में कोई स्पष्ट विजेता था? (शीर्ष-1 और शीर्ष-2 उम्मीदवारों के बीच संभाव्यता अंतर द्वारा मापा गया)
  • डेटाबेस मिलान आत्मविश्वास: सत्यापित डेटाबेस प्रविष्टि के साथ मेल कितना निकट था? (एम्बेडिंग की कोसाइन समानता द्वारा मापा गया)

यह बहु-स्तरीय आत्मविश्वास प्रणाली ही है जो वॉइस लॉगिंग को तेज और सटीक बनाती है। उच्च आत्मविश्वास वाले व्याख्याएँ तुरंत लॉग की जाती हैं, जबकि निम्न आत्मविश्वास के मामलों में लक्षित स्पष्टीकरण प्रश्न होते हैं न कि सामान्य त्रुटि संदेश।

ट्रांसफार्मर मॉडल और बड़े भाषा मॉडल वॉइस फूड लॉगिंग में सुधार कैसे करते हैं

ऊपर वर्णित पूरी पाइपलाइन ट्रांसफार्मर आर्किटेक्चर (वासवानी एट अल., 2017) और बड़े भाषा मॉडलों (LLMs) के आगमन से बदल गई है। पुराने वॉइस लॉगिंग सिस्टम प्रत्येक चरण के लिए अलग-अलग, स्वतंत्र रूप से प्रशिक्षित मॉडलों का उपयोग करते थे। आधुनिक सिस्टम तेजी से एकीकृत ट्रांसफार्मर मॉडलों का उपयोग करते हैं जो कई चरणों को एक साथ संभालते हैं।

प्रमुख उन्नतियाँ

  • एंड-टू-एंड ASR: ट्रांसफार्मर-आधारित ASR मॉडल जैसे Whisper ऑडियो को सीधे टेक्स्ट में संसाधित करते हैं बिना मध्यवर्ती ध्वनि प्रतिनिधित्व के, त्रुटि प्रसारण को कम करते हैं।
  • संदर्भात्मक NER: पूर्व-प्रशिक्षित भाषा मॉडल जैसे BERT और इसके संस्करण खाद्य शब्दों को संदर्भ में समझते हैं, संयोजक विवरणों के लिए इकाई निकासी में नाटकीय रूप से सुधार करते हैं।
  • ज़ीरो-शॉट अस्पष्टता: बड़े भाषा मॉडल खाद्य शब्दों को अस्पष्ट कर सकते हैं जिन्हें उन्होंने प्रशिक्षण डेटा में कभी नहीं देखा है, अपने व्यापक विश्व ज्ञान का लाभ उठाते हुए। एक मॉडल जिसने लाखों व्यंजनों और खाद्य विवरणों को पढ़ा है, समझता है कि "चिप्स और ग्वाक" का मतलब टॉर्टिला चिप्स के साथ ग्वाकामोल है, बिना कभी उस वाक्यांश पर स्पष्ट रूप से प्रशिक्षित हुए।
  • संवादात्मक सुधार: LLMs स्वाभाविक अनुवर्ती वार्तालापों को सक्षम बनाते हैं। यदि एआई "सफेद चावल" लॉग करता है और उपयोगकर्ता कहता है "असल में यह फूलगोभी का चावल था," तो मॉडल इसे सुधार के रूप में समझता है और प्रविष्टि को तदनुसार अपडेट करता है।

Nutrola का AI डाइट असिस्टेंट इन क्षमताओं का लाभ उठाता है, जिससे उपयोगकर्ता न केवल वॉइस द्वारा भोजन लॉग कर सकते हैं बल्कि अनुवर्ती प्रश्न पूछ सकते हैं, संशोधन का अनुरोध कर सकते हैं, और स्वाभाविक वार्तालाप के माध्यम से पोषण संबंधी अंतर्दृष्टि प्राप्त कर सकते हैं।

वास्तविक दुनिया की सटीकता: वॉइस लॉगिंग की तुलना अन्य तरीकों से

एक स्वाभाविक प्रश्न यह है कि वॉइस लॉगिंग की सटीकता मैनुअल टेक्स्ट प्रविष्टि, बारकोड स्कैनिंग, और फोटो-आधारित लॉगिंग की तुलना में कैसे है।

लॉगिंग विधि औसत कैलोरी सटीकता प्रति प्रविष्टि औसत समय उपयोगकर्ता प्रयास
मैनुअल टेक्स्ट खोज 85–90% (उपयोगकर्ता चयन पर निर्भर) 45–90 सेकंड उच्च
बारकोड स्कैनिंग 97–99% (पैकेज्ड खाद्य पदार्थ केवल) 5–10 सेकंड कम
फोटो लॉगिंग (AI) 85–92% (खाद्य जटिलता के अनुसार भिन्न) 3–8 सेकंड कम
वॉइस लॉगिंग (AI) 88–94% (विवरण स्पष्टता के अनुसार भिन्न) 5–15 सेकंड बहुत कम

वॉइस लॉगिंग की सटीकता का लाभ प्राकृतिक भाषा की समृद्धि से आता है। एक फोटो पूरे दूध और स्किम दूध के बीच भेद नहीं कर सकती, लेकिन एक वॉइस विवरण कर सकती है। एक फोटो बुरिटो जैसे परतदार व्यंजनों के साथ संघर्ष करती है, लेकिन एक बोले गए विवरण — "चिकन बुरिटो काले बीन्स, सालसा, खट्टा क्रीम, और ग्वाकामोल के साथ" — एआई को स्पष्ट सामग्री जानकारी प्रदान करता है।

वॉइस लॉगिंग और फोटो लॉगिंग का संयोजन प्रत्येक विधि की कमजोरियों को कवर करता है। वॉइस सामग्री की जानकारी प्रदान करता है; फोटो दृश्य भाग का अनुमान प्रदान करता है। दोनों का एक साथ उपयोग, जैसा कि Nutrola के मल्टी-मोडल लॉगिंग सिस्टम में समर्थित है, उच्चतम व्यावहारिक सटीकता प्राप्त करता है।

गोपनीयता और ऑन-डिवाइस प्रोसेसिंग

वॉइस डेटा स्वाभाविक रूप से व्यक्तिगत होता है। आधुनिक वॉइस लॉगिंग सिस्टम कई आर्किटेक्चरल विकल्पों के माध्यम से गोपनीयता का ध्यान रखते हैं:

  • ऑन-डिवाइस ASR: भाषण-से-टेक्स्ट रूपांतरण उपयोगकर्ता के डिवाइस पर होता है, इसलिए कच्चा ऑडियो कभी भी फोन से बाहर नहीं जाता।
  • टेक्स्ट-केवल ट्रांसमिशन: केवल ट्रांसक्राइब किया गया टेक्स्ट NER और डेटाबेस मैपिंग के लिए क्लाउड सर्वरों पर भेजा जाता है।
  • कोई ऑडियो भंडारण नहीं: ऑडियो रिकॉर्डिंग को ट्रांसक्रिप्शन के तुरंत बाद हटा दिया जाता है।
  • एन्क्रिप्टेड पाइपलाइन: प्रसंस्करण चरणों के बीच सभी डेटा का संचार एंड-टू-एंड एन्क्रिप्शन का उपयोग करता है।

ये उपाय सुनिश्चित करते हैं कि वॉइस लॉगिंग की सुविधा गोपनीयता की कीमत पर नहीं आती। Nutrola इन गोपनीयता-प्रथम सिद्धांतों के साथ वॉइस डेटा को संसाधित करता है, पोषण परिणामों को Apple Health और Google Fit के साथ समन्वयित करता है बिना कच्चे ऑडियो डेटा को उजागर किए।

अक्सर पूछे जाने वाले प्रश्न

वॉइस फूड लॉगिंग की सटीकता मैन्युअल रूप से खाद्य प्रविष्टि करने की तुलना में कितनी है?

वॉइस फूड लॉगिंग औसतन 88 से 94 प्रतिशत कैलोरी सटीकता प्राप्त करता है, जो मैनुअल टेक्स्ट खोज (85 से 90 प्रतिशत) के समान या थोड़ा बेहतर है। वॉइस का लाभ यह है कि उपयोगकर्ता स्वाभाविक रूप से अधिक विस्तृत विवरण प्रदान करते हैं — जिसमें तैयारी के तरीके, मसाले, और सामग्री की विशिष्टताएँ शामिल हैं — जो एआई को काम करने के लिए अधिक जानकारी देती हैं।

क्या वॉइस लॉगिंग एआई एक वाक्य में कई आइटम के खाद्य विवरणों को समझ सकता है?

हाँ। आधुनिक NER मॉडल एक ही उच्चारण से कई खाद्य इकाइयों को निकालने के लिए प्रशिक्षित होते हैं। "ए ग्रिल्ड चिकन सलाद एवीओकाडो, चेरी टमाटर, और बाल्सामिक ड्रेसिंग के साथ" कहने पर चार या पांच अलग-अलग खाद्य इकाइयाँ उत्पन्न होंगी, प्रत्येक को अपने डेटाबेस प्रविष्टि के साथ व्यक्तिगत कैलोरी और मैक्रो मानों के साथ जोड़ा जाएगा।

जब एआई मेरे कहे गए शब्दों के बारे में निश्चित नहीं होता तो क्या होता है?

सिस्टम बहु-स्तरीय आत्मविश्वास स्कोरिंग का उपयोग करता है। यदि कुल आत्मविश्वास 0.80 से नीचे गिरता है, तो आपको AI की सबसे अच्छी व्याख्या दिखाने वाला एक पुष्टि संकेत दिखाई देगा। 0.60 से नीचे, ऐप आपसे स्पष्ट करने के लिए पूछेगा — उदाहरण के लिए, "क्या आपका मतलब आलू चिप्स या फ्रेंच फ्राइज था?" यह दृष्टिकोण गलत लॉग और अनावश्यक रुकावटों को कम करता है।

क्या वॉइस लॉगिंग ऑफ़लाइन काम करता है?

आधुनिक ऑन-डिवाइस ASR मॉडल बिना इंटरनेट कनेक्शन के भाषण को टेक्स्ट में परिवर्तित कर सकते हैं। हालाँकि, डेटाबेस मैपिंग और अस्पष्टता चरणों के लिए आमतौर पर पूर्ण पोषण डेटाबेस तक पहुँच के लिए सर्वर कनेक्शन की आवश्यकता होती है। कुछ ऐप्स, जिनमें Nutrola शामिल है, अक्सर लॉग किए गए खाद्य पदार्थों को स्थानीय रूप से कैश करते हैं ताकि आपके सबसे सामान्य भोजन को बिना कनेक्टिविटी के भी वॉइस-लॉग किया जा सके।

वॉइस लॉगिंग उच्चारण और गैर-देशी अंग्रेजी बोलने वालों को कैसे संभालता है?

वर्तमान ASR मॉडल जैसे Whisper विविध, बहुभाषी भाषण डेटा पर प्रशिक्षित होते हैं जो उच्चारण की एक विस्तृत श्रृंखला को कवर करते हैं। उच्चारण वाली अंग्रेजी के लिए शब्द त्रुटि दर आमतौर पर देशी बोलने वालों की तुलना में 2 से 5 प्रतिशत अधिक होती है, लेकिन खाद्य विशेष शब्दावली — जो मुख्य रूप से मानकीकृत होती है — सामान्य भाषण की तुलना में अधिक विश्वसनीयता से पहचानी जाती है। खाद्य-डोमेन ऑडियो पर फाइन-ट्यूनिंग सटीकता के अंतर को और कम करती है।

वॉइस लॉगिंग तकनीक क्या है जो खाद्य लॉगिंग को शक्ति देती है?

पाइपलाइन लगभग हर चरण में ट्रांसफार्मर-आधारित मॉडलों का उपयोग करती है। स्वचालित भाषण पहचान एन्कोडर-डीकोडर ट्रांसफार्मर्स का उपयोग करती है (जो Whisper आर्किटेक्चर के समान हैं)। इरादा पहचान और NER फाइन-ट्यून किए गए BERT-परिवार के मॉडलों का उपयोग करते हैं। अस्पष्टता और डेटाबेस मैपिंग अर्थात्मक समानता के लिए वाक्य ट्रांसफार्मर्स का उपयोग करते हैं। बड़े भाषा मॉडल संवादात्मक सुधार और नए खाद्य विवरणों की ज़ीरो-शॉट समझ प्रदान करते हैं।

क्या मैं बाद में वॉइस-लॉग किए गए भोजन को सुधार सकता हूँ?

हाँ। LLM-संचालित सहायक के साथ वॉइस लॉगिंग सिस्टम स्वाभाविक सुधारों का समर्थन करते हैं। आप कह सकते हैं "चावल को फूलगोभी के चावल में बदलें" या "मेरे पिछले भोजन से चीज़ हटा दें" और एआई सुधार के इरादे को पार्स करेगा और मौजूदा प्रविष्टि को अपडेट करेगा, न कि एक नई प्रविष्टि बनाएगा। Nutrola का AI डाइट असिस्टेंट इस संवादात्मक संपादन कार्यप्रवाह का समर्थन करता है।

वॉइस फूड लॉगिंग में भाषण से लॉग की गई प्रविष्टि तक की गति कितनी है?

एक सामान्य भोजन विवरण के लिए एंड-टू-एंड विलंबता 1.5 से 3 सेकंड है। ASR एक छोटे उच्चारण के लिए 0.3 से 0.8 सेकंड लेता है। NER और अस्पष्टता 0.2 से 0.5 सेकंड जोड़ते हैं। डेटाबेस मैपिंग और आत्मविश्वास स्कोरिंग में 0.3 से 0.7 सेकंड का समय लगता है। नेटवर्क विलंबता शेष के लिए जिम्मेदार होती है। परिणामस्वरूप एक लॉगिंग अनुभव होता है जो लगभग तात्कालिक लगता है।

क्या वॉइस लॉगिंग कैलोरी ट्रैकिंग के लिए फोटो लॉगिंग से बेहतर है?

कोई भी विधि सार्वभौमिक रूप से बेहतर नहीं है। वॉइस लॉगिंग तब उत्कृष्ट होती है जब आप सामग्री को सटीक रूप से वर्णित कर सकते हैं — घर के बने भोजन, मिश्रित व्यंजन, और खाद्य पदार्थ जो समान दिखते हैं लेकिन पोषण में भिन्न होते हैं (जैसे पूरे दूध बनाम स्किम दूध)। फोटो लॉगिंग उन खाद्य पदार्थों के लिए उत्कृष्ट होती है जो दृश्य रूप से विशिष्ट होते हैं जहाँ भाग का आकार मुख्य चर होता है। दोनों विधियों का एक साथ उपयोग सबसे व्यापक ट्रैकिंग प्रदान करता है, यही कारण है कि Nutrola एक ही ऐप में फोटो, वॉइस, बारकोड, और मैनुअल लॉगिंग का समर्थन करता है, जिसकी कीमत केवल 2.50 यूरो प्रति माह है, जिसमें 3-दिन का निःशुल्क परीक्षण शामिल है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!

Download on the App StoreGet it on Google Play