कैसे Nutrola का AI एक फोटो से आपके भोजन की पहचान करता है: पर्दे के पीछे
आप अपने दोपहर के खाने की एक फोटो लेते हैं और Nutrola आपको बताता है कि इसमें लगभग 640 कैलोरी हैं, जिसमें 38 ग्राम प्रोटीन है। लेकिन यह कैसे संभव है? यहां बताया गया है कि आपकी फोटो और पोषण डेटा के बीच क्या होता है।
आप Nutrola खोलते हैं, अपने कैमरे को ग्रिल्ड सैल्मन, भुनी हुई सब्जियों और क्विनोआ की प्लेट पर रखते हैं, और शटर बटन दबाते हैं। तीन सेकंड से भी कम समय में, ऐप आपको बताता है कि यह भोजन लगभग 640 कैलोरी का है, जिसमें 38 ग्राम प्रोटीन, 42 ग्राम कार्बोहाइड्रेट और 28 ग्राम वसा है। यह सैल्मन, सब्जियों और क्विनोआ को अलग-अलग आइटम के रूप में भी दर्शाता है।
यह जादू जैसा लगता है। लेकिन इस सहज अनुभव के पीछे एक सावधानी से तैयार की गई आर्टिफिशियल इंटेलिजेंस प्रक्रियाओं की श्रृंखला है, जिसमें से प्रत्येक एक विशेष टुकड़े को संभालती है। यह लेख उस प्रक्रिया के हर चरण के बारे में बताएगा, जब से प्रकाश आपके फोन के कैमरा सेंसर पर पड़ता है, जब तक कैलोरी की संख्या आपके स्क्रीन पर नहीं आती। इसके लिए मशीन लर्निंग की डिग्री की आवश्यकता नहीं है।
बड़ा चित्र: एक छह-चरणीय प्रक्रिया
हर चरण में जाने से पहले, यहां संक्षेप में पूरी यात्रा है:
- इमेज प्रोसेसिंग -- आपकी फोटो को साफ और मानकीकृत किया जाता है ताकि AI इसके साथ काम कर सके।
- भोजन पहचान और विभाजन -- AI यह पता लगाता है कि प्लेट पर प्रत्येक खाद्य वस्तु कहां है।
- भोजन वर्गीकरण -- प्रत्येक पहचानी गई क्षेत्र को एक विशेष खाद्य वस्तु के रूप में पहचाना जाता है।
- पोषण आकार का अनुमान -- AI यह अनुमान लगाता है कि प्रत्येक खाद्य वस्तु में कितना है।
- पोषण डेटाबेस मिलान -- पहचाने गए खाद्य पदार्थों और भागों को सत्यापित पोषण डेटा से मिलाया जाता है।
- विश्वसनीयता स्कोरिंग और उपयोगकर्ता पुष्टि -- AI आपको बताता है कि यह कितना निश्चित है और आपको सुधार करने की अनुमति देता है।
हर चरण अगले में योगदान देता है। इसे एक फैक्ट्री में असेंबली लाइन की तरह सोचें: कच्चा माल एक छोर पर जाता है, और एक तैयार उत्पाद दूसरे छोर पर निकलता है। यदि कोई एक स्टेशन अपना काम ठीक से नहीं करता है, तो अंतिम उत्पाद प्रभावित होता है। इसलिए प्रत्येक चरण को सावधानी से इंजीनियर, परीक्षण और परिष्कृत किया गया है।
आइए हम एक-एक करके इन चरणों के बारे में जानते हैं।
चरण 1: इमेज प्रोसेसिंग
जब आप शटर दबाते हैं, तो सबसे पहले जो होता है वह भोजन की पहचान से संबंधित नहीं है। यह इमेज को तैयार करने के बारे में है।
क्यूंकि कच्ची फोटो AI के लिए तैयार नहीं होती
आपका फोन कैमरा उच्च रिज़ॉल्यूशन पर चित्र कैप्चर करता है, अक्सर 12 मेगापिक्सल या उससे अधिक। यह AI मॉडल के लिए आवश्यक डेटा से कहीं अधिक है, और इसका प्रोसेसिंग धीमी और बर्बादी होगी। फोटो खराब रोशनी, अजीब कोण, या ध्यान भंग करने वाले बैकग्राउंड में भी ली जा सकती है।
इसे ऐसे समझें जैसे खाना पकाने से पहले सामग्री तैयार करना। एक शेफ पूरे अनधोए गाजर को पतीले में नहीं डालता। वे इसे धोते हैं, छीलते हैं, और सही आकार में काटते हैं। इमेज प्रोसेसिंग AI का संस्करण है।
इमेज प्रोसेसिंग के दौरान क्या होता है
पुनः आकार और मानकीकरण: इमेज को एक मानक आकार में कम किया जाता है, आमतौर पर हर तरफ कुछ सौ पिक्सल। पिक्सल के मान को सामान्यीकृत किया जाता है ताकि चमक और कंट्रास्ट एक समान रेंज में हों। यह सुनिश्चित करता है कि मॉडल एक ही फोटो को उज्ज्वल धूप में या मंद रेस्तरां की रोशनी में एक समान व्यवहार करे।
रंग सुधार: सूक्ष्म समायोजन रंग के प्रभाव को सही करते हैं जो विभिन्न प्रकाश स्रोतों के कारण होते हैं। मोमबत्ती की रोशनी में भोजन की गर्म संतरी चमक या फ्लोरोसेंट ऑफिस की रोशनी का नीला रंग AI को यह समझने में गुमराह कर सकता है कि वह क्या देख रहा है। रंग सुधार इन विकृतियों को कम करता है।
उपस्थिति और फसल: सिस्टम यह पहचानता है कि फोन को लंबवत या क्षैतिज रूप से पकड़ा गया था और इमेज को उसके अनुसार घुमाता है। यदि AI पहचानता है कि भोजन केवल फ्रेम के एक छोटे हिस्से में है, तो यह शोर को कम करने के लिए प्रासंगिक क्षेत्र को काट सकता है।
शोर में कमी: कम रोशनी में ली गई तस्वीरों में अक्सर दृश्य शोर होता है, वे छोटे धब्बे जो इमेज को दानेदार बनाते हैं। एक हल्की शोर में कमी इन कलाकृतियों को बिना महत्वपूर्ण विवरण को धुंधला किए चिकना करती है।
यह सब एक सेकंड के एक अंश में होता है। जब इमेज अगले चरण में पहुंचती है, तो यह एक साफ, मानकीकृत इनपुट होती है जिसे AI मॉडल विश्वसनीयता से व्याख्या कर सकता है।
चरण 2: भोजन पहचान और विभाजन
अब AI को अपनी पहली वास्तविक चुनौती का सामना करना है: यह पता लगाना कि इमेज में भोजन कहां है और प्रत्येक विशिष्ट आइटम के चारों ओर सीमाएं खींचना।
पहचान: फ्रेम में भोजन खोजना
पहचान मॉडल पूरे इमेज को स्कैन करता है और उन क्षेत्रों की पहचान करता है जिनमें भोजन होता है। यह उतना सरल नहीं है जितना लगता है। मॉडल को आपके पास्ता की प्लेट को उसके नीचे की मेज़पोश, उसके बगल में पानी का गिलास, और कोने में नैपकिन से अलग करना होता है। इसे आंशिक रूप से ढकी हुई, ओवरलैपिंग, या फ्रेम के किनारे पर कट गई प्लेटों को भी संभालना होता है।
आधुनिक पहचान प्रणाली एक तकनीक का उपयोग करती है जिसे ऑब्जेक्ट डिटेक्शन कहा जाता है, जहां मॉडल एक साथ हर वस्तु की स्थिति और मोटे तौर पर श्रेणी की भविष्यवाणी करता है। इसे ऐसे समझें जैसे एक बहुत अनुभवी वेटर जो एक टेबल पर नजर डालते ही हर डिश की पहचान कर सकता है, भले ही वह एक भीड़भाड़ वाले रेस्तरां में हो। AI को इसी तरह की प्रवृत्ति विकसित करने के लिए प्रशिक्षित किया गया है, लेकिन यह प्रवृत्ति लाखों खाद्य तस्वीरों का अध्ययन करके सीखी गई है।
विभाजन: सटीक सीमाएं खींचना
पहचान AI को बताती है कि इमेज के एक निश्चित क्षेत्र में भोजन है। विभाजन आगे बढ़ता है और प्रत्येक खाद्य वस्तु के सटीक आकार को पिक्सल दर पिक्सल रेखांकित करता है।
यह भेद महत्वपूर्ण है। मान लीजिए एक प्लेट पर ग्रिल्ड चिकन चावल के बिस्तर पर है, और उसके साथ भाप में पकी हुई ब्रोकोली है। चिकन के चारों ओर एक साधारण बाउंडिंग बॉक्स चावल के कुछ हिस्से को भी कैप्चर करेगा। विभाजन केवल चिकन, केवल चावल, और केवल ब्रोकोली के चारों ओर सटीक रूपरेखा खींचता है, भले ही वे ओवरलैप कर रहे हों।
यह पिक्सेल-स्तरीय सटीकता अगले चरणों के लिए महत्वपूर्ण है क्योंकि AI को यह जानने की आवश्यकता है कि प्रत्येक खाद्य वस्तु कितनी दृश्य क्षेत्र में है। यदि चिकन की सीमा गलती से चावल का एक टुकड़ा शामिल कर लेती है, तो दोनों वस्तुओं के लिए भाग का अनुमान गलत होगा।
जटिल प्लेटों को संभालना
वास्तविक जीवन के भोजन अव्यवस्थित होते हैं। खाद्य पदार्थ ओवरलैप होते हैं, सॉस कई वस्तुओं में फैलते हैं, और मिश्रित व्यंजन जैसे स्टर-फ्राई या सलाद में दर्जनों छोटे घटक होते हैं जो एक साथ मिलते हैं। विभाजन मॉडल इन मामलों को संभालता है, प्रत्येक पिक्सल को प्रत्येक खाद्य श्रेणी से संबंधित होने की संभावना सौंपता है। एक स्टर-फ्राई में, एक पिक्सल जो चिकन या टोफू की तरह दिखता है, उसे दोनों के लिए संभावनाएं दी जाती हैं, और सिस्टम आसपास के पिक्सल के संदर्भ का उपयोग करके अस्पष्टता को हल करता है।
चरण 3: भोजन वर्गीकरण
हर खाद्य वस्तु को अलग करने के बाद, AI को अब मूलभूत प्रश्न का उत्तर देना है: यह भोजन क्या है?
AI विशेष खाद्य पदार्थों को कैसे पहचानता है
वर्गीकरण मॉडल एक गहरा न्यूरल नेटवर्क है जिसे लेबल किए गए खाद्य चित्रों के विशाल डेटासेट पर प्रशिक्षित किया गया है। प्रशिक्षण के दौरान, इसने हजारों विभिन्न खाद्य पदार्थों के लाखों उदाहरण देखे। समय के साथ, इसने विशिष्ट दृश्य पैटर्न को विशिष्ट खाद्य लेबल के साथ जोड़ना सीखा।
यह उसी तरह काम करता है जैसे आपने बच्चे के रूप में खाद्य पदार्थों को पहचानना सीखा। आपने सेब की हर संभव आकृति को याद नहीं किया। इसके बजाय, बार-बार संपर्क के माध्यम से, आपके मस्तिष्क ने "सेब-नेस" का एक आंतरिक मॉडल बनाया, जो रंग, आकार, आकार और बनावट का एक संयोजन है जो आपको एक सेब को पहचानने में मदद करता है, चाहे वह लाल हो या हरा, पूरा हो या कटा हुआ, काउंटर पर हो या पेड़ से लटका हो।
AI एक समान आंतरिक मॉडल बनाता है, लेकिन यह जैविक न्यूरॉन्स के बजाय गणितीय कार्यों के माध्यम से ऐसा करता है। यह सीखता है कि ग्रिल्ड सैल्मन आमतौर पर एक विशिष्ट गुलाबी-नारंगी रंग के साथ गहरे ग्रिल मार्क्स, एक फ्लेकी बनावट, और एक निश्चित सामान्य आकार में होता है। यह सीखता है कि क्विनोआ में एक विशिष्ट छोटा, गोल अनाज पैटर्न होता है जो चावल या कूसकूस से भिन्न होता है।
समान दिखने वाले खाद्य पदार्थों की चुनौती
कुछ खाद्य पदार्थ आश्चर्यजनक रूप से समान दिखते हैं। सफेद चावल और फूलगोभी चावल। सामान्य पास्ता और ग्लूटेन-फ्री पास्ता। ग्रीक योगर्ट और खट्टा क्रीम। टर्की बर्गर और बीफ बर्गर।
वर्गीकरण मॉडल इन मामलों को संभालने के लिए सूक्ष्म दृश्य संकेतों पर ध्यान देता है जो अधिकांश लोग भी उपयोग करेंगे। पके हुए सफेद चावल की हल्की पारदर्शिता बनाम फूलगोभी चावल की अधिक अपारदर्शी, अनियमित बनावट। ग्रीक योगर्ट और खट्टा क्रीम के बीच सतह की चमक में मामूली अंतर।
जब दृश्य संकेत अकेले पर्याप्त नहीं होते हैं, तो मॉडल संदर्भ पर भी विचार करता है। यदि विभाजन चरण ने चावल को सोया सॉस और चॉपस्टिक के साथ पहचाना है, तो मॉडल यह विश्वास बढ़ा सकता है कि अनाज सफेद चावल है न कि फूलगोभी चावल।
मिश्रित व्यंजनों के लिए मल्टी-लेबल वर्गीकरण
कुछ खाद्य पदार्थ एकल श्रेणी में फिट नहीं होते हैं। एक बुरिटो में टॉर्टिला, चावल, बीन्स, मांस, पनीर, सालसा और संभवतः और भी सामग्री होती है। AI पूरे बुरिटो को एक आइटम के रूप में वर्गीकृत करने के बजाय इसे एक समग्र व्यंजन के रूप में पहचान सकता है और या तो पूरे बुरिटो के पोषण का अनुमान लगा सकता है या इसके संभावित घटक सामग्री को उसके दृश्य और सामान्य सामग्री के आधार पर तोड़ सकता है।
चरण 4: पोषण आकार का अनुमान
यह जानना कि आपकी प्लेट में ग्रिल्ड सैल्मन है, उपयोगी है, लेकिन कैलोरी की गणना के लिए यह पर्याप्त नहीं है। AI को यह भी अनुमान लगाना होगा कि वहां कितना सैल्मन है। क्या यह 100-ग्राम का फिलेट है या 200-ग्राम का? कैलोरी का अंतर महत्वपूर्ण है।
AI बिना तराजू के मात्रा का अनुमान कैसे लगाता है
भाग का अनुमान भोजन AI में सबसे कठिन समस्याओं में से एक माना जाता है। सिस्टम आपके भोजन को भौतिक रूप से नहीं तौल सकता, इसलिए यह दृश्य संकेतों और संदर्भ बिंदुओं पर निर्भर करता है।
सापेक्ष आकार विश्लेषण: AI फ्रेम में ज्ञात वस्तुओं का उपयोग संदर्भ बिंदुओं के रूप में करता है। एक मानक डिनर प्लेट का व्यास लगभग 26 सेंटीमीटर होता है। एक कांटा लगभग 19 सेंटीमीटर लंबा होता है। यदि मॉडल इन वस्तुओं की पहचान कर सकता है, तो यह भोजन के भौतिक आकार का अनुमान लगा सकता है। इसे ऐसे समझें जैसे टेबल पर पहले से मौजूद एक पैमाना।
गहराई का अनुमान: आधुनिक AI मॉडल एक एकल दो-आयामी इमेज से दृश्य का तीन-आयामी ढांचा अनुमान लगा सकते हैं। यह सिस्टम को यह आकलन करने की अनुमति देता है कि एक खाद्य पदार्थ कितना चौड़ा है, बल्कि यह भी कि यह कितना मोटा या ऊँचा है। एक पतला ग्रिल्ड चिकन ब्रेस्ट का कैलोरी कंटेंट एक मोटे से बहुत अलग होता है, भले ही वे ऊपर से एक ही आकार के दिखें।
आंकड़ा पूर्वानुमान: AI को इसके प्रशिक्षण डेटा से पता है कि एक सामान्य रेस्तरां में सैल्मन का सर्विंग 140 से 200 ग्राम के बीच होता है, जबकि एक सामान्य घर में पकाए गए भाग का वजन 100 से 170 ग्राम हो सकता है। ये सांख्यिकीय मानक मॉडल को उचित अनुमान लगाने में मदद करते हैं, भले ही दृश्य संकेत अस्पष्ट हों।
सीखे गए घनत्व मॉडल: विभिन्न खाद्य पदार्थों का घनत्व अलग होता है। एक कप पत्तेदार हरी सब्जियां एक कप मैश किए हुए आलू की तुलना में बहुत कम वजन करती हैं, भले ही वे समान मात्रा में हों। AI ने इन घनत्व संबंधों को सीखा है और इसे अपने वजन के अनुमानों में शामिल करता है।
यह चरण सबसे कठिन क्यों है
भाग का अनुमान वह स्थान है जहां सबसे बड़े त्रुटियां होती हैं, और यह मानवों के लिए भी सच है। अनुसंधान ने लगातार दिखाया है कि लोग दृश्य रूप से भाग के आकार का अनुमान लगाने में आश्चर्यजनक रूप से खराब होते हैं। पोषण विज्ञान पत्रिकाओं में प्रकाशित अध्ययनों ने पाया है कि प्रशिक्षित आहार विशेषज्ञ और सामान्य उपभोक्ता दोनों नियमित रूप से 20 से 50 प्रतिशत की त्रुटि के साथ भागों का अनुमान लगाते हैं।
AI इस कठिनाई को समाप्त नहीं करता है, लेकिन यह एक सुसंगत, प्रशिक्षित पद्धति लागू करता है, न कि आंतरिक भावना पर निर्भर करता है। बड़े संख्या में भोजन के बीच, यह सुसंगतता मैनुअल मानव अनुमान की तुलना में महत्वपूर्ण रूप से बेहतर सटीकता का नेतृत्व करती है।
चरण 5: पोषण डेटाबेस मिलान
इस बिंदु पर, AI जानता है कि प्लेट पर कौन से खाद्य पदार्थ हैं और प्रत्येक में लगभग कितना है। अंतिम डेटा चरण इस जानकारी को वास्तविक पोषण संख्याओं में अनुवाद करना है।
सत्यापित खाद्य डेटाबेस से कनेक्ट करना
Nutrola एक व्यापक पोषण डेटाबेस बनाए रखता है जो विश्वसनीय स्रोतों से बनाया गया है, जिसमें सरकारी खाद्य संरचना डेटाबेस, सत्यापित निर्माता डेटा, और प्रयोगशाला विश्लेषण शामिल हैं। जब AI एक खाद्य पदार्थ को "ग्रिल्ड सैल्मन, लगभग 170 ग्राम" के रूप में पहचानता है, तो सिस्टम ग्रिल्ड अटलांटिक सैल्मन के पोषण प्रोफाइल को देखता है और मूल आकार के अनुसार मानों को स्केल करता है।
यह लुकअप एक साधारण तालिका खोज से अधिक जटिल है। सिस्टम तैयारी के तरीके पर विचार करता है क्योंकि बेक्ड सैल्मन फिलेट और मक्खन में पैन-फ्राइड सैल्मन फिलेट के कैलोरी की मात्रा एक ही वजन पर भिन्न होती है। यह सामान्य क्षेत्रीय भिन्नताओं पर विचार करता है: जापानी रेस्तरां में परोसा गया सैल्मन उस सैल्मन से अलग हो सकता है जो भूमध्यसागरीय रेस्तरां में परोसा जाता है। जब विशिष्ट तैयारी विवरण अस्पष्ट होते हैं, तो सिस्टम पहचाने गए व्यंजन के लिए सबसे सांख्यिकीय सामान्य तैयारी विधि का उपयोग करता है।
मिश्रित और कस्टम व्यंजनों को संभालना
एकल-घटक खाद्य पदार्थ जैसे केले के लिए, डेटाबेस लुकअप सीधा होता है। लेकिन एक प्लेट पर कई आइटम के साथ, सिस्टम प्रत्येक पहचाने गए घटक से पोषण डेटा को एकत्र करता है। आपकी प्लेट पर सैल्मन, क्विनोआ और भुनी हुई सब्जियों का योग सैल्मन के मैक्रोज, क्विनोआ के मैक्रोज, और सब्जियों के मिश्रण के मैक्रोज का योग बनता है, जो किसी भी दृश्य सॉस, तेल, या ड्रेसिंग के लिए समायोजित होता है।
जैसे "चिकन सीज़र सलाद" या "बीफ टैकोस" जैसे प्रसिद्ध व्यंजनों के लिए, डेटाबेस में पहले से तैयार प्रविष्टियां भी शामिल होती हैं जो सामान्य सामग्री अनुपात और तैयारी विधियों को ध्यान में रखती हैं। AI अपने घटक-स्तरीय विश्लेषण को इन संपूर्ण-व्यंजन प्रविष्टियों के साथ क्रॉस-रेफरेंस करता है ताकि सबसे सटीक अनुमान प्राप्त किया जा सके।
चरण 6: विश्वसनीयता स्कोरिंग और उपयोगकर्ता पुष्टि
कोई भी AI सिस्टम 100 प्रतिशत सही नहीं होता, और Nutrola को अपनी निश्चितता के स्तर के बारे में पारदर्शी होना डिज़ाइन किया गया है।
विश्वसनीयता स्कोरिंग कैसे काम करती है
AI द्वारा किए गए हर भविष्यवाणी के साथ एक आंतरिक विश्वसनीयता स्कोर होता है, जो उस संख्या का प्रतिनिधित्व करता है जो मॉडल अपने वर्गीकरण और भाग के अनुमान के बारे में निश्चित है। यदि मॉडल 95 प्रतिशत निश्चित है कि यह ग्रिल्ड सैल्मन देख रहा है, तो यह बिना हिचकिचाहट के परिणाम प्रस्तुत करता है। यदि यह केवल 70 प्रतिशत निश्चित है, तो यह अपनी सबसे अच्छी संभावना प्रस्तुत कर सकता है जबकि वैकल्पिक संभावनाएं भी प्रदान कर सकता है।
विश्वसनीयता स्कोरिंग को ऐसे समझें जैसे एक डॉक्टर कह रहा हो "मैं निश्चित रूप से कह सकता हूं कि यह X है, लेकिन यह Y भी हो सकता है। मुझे पुष्टि करने दें।" यह एक अच्छी तरह से डिज़ाइन किए गए सिस्टम का संकेत है, न कि एक दोष।
उपयोगकर्ता पुष्टि लूप
जब AI अपना विश्लेषण प्रस्तुत करता है, तो आपके पास समीक्षा और समायोजन करने का अवसर होता है। यदि AI ने आपके क्विनोआ को कूसकूस के रूप में पहचाना है, तो आप इसे एक टैप से सही कर सकते हैं। यदि भाग का अनुमान बहुत अधिक या बहुत कम लगता है, तो आप सर्विंग आकार को समायोजित कर सकते हैं। ये सुधार दो उद्देश्यों की पूर्ति करते हैं: वे आपको उस विशेष भोजन के लिए सटीक डेटा देते हैं, और वे भविष्य की भविष्यवाणियों में सुधार के लिए सिस्टम में वापस फीड करते हैं।
यह मानव-इन-द-लूप डिज़ाइन जानबूझकर है। AI भारी उठाने का काम करता है, लेकिन आप अंतिम परिणाम के नियंत्रण में रहते हैं। यह एक साझेदारी है, न कि एक काली बॉक्स।
जहां AI संघर्ष करता है: ईमानदार सीमाएं
कोई भी तकनीक परिपूर्ण नहीं होती, और सीमाओं के बारे में बौद्धिक ईमानदारी विपणन के दावों से अधिक उपयोगी होती है। यहां कुछ परिदृश्य हैं जहां खाद्य AI, जिसमें Nutrola भी शामिल है, वास्तविक चुनौतियों का सामना करता है।
छिपे हुए घटक
AI केवल वही विश्लेषण कर सकता है जो वह देख सकता है। एक सलाद ड्रेसिंग जो पत्तियों में समा गई है, मक्खन जो मैश किए हुए आलू में पिघल गया है, या एक सॉस में घुला हुआ चीनी सभी कैमरे के लिए अदृश्य हैं। ये छिपी हुई कैलोरी महत्वपूर्ण रूप से बढ़ सकती हैं। एक चम्मच जैतून का तेल लगभग 120 कैलोरी जोड़ता है, और यदि यह भोजन में पूरी तरह से अवशोषित हो गया है, तो AI इसे पहचान नहीं सकता।
Nutrola इसे सामान्य तैयारी विधियों के सांख्यिकीय मॉडलों का उपयोग करके कम करता है। यदि आप रेस्तरां के पास्ता की एक प्लेट की फोटो लेते हैं, तो सिस्टम मानता है कि तैयारी में एक उचित मात्रा में तेल या मक्खन का उपयोग किया गया है, भले ही यह दृश्य में न हो। लेकिन यह एक शिक्षित अनुमान है, सटीक माप नहीं।
समान दिखने वाले खाद्य पदार्थों के विभिन्न पोषण प्रोफाइल
कुछ खाद्य पदार्थ एक फोटो में लगभग अदृश्य होते हैं। पूरे दूध का योगर्ट और नॉनफैट योगर्ट समान दिखते हैं। नियमित सोडा और डाइट सोडा एक गिलास में कैमरे के लिए समान होते हैं। सफेद चीनी और कृत्रिम मिठास एक पैकेट में अस्पष्ट हो सकते हैं। इन मामलों में, AI सबसे सामान्य भिन्नता पर डिफ़ॉल्ट होता है लेकिन गलत अनुमान लगा सकता है।
असामान्य या क्षेत्रीय व्यंजन
AI उन खाद्य पदार्थों पर सबसे अच्छा प्रदर्शन करता है जो इसके प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व किए गए हैं। प्रमुख विश्व व्यंजनों से सामान्य व्यंजन विश्वसनीय रूप से पहचाने जाते हैं। लेकिन एक छोटे शहर की विशेषता, एक पारिवारिक नुस्खा जिसमें असामान्य सामग्री होती है, या एक नया फ्यूजन व्यंजन मॉडल के शब्दावली में नहीं हो सकता है। इन मामलों में, AI अपने निकटतम ज्ञात मिलान पर वापस लौटता है, जो कि सटीक नहीं हो सकता है।
चरम रोशनी या कोण
हालांकि इमेज प्रोसेसिंग चरण कई रोशनी और कोण की समस्याओं के लिए सुधार करता है, चरम मामलों में अभी भी समस्याएं हो सकती हैं। एक भोजन जो लगभग अंधकार में, भारी रंगीन रोशनी में, या बहुत तेज़ साइड एंगल से फोटो खींचा गया है, मॉडल को भ्रमित कर सकता है। उचित रोशनी में ऊपर से ली गई तस्वीरें लगातार सबसे अच्छे परिणाम देती हैं।
स्टैक्ड या लेयर्ड खाद्य पदार्थ
छिपी हुई परतों वाले खाद्य पदार्थ एक विशेष चुनौती प्रस्तुत करते हैं। एक सैंडविच जो ऊपर से फोटो खींचा गया है, केवल शीर्ष ब्रेड के टुकड़े को दिखाता है। एक लसग्ना केवल शीर्ष परत को दिखाती है। एक बुरिटो केवल टॉर्टिला को दिखाता है। AI आंतरिक सामग्री का अनुमान लगाता है जो व्यंजन में सामान्यतः होती है, लेकिन यह ठोस भोजन के माध्यम से नहीं देख सकता।
कैसे Nutrola समय के साथ स्मार्ट बनता है
आधुनिक AI का एक सबसे शक्तिशाली पहलू इसकी निरंतर सुधार की क्षमता है। Nutrola की खाद्य पहचान लॉन्च के बाद स्थिर नहीं रहती। यह हर महीने मापने योग्य रूप से बेहतर होता है।
सुधारों से सीखना
हर बार जब एक उपयोगकर्ता खाद्य पहचान को सही करता है या भाग का अनुमान समायोजित करता है, तो वह सुधार एक डेटा बिंदु बन जाता है। जब हजारों उपयोगकर्ता समान सुधार करते हैं, तो पैटर्न स्पष्ट हो जाता है और मॉडल को अपडेट किया जा सकता है। यदि AI लगातार किसी विशेष क्षेत्रीय ब्रेड को एक अलग ब्रेड के रूप में गलत पहचानता है, तो उपयोगकर्ता सुधार उस मुद्दे को चिह्नित करते हैं और प्रशिक्षण टीम सही ब्रेड के अधिक उदाहरणों को प्रशिक्षण डेटासेट में जोड़ सकती है।
यह फीडबैक लूप का अर्थ है कि ऐप की सटीकता सीधे उस समुदाय द्वारा सुधारित होती है जो इसका उपयोग करता है। प्रारंभिक उपयोगकर्ता बाद के उपयोगकर्ताओं के लिए सिस्टम को प्रशिक्षित करने में मदद करते हैं, और यह चक्र जारी रहता है।
खाद्य डेटाबेस का विस्तार
Nutrola की टीम लगातार नए खाद्य पदार्थों को डेटाबेस में जोड़ती है: उभरती हुई व्यंजनों से नए व्यंजन, मौसमी वस्तुएं, ट्रेंडिंग रेस्तरां मेनू आइटम, और नए जारी किए गए पैक किए गए उत्पाद। प्रत्येक जोड़ AI की पहचान करने की क्षमता को सटीकता से बढ़ाता है।
मॉडल पुनः प्रशिक्षण और आर्किटेक्चर में सुधार
AI मॉडल को समय-समय पर अद्यतन और विस्तारित डेटासेट पर पुनः प्रशिक्षित किया जाता है। जैसे-जैसे कंप्यूटर विज़न और गहरे शिक्षण में नए शोध बेहतर मॉडल आर्किटेक्चर और प्रशिक्षण तकनीकों का उत्पादन करते हैं, Nutrola इन प्रगति को शामिल करता है। आज प्रशिक्षित एक मॉडल पिछले दो वर्षों में प्रशिक्षित एक मॉडल की तुलना में महत्वपूर्ण रूप से अधिक सटीक है, भले ही खाद्य चित्रों का वही सेट हो।
क्षेत्रीय अनुकूलन
जैसे-जैसे Nutrola का उपयोगकर्ता आधार विभिन्न हिस्सों में बढ़ता है, सिस्टम क्षेत्रीय व्यंजनों और खाने की आदतों के बारे में अधिक डेटा एकत्र करता है। यह मॉडल को स्थानीय खाद्य पदार्थों के लिए अधिक सटीक बनने की अनुमति देता है जो पहले के प्रशिक्षण डेटा में अच्छी तरह से प्रतिनिधित्व नहीं किए गए थे। सियोल में एक उपयोगकर्ता उन हजारों कोरियाई भोजन की तस्वीरों से लाभान्वित होता है जो अन्य सियोल-आधारित उपयोगकर्ताओं ने पहले ही लॉग की हैं।
तुलना: AI फोटो ट्रैकिंग बनाम बारकोड स्कैनिंग बनाम मैनुअल खोज
विभिन्न खाद्य लॉगिंग विधियों की अलग-अलग ताकत और कमजोरियां होती हैं। यहां यह देखा गया है कि वे दैनिक ट्रैकिंग के लिए सबसे महत्वपूर्ण आयामों में कैसे तुलना करते हैं।
| कारक | AI फोटो ट्रैकिंग | बारकोड स्कैनिंग | मैनुअल खोज |
|---|---|---|---|
| गति | 3 से 5 सेकंड | 5 से 10 सेकंड | 30 से 90 सेकंड |
| घर के बने भोजन के लिए काम करता है | हां | नहीं | हां, लेकिन थकाऊ |
| रेस्तरां के भोजन के लिए काम करता है | हां | नहीं | आंशिक रूप से |
| पैक किए गए खाद्य पदार्थों के लिए काम करता है | हां | हां, उच्च सटीकता के साथ | हां |
| एक साथ कई आइटम संभालता है | हां | नहीं, एक समय में एक आइटम | नहीं, एक समय में एक आइटम |
| सरल खाद्य पदार्थों के लिए सटीकता | उच्च | बहुत उच्च | उपयोगकर्ता पर निर्भर |
| जटिल भोजन के लिए सटीकता | मध्यम से उच्च | लागू नहीं | कम से मध्यम |
| लेबल पढ़ने की आवश्यकता है | नहीं | हां, पुष्टि के लिए | हां |
| घर्षण स्तर | बहुत कम | कम | उच्च |
| उपयोगकर्ता द्वारा कम रिपोर्टिंग का जोखिम | कम | कम | उच्च |
| अनपैक किए गए खाद्य पदार्थों के लिए उपलब्ध | हां | नहीं | हां |
मुख्य निष्कर्ष यह है कि कोई एक विधि हर परिदृश्य में सर्वश्रेष्ठ नहीं है। AI फोटो ट्रैकिंग घर के बने और रेस्तरां के भोजन के लिए उत्कृष्ट है जहां बारकोड मौजूद नहीं होते। बारकोड स्कैनिंग पैक किए गए खाद्य पदार्थों के लिए अद्वितीय है जिनमें सटीक निर्माता डेटा होता है। मैनुअल खोज एक विश्वसनीय बैकअप के रूप में कार्य करती है जब अन्य विधियां उपलब्ध नहीं होती हैं। Nutrola इन तीनों विधियों का समर्थन करता है क्योंकि प्रत्येक एक-दूसरे द्वारा छोड़े गए अंतराल को भरता है।
अक्सर पूछे जाने वाले प्रश्न
AI खाद्य पहचान मैनुअल लॉगिंग की तुलना में कितनी सटीक है?
नियंत्रित अध्ययन जो AI-सहायता प्राप्त खाद्य लॉगिंग की तुलना मैनुअल लॉगिंग से करते हैं, ने पाया है कि AI-सहायता प्राप्त विधियां औसतन कैलोरी अनुमान त्रुटियों को लगभग 25 से 40 प्रतिशत तक कम करती हैं। सुधार जटिल, बहु-घटक भोजन के लिए सबसे अधिक स्पष्ट होता है जहां मैनुअल अनुमान विशेष रूप से कठिन होता है। सरल, एकल-घटक खाद्य पदार्थों के लिए, सटीकता का अंतर छोटा होता है क्योंकि दोनों विधियां अपेक्षाकृत अच्छी तरह से काम करती हैं।
क्या AI सभी व्यंजनों के लिए काम करता है?
Nutrola का AI एक विविध, वैश्विक डेटासेट पर प्रशिक्षित है जो दुनिया भर के हजारों व्यंजनों को कवर करता है। फिर भी, पहचान की सटीकता आमतौर पर उन व्यंजनों के लिए अधिक होती है जो प्रशिक्षण डेटा में अधिक सामान्य होते हैं। यदि आप नियमित रूप से किसी ऐसे व्यंजन का सेवन करते हैं जिसे AI कम आत्मविश्वास से संभालता है, तो आपके सुधार समय के साथ उस व्यंजन के लिए सटीकता में सुधार करने में सक्रिय रूप से मदद करते हैं।
अगर AI गलत हो जाता है तो क्या होता है?
आप हमेशा AI के सुझाव को संपादित कर सकते हैं। किसी भी पहचाने गए खाद्य पदार्थ पर टैप करें ताकि आप इसे बदल सकें, भाग का आकार समायोजित कर सकें, या उन आइटम को जोड़ सकें जिन्हें AI ने छोड़ा है। ये सुधार तुरंत आपके लॉग में लागू होते हैं और भविष्य की भविष्यवाणियों में सुधार करने में भी योगदान करते हैं।
क्या फोटो आपके फोन से बाहर जाती है?
छवि Nutrola के सर्वरों पर प्रोसेसिंग के लिए भेजी जाती है क्योंकि AI मॉडल इतने बड़े और गणनात्मक रूप से गहन होते हैं कि उन्हें पूरी तरह से मोबाइल डिवाइस पर चलाना संभव नहीं है। छवि प्रोसेस की जाती है, परिणाम लौटाए जाते हैं, और Nutrola की गोपनीयता नीति यह निर्धारित करती है कि छवि डेटा को कैसे संभाला जाता है। कोई भी छवि तीसरे पक्ष के साथ साझा नहीं की जाती है।
AI कभी-कभी कई संभावित मेल क्यों दिखाता है?
जब मॉडल की विश्वसनीयता एक निश्चित थ्रेशोल्ड से नीचे होती है, तो यह एक एकल उत्तर पर प्रतिबद्ध होने के बजाय अपने शीर्ष उम्मीदवारों को प्रस्तुत करता है। यह जानबूझकर किया गया है। यह बेहतर है कि आपको तीन विकल्प दिखाएं और आपको सही चुनने दें, बजाय इसके कि चुपचाप गलत उत्तर पर प्रतिबद्ध हो जाएं। यह पारदर्शी दृष्टिकोण आपको नियंत्रण में रखता है और सुनिश्चित करता है कि आपका लॉग सटीक है।
क्या AI खाना पकाने के तेल, सॉस या ड्रेसिंग का पता लगा सकता है?
दृश्यमान सॉस और ड्रेसिंग, जैसे सलाद पर रैंच का एक छींटा या एक प्लेट पर सोया सॉस का एक पूल, अक्सर पहचाने जा सकते हैं। हालांकि, खाना पकाने के दौरान भोजन में अवशोषित होने वाले तेल और वसा कैमरे के लिए बड़े पैमाने पर अदृश्य होते हैं। Nutrola सामान्य तैयारी विधियों को ध्यान में रखकर इसकी भरपाई करता है। उदाहरण के लिए, यदि आप भुनी हुई सब्जियों की एक प्लेट की फोटो लेते हैं, तो सिस्टम मानता है कि एक उचित मात्रा में खाना पकाने का तेल उपयोग किया गया था।
क्या AI कभी 100 प्रतिशत सटीक होगा?
वास्तविकता में, नहीं। यहां तक कि पेशेवर आहार विशेषज्ञ जो प्रयोगशाला उपकरण का उपयोग करते हैं, त्रुटियों के लिए सीमाएं स्वीकार करते हैं। लक्ष्य सैद्धांतिक पूर्णता नहीं बल्कि व्यावहारिक सटीकता है: इतना करीब कि यह वास्तव में ट्रेंड्स को ट्रैक करने, कैलोरी की कमी या अधिशेष बनाए रखने, और दिन-प्रतिदिन सूचित आहार निर्णय लेने के लिए उपयोगी हो। अधिकांश उपयोगकर्ताओं के लिए, AI फोटो ट्रैकिंग उनके स्वास्थ्य लक्ष्यों की दिशा में महत्वपूर्ण प्रगति का समर्थन करने के लिए पर्याप्त सटीकता प्रदान करती है।
बड़ा चित्र
खाद्य पहचान AI के पीछे की तकनीक तेजी से विकसित हो रही है। जो पांच साल पहले अत्याधुनिक माना जाता था, उसे कई बार पार किया गया है। मॉडल छोटे, तेज और अधिक सटीक होते जा रहे हैं। प्रशिक्षण डेटासेट बड़े और अधिक विविध होते जा रहे हैं। और लाखों दैनिक उपयोगकर्ताओं द्वारा बनाए गए फीडबैक लूप सुधार को ऐसे तरीके से तेज कर रहे हैं जो केवल एक शोध प्रयोगशाला में संभव नहीं होता।
आपके लिए, उपयोगकर्ता के रूप में, व्यावहारिक परिणाम सरल है: आप एक फोटो लेते हैं, आपको अपना पोषण डेटा मिलता है, और आप अपने दिन के साथ आगे बढ़ते हैं। उस अनुभव के पीछे चलने वाली प्रक्रिया, इमेज प्रोसेसिंग, पहचान, वर्गीकरण, भाग का अनुमान, डेटाबेस मिलान, और विश्वसनीयता स्कोरिंग, सब कुछ कुछ सेकंड में अदृश्य रूप से होता है।
इसे उपयोग करने के लिए इसे समझना आवश्यक नहीं है। लेकिन यह जानना कि पर्दे के पीछे क्या हो रहा है, प्रौद्योगिकी में अच्छी तरह से रखी गई विश्वास को बढ़ा सकता है और आपको इसे अधिक प्रभावी ढंग से उपयोग करने में मदद कर सकता है। जब आप जानते हैं कि अच्छे प्रकाश में overhead फोटो सबसे अच्छे परिणाम उत्पन्न करते हैं, तो आप स्वाभाविक रूप से बेहतर खाद्य फोटो लेना शुरू करते हैं। जब आप जानते हैं कि छिपे हुए घटक एक अंधे स्थान हैं, तो आप याद करते हैं कि उस अतिरिक्त चम्मच जैतून के तेल को मैन्युअल रूप से जोड़ना है। और जब आप जानते हैं कि आपके सुधार सिस्टम को स्मार्ट बनाते हैं, तो आप गलत अनुमान को ठीक करने में लगने वाले दो सेकंड बिताने के लिए प्रेरित महसूस करते हैं।
यह तकनीक को समझने की असली शक्ति है: यह आपको एक निष्क्रिय उपयोगकर्ता से अपने पोषण ट्रैकिंग में एक सूचित भागीदार में बदल देती है।
क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?
उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!