वैश्विक मस्तिष्क: क्यों अधिकांश एआई बिरयानी, एरेपस और दाल को पहचानने में असफल होते हैं
अधिकांश खाद्य पहचान एआई बर्गर और सलाद पर प्रशिक्षित होते हैं। यहाँ यह बताया गया है कि यह दक्षिण एशियाई, लैटिन अमेरिकी और मध्य पूर्वी व्यंजनों के लिए एक विशाल सटीकता अंतर कैसे उत्पन्न करता है, और वैश्विक स्तर पर प्रशिक्षित मॉडल इसे कैसे बंद कर रहे हैं।
जब आप अधिकांश खाद्य पहचान ऐप्स से एक प्लेट चिकन बिरयानी की पहचान करने के लिए कहते हैं, तो आपको संभवतः "चावल के साथ मांस" या, इससे भी बदतर, "तले हुए चावल" का उत्तर मिलेगा। इसके बाद जो कैलोरी का अनुमान लगाया जाएगा, वह 200 से 400 कैलोरी तक गलत होगा क्योंकि मॉडल को घी में भिगोए गए बासमती, परतदार मैरिनेशन, या डिश में मिलाए गए तले हुए प्याज का कोई ज्ञान नहीं है।
यह कोई सीमित समस्या नहीं है। संयुक्त राष्ट्र के अनुसार, 5.5 अरब से अधिक लोग उत्तरी अमेरिका और यूरोप के बाहर रहते हैं। उनके दैनिक भोजन, नाइजीरियाई जोलोफ चावल से लेकर पेरुवियन सिविचे और जापानी ओकोनोमियाकी तक, मुख्यधारा के खाद्य एआई को संचालित करने वाले डेटा सेट में व्यवस्थित रूप से कम प्रतिनिधित्व करते हैं। इसका परिणाम एक ऐसी तकनीक है जो एक चीज़बर्गर के लिए अच्छी तरह से काम करती है लेकिन दुनिया की अधिकांश जनसंख्या के लिए विफल होती है।
पश्चिमी-केंद्रित प्रशिक्षण डेटा की समस्या
कंप्यूटर दृष्टि मॉडल उन छवियों से सीखते हैं जिन पर उन्हें प्रशिक्षित किया गया है। सबसे व्यापक रूप से उपयोग किए जाने वाले सार्वजनिक खाद्य डेटा सेट स्पष्ट रूप से बताते हैं कि पूर्वाग्रह कहाँ है।
Food-101, खाद्य पहचान अनुसंधान में एक बुनियादी बेंचमार्क, 101 खाद्य श्रेणियों को शामिल करता है। इनमें से लगभग 70 प्रतिशत पश्चिमी यूरोपीय या उत्तरी अमेरिकी व्यंजन हैं: हैमबर्गर, स्पेगेटी बोलोग्नीज़, सीज़र सलाद, सेब का पाई। दक्षिण एशियाई व्यंजन एक ही श्रेणी में दर्शाए गए हैं। अफ्रीकी व्यंजन का कोई प्रतिनिधित्व नहीं है।
UECFOOD-256, जो टोक्यो के इलेक्ट्रो-कम्युनिकेशंस विश्वविद्यालय में विकसित किया गया है, जापानी व्यंजनों की ओर भारी झुकाव रखता है। यह रामेन और टेम्पुरा की पहचान करने में उत्कृष्ट है, लेकिन दक्षिण अमेरिकी या पश्चिमी अफ्रीकी खाद्य पदार्थों के लिए लगभग कुछ भी नहीं प्रदान करता है।
जब एक मॉडल जो मुख्य रूप से इन डेटा सेट पर प्रशिक्षित है, चोले भटूरे की एक प्लेट का सामना करता है, तो उसके पास दो विकल्प होते हैं: या तो डिश को पूरी तरह से गलत वर्गीकृत करें, या इसे निकटतम पश्चिमी समकक्ष के साथ मैप करें। इनमें से कोई भी सटीक कैलोरी की गणना नहीं करता है।
गलत वर्गीकरण से होने वाला नुकसान
सही और गलत वर्गीकरण के बीच कैलोरी का अंतर विशाल हो सकता है। इन वास्तविक दुनिया के उदाहरणों पर विचार करें:
- चिकन बिरयानी को "चिकन तले हुए चावल" के रूप में वर्गीकृत किया गया: घी और तले हुए प्याज के साथ बनाई गई बिरयानी प्रति सर्विंग 450 से 600 कैलोरी हो सकती है। एक सामान्य चिकन तले हुए चावल का डेटा बेस में 300 से 380 कैलोरी का उल्लेख होता है। यह प्रति भोजन 200 कैलोरी की कमी का संभावित कारण है।
- एरेपस को "मकई की रोटी" के रूप में वर्गीकृत किया गया: पनीर और बीन्स से भरी एरेपा 500 कैलोरी तक पहुंच सकती है। मकई की रोटी का एक टुकड़ा 170 से 200 कैलोरी में दर्ज होता है।
- दाल मखनी को "दाल का सूप" के रूप में वर्गीकृत किया गया: पारंपरिक दाल मखनी में मक्खन और क्रीम इसे प्रति कप 350 से 450 कैलोरी तक ले जाती है। एक सामान्य दाल का सूप 160 से 200 कैलोरी पर होता है।
एक सप्ताह के दौरान, ये गलतियाँ सैकड़ों या यहां तक कि हजारों कैलोरी में बदल जाती हैं, जो एक कटौती या वृद्धि को पूरी तरह से कमजोर कर सकती हैं।
वैश्विक व्यंजनों की जटिलता
पश्चिमी व्यंजन आमतौर पर अपेक्षाकृत स्पष्ट, अलग-अलग घटकों में होते हैं: एक प्रोटीन, एक स्टार्च, एक सब्जी। कई गैर-पश्चिमी व्यंजन कंप्यूटर दृष्टि के लिए मौलिक रूप से अलग चुनौती पेश करते हैं।
परतदार और मिश्रित तैयारी
बिरयानी एक परतदार डिश है। चावल, मांस, मसाले, तले हुए प्याज और वसा को अलग-अलग प्लेट नहीं किया जाता है। सतह की एक फोटो केवल शीर्ष परत को प्रकट करती है। ओक्साका का मोल नेग्रो 30 से अधिक सामग्रियों को एक ही सॉस में पीसकर बनता है। थाई मासामन करी नारियल के दूध, भुने हुए मूंगफली, आलू और मांस को एक ही अदृश्य मिश्रण में मिलाती है।
एक एआई मॉडल को कैलोरी का सही अनुमान लगाने के लिए, उसे यह समझना होगा कि डिश कैसी दिखती है, बल्कि इसके अंदर क्या है।
एक ही डिश में क्षेत्रीय भिन्नता
"हमस" जो लेबनान, सीरिया, इज़राइल और तुर्की में बनाया जाता है, उसमें जैतून के तेल की मात्रा, ताहिनी का अनुपात और सर्विंग का आकार काफी भिन्न होगा। घर के बने हैदराबादी बिरयानी की तकनीक और कैलोरी घनत्व लखनऊ की बिरयानी से भिन्न होती है। टमाले मेक्सिको और मध्य अमेरिका के विभिन्न क्षेत्रों में भिन्न होते हैं, जिनमें भरावन पतले चिकन से लेकर लार्ड में सूअर के मांस तक होते हैं।
एक मॉडल को विश्वसनीय अनुमानों के लिए क्षेत्रीय संदर्भ की आवश्यकता होती है, न कि केवल डिश-स्तरीय पहचान की।
अदृश्य कैलोरी योगदानकर्ता
कई वैश्विक खाना पकाने की परंपराएँ उदारता से खाना पकाने के वसा का उपयोग करती हैं जो अंतिम डिश में अदृश्य हो जाती हैं। भारतीय खाना पकाने में घी का उपयोग होता है। पश्चिमी अफ्रीकी व्यंजन अक्सर पाम ऑयल का उपयोग करते हैं। लैटिन अमेरिकी व्यंजन लार्ड और मंटेका को शामिल करते हैं। मध्य पूर्वी खाना पकाने में जैतून के तेल और मक्खन की उदार मात्रा का उपयोग होता है।
ये वसा पकाने के दौरान डिश में अवशोषित हो जाते हैं। एक फोटो उन्हें प्रकट नहीं कर सकती, लेकिन वे कुल कैलोरी का 30 से 50 प्रतिशत तक हो सकते हैं।
Nutrola वैश्विक खाद्य पहचान के लिए कैसे काम करता है
एक ऐसा खाद्य एआई बनाना जो विभिन्न व्यंजनों में काम करे, हर चरण में जानबूझकर प्रयास की आवश्यकता होती है: डेटा संग्रह, मॉडल आर्किटेक्चर, और पहचान के बाद पोषण मानचित्रण।
विविध प्रशिक्षण डेटा का पैमाना
Nutrola का प्रशिक्षण डेटा सेट 130 से अधिक देशों से खाद्य छवियों का समावेश करता है। केवल सार्वजनिक रूप से उपलब्ध पश्चिमी-केंद्रित डेटा सेट पर निर्भर रहने के बजाय, प्रणाली क्षेत्रीय रूप से एकत्रित छवियों को पोषण विशेषज्ञ द्वारा सत्यापित लेबल के साथ शामिल करती है। इसका मतलब है कि मॉडल ने इन्जेरा के साथ टिब्स के हजारों उदाहरण देखे हैं, न कि केवल स्टॉक फोटो, बल्कि इथियोपिया और इरिट्रिया के घरों और रेस्तरां में फोटो खींचे गए असली भोजन।
डिश-स्तरीय पोषण प्रोफाइल
Nutrola हर डिश को सामान्य घटकों में तोड़ने के बजाय, उन्हें जिस तरह से वास्तव में तैयार किया जाता है, उसके लिए पोषण प्रोफाइल बनाए रखता है। दाल मखनी "दाल + अज्ञात वसा" नहीं है। यह एक विशिष्ट डिश है जिसमें एक ज्ञात तैयारी विधि है, और कैलोरी का अनुमान उस मक्खन, क्रीम, और धीमी पकाने की तकनीक को दर्शाता है जो इसे परिभाषित करता है।
यह दृष्टिकोण क्षेत्रीय भिन्नताओं तक फैला हुआ है। प्रणाली कोलकाता-शैली की बिरयानी और हैदराबादी दम बिरयानी के बीच अंतर करती है, क्योंकि कैलोरी प्रोफाइल वास्तव में भिन्न होते हैं।
छिपे हुए सामग्रियों के लिए मल्टीमोडल इनपुट
जब केवल एक फोटो पर्याप्त नहीं होती, Nutrola उपयोगकर्ता द्वारा प्रदान किए गए विवरणों को भरने के लिए वॉयस और टेक्स्ट प्रॉम्प्ट का उपयोग करता है। एक उपयोगकर्ता कह सकता है "यह नारियल के तेल में पकाया गया था" या "एरेपा के अंदर पनीर है" और प्रणाली अनुमान को तदनुसार समायोजित करती है। यह मल्टीमोडल दृष्टिकोण अदृश्य कैलोरी की समस्या को संबोधित करता है जिसे शुद्ध फोटो-आधारित सिस्टम हल नहीं कर सकते।
बेहतर वैश्विक पहचान का उपयोगकर्ताओं के लिए क्या मतलब है
उन लाखों लोगों के लिए जो दैनिक गैर-पश्चिमी आहार का सेवन करते हैं, सटीक खाद्य एआई कोई विलासिता नहीं है। यह एक पोषण ट्रैकर के बीच का अंतर है जो काम करता है और एक ऐसा जो चुपचाप उनके लक्ष्यों को बाधित करता है।
2023 में प्रकाशित एक अध्ययन में, जो पोषण और आहार विज्ञान अकादमी की पत्रिका में प्रकाशित हुआ, पाया गया कि जब उपयोगकर्ता अपने ऐप को असत्यापित मानते हैं, तो पोषण ट्रैकिंग की अनुपालन दर 40 प्रतिशत गिर जाती है। यदि आपका ट्रैकर लगातार आपके भोजन की गलत पहचान करता है, तो आप उस पर भरोसा करना बंद कर देते हैं, और फिर आप इसका उपयोग करना बंद कर देते हैं।
सटीक वैश्विक खाद्य पहचान प्रवासी समुदायों के लिए भी महत्वपूर्ण है। एक दूसरी पीढ़ी का भारतीय-अमेरिकी जो सप्ताह भर दाल, रोटी और सलाद का मिश्रण खाता है, को एक ऐप की आवश्यकता है जो दोनों व्यंजनों को समान सटीकता के साथ संभाले। लंदन में इगुसी सूप बनाते समय एक नाइजीरियाई छात्र को हर सामग्री को मैन्युअल रूप से दर्ज नहीं करना चाहिए क्योंकि एआई ने कभी इस डिश को नहीं देखा।
खाद्य एआई के लिए आगे का रास्ता
खाद्य पहचान का क्षेत्र अधिक विविधता की ओर बढ़ रहा है, लेकिन प्रगति असमान है। नए डेटा सेट जैसे ISIA Food-500 और Nutrition5k कवरेज का विस्तार कर रहे हैं, और ट्रांसफर लर्निंग तकनीकें मॉडल को कम लेबल वाले डेटा के साथ कम प्रतिनिधित्व वाले व्यंजनों के लिए अनुकूलित करने की अनुमति देती हैं।
आगे बढ़ने के लिए कुंजी सत्यापित पोषण डेटा होगा। यह पहचानना कि एक डिश बिरयानी है, केवल समस्या का आधा हिस्सा है। उस पहचान को सटीक कैलोरी और मैक्रो ब्रेकडाउन से मैप करना क्षेत्र-विशिष्ट पोषण ज्ञान की आवश्यकता करता है जो एक सामान्य खाद्य डेटाबेस से परे जाता है।
किसी भी व्यक्ति के लिए जो एक मानक पश्चिमी आहार के बाहर पोषण को ट्रैक कर रहा है, किसी भी खाद्य एआई के बारे में पूछने का सवाल सीधा है: क्या इस प्रणाली को मेरे भोजन पर प्रशिक्षित किया गया था?
अक्सर पूछे जाने वाले प्रश्न
भारतीय खाद्य के लिए सर्वश्रेष्ठ कैलोरी ट्रैकिंग ऐप कौन सा है?
भारतीय खाद्य के लिए सर्वश्रेष्ठ कैलोरी ट्रैकर को दो चीजों की आवश्यकता होती है: एक पहचान मॉडल जो विविध दक्षिण एशियाई व्यंजनों पर प्रशिक्षित हो और एक पोषण डेटाबेस जो पारंपरिक तैयारी विधियों को ध्यान में रखता हो। ऐप्स जो मुख्य रूप से पश्चिमी डेटा सेट पर प्रशिक्षित होते हैं, अक्सर बिरयानी, पनीर टिक्का और दाल मखनी जैसे व्यंजनों को सामान्य प्रविष्टियों के रूप में गलत वर्गीकृत करते हैं, जिससे महत्वपूर्ण कैलोरी की गलतियाँ होती हैं। Nutrola का मॉडल 130 से अधिक देशों से खाद्य छवियों पर प्रशिक्षित है और वास्तविक खाना पकाने की विधियों को दर्शाने वाले डिश-विशिष्ट पोषण प्रोफाइल बनाए रखता है, जिसमें घी, क्रीम और क्षेत्रीय भिन्नताएँ शामिल हैं।
मेरा कैलोरी ट्रैकर जातीय भोजन के लिए गलत परिणाम क्यों देता है?
अधिकांश मुख्यधारा के खाद्य ट्रैकर पहचान मॉडल का उपयोग करते हैं जो पश्चिमी व्यंजनों जैसे Food-101 द्वारा संचालित डेटा सेट पर प्रशिक्षित होते हैं। जब ये मॉडल अपरिचित व्यंजनों का सामना करते हैं, तो वे या तो उन्हें एक दृश्य रूप से समान पश्चिमी डिश के रूप में गलत वर्गीकृत करते हैं या सामान्य डेटाबेस प्रविष्टियों पर डिफ़ॉल्ट करते हैं। इन गलत मेलों के लिए पोषण प्रोफाइल अक्सर सैकड़ों कैलोरी में भिन्न होते हैं, विशेष रूप से उन व्यंजनों के लिए जो घी, पाम ऑयल, या नारियल के दूध जैसे खाना पकाने के वसा के साथ तैयार किए जाते हैं, जो तस्वीरों में अदृश्य होते हैं।
क्या एआई मध्य पूर्वी भोजन के लिए कैलोरी को सटीक रूप से ट्रैक कर सकता है?
यदि मॉडल को शावरमा, फत्तौश, किब्बे, और मंसफ जैसे व्यंजनों पर विशेष रूप से प्रशिक्षित किया गया है, और यदि पोषण डेटाबेस जैतून के तेल, ताहिनी, और मक्खन की मात्रा को ध्यान में रखता है, तो एआई मध्य पूर्वी भोजन के लिए कैलोरी को सटीक रूप से ट्रैक कर सकता है। मध्य पूर्वी व्यंजनों में कई खाद्य पदार्थ ऐसे होते हैं जो पकाने के दौरान वसा से कैलोरी प्राप्त करते हैं। एक प्रणाली जो फोटो पहचान को उपयोगकर्ता द्वारा प्रदान किए गए तैयारी विवरणों के साथ जोड़ती है, जैसे कि उपयोग किए गए जैतून के तेल की मात्रा, अधिक विश्वसनीय अनुमानों का उत्पादन करेगी।
खाद्य एआई कई मिश्रित सामग्रियों वाले व्यंजनों को कैसे संभालता है?
जटिल व्यंजन जिनमें मिश्रित या परतदार सामग्री होती हैं, जैसे मोल, बिरयानी, और स्ट्यू, खाद्य पहचान में सबसे कठिन चुनौतियों में से हैं। शुद्ध छवि-आधारित सिस्टम केवल दृश्य सतह का विश्लेषण कर सकते हैं, आंतरिक परतों और अवशोषित वसा को छोड़कर। उन्नत खाद्य एआई डिश-स्तरीय पहचान के माध्यम से इस समस्या का समाधान करता है, पूरी डिश की पहचान करता है न कि व्यक्तिगत घटकों की, और मल्टीमोडल इनपुट के माध्यम से जहां उपयोगकर्ता छिपे हुए सामग्रियों के बारे में विवरण जोड़ सकते हैं, टेक्स्ट या वॉयस के माध्यम से। यह संयुक्त दृष्टिकोण जटिल, बहु-घटक तैयारियों के लिए सटीकता में काफी सुधार करता है।
क्या क्राउडसोर्स्ड खाद्य डेटा अंतरराष्ट्रीय व्यंजनों के लिए सटीक है?
क्राउडसोर्स्ड पोषण डेटाबेस अंतरराष्ट्रीय व्यंजनों के लिए सबसे कम सटीक होते हैं। जो लोग जोलोफ चावल, सिविचे, या पैड थाई जैसे व्यंजनों के लिए प्रविष्टियाँ प्रस्तुत करते हैं, वे अक्सर क्षेत्रीय भिन्नताओं, खाना पकाने के वसा, या प्रामाणिक तैयारी विधियों को ध्यान में नहीं रखते हैं। एक ही "बिरयानी" प्रविष्टि हल्की सब्जी बिरयानी से लेकर समृद्ध मटन दम बिरयानी तक की कैलोरी की सीमा का प्रतिनिधित्व नहीं कर सकती। सत्यापित डेटाबेस जो क्षेत्र-विशिष्ट पोषण प्रोफाइल और भिन्नता-स्तरीय विवरण प्रदान करते हैं, गैर-पश्चिमी व्यंजनों के लिए अधिक विश्वसनीय डेटा प्रदान करते हैं।