AI कैलोरी ट्रैकिंग के पीछे का विज्ञान: फोटो पहचान कैसे काम करती है

12 अप्रैल 2026

AI-संचालित कैलोरी ट्रैकिंग के पीछे की कंप्यूटर विज़न पाइपलाइन का तकनीकी विश्लेषण: छवि वर्गीकरण, वस्तु पहचान, सेमांटिक विभाजन, गहराई का अनुमान, मात्रा का अनुमान, और डेटाबेस मिलान। तकनीक के अनुसार सटीकता तालिकाएँ और प्रकाशित शोध के संदर्भ शामिल हैं।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

जब आप अपने भोजन की फोटो लेते हैं और एक कैलोरी ट्रैकिंग ऐप उस भोजन की पहचान करता है और इसके पोषण संबंधी सामग्री का अनुमान लगाता है, तो यह परिणाम एक बहु-चरण कंप्यूटर विज़न पाइपलाइन का परिणाम होता है, जिसमें छवि वर्गीकरण, वस्तु पहचान, भाग का अनुमान और डेटाबेस मिलान शामिल हैं। प्रत्येक चरण अपनी सटीकता की सीमाएँ और त्रुटियों के स्रोत पेश करता है। इस पाइपलाइन के काम करने के तरीके को समझना और यह जानना कि यह कहाँ टूटती है, यह मूल्यांकन करने के लिए आवश्यक है कि क्या AI-संचालित कैलोरी ट्रैकिंग एक विश्वसनीय आहार निगरानी उपकरण है।

यह लेख खाद्य पहचान के पीछे की कंप्यूटर विज़न पाइपलाइन का तकनीकी विश्लेषण प्रदान करता है, जिसमें शामिल मशीन लर्निंग आर्किटेक्चर, प्रकाशित सटीकता बेंचमार्क, AI के पीछे पोषण डेटाबेस की महत्वपूर्ण भूमिका, और विज्ञान की वर्तमान स्थिति शामिल है।

AI कैलोरी ट्रैकिंग पाइपलाइन: छह चरण

AI-संचालित खाद्य पहचान एक एकल तकनीक नहीं है। यह अनुक्रमिक प्रसंस्करण चरणों की एक पाइपलाइन है, जिसमें से प्रत्येक को अंतिम कैलोरी अनुमान के लिए पर्याप्त रूप से प्रदर्शन करना आवश्यक है।

चरण	तकनीकी कार्य	मुख्य चुनौती	त्रुटि योगदान
1. छवि पूर्वप्रसंस्करण	प्रकाश, संकल्प, अभिविन्यास को सामान्य करना	वास्तविक दुनिया की फोटोग्राफी की भिन्नता	कम (अच्छी तरह से हल किया गया)
2. खाद्य पहचान	छवि में खाद्य क्षेत्रों को ढूंढना	कई खाद्य पदार्थ, ओवरलैपिंग आइटम, आंशिक अवरोध	मध्यम
3. खाद्य वर्गीकरण	यह पहचानना कि प्रत्येक खाद्य आइटम क्या है	खाद्य पदार्थों के बीच दृश्य समानता (चावल की किस्में, पनीर)	मध्यम से उच्च
4. भाग का अनुमान	यह निर्धारित करना कि प्रत्येक खाद्य पदार्थ की मात्रा कितनी है	अधिकांश तस्वीरों में कोई निश्चित पैमाना संदर्भ नहीं	उच्च
5. डेटाबेस मिलान	पहचाने गए खाद्य पदार्थ को पोषण डेटाबेस प्रविष्टि से जोड़ना	अस्पष्ट मिलान, तैयारी विधि में भिन्नताएँ	कम से मध्यम (डेटाबेस पर निर्भर करता है)
6. पोषक तत्वों की गणना	भाग × प्रति-इकाई पोषक तत्वों को गुणा करना	सभी पिछले चरणों से यौगिक त्रुटि	पाइपलाइन की सटीकता पर निर्भर करता है

चरण 1: छवि पूर्वप्रसंस्करण

खाद्य पहचान होने से पहले, कच्ची तस्वीर को सामान्यीकृत करना आवश्यक है। इसमें समायोजन शामिल है:

प्रकाश भिन्नता। फ्लोरोसेंट, इंकैंडेसेंट, प्राकृतिक या फ्लैश लाइटिंग के तहत ली गई तस्वीरें एक ही खाद्य पदार्थ के लिए विभिन्न रंग प्रोफाइल उत्पन्न करती हैं। आधुनिक पूर्वप्रसंस्करण पाइपलाइन प्रकाश-निर्भर वर्गीकरण त्रुटियों को कम करने के लिए रंग स्थिरता एल्गोरिदम और सीखे गए सामान्यीकरण का उपयोग करती हैं।
संकल्प और प्रारूप। विभिन्न उपकरणों से ली गई छवियों की संकल्प भिन्न होती है। पूर्वप्रसंस्करण पाइपलाइन छवियों को एक मानक इनपुट आयाम (आमतौर पर वर्गीकरण मॉडलों के लिए 224×224 या 384×384 पिक्सल, पहचान मॉडलों के लिए उच्च) में आकार देती है।
अभिविन्यास। तस्वीरें सीधे ऊपर से (टॉप-डाउन, भाग के अनुमान के लिए आदर्श) या कोणों पर ली जा सकती हैं। जब संभव हो, ज्यामितीय सामान्यीकरण देखने के कोण के लिए समायोजन करता है।

यह चरण वर्तमान तकनीक द्वारा अच्छी तरह से हल किया गया है और समग्र पाइपलाइन में न्यूनतम त्रुटि का योगदान करता है।

चरण 2: खाद्य पहचान (वस्तु पहचान)

खाद्य पहचान का उत्तर है: "इस छवि में खाद्य पदार्थ कहाँ हैं?" यह एक वस्तु पहचान समस्या है, और यह तब जटिल हो जाती है जब एक ही तस्वीर में एक प्लेट पर या कई व्यंजनों में कई खाद्य पदार्थ होते हैं।

उपयोग की जाने वाली आर्किटेक्चर

YOLO (You Only Look Once)। YOLO परिवार के डिटेक्टर (YOLOv5, YOLOv8, और इसके बाद के संस्करण) पूरे चित्र को एक ही फॉरवर्ड पास में संसाधित करते हैं, बाउंडिंग बॉक्स और वर्ग भविष्यवाणियाँ एक साथ उत्पन्न करते हैं। YOLO को उत्पादन खाद्य पहचान प्रणालियों में इसके वास्तविक समय की गति के लिए पसंद किया जाता है, जो आमतौर पर मोबाइल हार्डवेयर पर 50 मिलीसेकंड से कम की अनुमानित समय प्राप्त करता है।

Faster R-CNN। एक दो-चरण डिटेक्टर जो पहले रुचि के क्षेत्रों का प्रस्ताव करता है और फिर प्रत्येक क्षेत्र को वर्गीकृत करता है। Faster R-CNN जटिल दृश्यों पर एकल-चरण डिटेक्टर्स की तुलना में थोड़ी अधिक सटीकता प्राप्त करता है लेकिन अनुमानित समय में वृद्धि की कीमत पर।

DETR (Detection Transformer)। फेसबुक AI रिसर्च का ट्रांसफार्मर-आधारित डिटेक्टर ध्यान तंत्र का उपयोग करता है ताकि वस्तु बाउंडिंग बॉक्स को सीधे पूर्वानुमानित किया जा सके बिना एंकर प्रस्तावों के। DETR ओवरलैपिंग और ओक्लूडेड खाद्य वस्तुओं को एंकर-आधारित विधियों की तुलना में बेहतर तरीके से संभालता है, जिससे यह जटिल भोजन दृश्यों के लिए उपयुक्त बनता है।

खाद्य छवियों में पहचान की चुनौतियाँ

खाद्य पहचान सामान्य वस्तु पहचान की तुलना में अद्वितीय चुनौतियाँ प्रस्तुत करती है:

कोई स्पष्ट सीमाएँ नहीं। प्लेट पर खाद्य पदार्थ अक्सर छूते हैं या ओवरलैप करते हैं (पास्ता पर सॉस, सलाद पर पनीर)। कारों या पैदल चलने वालों की तुलना में, खाद्य वस्तुओं के पास स्पष्ट किनारे rarely होते हैं।
परिवर्तनीय प्रस्तुति। एक ही खाद्य पदार्थ की तैयारी विधि, प्लेटिंग शैली और साथ के खाद्य पदार्थों के आधार पर नाटकीय रूप से अलग दिख सकता है।
स्केल भिन्नता। एक अकेला बादाम और एक पूरी पिज्जा एक ही भोजन की तस्वीर में दिखाई दे सकते हैं, जिससे वस्तु स्केल के एक विस्तृत रेंज में पहचान की आवश्यकता होती है।

Aguilar et al. (2018), Multimedia Tools and Applications में प्रकाशित, ने खाद्य पहचान मॉडलों का मूल्यांकन किया और पाया कि पहचान की सटीकता (औसत सटीकता के द्वारा मापी गई, mAP) दृश्य की जटिलता के आधार पर 60 से 85 प्रतिशत के बीच थी। एकल-आइटम तस्वीरों ने 90 प्रतिशत से ऊपर की पहचान दर प्राप्त की, जबकि जटिल व्यंजनों में पांच या अधिक आइटम 70 प्रतिशत से नीचे गिर गए।

चरण 3: खाद्य वर्गीकरण (छवि वर्गीकरण)

एक बार खाद्य पदार्थों की पहचान और स्थानीयकरण हो जाने के बाद, प्रत्येक पहचानी गई क्षेत्र को वर्गीकृत करना आवश्यक है: क्या यह चिकन है, मछली, टोफू, या टेम्पेह? यह एक छवि वर्गीकरण समस्या है, और यह खाद्य पहचान पाइपलाइन का सबसे अधिक शोधित चरण है।

उपयोग की जाने वाली आर्किटेक्चर

कॉन्वोल्यूशनल न्यूरल नेटवर्क (CNNs)। ResNet, EfficientNet, और Inception आर्किटेक्चर खाद्य वर्गीकरण अनुसंधान के कार्यकर्ता रहे हैं। ये मॉडल क्रमिक कॉन्वोल्यूशनल परतों के माध्यम से पदानुक्रमित दृश्य विशेषताएँ (पृष्ठभूमि, आकार, रंग पैटर्न) निकालते हैं। Meyers et al. (2015) ने Google के Im2Calories पेपर में खाद्य वर्गीकरण के लिए एक Inception-आधारित आर्किटेक्चर का उपयोग किया और 2,500-क्लास खाद्य डेटासेट पर लगभग 79 प्रतिशत की शीर्ष-1 सटीकता की रिपोर्ट की।

विज़न ट्रांसफार्मर्स (ViT)। Dosovitskiy et al. (2021) द्वारा पेश किए गए, विज़न ट्रांसफार्मर्स प्राकृतिक भाषा प्रसंस्करण से आत्म-ध्यान तंत्र को छवि पहचान पर लागू करते हैं। ViTs छवियों को पैच में विभाजित करते हैं और उन्हें अनुक्रमों के रूप में संसाधित करते हैं, जिससे मॉडल को वैश्विक छवि संदर्भ को पकड़ने की अनुमति मिलती है जो सीमित रिसेप्टिव क्षेत्रों वाले CNNs द्वारा छूट जाती है। हाल के खाद्य वर्गीकरण कार्यों में ViT और Swin Transformer आर्किटेक्चर का उपयोग करके मानक खाद्य पहचान बेंचमार्क पर CNN बेंचमार्क की तुलना में 3-7 प्रतिशत अंक की सुधार की रिपोर्ट की गई है।

हाइब्रिड आर्किटेक्चर। आधुनिक उत्पादन प्रणालियाँ अक्सर CNN विशेषता निष्कर्षण को ट्रांसफार्मर-आधारित तर्क के साथ जोड़ती हैं, दोनों दृष्टिकोणों की ताकत का लाभ उठाते हुए।

खाद्य श्रेणी के अनुसार वर्गीकरण सटीकता

वर्गीकरण सटीकता खाद्य प्रकार के अनुसार काफी भिन्न होती है।

खाद्य श्रेणी	सामान्य शीर्ष-1 सटीकता	मुख्य चुनौती
संपूर्ण फल (सेब, केला, संतरा)	90–95%	उच्च दृश्य भिन्नता
एकल-घटक प्रोटीन (स्टेक, मछली का टुकड़ा)	80–90%	पकाने की विधियों में भिन्नता
अनाज और स्टार्च (चावल, पास्ता, ब्रेड)	75–85%	किस्मों के बीच समान रूप से दिखने वाली विशेषताएँ
मिश्रित व्यंजन (स्टर-फ्राई, कैसरोल, करी)	55–70%	सतह से सामग्री का संयोजन अदृश्य
पेय पदार्थ	40–60%	विभिन्न संघटन वाले दृश्य रूप से समान तरल
सॉस और मसाले	30–50%	समान दृश्य रूप, बहुत भिन्न कैलोरी घनत्व

डेटा Meyers et al. (2015), Bossard et al. (2014), और Thames et al. (2021) से संकलित किया गया है।

वर्गीकरण की चुनौती सबसे गंभीर होती है उन खाद्य पदार्थों के लिए जो समान दिखते हैं लेकिन पोषण संबंधी प्रोफाइल में बहुत भिन्न होते हैं। सफेद चावल और फूलगोभी चावल दृश्य रूप से समान होते हैं लेकिन कैलोरी घनत्व में पांच गुना भिन्न होते हैं। संपूर्ण दूध और स्किम दूध दृश्य रूप से भिन्न नहीं होते। नियमित और डाइट सोडा केवल रूप से भिन्न नहीं होते हैं।

बेंचमार्क डेटासेट

Food-101 (Bossard et al., 2014)। 101 खाद्य श्रेणियाँ जिनमें 1,000 छवियाँ हैं। खाद्य वर्गीकरण अनुसंधान के लिए सबसे व्यापक रूप से उपयोग किया जाने वाला बेंचमार्क। वर्तमान अत्याधुनिक मॉडल इस बेंचमार्क पर 95 प्रतिशत से ऊपर की शीर्ष-1 सटीकता प्राप्त करते हैं, हालांकि श्रेणियों की अपेक्षाकृत छोटी संख्या (101) इसे वास्तविक दुनिया की विविधता का प्रतिनिधित्व करने में कम सक्षम बनाती है।

ISIA Food-500 (Min et al., 2020)। 500 खाद्य श्रेणियाँ जिनमें लगभग 400,000 छवियाँ हैं। वास्तविक दुनिया की खाद्य विविधता का अधिक प्रतिनिधित्व करती है। इस बेंचमार्क पर शीर्ष-1 सटीकता काफी कम है, आमतौर पर 65-80 प्रतिशत।

UEC Food-256 (Kawano और Yanagida, 2015)। 256 जापानी खाद्य श्रेणियाँ। सांस्कृतिक रूप से विशिष्ट खाद्य पहचान की चुनौती को प्रदर्शित करती है, क्योंकि पश्चिमी खाद्य डेटासेट पर प्रशिक्षित मॉडल एशियाई व्यंजनों पर खराब प्रदर्शन करते हैं और इसके विपरीत।

चरण 4: भाग का अनुमान

भाग का अनुमान AI कैलोरी ट्रैकिंग पाइपलाइन में सबसे कमजोर कड़ी के रूप में व्यापक रूप से मान्यता प्राप्त है। भले ही खाद्य पदार्थ की सही पहचान हो, एक गलत भाग अनुमान सीधे गलत कैलोरी गणना में परिवर्तित होता है।

तकनीकें

संदर्भ वस्तु स्केलिंग। कुछ ऐप्स उपयोगकर्ताओं से तस्वीर में एक संदर्भ वस्तु (क्रेडिट कार्ड, सिक्का, या उपयोगकर्ता की अंगुली) शामिल करने के लिए कहते हैं। संदर्भ वस्तु के ज्ञात आयाम खाद्य आयामों का अनुमान लगाने के लिए एक स्केल संदर्भ प्रदान करते हैं। Dehais et al. (2017) ने संदर्भ वस्तु विधियों का मूल्यांकन किया और पाया कि जब संदर्भ वस्तु मौजूद होती है तो भाग अनुमान त्रुटियाँ 15-25 प्रतिशत होती हैं।

गहराई का अनुमान। स्टेरियो कैमरा सिस्टम (दो लेंस) या LiDAR सेंसर (कुछ स्मार्टफोनों पर उपलब्ध) गहराई की जानकारी प्रदान करते हैं जो खाद्य सतह का 3D पुनर्निर्माण सक्षम बनाते हैं। कंटेनर ज्यामिति और खाद्य घनत्व के बारे में धारणाओं के साथ मिलकर, गहराई डेटा मात्रा के अनुमान को सक्षम बनाता है। Meyers et al. (2015) ने रिपोर्ट किया कि गहराई आधारित अनुमान ने एकल-छवि विधियों की तुलना में भाग त्रुटियों को कम किया, लेकिन सभी उपकरणों पर गहराई सेंसर उपलब्ध नहीं हैं।

मोनोकुलर गहराई अनुमान। मशीन लर्निंग मॉडल जो एकल छवियों से गहराई का अनुमान लगाने के लिए प्रशिक्षित होते हैं, बिना विशेष हार्डवेयर के 3D खाद्य ज्यामिति का अनुमान लगा सकते हैं। सटीकता भौतिक गहराई सेंसर की तुलना में कम है लेकिन किसी भी स्मार्टफोन कैमरे के लिए लागू होती है।

सीखे गए मात्रा अनुमान। ऐसे एंड-टू-एंड मॉडल जो खाद्य छवियों के डेटासेट पर प्रशिक्षित होते हैं जिनके साथ ज्ञात मात्रा होती है, बिना स्पष्ट 3D पुनर्निर्माण के भाग का आकार सीधे अनुमान लगा सकते हैं। Thames et al. (2021) ने ऐसे मॉडलों का मूल्यांकन किया और 20-40 प्रतिशत की औसत भाग अनुमान त्रुटियों की रिपोर्ट की।

भाग अनुमान सटीकता तालिका

विधि	औसत निरपेक्ष त्रुटि	विशेष हार्डवेयर की आवश्यकता	संदर्भ
संदर्भ वस्तु (क्रेडिट कार्ड)	15–25%	नहीं (केवल संदर्भ वस्तु)	Dehais et al. (2017)
स्टेरियो कैमरा गहराई	12–20%	हाँ (डुअल कैमरा)	Meyers et al. (2015)
LiDAR गहराई	10–18%	हाँ (LiDAR-सुसज्जित फोन)	हालिया अप्रकाशित बेंचमार्क
मोनोकुलर गहराई अनुमान (ML)	20–35%	नहीं	Thames et al. (2021)
सीखा गया मात्रा (एंड-टू-एंड)	20–40%	नहीं	Thames et al. (2021)
उपयोगकर्ता आत्म-आंकलन (कोई AI नहीं)	20–50%	नहीं	Williamson et al. (2003)

तालिका दिखाती है कि सभी स्वचालित विधियाँ बिना सहायता प्राप्त मानव अनुमान (Williamson et al., 2003, Obesity Research) से बेहतर प्रदर्शन करती हैं, लेकिन कोई भी लगातार 10 प्रतिशत से कम त्रुटियाँ प्राप्त नहीं करती। संदर्भ के लिए, 400-कैलोरी के भोजन पर 25 प्रतिशत भाग अनुमान त्रुटि 100-कैलोरी विचलन में परिवर्तित होती है, जो कई भोजन के बीच जमा होने पर एक मामूली कैलोरी घाटे को नकारने के लिए पर्याप्त है।

चरण 5: डेटाबेस मिलान — महत्वपूर्ण कदम

यह वह चरण है जिसे तकनीकी चर्चाओं में सबसे कम ध्यान मिलता है लेकिन अंतिम सटीकता पर सबसे बड़ा प्रभाव डालता है। एक बार जब AI एक खाद्य पदार्थ की पहचान करता है और उसके भाग का अनुमान लगाता है, तो इसे पहचाने गए खाद्य पदार्थ को पोषण डेटाबेस में एक प्रविष्टि से मिलाना चाहिए ताकि कैलोरी और पोषक तत्वों के मान प्राप्त किए जा सकें।

इस मिलान की गुणवत्ता पूरी तरह से अंतर्निहित डेटाबेस की गुणवत्ता पर निर्भर करती है। यदि AI "ग्रिल्ड चिकन ब्रेस्ट, 150 ग्राम" की सही पहचान करता है लेकिन इसे एक क्राउडसोर्स डेटाबेस प्रविष्टि से मिलाता है जो 100 ग्राम पर 130 कैलोरी सूचीबद्ध करता है (जबकि USDA द्वारा विश्लेषित मान 100 ग्राम पर 165 कैलोरी है), तो अंतिम कैलोरी अनुमान 27 प्रतिशत कम होगा, न कि इसलिए कि AI असफल हुआ, बल्कि इसलिए कि इसके पीछे का डेटाबेस गलत है।

यह वह मौलिक अंतर्दृष्टि है जो विभिन्न AI कैलोरी ट्रैकिंग ऐप्स को अलग करती है: AI खाद्य पहचान सटीकता केवल उतनी ही उपयोगी है जितनी कि इसके पीछे का पोषण डेटाबेस।

डेटाबेस मिलान तुलना

AI ट्रैकिंग ऐप	खाद्य पहचान	डेटाबेस बैकएंड	समग्र विश्वसनीयता
Nutrola	AI फोटो + वॉयस पहचान	1.8M USDA-आधारित, पोषण विशेषज्ञ-प्रमाणित प्रविष्टियाँ	उच्च पहचान + उच्च डेटा सटीकता
Cal AI	AI फोटो अनुमान	स्वामित्व डेटाबेस (सीमित पारदर्शिता)	मध्यम पहचान + अनिश्चित डेटा सटीकता
ऐप्स जो क्राउडसोर्स डेटाबेस में AI जोड़ते हैं	AI फोटो पहचान	क्राउडसोर्स, अप्रमाणित प्रविष्टियाँ	मध्यम पहचान + कम डेटा सटीकता

Nutrola की आर्किटेक्चर विशेष रूप से इस महत्वपूर्ण निर्भरता को संबोधित करने के लिए डिज़ाइन की गई है। AI फोटो पहचान और वॉयस लॉगिंग सुविधाएँ पहचान और भाग अनुमान चरणों को संभालती हैं, जबकि USDA FoodData Central से प्राप्त 1.8 मिलियन पोषण विशेषज्ञ-प्रमाणित प्रविष्टियों का बैकएंड डेटाबेस यह सुनिश्चित करता है कि प्रत्येक पहचाने गए खाद्य पदार्थ के साथ जुड़े पोषण संबंधी डेटा वैज्ञानिक रूप से सटीक है। यह चिंताओं का पृथक्करण सुनिश्चित करता है कि AI खाद्य पहचान में सुधार सीधे ट्रैकिंग सटीकता में सुधार में परिवर्तित होता है, बिना नीचे की ओर डेटाबेस त्रुटियों द्वारा कमजोर किए गए।

प्रशिक्षण डेटा आवश्यकताएँ

खाद्य पहचान मॉडल को प्रशिक्षित करने के लिए बड़े, लेबल किए गए खाद्य छवियों के डेटासेट की आवश्यकता होती है। प्रशिक्षण डेटा की गुणवत्ता और विविधता सीधे मॉडल के प्रदर्शन को प्रभावित करती है।

डेटासेट का आकार। अत्याधुनिक खाद्य पहचान मॉडल आमतौर पर 100,000 से लेकर कई मिलियन लेबल किए गए छवियों के डेटासेट पर प्रशिक्षित होते हैं। Google's Im2Calories (Meyers et al., 2015) ने लाखों खाद्य छवियों के स्वामित्व वाले डेटासेट का उपयोग किया। सार्वजनिक रूप से उपलब्ध डेटासेट जैसे Food-101 (101,000 छवियाँ) और ISIA Food-500 (400,000 छवियाँ) काफी छोटे हैं।

लेबल गुणवत्ता। प्रत्येक प्रशिक्षण छवि को खाद्य श्रेणी के साथ सही ढंग से लेबल किया जाना चाहिए। गलत लेबल किया गया प्रशिक्षण डेटा ऐसे मॉडल उत्पन्न करता है जो गलत संघों को सीखते हैं। खाद्य छवियों के लिए, लेबलिंग के लिए डोमेन विशेषज्ञता की आवश्यकता होती है क्योंकि समान दिखने वाले खाद्य पदार्थों (जैसे जास्मीन चावल बनाम बासमती चावल, ग्रूपर बनाम कॉड) को गैर-विशेषज्ञों के लिए भेद करना कठिन होता है।

विविधता आवश्यकताएँ। प्रशिक्षण डेटा को खाद्य प्रस्तुति की पूरी विविधता का प्रतिनिधित्व करना चाहिए: विभिन्न व्यंजन, प्लेटिंग शैलियाँ, प्रकाश व्यवस्था, कैमरे के कोण, और भाग के आकार। मुख्य रूप से पश्चिमी खाद्य फोटोग्राफ पर प्रशिक्षित मॉडल एशियाई, अफ्रीकी, या मध्य पूर्वी व्यंजनों पर खराब प्रदर्शन करते हैं।

भाग लेबल। भाग अनुमान प्रशिक्षण के लिए, छवियों को वास्तविक वजन माप के साथ जोड़ा जाना चाहिए। इन लेबलों को बनाने के लिए खाद्य पदार्थों को तौलने से पहले और बाद में फोटो खींचना आवश्यक होता है, जो एक श्रम-गहन प्रक्रिया है जो भाग अनुमान प्रशिक्षण सेट के आकार को सीमित करती है।

यौगिक त्रुटि समस्या

AI कैलोरी ट्रैकिंग में सबसे महत्वपूर्ण तकनीकी अवधारणा यौगिक त्रुटि है। पाइपलाइन के प्रत्येक चरण में अनिश्चितता होती है, और ये अनिश्चितताएँ एक-दूसरे के साथ गुणा होती हैं।

एक ग्रिल्ड साल्मन, चावल, और ब्रोकोली के भोजन पर विचार करें:

पहचान सटीकता: 90% (प्रत्येक खाद्य पदार्थ सही ढंग से स्थानीयकृत)।
वर्गीकरण सटीकता: 85% (प्रत्येक खाद्य पदार्थ सही ढंग से पहचाना गया)।
भाग अनुमान सटीकता: 75% (भाग वास्तविक के 25% के भीतर)।
डेटाबेस मिलान सटीकता: 95% (एक प्रमाणित डेटाबेस के लिए) या 80% (एक क्राउडसोर्स डेटाबेस के लिए)।

सभी चरणों के सफल होने की संयुक्त संभावना सभी तीन खाद्य पदार्थों के लिए:

प्रमाणित डेटाबेस के साथ: (0.90 × 0.85 × 0.75 × 0.95)^3 = 0.548^3 = 16.5% संभावना कि सभी तीन आइटम पूरी तरह से सटीक हैं।
क्राउडसोर्स डेटाबेस के साथ: (0.90 × 0.85 × 0.75 × 0.80)^3 = 0.459^3 = 9.7% संभावना कि सभी तीन आइटम पूरी तरह से सटीक हैं।

ये गणनाएँ यह स्पष्ट करती हैं कि यौगिक त्रुटि वर्तमान तकनीक के साथ पूर्ण सटीकता को प्राप्त करना असंभव बनाती है। हालाँकि, वे यह भी दिखाती हैं कि किसी भी व्यक्तिगत चरण में सुधार समग्र पाइपलाइन में सुधार करता है। डेटाबेस मिलान चरण को अनुकूलित करना सबसे आसान है (एक प्रमाणित डेटाबेस का उपयोग करें न कि क्राउडसोर्स वाले) और हर भोजन पर एक महत्वपूर्ण सटीकता सुधार प्रदान करता है।

वर्तमान स्थिति और सीमाएँ

क्या अच्छा काम करता है

एकल-आइटम पहचान। एक स्पष्ट रूप से फोटो खींचे गए खाद्य पदार्थ की पहचान 90 प्रतिशत से ऊपर की सटीकता प्राप्त करती है आधुनिक आर्किटेक्चर के साथ।
सामान्य खाद्य पदार्थ। सबसे अधिक खपत होने वाले खाद्य पदार्थों के पास प्रचुर मात्रा में प्रशिक्षण डेटा होता है और उन्हें विश्वसनीय रूप से पहचाना जाता है।
बारकोड संवर्धन। जब एक पैक किए गए खाद्य पदार्थ को बारकोड द्वारा पहचाना जा सकता है न कि फोटो द्वारा, पहचान सटीकता 100 प्रतिशत के करीब पहुँच जाती है (केवल बारकोड पठनीयता द्वारा सीमित)।

क्या चुनौतीपूर्ण बना हुआ है

मिश्रित व्यंजन। स्ट्यू, कैसरोल, स्टर-फ्राई, और अन्य मिश्रित व्यंजन जहाँ व्यक्तिगत सामग्री को दृश्य रूप से अलग नहीं किया जा सकता, वे कठिन बने हुए हैं। मॉडल समग्र व्यंजन का अनुमान लगा सकता है लेकिन इसकी विशिष्ट सामग्री का नहीं।
छिपी सामग्री। खाना पकाने के दौरान जोड़े गए तेल, मक्खन, चीनी, और सॉस कैलोरी में महत्वपूर्ण होते हैं लेकिन अंतिम प्लेटेड व्यंजन में अक्सर अदृश्य होते हैं। 2 चम्मच तेल में पकाया गया एक स्टर-फ्राइड सब्जी का व्यंजन कुकिंग स्प्रे में पकाए गए एक के समान दिखता है, लेकिन कैलोरी का अंतर लगभग 240 कैलोरी है।
भाग सटीकता। 2D छवियों से मात्रा का अनुमान वर्तमान विधियों के लिए सबसे कमजोर कड़ी बनी हुई है, जिसमें सामान्यतः 20-40 प्रतिशत की त्रुटियाँ होती हैं।
संस्कृति खाद्य विविधता। पश्चिमी व्यंजनों पर प्रशिक्षित मॉडल एशियाई, अफ्रीकी, मध्य पूर्वी, और लैटिन अमेरिकी खाद्य पदार्थों पर खराब प्रदर्शन करते हैं, जो वैश्विक खाद्य खपत का एक महत्वपूर्ण हिस्सा बनाते हैं।

अक्सर पूछे जाने वाले प्रश्न

AI फोटो-आधारित कैलोरी ट्रैकिंग कितनी सटीक है?

वर्तमान AI खाद्य पहचान प्रणालियाँ अच्छी तरह से प्रतिनिधित्व वाले खाद्य श्रेणियों से एकल आइटम के लिए 75-95 प्रतिशत की खाद्य पहचान सटीकता प्राप्त करती हैं। हालाँकि, भाग अनुमान महत्वपूर्ण त्रुटि जोड़ता है (Thames et al., 2021 के अनुसार 20-40 प्रतिशत)। अंतिम कैलोरी अनुमान की सटीकता पहचान सटीकता, भाग सटीकता, और मिलान के पीछे के डेटाबेस की सटीकता के यौगिक प्रभाव पर निर्भर करती है। Nutrola जैसे ऐप्स जो AI पहचान को एक प्रमाणित USDA-आधारित डेटाबेस के साथ जोड़ते हैं, डेटाबेस त्रुटि घटक को न्यूनतम करते हैं।

खाद्य पहचान ऐप्स कौन से मशीन लर्निंग मॉडल का उपयोग करते हैं?

अधिकांश उत्पादन खाद्य पहचान प्रणालियाँ वर्गीकरण के लिए कॉन्वोल्यूशनल न्यूरल नेटवर्क (ResNet, EfficientNet) या विज़न ट्रांसफार्मर्स (ViT, Swin Transformer) का उपयोग करती हैं, पहचान के लिए YOLO या DETR, और भाग अनुमान के लिए अलग-अलग मॉडल। अधिकांश व्यावसायिक ऐप्स के लिए विशिष्ट आर्किटेक्चर और प्रशिक्षण विवरण स्वामित्व होते हैं।

क्या AI सफेद चावल और फूलगोभी चावल जैसे समान खाद्य पदार्थों के बीच भेद कर सकता है?

यह एक महत्वपूर्ण चुनौती बनी हुई है। दृश्य रूप से समान खाद्य पदार्थों के साथ भिन्न पोषण संबंधी प्रोफाइल कंप्यूटर विज़न खाद्य पहचान की एक ज्ञात सीमा है। मॉडल कुछ समान खाद्य पदार्थों को अलग करने के लिए सूक्ष्म दृश्य संकेत (पृष्ठभूमि, अनाज संरचना) सीख सकते हैं, लेकिन इन मामलों में सटीकता काफी कम हो जाती है। यही एक कारण है कि AI पहचान को उपयोगकर्ता की पुष्टि और एक प्रमाणित डेटाबेस के साथ जोड़ा जाना चाहिए न कि पूरी तरह से स्वायत्त प्रणाली के रूप में उपयोग किया जाना चाहिए।

AI खाद्य पहचान के पीछे डेटाबेस क्यों महत्वपूर्ण है?

AI खाद्य पहचान यह निर्धारित करती है कि खाद्य पदार्थ क्या है। डेटाबेस उस खाद्य पदार्थ के साथ जुड़े पोषण संबंधी मानों को निर्धारित करता है। यहां तक कि सही खाद्य पहचान भी गलत कैलोरी अनुमान उत्पन्न करती है यदि डेटाबेस प्रविष्टि गलत है। USDA FoodData Central से जुड़े एक प्रमाणित डेटाबेस (जैसे Nutrola के 1.8 मिलियन प्रविष्टियाँ) यह सुनिश्चित करता है कि सही पहचान किए गए खाद्य पदार्थ वैज्ञानिक रूप से सटीक पोषण संबंधी डेटा से मेल खाते हैं। यही कारण है कि डेटाबेस की गुणवत्ता AI मॉडल की गुणवत्ता के लिए समग्र ट्रैकिंग सटीकता के लिए उतनी ही महत्वपूर्ण है।

भविष्य में AI कैलोरी ट्रैकिंग में सुधार कैसे होगा?

तीन सक्रिय अनुसंधान क्षेत्रों में सुधार को बढ़ावा मिलेगा: (1) बड़े और अधिक विविध प्रशिक्षण डेटासेट वर्गीकरण सटीकता में सुधार करेंगे वैश्विक व्यंजनों में; (2) स्मार्टफोनों पर LiDAR और मल्टी-कैमरा गहराई संवेदन भाग अनुमान में सुधार करेंगे; (3) बहु-मोडल मॉडल जो दृश्य पहचान को पाठ/वॉयस संदर्भ (जो उपयोगकर्ता कहता है कि वे क्या खा रहे हैं) के साथ जोड़ते हैं, अस्पष्टता को कम करेंगे। Nutrola का फोटो AI और वॉयस लॉगिंग का संयोजन पहले से ही इस बहु-मोडल दृष्टिकोण को लागू करता है, खाद्य पहचान सटीकता में सुधार के लिए दृश्य और भाषा इनपुट दोनों का उपयोग करता है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!