कैसे Nutrola कंप्यूटर विज़न और AI का उपयोग करके 130,000+ खाद्य पदार्थों की पहचान करता है

Nutrola की Snap & Track विशेषता के पीछे की तकनीक: कैसे कन्वोल्यूशनल न्यूरल नेटवर्क, मल्टी-आइटम डिटेक्शन, और पोर्शन आकलन मिलकर एक ही फोटो से 130,000 से अधिक खाद्य पदार्थों की पहचान करते हैं।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

समस्या: खाद्य पहचान AI की सबसे कठिन चुनौतियों में से एक

फोटोग्राफ से खाद्य पदार्थों की पहचान करना सरल लगता है। इंसान इसे आसानी से कर लेते हैं। लेकिन कंप्यूटर विज़न सिस्टम के लिए, खाद्य पहचान तकनीकी दृष्टि से सबसे चुनौतीपूर्ण दृश्य वर्गीकरण कार्यों में से एक है, जो चेहरों, कारों या हस्तलिखित पाठ की पहचान से कहीं अधिक कठिन है।

इसके पीछे के कारण महत्वपूर्ण हैं:

  • अत्यधिक अंतर्वर्गीय विविधता। "सलाद" हजारों अलग-अलग रूपों में दिख सकता है। सीज़र सलाद, ग्रीक सलाद, फल सलाद, और एक विघटित निकोइस श्रेणी नाम साझा करते हैं लेकिन इनमें लगभग कोई दृश्य समानता नहीं होती।
  • उच्च अंतर्वर्गीय समानता। मैश किए हुए आलू और हम्मस एक फोटो में लगभग समान दिख सकते हैं। कुछ सूप और स्मूथी बाउल भी ऐसे ही होते हैं। सफेद चावल और फूलगोभी का चावल कुछ कोणों पर दृश्य रूप से अलग नहीं होते।
  • विकृति और मिश्रण। कठोर वस्तुओं के विपरीत, खाद्य पदार्थ काटे जाते हैं, पकाए जाते हैं, मिलाए जाते हैं, परतदार होते हैं, और अनंत संयोजनों में सजाए जाते हैं। एक बुरिटो, एक रैप, और एक एनचिलाडा में समान सामग्री हो सकती है लेकिन उनकी संरचनात्मक कॉन्फ़िगरेशन अलग होती है।
  • संस्कृतिक संदर्भ पर निर्भरता। समान दृश्य रूप विभिन्न व्यंजनों में विभिन्न खाद्य पदार्थों का प्रतिनिधित्व कर सकता है। एक गोल, सपाट रोटी टॉर्टिला, रोटी, पीटा, क्रेप, या स्वीडिश टनब्रöd हो सकती है, प्रत्येक के अलग-अलग पोषण संबंधी प्रोफाइल होते हैं।
  • आंशिक अवरोध। एक प्लेट पर खाद्य पदार्थ एक-दूसरे को ओवरलैप करते हैं, सॉस सामग्री को ढकता है, और सजावट नीचे क्या है उसे छिपा देती है।

ये चुनौतियाँ समझाती हैं कि खाद्य पहचान अन्य कंप्यूटर विज़न अनुप्रयोगों की तुलना में वर्षों तक पीछे क्यों रही। यह यह भी समझाता है कि इसे हल करने के लिए पारंपरिक छवि वर्गीकरण से मौलिक रूप से अलग दृष्टिकोण की आवश्यकता थी।

नींव: कन्वोल्यूशनल न्यूरल नेटवर्क

CNNs खाद्य छवियों को कैसे प्रोसेस करते हैं

आधुनिक खाद्य पहचान के केंद्र में कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) है, जो दृश्य डेटा को प्रोसेस करने के लिए विशेष रूप से डिज़ाइन की गई गहन शिक्षण आर्किटेक्चर की एक श्रेणी है। एक CNN एक छवि का विश्लेषण एक श्रृंखला में हायरार्किकल फीचर एक्सट्रैक्शन लेयर्स के माध्यम से करता है:

लेयर 1-3 (निम्न-स्तरीय विशेषताएँ): नेटवर्क किनारों, रंगों, और सरल बनावटों की पहचान करता है। इस चरण में, यह प्लेट के गोल किनारे, पकी हुई मांस की भूरे रंग की छाया, या चावल की दानेदार बनावट का पता लगा सकता है।

लेयर 4-8 (मध्य-स्तरीय विशेषताएँ): ये लेयर्स निम्न-स्तरीय विशेषताओं को अधिक जटिल पैटर्न में संयोजित करते हैं: ग्रिल्ड स्टेक का मार्बलिंग पैटर्न, एक सैंडविच की परतदार संरचना, सॉस की चमकदार सतह, या कटी हुई चिकन की रेशेदार बनावट।

लेयर 9-15+ (उच्च-स्तरीय विशेषताएँ): सबसे गहरी लेयर्स मध्य-स्तरीय पैटर्न को खाद्य विशेष प्रतिनिधित्वों में जोड़ती हैं। नेटवर्क यह सीखता है कि विशेष बनावटों, रंगों, आकृतियों, और स्थानिक व्यवस्थाओं का एक विशेष संयोजन "पैड थाई" या "मार्घेरिटा पिज्जा" या "चिकन टिक्का मसाला" से मेल खाता है।

आर्किटेक्चर का विकास

खाद्य पहचान के लिए उपयोग की जाने वाली आर्किटेक्चर पिछले दशक में काफी विकसित हुई हैं:

आर्किटेक्चर वर्ष मुख्य नवाचार खाद्य पहचान पर सटीकता
AlexNet 2012 गहरे CNNs की व्यवहार्यता साबित की ~55% टॉप-1 Food-101 पर
VGGNet 2014 छोटे फ़िल्टर के साथ गहरे नेटवर्क ~72% टॉप-1 Food-101 पर
GoogLeNet/Inception 2014 मल्टी-स्केल फीचर एक्सट्रैक्शन ~78% टॉप-1 Food-101 पर
ResNet 2015 बहुत गहरे नेटवर्क की अनुमति देने वाले स्किप कनेक्शन ~85% टॉप-1 Food-101 पर
EfficientNet 2019 गहराई/चौड़ाई/रिज़ॉल्यूशन का यौगिक स्केलिंग ~91% टॉप-1 Food-101 पर
Vision Transformers (ViT) 2020 वैश्विक संदर्भ के लिए ध्यान तंत्र ~93% टॉप-1 Food-101 पर
आधुनिक हाइब्रिड आर्किटेक्चर 2023-2025 क्षेत्र-जानकारी वाले ध्यान के साथ CNN-Transformer फ्यूजन ~96%+ टॉप-1 विस्तारित डेटासेट पर

Food-101 बेंचमार्क (101 खाद्य श्रेणियाँ, 101,000 छवियाँ) वर्षों तक मानक मूल्यांकन डेटासेट रहा। Nutrola जैसे आधुनिक सिस्टम एक विशाल पैमाने पर काम करते हैं, जिसमें 130,000+ पहचानने योग्य खाद्य पदार्थ हैं, जिन्हें प्रशिक्षण के लिए ऐसे पैटर्न की आवश्यकता होती है जो शैक्षणिक बेंचमार्क से कहीं आगे जाते हैं।

मल्टी-आइटम डिटेक्शन: प्लेट पर सब कुछ देखना

एकल-खाद्य वर्गीकरण से परे

प्रारंभिक खाद्य पहचान सिस्टम एक छवि में एक ही खाद्य पदार्थ की पहचान कर सकते थे। चावल, करी, और नान ब्रेड के साथ एक प्लेट की फोटो को इनमें से किसी एक के रूप में वर्गीकृत किया जाएगा, जबकि अन्य को पूरी तरह से नजरअंदाज किया जाएगा। असली भोजन इतना सरल नहीं होता।

मल्टी-आइटम डिटेक्शन के लिए एक अलग आर्किटेक्चरल दृष्टिकोण की आवश्यकता होती है। पूरे चित्र को एक श्रेणी के रूप में वर्गीकृत करने के बजाय, सिस्टम को:

  1. रुचि के क्षेत्रों का पता लगाना (छवि में विशिष्ट खाद्य पदार्थ कहां हैं?)
  2. उन क्षेत्रों को विभाजित करना (चावल का अंत और करी की शुरुआत कहां है?)
  3. प्रत्येक क्षेत्र को स्वतंत्र रूप से वर्गीकृत करना (यह क्षेत्र चावल है, यह चिकन करी है, यह नान है)
  4. ओवरलैपिंग आइटम को संभालना (चावल पर करी का सॉस करी का हिस्सा है, न कि एक अलग आइटम)

खाद्य वस्तु पहचान ढांचे

आधुनिक मल्टी-आइटम खाद्य पहचान सामान्य कंप्यूटर विज़न कार्यों के लिए मूल रूप से विकसित वस्तु पहचान ढांचों पर आधारित है:

  • क्षेत्र-आधारित दृष्टिकोण (Faster R-CNN से व्युत्पन्न) संभावित क्षेत्रों का उत्पादन करते हैं और प्रत्येक को वर्गीकृत करते हैं। ये सटीक होते हैं लेकिन गणनात्मक रूप से महंगे होते हैं।
  • सिंगल-शॉट दृष्टिकोण (YOLO और SSD से व्युत्पन्न) एक ही फॉरवर्ड पास में बाउंडिंग बॉक्स और वर्गीकरण की भविष्यवाणी करते हैं, जिससे मोबाइल उपकरणों पर वास्तविक समय पहचान संभव होती है।
  • सेमांटिक सेगमेंटेशन दृष्टिकोण (U-Net और Mask R-CNN से व्युत्पन्न) पिक्सेल-स्तरीय खाद्य मानचित्र उत्पन्न करते हैं, जो आइटम के बीच सटीक सीमाएँ प्रदान करते हैं।

Nutrola की Snap & Track प्रणाली एक हाइब्रिड दृष्टिकोण का उपयोग करती है जो मोबाइल इन्फ़ेरेंस के लिए अनुकूलित है। पाइपलाइन प्रारंभिक पहचान के लिए डिवाइस पर कुशलता से चलती है, जबकि जटिल दृश्यों या अस्पष्ट वस्तुओं के लिए सर्वर-साइड प्रोसेसिंग होती है। यह उपयोगकर्ता अनुभव को तेज रखता है, आमतौर पर फोटो कैप्चर से पोषण संबंधी विवरण तक दो सेकंड से कम समय में, जबकि उच्च सटीकता बनाए रखता है।

जटिल भोजन संरचनाओं को संभालना

कुछ भोजन संरचनात्मक चुनौतियाँ प्रस्तुत करते हैं जिन्हें सरल पहचान हल नहीं कर सकती:

  • परतदार खाद्य पदार्थ (लासग्ना, सैंडविच, बुरिटो): सिस्टम को दृश्य बाहरी संकेतों और संदर्भ ज्ञान से आंतरिक सामग्री का अनुमान लगाना होगा।
  • मिश्रित व्यंजन (स्टर-फ्राई, स्ट्यू, कैसरोल): व्यक्तिगत सामग्री एक ही दृश्य द्रव्यमान में मिल जाती हैं। सिस्टम बनावट विश्लेषण, रंग वितरण, और संदर्भ पूर्वानुमान का उपयोग करके संघटन का अनुमान लगाता है।
  • विघटित प्रस्तुतियाँ (बाउल भोजन, बेंटो बॉक्स, टपस): अलग-अलग कम्पार्टमेंट में कई छोटे आइटम की व्यक्तिगत पहचान और वर्गीकरण की आवश्यकता होती है।
  • खाद्य के साथ पेय: संतरे के रस, आम के स्मूथी, और थाई आइस्ड टी के बीच अंतर करने के लिए रंग, अपारदर्शिता, कंटेनर प्रकार, और संदर्भ का विश्लेषण करना आवश्यक है।

प्रशिक्षण डेटा: पहचान गुणवत्ता की नींव

पैमाना और विविधता की आवश्यकताएँ

एक खाद्य पहचान प्रणाली उतनी ही अच्छी होती है जितना कि डेटा जिस पर इसे प्रशिक्षित किया गया है। 50+ देशों से 130,000+ खाद्य पदार्थों की पहचान करने के लिए एक असाधारण पैमाने और विविधता का प्रशिक्षण डेटासेट आवश्यक है।

प्रशिक्षण डेटा की गुणवत्ता के प्रमुख आयाम:

आयतन: आधुनिक खाद्य पहचान मॉडल को लाखों लेबल किए गए खाद्य चित्रों की आवश्यकता होती है। प्रत्येक खाद्य श्रेणी को विभिन्न तैयारियों, प्रस्तुतियों, प्रकाश स्थितियों, कोणों, और भाग के आकारों को दिखाने वाले सैकड़ों से हजारों उदाहरणों की आवश्यकता होती है।

विविधता: एक "चिकन ब्रेस्ट" जो एक जापानी रसोई में फोटो खींचा गया है, वह एक ब्राज़ीलियाई रसोई में खींचे गए से अलग दिखता है, जो एक नाइजीरियाई रसोई में खींचे गए से अलग होता है। प्रशिक्षण डेटा को इस विविधता का प्रतिनिधित्व करना चाहिए, अन्यथा मॉडल उन व्यंजनों पर विफल हो जाएगा जिन्हें उसने नहीं देखा है।

लेबल सटीकता: प्रत्येक छवि को विशेष खाद्य वस्तु के साथ सही ढंग से लेबल किया जाना चाहिए, न कि केवल सामान्य श्रेणी के साथ। "टेरीयाकी ग्लेज़ के साथ ग्रिल्ड सैल्मन" "नींबू बटर के साथ ग्रिल्ड सैल्मन" से पोषण में भिन्न है, और प्रशिक्षण लेबल को इस भिन्नता को पकड़ना चाहिए।

भाग विविधता: एक ही खाद्य पदार्थ को 100g और 300g के भाग में फोटो खींचा गया है, इसे प्रशिक्षण डेटा में प्रदर्शित किया जाना चाहिए ताकि मॉडल मात्रा का अनुमान लगा सके, न कि केवल पहचान।

डेटा संवर्धन रणनीतियाँ

कच्चे डेटा संग्रह हर खाद्य पदार्थ की हर संभव प्रस्तुति को कवर नहीं कर सकता। डेटा संवर्धन तकनीक प्रभावी प्रशिक्षण सेट का विस्तार करती हैं:

  • ज्यामितीय परिवर्तन: छवियों को घुमाना, पलटना, और स्केल करना ताकि मॉडल खाद्य पदार्थों को प्लेट की दिशा के बावजूद पहचान सके।
  • रंग और प्रकाश परिवर्तन: विभिन्न प्रकाश स्थितियों (रेस्टोरेंट की रोशनी, फ्लोरोसेंट किचन लाइट, बाहरी प्राकृतिक प्रकाश, फ्लैश फोटोग्राफी) का अनुकरण करने के लिए ब्राइटनेस, कंट्रास्ट, और व्हाइट बैलेंस को समायोजित करना।
  • संविधानिक अवरोध: खाद्य छवियों के हिस्सों को यादृच्छिक रूप से मास्क करना ताकि मॉडल को पहचानने के लिए प्रशिक्षित किया जा सके, भले ही वे आंशिक रूप से छिपे हों।
  • शैली स्थानांतरण: सिंथेटिक छवियाँ उत्पन्न करना जो खाद्य पहचान को बनाए रखते हुए पृष्ठभूमि, प्लेटिंग शैली, और टेबलवेयर को बदलती हैं।

उपयोगकर्ता डेटा से निरंतर सीखना

2 मिलियन से अधिक सक्रिय उपयोगकर्ताओं के साथ जो दैनिक भोजन लॉग करते हैं, Nutrola की प्रणाली एक निरंतर फीडबैक लूप से लाभान्वित होती है। जब कोई उपयोगकर्ता गलत पहचान की गई खाद्य वस्तु को सही करता है, तो वह सुधार एक प्रशिक्षण संकेत बन जाता है। समय के साथ, यह उपयोगकर्ता-प्रेरित सुधार किनारे के मामलों और क्षेत्रीय खाद्य विविधताओं को संबोधित करता है जिन्हें कोई प्रारंभिक प्रशिक्षण डेटासेट पूरी तरह से पूर्वानुमानित नहीं कर सकता।

यह विशेष रूप से मूल्यवान है:

  • क्षेत्रीय व्यंजन जो शैक्षणिक खाद्य डेटासेट में नहीं दिखाई देते
  • उभरते खाद्य रुझान (नए उत्पाद, फ्यूजन व्यंजन, वायरल व्यंजन)
  • ब्रांड-विशिष्ट उत्पाद जहां पैकेजिंग और प्रस्तुति क्षेत्रीय बाजारों के साथ बदलती है
  • घरेलू पकवान जो रेस्तरां प्रस्तुतियों से अलग दिखते हैं

पोर्शन आकलन: कठिन समस्या

क्यों पोर्शन आकलन पहचान से अधिक महत्वपूर्ण है

एक खाद्य पदार्थ की सही पहचान करना केवल समस्या का आधा हिस्सा है। 100g और 250g के पास्ता के भाग के बीच पोषण संबंधी अंतर 230 कैलोरी है, जो एक आहार को बना या बिगाड़ सकता है। एक ही फोटो से पोर्शन आकलन करना कई तरीकों से अधिक तकनीकी चुनौती है।

गहराई और पैमाना आकलन

एक 2D फोटो में खाद्य मात्रा को सीधे मापने के लिए आवश्यक गहराई की जानकारी नहीं होती। सिस्टम को दो-आयामी संकेतों से तीन-आयामी गुणों का अनुमान लगाना होता है:

  • संदर्भ वस्तुएँ: फ्रेम में प्लेट, कटोरे, बर्तन, और हाथ पैमाने के संदर्भ प्रदान करते हैं। एक मानक डिनर प्लेट (लगभग 26 सेमी व्यास) सब कुछ के लिए आकार का अनुमान लगाने में सहायक होती है।
  • परिप्रेक्ष्य ज्यामिति: जिस कोण से फोटो लिया गया है, वह स्पष्ट आकार को प्रभावित करता है। सीधे ऊपर से फोटो खींची गई प्लेट एक 45-डिग्री कोण पर खींची गई प्लेट से अलग दिखती है। सिस्टम कैमरे के कोण का अनुमान लगाता है और परिप्रेक्ष्य विकृति के लिए सही करता है।
  • खाद्य-विशिष्ट घनत्व मॉडल: सलाद और स्टेक की समान मात्रा का वजन और कैलोरी सामग्री बहुत भिन्न होती है। सिस्टम अनुमानित मात्रा को अनुमानित वजन में परिवर्तित करने के लिए खाद्य-विशिष्ट घनत्व पूर्वानुमान लागू करता है।
  • सीखने वाले भाग वितरण: लाखों लॉग किए गए भोजन से सांख्यिकीय पूर्वानुमान अपेक्षित भाग के आकार को सूचित करते हैं। यदि मॉडल "ओटमील का कटोरा" का पता लगाता है, तो उसे पता होता है कि औसत सेवा लगभग 250g है और इस पूर्वानुमान का उपयोग अपने अनुमान को सीमित करने के लिए करता है।

सटीकता बेंचमार्क

AI-आधारित पोर्शन आकलन कितना सटीक है? अनुसंधान बेंचमार्क संदर्भ प्रदान करते हैं:

विधि औसत त्रुटि (% असली वजन)
मानव दृश्य आकलन (अप्रशिक्षित) 40-60%
मानव दृश्य आकलन (प्रशिक्षित आहार विशेषज्ञ) 15-25%
एकल-छवि AI आकलन (2020 का युग) 20-30%
एकल-छवि AI आकलन (वर्तमान सर्वोत्तम स्थिति, 2025) 10-20%
संदर्भ वस्तु के साथ AI आकलन 8-15%
वजन किए गए खाद्य माप (स्वर्ण मानक) <1%

वर्तमान AI सिस्टम खाद्य तराजू के बराबर नहीं हैं, लेकिन वे लगातार अप्रशिक्षित मानव आकलन को बेहतर करते हैं और प्रशिक्षित आहार विशेषज्ञों की सटीकता के करीब पहुँचते हैं। ट्रैकिंग उपयोग के मामलों के विशाल बहुमत के लिए, यह सटीकता का स्तर महत्वपूर्ण पोषण संबंधी अंतर्दृष्टि का समर्थन करने के लिए पर्याप्त है।

पोषण संबंधी मानचित्रण परत

दृश्य पहचान से पोषण डेटा तक

एक फोटो में "ग्रिल्ड चिकन ब्रेस्ट" की पहचान करना केवल तब उपयोगी है जब वह पहचान सटीक पोषण डेटा से जुड़ी हो। यहीं Nutrola का 100% पोषण विशेषज्ञ-प्रमाणित खाद्य डेटाबेस महत्वपूर्ण हो जाता है।

मानचित्रण परत प्रत्येक दृश्य वर्गीकरण को एक विशिष्ट डेटाबेस प्रविष्टि से जोड़ती है जिसमें शामिल हैं:

  • मैक्रोन्यूट्रिएंट ब्रेकडाउन (कैलोरी, प्रोटीन, कार्बोहाइड्रेट, वसा)
  • माइक्रोन्यूट्रिएंट प्रोफाइल (विटामिन, खनिज)
  • सेवा आकार विविधताएँ
  • तैयारी विधि समायोजन (ग्रिल्ड बनाम तले हुए चिकन ब्रेस्ट में वसा की सामग्री में महत्वपूर्ण अंतर होता है)
  • क्षेत्रीय और ब्रांड-विशिष्ट विविधताएँ

यह मानचित्रण एक साधारण लुकअप टेबल नहीं है। सिस्टम विचार करता है:

  • पकाने की विधि पहचान: दृश्य संकेत (भूरा होना, तेल की चमक, चार मार्क) यह निर्धारित करने में मदद करते हैं कि खाद्य पदार्थ ग्रिल्ड, तले हुए, बेक्ड, या भाप में पकाए गए थे, जो पोषण संबंधी प्रोफाइल को बदलता है।
  • सॉस और टॉपिंग का आकलन: दृश्य सॉस, ड्रेसिंग, पनीर, और टॉपिंग की पहचान की जाती है और उनकी पोषण संबंधी योगदानों को मूल खाद्य पदार्थ में जोड़ा जाता है।
  • संयुक्त भोजन का आकलन: मिश्रित व्यंजनों के लिए जहां सटीक व्यंजन ज्ञात नहीं हैं, सिस्टम सामान्य संघटन के सांख्यिकीय मॉडलों का उपयोग करके मैक्रो और माइक्रोन्यूट्रिएंट सामग्री का अनुमान लगाता है।

सत्यापन का अंतर

कई खाद्य पहचान प्रणाली अवेरिफाइड, उपयोगकर्ता-जनित पोषण डेटाबेस से मानचित्रित होती हैं। यह एक संचयी त्रुटि को जन्म देता है: भले ही दृश्य पहचान सही हो, लेकिन जिस पोषण डेटा से वह मानचित्रित होती है, वह गलत हो सकता है। Nutrola का पोषण विशेषज्ञ-प्रमाणित डेटाबेस बनाए रखने का दृष्टिकोण इस दूसरी त्रुटि के स्रोत को समाप्त करता है, यह सुनिश्चित करते हुए कि सही पहचान सही पोषण संबंधी जानकारी की ओर ले जाती है।

किनारे के मामले और चल रही चुनौतियाँ

वर्तमान सिस्टम कहाँ संघर्ष करते हैं

सीमाओं के बारे में पारदर्शिता क्षमताओं को उजागर करने के रूप में उतनी ही महत्वपूर्ण है। वर्तमान खाद्य पहचान AI, जिसमें Nutrola की प्रणाली भी शामिल है, निम्नलिखित चुनौतियों का सामना करती है:

  • छिपी सामग्री: एक स्मूथी बाउल की पोषण संबंधी सामग्री इस पर निर्भर करती है कि अंदर क्या मिश्रित है, जो फोटो में दिखाई नहीं देता। सिस्टम सामान्य व्यंजन मॉडलों पर निर्भर करता है और अतिरिक्त जानकारी के लिए उपयोगकर्ताओं से पूछ सकता है।
  • बहुत समान खाद्य पदार्थ: दृश्य रूप से समान खाद्य पदार्थों (जैसे, सामान्य मैश किए हुए आलू बनाम फूलगोभी का मैश) के बीच अंतर करने के लिए कभी-कभी उपयोगकर्ता की पुष्टि की आवश्यकता होती है।
  • असामान्य प्रस्तुतियाँ: खाद्य पदार्थ जो अपरिचित तरीकों से प्रस्तुत किए जाते हैं, जैसे आणविक गैस्ट्रोनॉमी या अत्यधिक कलात्मक प्लेटिंग, पहचान प्रणालियों को भ्रमित कर सकते हैं।
  • अत्यधिक प्रकाश स्थितियाँ: बहुत अंधेरे रेस्तरां या कठोर फ्लैश फोटोग्राफी छवि गुणवत्ता को degrade करती है और पहचान सटीकता को कम करती है।
  • दृश्य लेबल के बिना पैकेज खाद्य पदार्थ: एक लिपटे हुए सैंडविच या एक सील किए गए कंटेनर में सीमित दृश्य जानकारी होती है।

Nutrola अनिश्चितता को कैसे संभालता है

जब AI अपनी पहचान में आत्मविश्वास नहीं रखता, तो सिस्टम कई रणनीतियों का उपयोग करता है:

  1. टॉप-N सुझाव: एकल पहचान पर प्रतिबद्ध होने के बजाय, सिस्टम सबसे संभावित विकल्प प्रस्तुत करता है और उपयोगकर्ता को सही विकल्प चुनने की अनुमति देता है।
  2. स्पष्टता प्रश्न: AI डाइट असिस्टेंट फॉलो-अप प्रश्न पूछ सकता है: "क्या यह सफेद चावल है या फूलगोभी का चावल?" या "क्या इसमें क्रीम-आधारित या टमाटर-आधारित सॉस है?"
  3. आवाज का समर्थन: उपयोगकर्ता फोटो में मौखिक संदर्भ जोड़ सकते हैं: एक तस्वीर लें और कहें "यह मेरी माँ का घर का बना दाल का सूप है जिसमें नारियल का दूध है।" आवाज़ इनपुट दृश्य को स्पष्ट करता है।
  4. सुधार से सीखना: प्रत्येक उपयोगकर्ता सुधार भविष्य में समान वस्तुओं के लिए सटीकता में सुधार करता है।

प्रोसेसिंग पाइपलाइन: फोटो से पोषण तक दो सेकंड में

यहाँ एक सरल दृश्य है कि जब Nutrola का उपयोगकर्ता खाद्य फोटो लेता है तो क्या होता है:

चरण 1 (0-200ms): छवि पूर्व-प्रसंस्करण। फोटो का आकार, दिशा, और रंग संतुलन के लिए सामान्यीकरण किया जाता है। बुनियादी गुणवत्ता जांच यह सुनिश्चित करती है कि छवि उपयोगी है।

चरण 2 (200-600ms): मल्टी-आइटम डिटेक्शन। पहचान मॉडल विशिष्ट खाद्य पदार्थों वाले क्षेत्रों की पहचान करता है और प्रत्येक के चारों ओर बाउंडिंग क्षेत्रों को खींचता है।

चरण 3 (600-1000ms): प्रति-क्षेत्र वर्गीकरण। प्रत्येक पहचाने गए क्षेत्र को 130,000+ खाद्य वर्गीकरण के खिलाफ वर्गीकृत किया जाता है। प्रत्येक वर्गीकरण को आत्मविश्वास स्कोर सौंपा जाता है।

चरण 4 (1000-1400ms): पोर्शन आकलन। प्रत्येक पहचाने गए आइटम के लिए मात्रा और वजन का अनुमान गहराई के अनुमान, संदर्भ वस्तु स्केलिंग, और खाद्य-विशिष्ट घनत्व मॉडलों का उपयोग करके लगाया जाता है।

चरण 5 (1400-1800ms): पोषण संबंधी मानचित्रण। प्रत्येक वर्गीकृत और भाग वाले आइटम को इसके पोषण विशेषज्ञ-प्रमाणित डेटाबेस प्रविष्टि से मिलाया जाता है। तैयारी विधि समायोजन लागू किए जाते हैं।

चरण 6 (1800-2000ms): परिणाम असेंबली। संपूर्ण पोषण संबंधी विवरण को एकत्रित किया जाता है और उपयोगकर्ता को प्रस्तुत किया जाता है, जिसमें व्यक्तिगत आइटम सूचीबद्ध होते हैं और कुल भोजन का सारांश प्रदान किया जाता है।

सम्पूर्ण पाइपलाइन आमतौर पर आधुनिक स्मार्टफोन्स पर दो सेकंड से कम समय में पूरी होती है, जिसमें प्रारंभिक पहचान और वर्गीकरण डिवाइस पर चलती है और पोषण संबंधी मानचित्रण Nutrola के क्लाउड डेटाबेस से जुड़ता है।

आगे क्या है: खाद्य पहचान AI का भविष्य

उभरती क्षमताएँ

खाद्य पहचान AI का क्षेत्र तेजी से आगे बढ़ रहा है:

  • वीडियो-आधारित ट्रैकिंग जो खाने के सत्रों का विश्लेषण करती है न कि एकल फोटो, जिससे कई दृष्टिकोणों के माध्यम से पोर्शन आकलन में सुधार होता है
  • सामग्री-स्तरीय पहचान जो मिश्रित व्यंजनों में व्यक्तिगत घटकों की पहचान करती है न कि उन्हें एकल प्रविष्टियों के रूप में मानती है
  • पकाने की प्रक्रिया विश्लेषण जो दृश्य साक्ष्यों के आधार पर कच्चे से पके हुए राज्यों में पोषण संबंधी परिवर्तनों का अनुमान लगा सकती है
  • AR-सहायता प्राप्त पोर्शन मापन जो स्मार्टफोन गहराई सेंसर (LiDAR) का उपयोग करके अधिक सटीक मात्रा का अनुमान लगाती है
  • क्रॉस-मोडल लर्निंग जो दृश्य, पाठ्य (मेनू, लेबल), और संदर्भ (स्थान, दिन का समय) जानकारी को अधिक सटीक पहचान के लिए संयोजित करती है

पैमाने का लाभ

50+ देशों में 2 मिलियन+ उपयोगकर्ताओं के साथ जो लाखों भोजन लॉग कर रहे हैं, Nutrola की पहचान प्रणाली उस गति से सुधार करती है जिसे शैक्षणिक अनुसंधान मेल नहीं खा सकता। हर भोजन लॉग किया गया एक डेटा बिंदु है। हर सुधार एक प्रशिक्षण संकेत है। हर नई व्यंजन का सामना मॉडल के ज्ञान का विस्तार करता है। यह फ्लाईव्हील प्रभाव का मतलब है कि सिस्टम हर महीने मापने योग्य रूप से अधिक सटीक होता है, विशेष रूप से क्षेत्रीय और सांस्कृतिक खाद्य पदार्थों की लंबी पूंछ के लिए जिन्हें छोटे सिस्टम नहीं सीख सकते।

अंतिम निष्कर्ष

खाद्य पहचान AI कंप्यूटर विज़न के सबसे तकनीकी रूप से चुनौतीपूर्ण अनुप्रयोगों में से एक है, जो समस्याओं का समाधान करने की आवश्यकता है जिनका अधिकांश छवि वर्गीकरण सिस्टम कभी सामना नहीं करते: श्रेणियों के भीतर अत्यधिक दृश्य विविधता, भीड़भाड़ वाली प्लेटों पर मल्टी-आइटम पहचान, दो-आयामी छवियों से तीन-आयामी पोर्शन आकलन, और दर्जनों व्यंजनों से 130,000+ आइटम के लिए सत्यापित पोषण डेटा से मानचित्रण।

Nutrola की Snap & Track विशेषता के पीछे की तकनीक गहरे कन्वोल्यूशनल न्यूरल नेटवर्क, उन्नत वस्तु पहचान आर्किटेक्चर, सांख्यिकीय पोर्शन आकलन मॉडल, और एक पोषण विशेषज्ञ-प्रमाणित खाद्य डेटाबेस का संगम है। परिणाम एक ऐसा सिस्टम है जो आपके लंच की एक साधारण फोटो को दो सेकंड के भीतर विस्तृत पोषण संबंधी विवरण में बदल सकता है।

यह परिपूर्ण नहीं है। कोई भी वर्तमान प्रणाली परिपूर्ण नहीं है। लेकिन यह सटीकता के स्तर पर है जो लाखों लोगों के लिए पोषण ट्रैकिंग को व्यावहारिक बनाता है जो कभी भी अपने खाद्य पदार्थों को तौलेंगे या मैन्युअल रूप से डेटाबेस की खोज करेंगे। और यह हर दिन बेहतर होता है, अपने उपयोगकर्ताओं द्वारा साझा किए गए हर भोजन से सीखता है। वर्तमान क्षमता और निरंतर सुधार का यह संयोजन AI-संचालित खाद्य पहचान को केवल एक तकनीकी उपलब्धि नहीं बनाता, बल्कि बेहतर पोषण के लिए एक व्यावहारिक उपकरण बनाता है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!