कैसे काम करता है फूड रिकग्निशन AI पाइपलाइन: फोटो से पोषण डेटा तक

12 मार्च 2026

फूड रिकग्निशन AI पाइपलाइन का विस्तृत तकनीकी विवरण: कैमरा इनपुट से लेकर CNN फीचर एक्सट्रैक्शन, फूड क्लासिफिकेशन, पोर्शन एस्टिमेशन, और पोषण डेटाबेस लुकअप तक, और अंत में कैलोरी की गणना।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

जब आप अपने लंच की एक फोटो लेते हैं और दो सेकंड के भीतर एक पूरा मैक्रो ब्रेकडाउन देखते हैं, तो इसे सामान्य मान लेना आसान है। लेकिन इस त्वरित परिणाम के पीछे एक बहु-चरणीय पाइपलाइन होती है, जो आपकी इमेज को कैमरा कैप्चर, प्रीप्रोसेसिंग, न्यूरल नेटवर्क इनफेरेंस, क्लासिफिकेशन, पोर्शन एस्टिमेशन, डेटाबेस लुकअप, और अंततः कैलोरी की गणना से गुजारती है, इससे पहले कि कुछ भी आपकी स्क्रीन पर पहुंचे। प्रत्येक चरण एक विशिष्ट समस्या को हल करता है, अपने स्वयं के एल्गोरिदम पर निर्भर करता है, और अगले चरण को एक विशेष आउटपुट देता है।

यह लेख उस पूरे सफर का विवरण देता है, जो शटर टैप से लेकर पोषण लेबल तक जाता है। इस दौरान हम उन आर्किटेक्चर, तकनीकों, और इंजीनियरिंग ट्रेड-ऑफ का नाम लेंगे जो प्रत्येक चरण को काम करने में मदद करते हैं, और हम यह भी बताएंगे कि Nutrola ने सटीकता और गति को उद्योग मानकों से परे बढ़ाने के लिए अपनी नवाचारों को कहाँ पेश किया है।

चरण 1: कैमरा इनपुट और इमेज अधिग्रहण

सब कुछ तब शुरू होता है जब एक उपयोगकर्ता कैमरा व्यूफाइंडर खोलता है और खाने की प्लेट को फ्रेम करता है। आधुनिक स्मार्टफोन्स 12 से 48 मेगापिक्सल के रिज़ॉल्यूशन पर इमेज कैप्चर करते हैं, जो एक बेयर फ़िल्टर मोज़ेक के माध्यम से रंग की तीव्रता के मान को एन्कोड करता है। डिवाइस का इमेज सिग्नल प्रोसेसर (ISP) इस डेटा को डेमोसा करता है, व्हाइट बैलेंस लागू करता है, शोर को कम करता है, और एक मानक JPEG या HEIF फ़ाइल को एक सेकंड के एक हिस्से में आउटपुट करता है।

इस चरण को प्रभावित करने वाले दो हार्डवेयर फीचर्स हैं। पहले, हाल के iPhone Pro और कुछ Android फ्लैगशिप पर LiDAR सेंसर RGB इमेज के साथ एक सहायक गहराई मानचित्र कैप्चर कर सकते हैं। यह गहराई डेटा पोर्शन एस्टिमेशन के दौरान महत्वपूर्ण हो जाता है। दूसरा, टाइम-ऑफ-फ्लाइट सेंसर वाले डिवाइस समान लेकिन मोटे गहराई की जानकारी प्रदान करते हैं, जिसे पाइपलाइन तब भी उपयोग कर सकती है जब LiDAR उपलब्ध न हो।

पाइपलाइन RGB इमेज और, जब उपलब्ध हो, गहराई मानचित्र को एक जोड़े के इनपुट के रूप में ग्रहण करती है। यदि डिवाइस में कोई गहराई सेंसर नहीं है, तो पाइपलाइन केवल RGB के साथ आगे बढ़ती है और बाद में मोनोकोलर गहराई अनुमान का उपयोग करके मुआवजा देती है।

इस चरण का मुख्य आउटपुट

उपयोगकर्ता के सामने के दृश्य का प्रतिनिधित्व करने वाली एक उच्च-रिज़ॉल्यूशन RGB इमेज (और वैकल्पिक रूप से एक गहराई मानचित्र)।

चरण 2: इमेज प्रीप्रोसेसिंग

कच्चा कैमरा आउटपुट न्यूरल नेटवर्क इनफेरेंस के लिए तैयार नहीं होता। प्रीप्रोसेसिंग इमेज को एक मानकीकृत टेन्सर में बदल देती है, जिसकी अपेक्षा मॉडल करता है।

रिसाइजिंग और क्रॉपिंग

अधिकांश फूड रिकग्निशन मॉडल एक निश्चित रिज़ॉल्यूशन पर इनपुट स्वीकार करते हैं, जो आमतौर पर 224x224, 384x384, या 512x512 पिक्सल होते हैं, जो आर्किटेक्चर पर निर्भर करता है। पाइपलाइन इमेज को इस लक्षित रिज़ॉल्यूशन में रिसाइज करती है जबकि आस्पेक्ट रेशियो को बनाए रखती है, आवश्यकतानुसार लेटरबॉक्सिंग या सेंटर-क्रॉपिंग लागू करती है। बाइकोबिक इंटरपोलेशन मानक रिसैंपलिंग विधि है क्योंकि यह बाइलीनियर विकल्पों की तुलना में बारीक बनावट के विवरण को बेहतर बनाए रखती है।

नॉर्मलाइजेशन

पिक्सेल मानों को 0-255 पूर्णांक रेंज से फ्लोटिंग-पॉइंट नंबरों में परिवर्तित किया जाता है और फिर प्रशिक्षण डेटा सेट के चैनल-वार औसत और मानक विचलन का उपयोग करके सामान्यीकृत किया जाता है। ImageNet पर प्री-ट्रेंडेड मॉडलों के लिए, मानक सामान्यीकरण मान (R, G, और B चैनलों के लिए क्रमशः [0.485, 0.456, 0.406] का औसत और [0.229, 0.224, 0.225] का मानक विचलन) लागू किए जाते हैं। यह सामान्यीकरण इनपुट वितरण को शून्य के चारों ओर केंद्रित करता है और इसे यूनिट वेरिएंस तक स्केल करता है, जो प्रशिक्षण के दौरान ग्रेडिएंट फ्लो को स्थिर करता है और निरंतर इनफेरेंस व्यवहार सुनिश्चित करता है।

रंग स्थान और ऑग्मेंटेशन आर्टिफैक्ट्स

प्रशिक्षण के दौरान, पाइपलाइन व्यापक डेटा ऑग्मेंटेशन लागू करती है: यादृच्छिक घुमाव, क्षैतिज फ्लिप, रंग जिटर, गॉसियन ब्लर, और कटआउट पैच। इनफेरेंस के समय ये ऑग्मेंटेशन बंद कर दिए जाते हैं, लेकिन मॉडल ने उन प्रकार के दृश्य शोरों के प्रति असंवेदनशील होना सीखा है, जो वे अनुकरण करते हैं। इसका मतलब है कि एक गर्म रेस्तरां की रोशनी में ली गई फोटो और एक ठंडी फ्लोरोसेंट ऑफिस लाइटिंग में ली गई फोटो दोनों विश्वसनीय फीचर प्रतिनिधित्व उत्पन्न करेंगी।

इस चरण का मुख्य आउटपुट

एक सामान्यीकृत फ्लोटिंग-पॉइंट टेन्सर, निश्चित स्थानिक आयामों के साथ, न्यूरल नेटवर्क बैकबोन के लिए तैयार।

चरण 3: CNN फीचर एक्सट्रैक्शन

यह पाइपलाइन का गणनात्मक केंद्र है। एक गहरा कॉन्वोल्यूशनल न्यूरल नेटवर्क (या बढ़ती हुई दृष्टि ट्रांसफार्मर) प्रीप्रोसेस्ड टेन्सर को प्रोसेस करता है और एक घना फीचर वेक्टर उत्पन्न करता है जो इमेज की दृश्य सामग्री को एक रूप में एन्कोड करता है जिसे डाउनस्ट्रीम क्लासिफिकेशन और डिटेक्शन हेड्स समझ सकते हैं।

बैकबोन आर्किटेक्चर

कई बैकबोन आर्किटेक्चर फूड रिकग्निशन के लिए प्रभावी साबित हुए हैं:

EfficientNet नेटवर्क की गहराई, चौड़ाई, और इनपुट रिज़ॉल्यूशन को संतुलित करने के लिए यौगिक स्केलिंग का उपयोग करता है। EfficientNet-B4 और B5 लोकप्रिय विकल्प हैं क्योंकि वे मोबाइल हार्डवेयर पर संयोजन में क्वांटाइजेशन के साथ मजबूत सटीकता प्रदान करते हैं। Nutrola एक EfficientNet-व्युत्पन्न बैकबोन का उपयोग करता है जिसे एक स्वामित्व वाले फूड इमेज डेटा सेट पर फाइन-ट्यून किया गया है, जो लेटेंसी और टॉप-1 सटीकता के बीच एक अनुकूल व्यापार-बंद प्राप्त करता है।

दृष्टि ट्रांसफार्मर (ViT) इमेज को निश्चित आकार के पैच (आम तौर पर 16x16 पिक्सल) में विभाजित करता है, प्रत्येक पैच को एक एम्बेडिंग में प्रक्षिप्त करता है, और एम्बेडिंग के अनुक्रम को मल्टी-हेड सेल्फ-अटेंशन लेयर्स के माध्यम से प्रोसेस करता है। ViTs लंबी दूरी के स्थानिक संबंधों को पकड़ने में उत्कृष्ट होते हैं, उदाहरण के लिए यह समझना कि हरे पत्तों के बगल में भूरा डिस्क एक हैमबर्गर पैटी है न कि एक चॉकलेट कुकी, क्योंकि चारों ओर का संदर्भ एक बुन और सलाद पत्ते को शामिल करता है। हाइब्रिड मॉडल जैसे DeiT (डेटा-कुशल इमेज ट्रांसफार्मर) और स्विन ट्रांसफार्मर ने शुद्ध ViTs की डेटा आवश्यकताओं और गणनात्मक लागत को कम कर दिया है, जिससे उन्हें उत्पादन फूड रिकग्निशन सिस्टम के लिए व्यवहार्य बना दिया है।

MobileNetV3 ऑन-डिवाइस इनफेरेंस के लिए ऑप्टिमाइज़ किया गया है जिसमें डेप्थवाइज सेपरेबल कॉन्वोल्यूशन्स और हार्डवेयर-जानकारी वाली न्यूरल आर्किटेक्चर खोज शामिल है। यह लेटेंसी-क्रिटिकल पथों में बैकबोन के रूप में कार्य करता है जहां मॉडल को बिना नेटवर्क राउंड-ट्रिप के पूरी तरह से डिवाइस पर चलाना होता है।

फीचर पिरामिड नेटवर्क

क्योंकि फूड आइटम एक ही इमेज में स्पष्ट आकार में भिन्न हो सकते हैं (एक बड़ा पिज्जा एक छोटे डिपिंग सॉस कप के बगल में), पाइपलाइन एक फीचर पिरामिड नेटवर्क (FPN) का उपयोग करती है जो कई स्थानिक स्केल पर फीचर्स को निकालती है। FPN एक शीर्ष-से-नीचे का मार्ग बनाता है जिसमें बैकबोन के मध्यवर्ती फीचर मैप्स से पार्श्व कनेक्शन होते हैं, जो मल्टी-स्केल फीचर मैप्स का एक सेट उत्पन्न करता है जो छोटे गार्निश और बड़े मुख्य व्यंजनों की पहचान करने में समान रूप से प्रभावी होते हैं।

इस चरण का मुख्य आउटपुट

एक सेट मल्टी-स्केल फीचर मैप्स (या केवल क्लासिफिकेशन-केवल कार्यों के लिए एकल पूल किया गया फीचर वेक्टर) जो इमेज के प्रत्येक क्षेत्र की दृश्य अर्थशास्त्र को एन्कोड करता है।

चरण 4: मल्टी-लेबल फूड क्लासिफिकेशन और डिटेक्शन

वास्तविक भोजन में कभी-कभी केवल एक ही फूड आइटम नहीं होता। एक सामान्य डिनर प्लेट में ग्रिल्ड सैल्मन, स्टीम्ड ब्रोकोली, ब्राउन राइस, और एक नींबू का टुकड़ा हो सकता है। पाइपलाइन को फ्रेम में हर अलग फूड आइटम का पता लगाना, स्थानीयकृत करना और वर्गीकृत करना होगा।

ऑब्जेक्ट डिटेक्शन के लिए YOLO और DETR

पाइपलाइन निकाली गई फीचर मैप्स पर एक ऑब्जेक्ट डिटेक्शन हेड लागू करती है। इस क्षेत्र में दो परिवार के डिटेक्टर्स प्रमुख हैं:

YOLO (You Only Look Once) एक ही फॉरवर्ड पास में डिटेक्शन करता है, इमेज को एक ग्रिड में विभाजित करता है और प्रत्येक ग्रिड सेल के लिए बाउंडिंग बॉक्स और क्लास प्रॉबेबिलिटीज का पूर्वानुमान करता है। YOLOv8 और इसके उत्तराधिकारी विशेष रूप से मोबाइल तैनाती के लिए उपयुक्त होते हैं क्योंकि वे एक बार में पूरी इमेज को प्रोसेस करते हैं न कि पहले क्षेत्रों का प्रस्ताव करते हैं और फिर उन्हें परिष्कृत करते हैं। Nutrola एक YOLO-व्युत्पन्न डिटेक्शन हेड का उपयोग करता है जिसे 15,000 से अधिक फूड क्लासेस पर ट्यून किया गया है जो वैश्विक व्यंजनों को कवर करता है।

DETR (Detection Transformer) ऑब्जेक्ट डिटेक्शन को एक सेट प्रीडिक्शन समस्या के रूप में मानता है, एक ट्रांसफार्मर एन्कोडर-डिकोडर आर्किटेक्चर का उपयोग करके सीधे एक सेट डिटेक्शन आउटपुट करता है बिना एंकर बॉक्स या नॉन-मैक्सिमम सप्रेशन की आवश्यकता के। DETR ओवरलैपिंग फूड्स को एंकर-आधारित विधियों की तुलना में अधिक सहजता से संभालता है क्योंकि इसका सेट-आधारित हानि स्वाभाविक रूप से डुप्लिकेट प्रीडिक्शंस से बचता है।

मिश्रित व्यंजनों के लिए सेमांटिक सेगमेंटेशन

संयुक्त व्यंजनों जैसे सलाद, स्टर-फ्राई, और अनाज के कटोरे के लिए जहां अलग-अलग सामग्री ओवरलैप और मिश्रित होती हैं, बाउंडिंग बॉक्स बहुत मोटे होते हैं। पाइपलाइन एक सेमांटिक सेगमेंटेशन शाखा में स्विच करती है, जो अक्सर U-Net या DeepLabv3+ आर्किटेक्चर पर आधारित होती है, जो इमेज में प्रत्येक पिक्सेल को वर्गीकृत करती है। यह पिक्सेल-स्तरीय वर्गीकरण प्रणाली को मिश्रित व्यंजन में प्रत्येक सामग्री के अनुपात का अनुमान लगाने की अनुमति देती है, भले ही उनके बीच कोई स्पष्ट सीमाएं न हों।

कॉन्फिडेंस स्कोरिंग और कैंडिडेट रैंकिंग

प्रत्येक डिटेक्शन के साथ एक कॉन्फिडेंस स्कोर होता है। पाइपलाइन एक थ्रेशोल्ड (आम तौर पर 0.5 से 0.7 तक, अनुप्रयोग के आधार पर) लागू करती है ताकि कम कॉन्फिडेंस प्रीडिक्शंस को फ़िल्टर किया जा सके। जब शीर्ष प्रीडिक्शन अनिश्चित होता है, तो सिस्टम उपयोगकर्ता को पुष्टि के लिए शीर्ष तीन से पांच कैंडिडेट्स प्रस्तुत कर सकता है, जिससे त्रुटि दरों को बिना मैनुअल एंट्री की आवश्यकता के कम किया जा सकता है।

Nutrola का क्लासिफिकेशन इंजन एक उपयोगकर्ता संदर्भ मॉड्यूल को शामिल करता है जो उपयोगकर्ता के पिछले भोजन, व्यंजन प्राथमिकताओं, भौगोलिक स्थान, और दिन के समय को ध्यान में रखता है। यदि कोई उपयोगकर्ता अक्सर मैक्सिकन व्यंजन लॉग करता है और मॉडल एक आटे की टॉर्टिला और नान के बीच अनिश्चित है, तो संदर्भ मॉड्यूल संभाव्यता को टॉर्टिला की ओर बढ़ाता है। यह व्यक्तिगतकरण परत समय के साथ गलत वर्गीकरण दरों को मापनीय रूप से कम करती है।

इस चरण का मुख्य आउटपुट

एक सूची में पहचाने गए फूड आइटम, प्रत्येक के साथ एक क्लास लेबल, एक बाउंडिंग बॉक्स या पिक्सेल मास्क, और एक कॉन्फिडेंस स्कोर।

चरण 5: पोर्शन साइज एस्टिमेशन

यह जानना कि एक प्लेट में ग्रिल्ड चिकन और चावल हैं, पर्याप्त नहीं है। पाइपलाइन को यह अनुमान लगाना होगा कि प्रत्येक फूड की मात्रा कितनी है, क्योंकि 100 ग्राम चिकन ब्रेस्ट और 300 ग्राम चिकन ब्रेस्ट में 300 कैलोरी से अधिक का अंतर होता है।

मोनोकोलर डेप्थ एस्टिमेशन

जब कोई हार्डवेयर गहराई सेंसर उपलब्ध नहीं होता है, तो पाइपलाइन एक मोनोकोलर डेप्थ एस्टिमेशन मॉडल (आम तौर पर MiDaS या DPT आर्किटेक्चर पर आधारित) का उपयोग करती है ताकि RGB इमेज से अकेले एक गहराई मानचित्र का अनुमान लगाया जा सके। ये मॉडल संदर्भ संकेतों जैसे वस्तुओं की ओवरलैप, सापेक्ष आकार, बनावट ग्रेडिएंट, और वैनिशिंग पॉइंट से गहराई का अनुमान लगाना सीखते हैं। अनुमानित गहराई मानचित्र, जबकि LiDAR डेटा की तुलना में कम सटीक है, प्लेट पर फूड के तीन-आयामी आकार का अनुमान लगाने के लिए पर्याप्त है।

संदर्भ वस्तु स्केलिंग

एक फोटो में कोई अंतर्निहित स्केल नहीं होती। पाइपलाइन इसे फ्रेम में ज्ञात आयामों की संदर्भ वस्तुओं का पता लगाकर हल करती है। प्लेटें (आम तौर पर 25 से 27 सेमी व्यास), मानक कटलरी, कटोरे, और यहां तक कि स्मार्टफोन के किनारे स्केल को स्थिर कर सकते हैं। पाइपलाइन प्लेट के किनारे का पता लगाने के लिए एक अंडाकार को फिट करती है और दृश्य कोण का अनुमान लगाने के लिए प्रोजेक्टिव ज्यामिति लागू करती है, जिससे पिक्सेल माप से वास्तविक दुनिया की दूरी का पुनर्निर्माण होता है।

वॉल्यूम-टू-वेट रूपांतरण

फूड के तीन-आयामी आकार का अनुमान लगाने के बाद, पाइपलाइन फूड के पिक्सेल मास्क के माध्यम से गहराई प्रोफ़ाइल को एकीकृत करके वॉल्यूम की गणना करती है। फिर यह फूड-विशिष्ट घनत्व तालिकाओं का उपयोग करके वॉल्यूम को वजन में परिवर्तित करती है। एक कप हरी पालक एक कप हुमस की तुलना में बहुत कम वजन करता है, इसलिए सटीकता के लिए घनत्व लुकअप आवश्यक है।

Nutrola एक स्वामित्व वाली घनत्व डेटाबेस बनाए रखता है जो विभिन्न तैयारी स्थितियों (कच्चा, पका हुआ, मिश्रित, जमी हुई) में हजारों फूड्स को कवर करता है और इसका उपयोग अनुमानित वॉल्यूम को ग्राम वजन में उच्च सटीकता के साथ परिवर्तित करने के लिए करता है।

इस चरण का मुख्य आउटपुट

प्रत्येक पहचाने गए फूड आइटम के लिए अनुमानित वजन ग्राम में।

चरण 6: पोषण डेटाबेस लुकअप

प्रत्येक फूड आइटम को वर्गीकृत और तौला जाने के बाद, पाइपलाइन एक पोषण डेटाबेस को क्वेरी करती है ताकि उस फूड के प्रति 100 ग्राम के लिए मैक्रोन्यूट्रिएंट और माइक्रोन्यूट्रिएंट प्रोफाइल प्राप्त किया जा सके।

डेटाबेस आर्किटेक्चर

उच्च गुणवत्ता वाले पोषण डेटाबेस सरकारी स्रोतों जैसे USDA FoodData Central, UK Nutrient Databank, और दर्जनों देशों के राष्ट्रीय समकक्षों से डेटा लेते हैं। ये स्रोत हजारों फूड आइटम के लिए प्रयोगशाला-विश्लेषित पोषक तत्व मान प्रदान करते हैं।

Nutrola का डेटाबेस इन सरकारी स्रोतों से परे जाता है, जिसमें 1.2 मिलियन से अधिक ब्रांडेड उत्पादों, रेस्तरां मेनू आइटमों से पोषण जानकारी जो साझेदारियों के माध्यम से सत्यापित की गई है, और सामुदायिक-प्रस्तुत प्रविष्टियाँ शामिल हैं जो एक बहु-स्तरीय सत्यापन पाइपलाइन से गुजरती हैं जिसमें क्रॉस-रेफरेंसिंग, आउटलेयर डिटेक्शन, और डाइटिशियन समीक्षा शामिल है। परिणामस्वरूप, 2 मिलियन से अधिक फूड प्रविष्टियों का एक एकीकृत डेटाबेस है जिसमें पोषण डेटा को एक सुसंगत स्कीमा में सामान्यीकृत किया गया है।

फजी मिलान और एंटिटी रिज़ॉल्यूशन

क्लासिफिकेशन मॉडल "ग्रिल्ड चिकन थाई विद स्किन" जैसे एक फूड लेबल का आउटपुट देता है जिसे सही डेटाबेस प्रविष्टि से मिलान करना होता है। यह एक गैर-तुच्छ एंटिटी रिज़ॉल्यूशन समस्या है क्योंकि एक ही फूड के विभिन्न क्षेत्रों और भाषाओं में दर्जनों नाम हो सकते हैं। पाइपलाइन निकटतम डेटाबेस प्रविष्टि खोजने के लिए एम्बेडिंग-आधारित सेमांटिक सर्च का उपयोग करती है। एक फाइन-ट्यून किया गया टेक्स्ट एन्कोडर भविष्यवाणी किए गए फूड लेबल और प्रत्येक डेटाबेस प्रविष्टि नाम को एक ही वेक्टर स्पेस में मैप करता है, और निकटतम पड़ोसी (कोसाइन समानता द्वारा मापा गया) का चयन किया जाता है।

जब कई निकटतम मिलान होते हैं (उदाहरण के लिए "चिकन थाई, ग्रिल्ड, विद स्किन" बनाम "चिकन थाई, रोस्टेड, स्किन खाई गई"), तो सिस्टम उस प्रविष्टि का चयन करता है जिसका तैयारी विधि इमेज में पहचाने गए दृश्य संकेतों से सबसे अच्छी तरह मेल खाती है।

इस चरण का मुख्य आउटपुट

प्रत्येक पहचाने गए फूड आइटम के लिए प्रति 100 ग्राम का पूरा पोषण प्रोफाइल (कैलोरी, प्रोटीन, कार्बोहाइड्रेट, वसा, फाइबर, और माइक्रोन्यूट्रिएंट्स)।

चरण 7: मैक्रो और कैलोरी गणना

अंतिम गणनात्मक चरण सीधा अंकगणित है, लेकिन यहीं से हर उपरी चरण से त्रुटियाँ एकत्रित होती हैं। पाइपलाइन प्रति 100 ग्राम पोषण मानों को प्रत्येक फूड आइटम के अनुमानित वजन से गुणा करती है, फिर सभी आइटमों के परिणामों को जोड़ती है ताकि एक कुल भोजन ब्रेकडाउन उत्पन्न हो सके।

गणना

प्रत्येक फूड आइटम के लिए:

कैलोरी = (अनुमानित ग्राम / 100) x प्रति 100 ग्राम कैलोरी
प्रोटीन = (अनुमानित ग्राम / 100) x प्रति 100 ग्राम प्रोटीन
कार्बोहाइड्रेट = (अनुमानित ग्राम / 100) x प्रति 100 ग्राम कार्बोहाइड्रेट
वसा = (अनुमानित ग्राम / 100) x प्रति 100 ग्राम वसा

इन प्रति-आइटम मानों को भोजन के कुल योग के लिए जोड़ा जाता है।

त्रुटि प्रसार और कॉन्फिडेंस इंटरवल

क्योंकि प्रत्येक उपरी चरण कुछ अनिश्चितता लाता है, Nutrola एकल बिंदु अनुमान को गॉस्पेल के रूप में प्रस्तुत नहीं करता। सिस्टम क्लासिफिकेशन कॉन्फिडेंस स्कोर और पोर्शन एस्टिमेशन अनिश्चितता को गणना के माध्यम से प्रसारित करके कॉन्फिडेंस इंटरवल की गणना करता है। यदि क्लासिफिकेशन कॉन्फिडेंस उच्च है लेकिन पोर्शन अनुमान अनिश्चित है (उदाहरण के लिए, फूड एक गहरे कटोरे में ढेर में है जो वॉल्यूम को अस्पष्ट करता है), तो सिस्टम इसको दर्शाने के लिए कॉन्फिडेंस रेंज को चौड़ा करता है और उपयोगकर्ता से पोर्शन की पुष्टि करने के लिए प्रेरित कर सकता है।

यह पारदर्शिता एक जानबूझकर डिज़ाइन विकल्प है। एक झूठी सटीकता का एहसास देने के बजाय, Nutrola एक रेंज दिखाता है (उदाहरण के लिए, "420 से 510 kcal") जब अंतर्निहित अनुमान इसकी आवश्यकता होती है, जिससे उपयोगकर्ताओं को उनके सेवन की वास्तविक समझ विकसित करने में मदद मिलती है।

इस चरण का मुख्य आउटपुट

भोजन के लिए कुल कैलोरी और मैक्रोन्यूट्रिएंट ब्रेकडाउन, वैकल्पिक कॉन्फिडेंस इंटरवल के साथ।

चरण 8: उपयोगकर्ता प्रदर्शन और लॉगिंग

अंतिम चरण परिणामों को उपयोगकर्ता इंटरफेस में प्रस्तुत करता है। पहचाने गए फूड आइटम उनके व्यक्तिगत कैलोरी और मैक्रो मानों के साथ सूचीबद्ध होते हैं, और भोजन का कुल योग प्रमुखता से प्रदर्शित होता है। उपयोगकर्ता किसी भी आइटम पर टैप कर सकता है ताकि उसे सही किया जा सके या पोर्शन को समायोजित किया जा सके, और ये सुधार भविष्य की भविष्यवाणियों में सुधार के लिए व्यक्तिगतकरण मॉडलों में फीडबैक करते हैं।

Nutrola पर, प्रदर्शन में मूल फोटो पर एक दृश्य ओवरले शामिल होता है जो प्रत्येक पहचाने गए फूड के लिए बाउंडिंग बॉक्स या सेगमेंट हाइलाइट दिखाता है, जिससे यह तुरंत स्पष्ट होता है कि AI ने क्या पहचाना और कहाँ। यह दृश्य फीडबैक विश्वास बनाता है और त्रुटियों को पहचानना और सुधारना आसान बनाता है।

लॉग किया गया भोजन उपयोगकर्ता के दैनिक पोषण जर्नल में संग्रहीत होता है और कैलोरी, प्रोटीन, कार्बोहाइड्रेट, वसा, और ट्रैक किए गए माइक्रोन्यूट्रिएंट्स के लिए चल रहे योग में योगदान करता है। डेटा Apple Health, Google Fit, और अन्य जुड़े प्लेटफार्मों के साथ मानकीकृत स्वास्थ्य डेटा APIs के माध्यम से समन्वयित होता है।

इस चरण का मुख्य आउटपुट

एक पूरी तरह से प्रस्तुत भोजन लॉग प्रविष्टि जिसमें प्रति-आइटम और कुल पोषण डेटा, दृश्य ओवरले, और स्वास्थ्य प्लेटफार्मों के लिए समन्वय शामिल है।

पाइपलाइन सारांश तालिका

चरण	मुख्य तकनीक	इनपुट	आउटपुट
1. कैमरा इनपुट	डिवाइस ISP, LiDAR/ToF सेंसर	दृश्य से प्रकाश	RGB इमेज + वैकल्पिक गहराई मानचित्र
2. इमेज प्रीप्रोसेसिंग	बाइकोबिक रिसाइजिंग, चैनल सामान्यीकरण	कच्ची इमेज	सामान्यीकृत टेन्सर (जैसे, 384x384x3)
3. फीचर एक्सट्रैक्शन	EfficientNet, ViT, स्विन ट्रांसफार्मर, FPN	सामान्यीकृत टेन्सर	मल्टी-स्केल फीचर मैप्स
4. फूड क्लासिफिकेशन	YOLOv8, DETR, DeepLabv3+, उपयोगकर्ता संदर्भ	फीचर मैप्स	लेबल वाले फूड आइटम बाउंडिंग बॉक्स/मास्क के साथ
5. पोर्शन एस्टिमेशन	MiDaS गहराई अनुमान, संदर्भ स्केलिंग, घनत्व तालिकाएँ	RGB + गहराई + फूड मास्क	प्रत्येक फूड आइटम के लिए ग्राम में वजन
6. डेटाबेस लुकअप	एम्बेडिंग-आधारित सेमांटिक सर्च, USDA/ब्रांडेड डेटाबेस	फूड लेबल + तैयारी संकेत	प्रति 100 ग्राम पोषण प्रोफाइल
7. कैलोरी गणना	वजनित अंकगणित, अनिश्चितता प्रसार	ग्राम अनुमान + पोषण प्रोफाइल	कुल कैलोरी और मैक्रोज़ के साथ कॉन्फिडेंस इंटरवल
8. उपयोगकर्ता प्रदर्शन	UI रेंडरिंग, स्वास्थ्य डेटा सिंक APIs	गणना की गई पोषण डेटा	दृश्य ओवरले के साथ भोजन लॉग प्रविष्टि

Nutrola के नवाचार कहाँ फिट होते हैं

उपरोक्त वर्णित कई चरणों में Nutrola के कार्यान्वयन के लिए विशिष्ट नवाचार शामिल हैं:

व्यक्तिगत वर्गीकरण संदर्भ। चरण 4 में उपयोगकर्ता संदर्भ मॉड्यूल ऐतिहासिक भोजन डेटा, व्यंजन प्राथमिकताओं, स्थान, और दिन के समय का उपयोग करके अनिश्चित भविष्यवाणियों को स्पष्ट करता है। यह अधिकांश फूड रिकग्निशन पाइपलाइनों में मानक नहीं है और संदर्भ-मुक्त मॉडलों की तुलना में वास्तविक दुनिया की सटीकता में मापनीय सुधार उत्पन्न करता है।

स्वामित्व घनत्व डेटाबेस। चरण 5 में वॉल्यूम-टू-वेट रूपांतरण एक घनत्व डेटाबेस पर निर्भर करता है जो विभिन्न तैयारी स्थितियों में फूड्स को कवर करता है। सामान्य सिस्टम अक्सर प्रत्येक फूड के लिए एक औसत घनत्व का उपयोग करते हैं, जो पके हुए बनाम कच्चे सब्जियों या निथारे गए बनाम निथारे गए डिब्बाबंद सामानों जैसे आइटमों के लिए प्रणालीगत त्रुटि लाता है।

कॉन्फिडेंस-जानकारी प्रदर्शन। एकल कैलोरी संख्या दिखाने के बजाय, Nutrola अनिश्चितता को तब पेश करता है जब यह मौजूद हो। यह ईमानदार दृष्टिकोण उपयोगकर्ता की निराशा को कम करता है जब अनुमान गलत लगते हैं, क्योंकि रेंज स्वयं यह संचारित करती है कि सिस्टम किसी विशेष आइटम के बारे में कम निश्चित है।

एकीकृत बहु-स्रोत पोषण डेटाबेस। चरण 6 में 2-मिलियन-प्रविष्टि डेटाबेस सरकारी प्रयोगशाला डेटा, ब्रांडेड उत्पाद डेटा, और सत्यापित सामुदायिक प्रस्तुतियों को एक ही सामान्यीकृत स्कीमा में मिलाता है, जिससे पाइपलाइन को किसी एकल स्रोत की तुलना में बहुत अधिक फूड प्रविष्टियों तक पहुंच मिलती है।

सुधारों से निरंतर सीखना। चरण 8 में प्रत्येक उपयोगकर्ता सुधार क्लासिफिकेशन और पोर्शन मॉडलों में फीडबैक करता है, जिससे सटीकता में सुधार का एक चक्र बनता है क्योंकि उपयोगकर्ता आधार बढ़ता है।

लेटेंसी और ऑन-डिवाइस विचार

एंड-टू-एंड लेटेंसी उपयोगकर्ता अनुभव के लिए बहुत महत्वपूर्ण है। यदि पाइपलाइन दो से तीन सेकंड से अधिक समय लेती है, तो उपयोगकर्ता इसे धीमा मानते हैं और मैनुअल लॉगिंग पर वापस जा सकते हैं। कई इंजीनियरिंग रणनीतियाँ लेटेंसी को कम रखने में मदद करती हैं:

मॉडल क्वांटाइजेशन 32-बिट फ्लोटिंग-पॉइंट वेट्स को 8-बिट इंटीजर्स में परिवर्तित करता है, जिससे मॉडल का आकार लगभग 4x कम हो जाता है और मोबाइल न्यूरल प्रोसेसिंग यूनिट्स (NPUs) पर न्यूनतम सटीकता हानि के साथ इनफेरेंस को तेज करता है। Nutrola फीचर एक्सट्रैक्शन बैकबोन और डिटेक्शन हेड दोनों पर पोस्ट-ट्रेनिंग क्वांटाइजेशन लागू करता है।

ऑन-डिवाइस इनफेरेंस पूरी तरह से नेटवर्क राउंड-ट्रिप को समाप्त करता है गणनात्मक रूप से गहन चरणों (फीचर एक्सट्रैक्शन और डिटेक्शन) के लिए। Apple का Core ML और Android का NNAPI हार्डवेयर-त्वरित इनफेरेंस पथ प्रदान करते हैं जिन्हें पाइपलाइन लक्षित करती है। केवल हल्के डेटाबेस लुकअप और कैलोरी गणना चरणों को सर्वर कॉल की आवश्यकता होती है, और ये स्थानीय कैश के लिए ऑफ़लाइन संचालन के लिए भी गिर सकते हैं।

स्पेक्यूलेटिव एक्सीक्यूशन प्रीप्रोसेसिंग और फीचर एक्सट्रैक्शन को तब शुरू करता है जब कैमरा प्रीव्यू अभी भी सक्रिय होता है, इसलिए जब उपयोगकर्ता शटर बटन पर टैप करता है, तो पाइपलाइन पहले से ही फ्रेम को आंशिक रूप से प्रोसेस कर चुकी होती है। यह तकनीक कई सौ मिलीसेकंड को महसूस की गई लेटेंसी से हटा देती है।

सटीकता बेंचमार्क और वास्तविक दुनिया का प्रदर्शन

मानक शैक्षणिक बेंचमार्क जैसे Food-101, ISIA Food-500, और Nutrition5k पर, आधुनिक पाइपलाइनों ने 85 से 92 प्रतिशत के बीच शीर्ष-1 वर्गीकरण सटीकता और ग्राउंड-ट्रुथ वजन के 15 से 25 प्रतिशत के भीतर पोर्शन एस्टिमेशन त्रुटियों को प्राप्त किया है। वास्तविक दुनिया का प्रदर्शन भिन्न होता है क्योंकि उपयोगकर्ता द्वारा प्रस्तुत फोटो क्यूरेटेड डेटा सेट की तुलना में अधिक शोर होते हैं: खराब प्रकाश, आंशिक ओक्लूजन, असामान्य कोण, और असामान्य क्षेत्रीय व्यंजन सभी सटीकता को कम करते हैं।

Nutrola के आंतरिक परीक्षणों में 50,000 वास्तविक उपयोगकर्ता फोटो के एक होल्ड-आउट सेट पर शीर्ष-1 वर्गीकरण सटीकता 89 प्रतिशत और मध्य पोर्शन एस्टिमेशन त्रुटि 18 प्रतिशत है। जब शीर्ष-3 कैंडिडेट्स पर विचार किया जाता है, तो वर्गीकरण सटीकता 96 प्रतिशत तक बढ़ जाती है, यही कारण है कि सुधार इंटरफेस प्रमुखता से वैकल्पिक सुझाव प्रदर्शित करता है।

ये आंकड़े प्रत्येक पुनः प्रशिक्षण चक्र के साथ सुधारते रहते हैं क्योंकि सुधार फीडबैक लूप वास्तविक दुनिया के उपयोग से अधिक लेबल डेटा जमा करता है।

अक्सर पूछे जाने वाले प्रश्न

फोटो से पोषण डेटा तक पूरा पाइपलाइन लेने में कितना समय लगता है?

आधुनिक स्मार्टफोन्स पर जिनमें समर्पित न्यूरल प्रोसेसिंग हार्डवेयर होता है, एंड-टू-एंड पाइपलाइन आमतौर पर 1.0 से 2.5 सेकंड में पूरी होती है। उस समय का अधिकांश हिस्सा चरण 3 और 4 में फीचर एक्सट्रैक्शन और ऑब्जेक्ट डिटेक्शन पर व्यतीत होता है। प्रीप्रोसेसिंग और कैलोरी गणना लगभग तात्कालिक होती है, और डेटाबेस लुकअप केवल 50 से 150 मिलीसेकंड जोड़ता है, जो नेटवर्क की स्थिति या स्थानीय कैश के उपयोग पर निर्भर करता है। Nutrola की स्पेक्यूलेटिव एक्सीक्यूशन प्रणाली, जो उपयोगकर्ता के शटर टैप करने से पहले कैमरा प्रीव्यू को प्रोसेस करना शुरू करती है, कई मामलों में महसूस की गई लेटेंसी को एक सेकंड से कम कर सकती है।

AI फूड क्लासिफिकेशन मैनुअल लॉगिंग की तुलना में कितना सटीक है?

AI फूड क्लासिफिकेशन मानक बेंचमार्क पर 85 से 92 प्रतिशत के बीच शीर्ष-1 सटीकता प्राप्त करता है, और शीर्ष-3 सटीकता 95 प्रतिशत से ऊपर है। मैनुअल लॉगिंग, जबकि सावधानी से किए जाने पर सैद्धांतिक रूप से सटीक होती है, प्रकाशित आहार अनुसंधान के अनुसार 10 से 45 प्रतिशत तक प्रणालीगत अंडररिपोर्टिंग से ग्रस्त होती है। व्यवहार में, AI क्लासिफिकेशन को एक त्वरित उपयोगकर्ता पुष्टि चरण के साथ मिलाकर, विशेष रूप से उन उपयोगकर्ताओं के लिए जो दिन में कई भोजन लॉग करते हैं और एंट्री थकान का अनुभव करते हैं, अक्सर अधिक सुसंगत और कम पूर्वाग्रहित परिणाम उत्पन्न करता है।

जब AI किसी फूड आइटम की पहचान नहीं कर पाता है तो क्या होता है?

जब उच्चतम-कॉन्फिडेंस प्रीडिक्शन सिस्टम के थ्रेशोल्ड से नीचे गिरता है, तो पाइपलाइन एक सहज फॉलबैक दृष्टिकोण अपनाती है। यह शीर्ष तीन से पांच कैंडिडेट पहचान प्रस्तुत करती है और उपयोगकर्ता से सही एक का चयन करने या नाम मैन्युअल रूप से टाइप करने के लिए कहती है। यह उपयोगकर्ता सुधार अगले पुनः प्रशिक्षण चक्र के दौरान प्रशिक्षण पाइपलाइन में फीडबैक किया जाता है, जिसका अर्थ है कि प्रत्येक विफलता एक प्रशिक्षण संकेत बन जाती है जो भविष्य की भविष्यवाणियों में सुधार करती है। समय के साथ, जैसे-जैसे ये सुधार जमा होते हैं, सिस्टम की असामान्य और क्षेत्रीय फूड्स की कवरेज धीरे-धीरे बढ़ती है।

क्या पाइपलाइन सलाद या करी जैसे मिश्रित व्यंजनों के लिए अलग तरीके से काम करती है?

हाँ। मिश्रित व्यंजनों के लिए जहां व्यक्तिगत सामग्री स्थानिक रूप से अलग नहीं होती हैं, पाइपलाइन बाउंडिंग-बॉक्स डिटेक्शन से सेमांटिक सेगमेंटेशन में स्विच करती है, जिसका उपयोग DeepLabv3+ जैसे आर्किटेक्चर द्वारा किया जाता है। यह पिक्सेल-स्तरीय वर्गीकरण मिश्रित क्षेत्र में प्रत्येक सामग्री के अनुपात का अनुमान लगाने की अनुमति देता है। भारी मिश्रित व्यंजनों जैसे स्मूदी या प्यूरी किए गए सूप के लिए जहां दृश्य विभाजन असंभव है, पाइपलाइन नुस्खा-आधारित विघटन पर निर्भर करती है: यह व्यंजन प्रकार की पहचान करती है और फिर संभावित सामग्री अनुपात और उनके संयुक्त पोषण प्रोफाइल का अनुमान लगाने के लिए एक नुस्खा मॉडल का उपयोग करती है।

बिना गहराई सेंसर के पोर्शन एस्टिमेशन कैसे काम करता है?

जब कोई LiDAR या टाइम-ऑफ-फ्लाइट सेंसर उपलब्ध नहीं होता है, तो पाइपलाइन एक मोनोकोलर डेप्थ एस्टिमेशन मॉडल (जैसे MiDaS या DPT) का उपयोग करती है ताकि RGB इमेज से अकेले अनुमानित गहराई प्राप्त की जा सके। ये मॉडल लाखों इमेज-गहराई जोड़ों पर प्रशिक्षित होते हैं और प्लेट ज्यामिति, छाया पैटर्न, और बनावट ग्रेडिएंट जैसे संदर्भ संकेतों से फूड के तीन-आयामी आकार का अनुमान लगा सकते हैं। सिस्टम संदर्भ वस्तुओं का पता भी लगाता है जिनका ज्ञात आकार होता है, विशेष रूप से प्लेटें और कटलरी, ताकि स्केल को स्थिर किया जा सके। जबकि मोनोकोलर अनुमान हार्डवेयर गहराई संवेदन की तुलना में कम सटीक होता है, सीखे गए गहराई संकेतों और संदर्भ स्केलिंग का संयोजन पोषण ट्रैकिंग के लिए व्यावहारिक सटीकता रेंज के भीतर पोर्शन अनुमान बनाए रखता है।

क्या पाइपलाइन एक ही फोटो में कई प्लेटों या भोजन को संभाल सकती है?

ऑब्जेक्ट डिटेक्शन चरण को एकल प्लेट या कई प्लेटों पर बैठे फूड आइटमों की अनिश्चित संख्या को संभालने के लिए डिज़ाइन किया गया है। YOLO और DETR डिटेक्शन हेड पूरे इमेज को स्कैन करते हैं और पाए गए प्रत्येक फूड आइटम के लिए स्वतंत्र डिटेक्शन आउटपुट करते हैं, चाहे वे एक ही डिनर प्लेट पर हों, एक टेबल पर कई व्यंजनों में फैले हों, या एक ट्रे पर व्यवस्थित हों। प्रत्येक पहचाने गए आइटम को स्वतंत्र रूप से पोर्शन एस्टिमेशन और कैलोरी गणना चरणों के माध्यम से प्रोसेस किया जाता है। सर्वोत्तम सटीकता के लिए, Nutrola अनुशंसा करता है कि प्रत्येक प्लेट या कटोरे की फोटो को व्यक्तिगत रूप से लिया जाए ताकि संदर्भ स्केल को प्रति प्लेट कैलिब्रेट किया जा सके, लेकिन जब यह व्यावहारिक न हो तो सिस्टम मल्टी-प्लेट दृश्यों को सहजता से संभालता है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!