AI रेसिपी निष्कर्षण के पीछे का विज्ञान: कैसे NLP और कंप्यूटर विज़न कुकिंग वीडियो पढ़ते हैं

जानें कि कैसे AI कुकिंग वीडियो से रेसिपी निकालता है, जिसमें स्पीच-टू-टेक्स्ट, OCR, दृश्य सामग्री पहचान और NLP का संयोजन करके स्वचालित रूप से सटीक पोषण डेटा उत्पन्न करता है।

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

कुकिंग वीडियो अब रेसिपी साझा करने का प्रमुख तरीका बन गए हैं। अकेले YouTube पर हर महीने 1 बिलियन से अधिक कुकिंग वीडियो देखे जाते हैं, TikTok पर खाद्य सामग्री सालाना कई अरब व्यूज उत्पन्न करती है, और Instagram Reels ने हर घरेलू रसोइये को संभावित सामग्री निर्माता में बदल दिया है। फिर भी, एक निरंतर अंतर है जो रेसिपी देखने और यह जानने के बीच है कि इसमें पोषण के दृष्टिकोण से वास्तव में क्या है।

इस अंतर को पाटने के लिए एक बहु-चरणीय AI पाइपलाइन की आवश्यकता होती है, जो स्वचालित स्पीच पहचान, ऑप्टिकल कैरेक्टर पहचान, कंप्यूटर विज़न और प्राकृतिक भाषा प्रसंस्करण को जोड़ती है। यह लेख तकनीकी पाइपलाइन के प्रत्येक चरण को तोड़ता है, उन मॉडलों और शोधों की व्याख्या करता है जो इसे संभव बनाते हैं, और यह जांचता है कि ये तकनीकें कैसे एक कुकिंग वीडियो को संरचित पोषण डेटा में बदलती हैं।

रेसिपी निष्कर्षण की समस्या: वीडियो क्यों कठिन हैं

वेबसाइटों पर टेक्स्ट रेसिपी को पार्स करना अपेक्षाकृत सीधा होता है। वे सामग्री की सूचियों, मात्रा और चरण-दर-चरण निर्देशों के साथ पूर्वानुमानित संरचनाओं का पालन करती हैं। HTML मार्कअप और schema.org रेसिपी एनोटेशन अतिरिक्त मशीन-पठनीय संरचना प्रदान करते हैं।

कुकिंग वीडियो एक मौलिक रूप से अलग चुनौती पेश करते हैं। रेसिपी की जानकारी कई तरीकों से एक साथ वितरित होती है:

  • बोली गई व्याख्या सामग्री, मात्रा और तकनीकों का वर्णन करती है
  • स्क्रीन पर टेक्स्ट सामग्री की सूचियाँ, तापमान और समय दिखाता है
  • दृश्य सामग्री सामग्री को जोड़ा, मिलाया और परिवर्तित होते हुए दिखाती है
  • अप्रत्यक्ष ज्ञान मानता है कि दर्शक बिना कहे चरणों को समझते हैं जैसे ओवन को पहले से गर्म करना या चावल को धोना

कोई भी एकल तरीका पूरी रेसिपी नहीं रखता। एक निर्माता "थोड़ा जैतून का तेल डालें" कह सकता है जबकि स्क्रीन पर एक दृश्य दिखाता है जो लगभग दो बड़े चम्मच का सुझाव देता है, और बाद में स्क्रीन पर टेक्स्ट "2 बड़े चम्मच जैतून का तेल" दिखाता है। पूरी रेसिपी निकालने के लिए इन सभी स्रोतों से जानकारी को एकीकृत करना और उनके बीच के संघर्षों को हल करना आवश्यक है।

बहु-आयामी निष्कर्षण पाइपलाइन

कच्चे वीडियो से संरचित पोषण डेटा तक की पूरी पाइपलाइन में पाँच प्रमुख चरण शामिल हैं:

चरण इनपुट तकनीक आउटपुट
1. ऑडियो निष्कर्षण वीडियो फ़ाइल ASR (Whisper) टाइमस्टैम्प के साथ ट्रांसक्रिप्ट
2. दृश्य टेक्स्ट निष्कर्षण वीडियो फ्रेम OCR (PaddleOCR, EasyOCR) स्क्रीन पर टेक्स्ट के साथ टाइमस्टैम्प
3. दृश्य सामग्री पहचान वीडियो फ्रेम CNN/विज़न ट्रांसफार्मर (CLIP, ViT) पहचाने गए सामग्री और क्रियाएँ
4. NLP पार्सिंग और फ्यूजन ट्रांसक्रिप्ट + OCR + दृश्य डेटा ट्रांसफार्मर मॉडल (BERT, LLMs) मात्रा के साथ संरचित रेसिपी
5. पोषण डेटाबेस मिलान संरचित रेसिपी फ़ज़ी मिलान + डेटाबेस लुकअप पूर्ण पोषण विश्लेषण

प्रत्येक चरण विशिष्ट तकनीकी चुनौतियाँ प्रस्तुत करता है और मशीन लर्निंग अनुसंधान के विभिन्न क्षेत्रों पर निर्भर करता है।

चरण 1: रेसिपी व्याख्या के लिए स्वचालित स्पीच पहचान

कुकिंग वीडियो से रेसिपी निकालने का पहला कदम बोली गई व्याख्या को टेक्स्ट में बदलना है। यह स्वचालित स्पीच पहचान, या ASR का क्षेत्र है।

Whisper क्रांति

OpenAI का Whisper मॉडल, जिसे Radford et al. द्वारा 2022 में पेश किया गया था, रेसिपी निष्कर्षण के लिए स्पीच-टू-टेक्स्ट के परिदृश्य को मौलिक रूप से बदल दिया। यह वेब से एकत्रित 680,000 घंटे के बहुभाषी और बहुकार्य पर्यवेक्षित डेटा पर प्रशिक्षित है, Whisper ने विभिन्न ऑडियो स्थितियों में मानव स्तर की ट्रांसक्रिप्शन सटीकता प्राप्त की है।

Whisper को कुकिंग वीडियो ट्रांसक्रिप्शन के लिए विशेष रूप से मूल्यवान बनाने वाले कुछ पहलू:

शोर के प्रति सहनशीलता। रसोई के वातावरण में शोर होता है। तड़कते पैन, बहता पानी, काटने की आवाजें, और पृष्ठभूमि में संगीत सभी व्याख्याता की आवाज़ के साथ प्रतिस्पर्धा करते हैं। Whisper का विविध ऑडियो स्थितियों पर प्रशिक्षण इसे पिछले ASR मॉडलों की तुलना में इन ओवरलैपिंग ध्वनि स्रोतों को बेहतर तरीके से संभालने में सक्षम बनाता है।

बहुभाषी क्षमता। कुकिंग वीडियो लगभग हर भाषा में बनाए जाते हैं। Whisper 915 भाषाओं में ट्रांसक्रिप्शन का समर्थन करता है और अंग्रेजी में अनुवाद कर सकता है, जिससे सामग्री की मूल भाषा की परवाह किए बिना रेसिपी निष्कर्षण संभव हो जाता है।

विराम चिह्न और प्रारूपण। पिछले ASR सिस्टम के विपरीत जो सपाट टेक्स्ट स्ट्रीम उत्पन्न करते थे, Whisper विराम चिह्नित, प्रारूपित ट्रांसक्रिप्ट उत्पन्न करता है जो वाक्य की सीमाओं को बनाए रखता है। यह संरचना डाउनस्ट्रीम NLP पार्सिंग के लिए महत्वपूर्ण है।

शब्द-स्तरीय टाइमस्टैम्प। Whisper शब्द स्तर पर टाइमस्टैम्प उत्पन्न कर सकता है, जिससे यह सुनिश्चित होता है कि जो कहा गया है और जो स्क्रीन पर दिखाया गया है, उनके बीच सटीक संरेखण हो।

कुकिंग व्याख्या से संबंधित चुनौतियाँ

Whisper की क्षमताओं के बावजूद, कुकिंग वीडियो ASR चुनौतियाँ प्रस्तुत करते हैं जो मानक स्पीच पहचान बेंचमार्क में नहीं आतीं:

डोमेन-विशिष्ट शब्दावली। सामग्री के नाम हजारों वस्तुओं में फैले होते हैं जो वैश्विक व्यंजनों में पाए जाते हैं। "गोजुजांग," "ज़ातर," "ताहिनी," या "पांको" जैसे शब्द सामान्य प्रशिक्षण डेटा में अक्सर नहीं मिलते। प्रणालीगत गलत पहचान को सही करने के लिए विशेष खाद्य शब्दावली मॉडल या पोस्ट-प्रोसेसिंग शब्दकोश की आवश्यकता होती है।

मात्रा की अस्पष्टता। बोली गई मात्राएँ अक्सर अस्पष्ट होती हैं। "नमक की अच्छी मात्रा," "vinegar की एक छींट," या "लगभग इतना आटा" जैसे वाक्यांशों की संदर्भ व्याख्या की आवश्यकता होती है जो ट्रांसक्रिप्शन से परे जाती है।

कोड-स्विचिंग। कई कुकिंग निर्माता सामान्य व्याख्या के लिए अंग्रेजी का उपयोग करते हैं लेकिन व्यंजन नामों या पारंपरिक तकनीकों के लिए अपनी मातृभाषा में स्विच करते हैं। बहुभाषी ASR को इन परिवर्तनों को सहजता से संभालना चाहिए।

गैर-शाब्दिक संचार। एक निर्माता किसी सामग्री की ओर इशारा कर सकता है बिना उसका नाम लिए, या "यह" कहते हुए एक बोतल उठाए। ये संदर्भ दृश्य स्ट्रीम के साथ क्रॉस-मोडल समाधान की आवश्यकता होती हैं।

ट्रांसक्रिप्ट का पोस्ट-प्रोसेसिंग

कच्चा ASR आउटपुट रेसिपी निष्कर्षण के लिए उपयोगी होने से पहले कई पोस्ट-प्रोसेसिंग चरणों की आवश्यकता होती है:

  1. खाद्य इकाई सुधार एक डोमेन-विशिष्ट शब्दकोश का उपयोग करके सामान्य गलत पहचान को ठीक करता है (जैसे, "जीरा" को "आने" के रूप में सुनना)
  2. मात्रा मानकीकरण बोली गई संख्याओं और भिन्नों को मानकीकृत संख्यात्मक प्रारूपों में परिवर्तित करता है
  3. सेगमेंटेशन निरंतर ट्रांसक्रिप्ट को तार्किक रेसिपी चरणों में विभाजित करता है जो समय के ठहराव, संक्रमण वाक्यांशों और क्रिया क्रियाओं के आधार पर होते हैं
  4. विश्वास फ़िल्टरिंग निम्न-विश्वास खंडों की पहचान करता है और उन्हें संभावित क्रॉस-मोडल सत्यापन के लिए चिह्नित करता है

चरण 2: स्क्रीन पर टेक्स्ट के लिए ऑप्टिकल कैरेक्टर पहचान

कई कुकिंग वीडियो सामग्री की सूचियाँ, माप, तापमान और निर्देशों को स्क्रीन पर टेक्स्ट ओवरले के रूप में प्रदर्शित करते हैं। यह टेक्स्ट अक्सर बोली गई व्याख्या की तुलना में अधिक सटीक होता है और अधिक मानकीकृत प्रारूप का पालन करता है।

वीडियो फ्रेम पर OCR कैसे काम करता है

वीडियो फ्रेम से टेक्स्ट निकालने में दो उप-कार्य शामिल होते हैं: टेक्स्ट पहचान (फ्रेम में टेक्स्ट कहाँ दिखाई देता है, यह खोजना) और टेक्स्ट मान्यता (यह पढ़ना कि टेक्स्ट क्या कहता है)।

टेक्स्ट पहचान छवि में टेक्स्ट वाले क्षेत्रों को खोजता है। आधुनिक डिटेक्टर्स जैसे CRAFT (Character Region Awareness for Text Detection) और DBNet (Differentiable Binarization Network) टेक्स्ट को उसकी दिशा, आकार, या पृष्ठभूमि की जटिलता की परवाह किए बिना पहचान सकते हैं। ये मॉडल टेक्स्ट क्षेत्रों के चारों ओर बाउंडिंग बॉक्स या बहुभुज का उत्पादन करते हैं।

टेक्स्ट मान्यता पहचाने गए टेक्स्ट क्षेत्रों को वर्ण स्ट्रिंग में परिवर्तित करती है। कन्भोल्यूशनल और रीकरेन्ट न्यूरल नेटवर्क पर आधारित आर्किटेक्चर, अक्सर CTC (Connectionist Temporal Classification) डिकोडिंग के साथ, कटे हुए टेक्स्ट क्षेत्रों को प्रोसेस करते हैं और वर्ण अनुक्रम का उत्पादन करते हैं। हाल के दृष्टिकोण बेहतर सटीकता के लिए ट्रांसफार्मर-आधारित आर्किटेक्चर का उपयोग करते हैं।

कुकिंग वीडियो OCR की अद्वितीय चुनौतियाँ

कुकिंग वीडियो में स्क्रीन पर टेक्स्ट उस दस्तावेज़ टेक्स्ट से काफी भिन्न होता है जिसके लिए अधिकांश OCR सिस्टम अनुकूलित होते हैं:

एनिमेटेड टेक्स्ट ओवरले। टेक्स्ट अक्सर एनिमेट होता है, जिससे कई फ्रेम में समग्र टेक्स्ट को कैप्चर करने के लिए समयिक समेकन की आवश्यकता होती है। एक स्लाइडिंग एनिमेशन टेक्स्ट को कई फ्रेम में एक-एक करके प्रकट कर सकता है।

सजावटी फ़ॉन्ट। खाद्य सामग्री निर्माता अक्सर स्टाइलिश, हस्तलिखित, या सजावटी फ़ॉन्ट का उपयोग करते हैं जो मानक OCR प्रशिक्षण डेटा में साफ़ टाइपफेस से भिन्न होते हैं। कुकिंग-विशिष्ट फ़ॉन्ट डेटा सेट पर फाइन-ट्यूनिंग पहचान दरों में सुधार करता है।

जटिल पृष्ठभूमियाँ। टेक्स्ट अक्सर खाद्य, रसोई, और हाथों को दिखाने वाले व्यस्त दृश्य पृष्ठभूमियों पर ओवरले किया जाता है। टेक्स्ट और पृष्ठभूमि के बीच उच्च विपरीत की उम्मीद नहीं की जा सकती। टेक्स्ट स्ट्रोक, छाया, और पृष्ठभूमि धुंध पहचान टेक्स्ट लेयर को अलग करने में मदद करती है।

बहुभाषी और मिश्रित स्क्रिप्ट। एक ही फ्रेम में कई स्क्रिप्ट में टेक्स्ट हो सकता है, जैसे कि अंग्रेजी माप के साथ जापानी व्यंजन नाम। बहु-स्क्रिप्ट OCR मॉडल या स्क्रिप्ट पहचान के बाद भाषा-विशिष्ट पहचान पाइपलाइनों का उपयोग इस विविधता को संभालता है।

समयिक डेडुप्लिकेशन और समेकन

चूंकि वीडियो फ्रेम प्रति सेकंड कई बार सैंपल किए जाते हैं, इसलिए एक ही स्क्रीन पर टेक्स्ट कई लगातार फ्रेम में पहचाना जाएगा। OCR पाइपलाइन को:

  1. उचित दर पर फ्रेम का सैंपल करना चाहिए (आमतौर पर टेक्स्ट पहचान के लिए प्रति सेकंड 1 से 2 फ्रेम)
  2. टेक्स्ट क्षेत्रों को फ्रेम के बीच ट्रैक करना चाहिए ताकि स्थायी बनाम अस्थायी टेक्स्ट की पहचान की जा सके
  3. समान टेक्स्ट की दोहराई गई पहचान को डेडुप्लिकेट करना चाहिए
  4. एनिमेटेड टेक्स्ट प्रकट होने से आंशिक पहचान को मर्ज करना चाहिए
  5. प्रत्येक टेक्स्ट तत्व को उसके समयिक विंडो के साथ जोड़ना चाहिए ताकि बाद में ऑडियो और दृश्य डेटा के साथ फ्यूजन किया जा सके

इस चरण का आउटपुट स्क्रीन पर टेक्स्ट तत्वों की एक टाइमस्टैम्प वाली सूची है, प्रत्येक को इसकी दृश्यता की अवधि और फ्रेम में स्थानिक स्थिति के साथ जोड़ा गया है।

चरण 3: कंप्यूटर विज़न के साथ दृश्य सामग्री पहचान

टेक्स्ट के अलावा, कुकिंग वीडियो की दृश्य सामग्री सामग्री, मात्रा, और तैयारी विधियों के बारे में समृद्ध जानकारी प्रदान करती है। कंप्यूटर विज़न मॉडल सामग्री की पहचान कर सकते हैं जैसे ही वे प्रकट होते हैं, दृश्य संकेतों से मात्रा का अनुमान लगा सकते हैं, और कुकिंग क्रियाओं को पहचान सकते हैं।

विज़न ट्रांसफार्मर्स और CLIP के साथ सामग्री पहचान

आधुनिक दृश्य सामग्री पहचान दो प्रमुख प्रगति पर आधारित है: विज़न ट्रांसफार्मर्स (ViT) और कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग (CLIP)।

विज़न ट्रांसफार्मर्स, जिसे Dosovitskiy et al. द्वारा 2020 में पेश किया गया, छवि पहचान के लिए ट्रांसफार्मर आर्किटेक्चर को लागू करते हैं। कन्भोल्यूशनल परतों का उपयोग करने के बजाय, ViT एक छवि को पैच में विभाजित करता है और उन्हें अनुक्रम के रूप में प्रोसेस करता है, जैसे ट्रांसफार्मर वाक्यों में शब्दों को प्रोसेस करते हैं। यह दृष्टिकोण सामग्री पहचान जैसे बारीक दृश्य पहचान कार्यों के लिए विशेष रूप से प्रभावी साबित हुआ है, जहां रंग, बनावट और आकार में सूक्ष्म भिन्नताएँ समान वस्तुओं को अलग करती हैं।

CLIP, जिसे Radford et al. ने OpenAI में 2021 में विकसित किया, प्राकृतिक भाषा पर्यवेक्षण से दृश्य अवधारणाओं को सीखता है। 400 मिलियन छवि-टेक्स्ट जोड़ों पर प्रशिक्षित, CLIP टेक्स्ट में वर्णित वस्तुओं को पहचान सकता है बिना कि उन वस्तुओं के लेबल किए गए उदाहरणों पर स्पष्ट रूप से प्रशिक्षित किए गए। सामग्री पहचान के लिए, इसका मतलब है कि एक CLIP-आधारित प्रणाली एक सामग्री को पहचान सकती है भले ही वह प्रशिक्षण सेट में न हो, जब तक कि यह दृश्य उपस्थिति को टेक्स्ट वर्णन से मेल खा सके।

रेसिपी निष्कर्षण के लिए CLIP का व्यावहारिक लाभ इसका जीरो-शॉट और फ्यू-शॉट क्षमता है। खाद्य सामग्री की एक विशाल विविधता होती है, जिसमें सामग्री, तैयारी, और सांस्कृतिक प्रस्तुतियाँ शामिल होती हैं। एक पारंपरिक वर्गीकरण मॉडल को प्रत्येक सामग्री के लिए प्रत्येक तैयारी स्थिति में लेबल किए गए प्रशिक्षण उदाहरणों की आवश्यकता होती है। CLIP अपने व्यापक पूर्व-प्रशिक्षण से सामान्यीकरण कर सकता है ताकि टेक्स्ट रूप में वर्णित नए सामग्रियों को पहचान सके।

कुकिंग क्रियाओं की पहचान

यह पहचानना कि कौन सी क्रियाएँ की जा रही हैं, सामग्री की पहचान करने के समान ही महत्वपूर्ण है। क्रिया पहचान प्रणाली को बताती है कि सामग्री को काटा जा रहा है, भूनना, मिक्स करना, या बेक करना, जो अंतिम पोषण सामग्री को सीधे प्रभावित करता है।

वीडियो क्रिया पहचान में अनुसंधान ने ऐसे मॉडल विकसित किए हैं जो फ्रेम के समयिक अनुक्रमों का विश्लेषण करते हैं ताकि क्रियाओं को वर्गीकृत किया जा सके। SlowFast नेटवर्क जैसे दृष्टिकोण (Feichtenhofer et al., 2019) वीडियो को दो समयिक संकल्पों पर एक साथ प्रोसेस करते हैं: एक धीमा मार्ग स्थानिक विवरण को कैप्चर करता है जबकि एक तेज मार्ग गति को कैप्चर करता है। कुकिंग वीडियो पर लागू होने पर, ये मॉडल हिलाने, फेंटने, मोड़ने, और गूंधने के बीच अंतर कर सकते हैं, जिनमें से प्रत्येक का रेसिपी संरचना पर अलग प्रभाव होता है।

Food-101 और Recipe1M+ डेटा सेट (Marin et al., 2019) खाद्य-विशिष्ट कंप्यूटर विज़न मॉडलों को प्रशिक्षित और मूल्यांकन करने में महत्वपूर्ण रहे हैं। Recipe1M+ में 1 मिलियन से अधिक कुकिंग रेसिपी और 13 मिलियन खाद्य छवियाँ हैं, जो विभिन्न व्यंजनों और तैयारी शैलियों में सामान्यीकरण के लिए आवश्यक पैमाने को प्रदान करती हैं।

दृश्य मात्रा का अनुमान

दृश्य रेसिपी निष्कर्षण का सबसे चुनौतीपूर्ण पहलू सामग्री की मात्रा का अनुमान लगाना है। जब एक निर्माता पैन में तेल डालता है या एक कटोरे में आटा डालता है, तो दृश्य जानकारी मात्रा के बारे में संकेत प्रदान करती है, लेकिन इन संकेतों को सटीक माप में परिवर्तित करना जटिल स्थानिक तर्क की आवश्यकता होती है।

वर्तमान दृष्टिकोणों में शामिल हैं:

  • संदर्भ वस्तु स्केलिंग: फ्रेम में ज्ञात वस्तुओं (मानक बर्तन, मापने वाले कप, काटने वाले बोर्ड) का उपयोग करके स्केल संदर्भ स्थापित करना
  • उड़ेलने की गतियों से मात्रा का अनुमान: डाले गए तरल पदार्थों की अवधि और प्रवाह दर का विश्लेषण करके मात्रा का अनुमान लगाना
  • गहराई का अनुमान: मोनोकोलर गहराई का अनुमान लगाने वाले मॉडल जैसे MiDaS (Ranftl et al., 2020) कंटेनरों में सामग्री की गहराई का अनुमान लगा सकते हैं, जिससे 2D छवि से मात्रा का अनुमान लगाने में मदद मिलती है
  • तुलनात्मक शिक्षण: ज्ञात मात्राओं की जोड़ीदार छवियों पर प्रशिक्षित मॉडल दृश्य तुलना द्वारा मात्रा का अनुमान लगाना सीखते हैं

दृश्य मात्रा का अनुमान आमतौर पर स्पीच या टेक्स्ट से प्राप्त स्पष्ट माप की तुलना में कम सटीक होता है, आमतौर पर 20 से 30 प्रतिशत के भीतर सटीकता प्राप्त करता है। हालाँकि, यह एक उपयोगी क्रॉस-चेक प्रदान करता है और उन स्थितियों में अंतराल भरता है जब मात्राएँ स्पष्ट रूप से नहीं बताई जाती हैं।

चरण 4: रेसिपी पार्सिंग और फ्यूजन के लिए प्राकृतिक भाषा प्रसंस्करण

ट्रांसक्रिप्ट, स्क्रीन पर टेक्स्ट, और दृश्य एनोटेशन के साथ, NLP चरण का कार्य इन बहु-आयामी संकेतों को एक एकल, सुसंगत, संरचित रेसिपी में एकीकृत करना है।

खाद्य के लिए नामित इकाई पहचान

पहला NLP कार्य ट्रांसक्रिप्ट और OCR टेक्स्ट में खाद्य से संबंधित इकाइयों की पहचान करना है। यह नामित इकाई पहचान (NER) का एक विशेष रूप है जो पहचानना चाहिए:

  • सामग्री: "चिकन ब्रेस्ट," "एक्स्ट्रा वर्जिन जैतून का तेल," "कोशर नमक"
  • मात्राएँ: "दो कप," "350 ग्राम," "एक चुटकी"
  • इकाइयाँ: "बड़े चम्मच," "मिलिलिटर," "मध्यम आकार का"
  • तैयारी संशोधक: "कटा हुआ," "बारीक कटा हुआ," "कमरे के तापमान पर"
  • कुकिंग क्रियाएँ: "भूनें," "375 पर बेक करें," "20 मिनट तक उबालें"
  • उपकरण: "कास्ट आयरन स्किलेट," "स्टैंड मिक्सर," "शीट पैन"

ट्रांसफार्मर-आधारित NER मॉडल खाद्य कॉर्पोरा पर फाइन-ट्यून किए गए हैं जो मानक खाद्य NER बेंचमार्क पर 90 प्रतिशत से अधिक F1 स्कोर प्राप्त करते हैं। FoodBase कॉर्पस (Popovski et al., 2019) और TASTEset डेटा सेट इन मॉडलों को प्रशिक्षित करने के लिए विशेष रूप से एनोटेटेड खाद्य टेक्स्ट प्रदान करते हैं।

सामग्री-मात्रा संघ के लिए निर्भरता पार्सिंग

केवल इकाइयों की पहचान करना पर्याप्त नहीं है। प्रणाली को यह निर्धारित करना होगा कि कौन सी मात्राएँ कौन सी सामग्रियों से संबंधित हैं। वाक्य "दो कप आटा और एक चम्मच नमक डालें" में, प्रणाली को "दो कप" को "आटे" और "एक चम्मच" को "नमक" के साथ सही ढंग से जोड़ना होगा।

यह निर्भरता पार्सिंग की आवश्यकता होती है, जो वाक्यों की व्याकरणिक संरचना का विश्लेषण करती है ताकि शब्दों के बीच संबंधों की पहचान की जा सके। BERT आर्किटेक्चर (Devlin et al., 2019) पर आधारित आधुनिक निर्भरता पार्सर कुकिंग निर्देशों की व्याकरणिक जटिलता को संभालते हैं, जिसमें "ताजा निचोड़ा हुआ नींबू का रस" जैसे यौगिक सामग्री विवरण और "एक 14-औंस का डिब्बा कटा हुआ फायर-रोस्टेड टमाटर" जैसे नेस्टेड संशोधक शामिल हैं।

क्रॉस-मोडल फ्यूजन: संघर्षों को हल करना और अंतराल भरना

NLP चरण का सबसे तकनीकी चुनौतीपूर्ण पहलू सभी तीन तरीकों (ऑडियो, टेक्स्ट, दृश्य) से जानकारी को एक एकल सुसंगत रेसिपी में एकीकृत करना है। इस फ्यूजन को संभालना चाहिए:

सहमति सुदृढ़ीकरण। जब ट्रांसक्रिप्ट कहता है "सोया सॉस के दो बड़े चम्मच," स्क्रीन पर टेक्स्ट "2 बड़े चम्मच सोया सॉस" दिखाता है, और दृश्य स्ट्रीम एक गहरे तरल को डालते हुए दिखाता है, तो तीनों स्रोत सहमत होते हैं और प्रणाली को उच्च विश्वास होता है।

संघर्ष समाधान। जब ट्रांसक्रिप्ट कहता है "एक कप चीनी" लेकिन स्क्रीन पर टेक्स्ट "3/4 कप चीनी" कहता है, तो प्रणाली को यह तय करना होगा कि किस स्रोत पर भरोसा करना है। सामान्यतः, स्क्रीन पर टेक्स्ट को सटीक माप के लिए प्राथमिकता दी जाती है क्योंकि निर्माता आमतौर पर टेक्स्ट ओवरले को अपनी व्याख्या के सुधार या स्पष्टता के लिए जोड़ते हैं।

अंतराल भरना। जब व्याख्याता "स्वाद के अनुसार सीज़न करें" कहता है बिना मात्रा निर्दिष्ट किए, तो प्रणाली दृश्य सामग्री की क्रिया के अनुमान का उपयोग कर सकती है, साथ ही व्यंजन प्रकार के लिए सामान्य सीज़निंग मात्रा का ज्ञान, ताकि उचित मानों का अनुमान लगाया जा सके।

समयिक संरेखण। तरीकों के बीच जानकारी को मिलान करना समयिक संरेखण की आवश्यकता करता है। टाइमस्टैम्प 2:34 पर सामग्री संदर्भ को 2:30 से 2:40 तक दृश्य टेक्स्ट के साथ और उसी समय विंडो से दृश्य सामग्री पहचान के साथ मिलान किया जाना चाहिए। गतिशील समय युद्ध और ध्यान-आधारित संरेखण तंत्र ऑडियो, टेक्स्ट, और दृश्य घटनाओं के बीच असटीक समन्वय को संभालते हैं।

रेसिपी संरचना के लिए बड़े भाषा मॉडल

हाल के बड़े भाषा मॉडलों (LLMs) में रेसिपी संरचना के लिए एक शक्तिशाली नया दृष्टिकोण पेश किया गया है। NER, निर्भरता पार्सिंग, और फ्यूजन के लिए अलग-अलग मॉडल बनाने के बजाय, एक LLM संयुक्त ट्रांसक्रिप्ट और OCR आउटपुट को प्रोसेस कर सकता है और एक ही पास में संरचित रेसिपी उत्पन्न कर सकता है।

मॉडल को एक प्रॉम्प्ट प्राप्त होता है जिसमें ट्रांसक्रिप्ट, OCR टेक्स्ट, और दृश्य अवलोकनों का वर्णन होता है, साथ ही एक निर्धारित प्रारूप में संरचित रेसिपी आउटपुट करने के लिए निर्देश होते हैं। LLMs इस कार्य में उत्कृष्ट होते हैं क्योंकि वे खाना पकाने के बारे में व्यापक विश्व ज्ञान को संहिताबद्ध करते हैं, जिसमें सामान्य सामग्री मात्रा, सामान्य सामग्री संयोजन, और मानक तैयारी तकनीकें शामिल हैं।

इस दृष्टिकोण के कई लाभ हैं:

  • यह स्वाभाविक रूप से अस्पष्टता को संभालता है, विश्व ज्ञान पर आधारित
  • यह सह-संदर्भों को हल करता है (जैसे, "यह" में "इसे" का समझना जो तीन वाक्य पहले उल्लेखित सॉस को संदर्भित करता है)
  • यह खाना पकाने के ज्ञान के आधार पर बिना कहे चरणों का अनुमान लगा सकता है
  • यह सामग्री के नामों को डेटाबेस लुकअप के लिए उपयुक्त मानक रूपों में सामान्यीकृत करता है

मुख्य सीमा यह है कि LLM आउटपुट को मान्यता की आवश्यकता होती है। हॉलुसिनेशन, जहां मॉडल संभावित लेकिन गलत जानकारी उत्पन्न करता है, को स्रोत तरीकों और पोषण डेटाबेस बाधाओं के साथ क्रॉस-रेफरेंस करके सुरक्षित किया जाना चाहिए।

चरण 5: पोषण डेटाबेस मिलान और गणना

अंतिम चरण संरचित रेसिपी को पूर्ण पोषण विश्लेषण में बदलता है। इसके लिए प्रत्येक निकाली गई सामग्री को एक व्यापक पोषण डेटाबेस में एक प्रविष्टि से मिलाना और प्रति-सेवा पोषण मानों की गणना करना आवश्यक है।

मिलान की चुनौती

कुकिंग वीडियो से निकाली गई सामग्री के नाम डेटाबेस प्रविष्टियों से अक्सर ठीक से मेल नहीं खाते। एक वीडियो "एक बड़ा मुट्ठी भर बेबी पालक" का संदर्भ दे सकता है जबकि डेटाबेस में "पालक, कच्चा" का माप ग्राम में हो सकता है। मिलान प्रणाली को संभालना चाहिए:

  • समानार्थक समाधान: "धनिया" और "धनिया पत्ते" एक ही सामग्री हैं
  • तैयारी स्थिति मानचित्रण: "भुने हुए बादाम" का पोषण प्रोफ़ाइल "कच्चे बादाम" से अलग होता है
  • ब्रांड और किस्म सामान्यीकरण: "Barilla पेन" का सामान्यीकरण "पास्ता, पेन, सूखा" के साथ ब्रांड-विशिष्ट समायोजन के साथ होता है
  • गैर-तकनीकी से तकनीकी अनुवाद: "एक स्टिक मक्खन" का सामान्यीकरण "मक्खन, नमकीन, 113g" के रूप में होता है
  • इकाई रूपांतरण: "एक कप आटा" को ग्राम में परिवर्तित करना आवश्यक है, चूंकि एक कप आटा लगभग 120g वजन करता है जबकि एक कप चीनी लगभग 200g वजन करता है

फ़ज़ी स्ट्रिंग मिलान एल्गोरिदम जैसे Levenshtein दूरी और TF-IDF कोसाइन समानता आधारभूत मिलान प्रदान करते हैं। अधिक उन्नत दृष्टिकोण एम्बेडिंग-आधारित समानता का उपयोग करते हैं, जहां निकाली गई सामग्री टेक्स्ट और डेटाबेस प्रविष्टियाँ दोनों को Sentence-BERT (Reimers और Gurevych, 2019) जैसे मॉडलों का उपयोग करके वेक्टर प्रतिनिधित्व में एन्कोड किया जाता है, और निकटतम मिलान एम्बेडिंग स्पेस में चुना जाता है।

पोषण डेटाबेस और उनका कवरेज

कई प्रमुख पोषण डेटाबेस पोषण गणनाओं के लिए आधार के रूप में कार्य करते हैं:

डेटाबेस कवरेज द्वारा बनाए रखा गया मुख्य ताकत
USDA FoodData Central 370,000+ खाद्य पदार्थ U.S. Department of Agriculture व्यापक पोषक तत्व प्रोफाइल
Open Food Facts 3,000,000+ उत्पाद सामुदायिक योगदानकर्ता वैश्विक पैक किए गए खाद्य कवरेज
COFID (McCance और Widdowson का) 3,000+ खाद्य पदार्थ UK Food Standards Agency UK-विशिष्ट खाद्य संरचनाएँ
Australian Food Composition Database 2,500+ खाद्य पदार्थ Food Standards Australia New Zealand क्षेत्रीय खाद्य कवरेज

एक मजबूत रेसिपी निष्कर्षण प्रणाली कई डेटाबेस को क्वेरी करती है और जब प्रविष्टियाँ भिन्न होती हैं तो विश्वास-भारित औसत लागू करती है। मानक डेटाबेस में नहीं पाए जाने वाले खाद्य पदार्थों के लिए, प्रणाली खाद्य को उसके घटक सामग्री में विघटित करके और उनके व्यक्तिगत योगदानों को जोड़कर पोषण सामग्री का अनुमान लगा सकती है।

कुकिंग परिवर्तनों को संभालना

एक महत्वपूर्ण बारीकियाँ जो सटीक पोषण गणना को अनुमानित से अलग करती है, वह है कुकिंग परिवर्तनों का ध्यान रखना। जब खाद्य पकाया जाता है, तो इसकी पोषण सामग्री बदल जाती है:

  • पानी की हानि: मांस पकाने के दौरान 20 से 35 प्रतिशत वजन खो देता है, पकाए गए खाद्य पदार्थ के प्रति ग्राम में पोषक तत्वों को संकुचित करता है
  • वसा अवशोषण: तले हुए खाद्य पदार्थ खाना पकाने के तेल को अवशोषित करते हैं, जो कच्ची सामग्री प्रोफाइल का हिस्सा नहीं होते हैं
  • पोषक तत्वों का विघटन: गर्मी-संवेदनशील विटामिन जैसे विटामिन C और B विटामिन पकाने के दौरान विघटित होते हैं
  • स्टार्च जेलीकरण: खाना पकाने से स्टार्च वाले खाद्य पदार्थों का ग्लाइसेमिक इंडेक्स बदलता है
  • वसा का पिघलना: वसा वाले मांस पकाने से वसा बाहर निकलता है, जो खाए गए भाग की कैलोरी सामग्री को कम करता है

USDA विभिन्न खाना पकाने के तरीकों के लिए सामान्य पोषक तत्वों के लिए संरक्षण कारक प्रदान करता है। इन कारकों को कच्ची सामग्री के पोषण मानों पर लागू करने से अंतिम पकवान का अधिक सटीक अनुमान प्राप्त होता है।

Nutrola का पोषण इंजन इन कुकिंग परिवर्तन मॉडलों को शामिल करता है, कुकिंग विधियों के आधार पर कच्ची सामग्री डेटाबेस मानों को समायोजित करता है जो वीडियो विश्लेषण पाइपलाइन के दौरान पहचानी जाती हैं। जब प्रणाली पहचानती है कि चिकन को तला नहीं गया बल्कि ग्रिल किया जा रहा है, तो यह उचित नमी हानि और वसा संरक्षण कारकों को लागू करती है ताकि समाप्त पकवान के लिए सटीक कैलोरी अनुमान उत्पन्न किया जा सके।

Nutrola इस पाइपलाइन को कैसे लागू करता है

Nutrola इस बहु-चरणीय तकनीकी पाइपलाइन को व्यावहारिक उपभोक्ता अनुभव में लाता है। जब कोई उपयोगकर्ता एक कुकिंग वीडियो साझा करता है या एक रेसिपी वीडियो के लिंक को पेस्ट करता है, तो Nutrola का बैकएंड वीडियो को ऊपर वर्णित निष्कर्षण पाइपलाइन के माध्यम से प्रोसेस करता है और एक संरचित रेसिपी के साथ पूर्ण पोषण डेटा लौटाता है।

व्यावहारिक कार्यान्वयन में कई इंजीनियरिंग निर्णय शामिल होते हैं जो सटीकता, गति, और उपयोगकर्ता अनुभव के बीच संतुलन बनाते हैं:

चयनात्मक फ्रेम सैंपलिंग। हर फ्रेम को प्रोसेस करने के बजाय, Nutrola की प्रणाली उन कीफ्रेमों की पहचान करती है जहाँ महत्वपूर्ण दृश्य परिवर्तन होते हैं, जैसे नए सामग्री का प्रकट होना, कुकिंग क्रियाओं का बदलना, या स्क्रीन पर टेक्स्ट का अपडेट होना। यह प्रासंगिक दृश्य जानकारी को कैप्चर करते हुए 80 से 90 प्रतिशत तक गणनात्मक लागत को कम करता है।

विश्वास स्कोरिंग। हर निकाली गई तत्व एक विश्वास स्कोर के साथ आती है जो तरीकों के बीच सहमति से निकाली जाती है। स्पीच, टेक्स्ट, और दृश्य पहचान द्वारा पुष्टि की गई सामग्री को उच्च विश्वास मिलता है। केवल एक विधि द्वारा पहचानी गई सामग्री को उपयोगकर्ता सत्यापन के लिए चिह्नित किया जाता है।

उपयोगकर्ता सुधार लूप। जब प्रणाली किसी सामग्री या मात्रा के बारे में अनिश्चित होती है, तो यह उपयोगकर्ता को अपनी सर्वोत्तम अनुमान प्रस्तुत करती है और सुधार का विकल्प देती है। ये सुधार मॉडल में फीडबैक करते हैं, समय के साथ निष्कर्षण सटीकता में सुधार करते हैं।

डेटाबेस-समर्थित मान्यता। निकाली गई रेसिपियों को पोषण की संभाव्यता बाधाओं के खिलाफ मान्यता दी जाती है। यदि प्रणाली एक मात्रा निकालती है जो व्यंजन प्रकार के लिए अविश्वसनीय रूप से उच्च या निम्न कैलोरी गिनती का परिणाम देती है, तो इसे समीक्षा के लिए चिह्नित किया जाता है।

यह दृष्टिकोण कुकिंग वीडियो देखने के निष्क्रिय अनुभव को कार्यात्मक पोषण डेटा में बदल देता है जो सीधे उपयोगकर्ता के दैनिक ट्रैकिंग में एकीकृत होता है। प्रत्येक सामग्री को खोजने और भागों का अनुमान लगाने के बजाय, उपयोगकर्ताओं को वीडियो सामग्री से सीधे निकाली गई पूर्ण पोषण विश्लेषण प्राप्त होती है।

अनुसंधान सीमा: अगला क्या आएगा

बहु-आयामी रेसिपी निष्कर्षण का क्षेत्र तेजी से आगे बढ़ रहा है। कई अनुसंधान दिशाएँ सटीकता और क्षमता में सुधार का वादा करती हैं।

एंड-टू-एंड मल्टीमोडल मॉडल

वर्तमान पाइपलाइन प्रत्येक तरीके को अलग से प्रोसेस करती है, फिर उन्हें एकीकृत करती है। उभरते मल्टीमोडल आर्किटेक्चर वीडियो, ऑडियो, और टेक्स्ट को एक ही मॉडल में एक साथ प्रोसेस करते हैं। Google's Gemini और इसी तरह के मल्टीमोडल फाउंडेशन मॉडल सीधे वीडियो को ग्रहण कर सकते हैं और स्पष्ट मध्यवर्ती प्रतिनिधित्व के बिना तरीकों के बीच तर्क कर सकते हैं। ये मॉडल सरल पाइपलाइनों और बेहतर क्रॉस-मोडल तर्क का वादा करते हैं, हालांकि उन्हें महत्वपूर्ण गणनात्मक संसाधनों की आवश्यकता होती है।

प्रक्रियात्मक समझ

वर्तमान प्रणाली एक सपाट सामग्री और चरणों की सूची निकालती है। भविष्य की प्रणाली समृद्ध प्रक्रियात्मक प्रतिनिधित्व बनाएगी जो रेसिपी की ग्राफ संरचना को कैप्चर करती है: कौन से चरण एक-दूसरे पर निर्भर करते हैं, कौन सी सामग्री किस चरण में उपयोग की जाती है, और मध्यवर्ती परिणाम कैसे संयोजित होते हैं। यह प्रक्रियात्मक समझ सटीक पोषण गणना को सक्षम बनाती है क्योंकि यह ट्रैक करती है कि सामग्री प्रत्येक चरण के माध्यम से कैसे परिवर्तित होती है।

व्यक्तिगत पोषण अनुमान

जैसे-जैसे रेसिपी निष्कर्षण प्रणाली अधिक डेटा प्रोसेस करती है, वे व्यक्तिगत निर्माता पैटर्न सीख सकती हैं। एक प्रणाली जिसने एक ही निर्माता के 100 वीडियो का विश्लेषण किया है, यह सीखती है कि जब यह निर्माता "जैतून के तेल की एक छींट" कहता है, तो वे आमतौर पर लगभग एक बड़े चम्मच का उपयोग करते हैं। यह व्यक्तिगत कैलिब्रेशन मात्रा के अनुमान को महत्वपूर्ण रूप से सुधारता है।

सांस्कृतिक और क्षेत्रीय खाद्य ज्ञान

रेसिपी निष्कर्षण को वैश्विक व्यंजनों की पूरी विविधता में विस्तारित करने के लिए गहरे सांस्कृतिक खाद्य ज्ञान की आवश्यकता होती है। यह जानना कि "इथियोपियाई खाना पकाने में injera के एक प्लेट के साथ wot" विशिष्ट अनुपातों का पालन करता है, या "वियतनामी व्यंजन में pho का एक कटोरा" में सामान्य सामग्री अनुपात होते हैं, प्रणाली को सूचित अनुमान लगाने की अनुमति देता है, भले ही स्पष्ट मात्राएँ प्रदान न की गई हों।

अक्सर पूछे जाने वाले प्रश्न

कुकिंग वीडियो से AI रेसिपी निष्कर्षण की सटीकता मैन्युअल रूप से टेक्स्ट रेसिपी पढ़ने की तुलना में कितनी है?

वर्तमान बहु-आयामी निष्कर्षण पाइपलाइन सामग्री पहचान पर 85 से 92 प्रतिशत सटीकता और मात्रा निष्कर्षण पर 75 से 85 प्रतिशत सटीकता प्राप्त करती है जब इसे वीडियो निर्माताओं द्वारा लिखित ग्राउंड-ट्रुथ रेसिपियों के साथ तुलना की जाती है। त्रुटियों का मुख्य स्रोत मात्रा का अनुमान है जब निर्माता स्पष्ट माप नहीं बताते। तुलना के लिए, मानव दर्शकों द्वारा मैन्युअल ट्रांसक्रिप्शन लगभग 90 से 95 प्रतिशत सटीकता प्राप्त करता है, जिसका अर्थ है कि AI निष्कर्षण इस कार्य के लिए मानव स्तर की प्रदर्शन के करीब पहुंच रहा है। Nutrola का कार्यान्वयन निम्न-विश्वास निष्कर्षण के लिए एक उपयोगकर्ता सत्यापन चरण शामिल करता है, जो व्यावहारिक रूप से प्रभावी सटीकता को 95 प्रतिशत से अधिक बढ़ाता है।

जब कुकिंग वीडियो में स्पष्ट सामग्री मात्राएँ नहीं बताई जाती हैं, तो क्या होता है?

जब मात्रा स्पष्ट रूप से स्पीच या स्क्रीन पर टेक्स्ट में नहीं बताई जाती है, तो प्रणाली अनुमान विधियों की एक पदानुक्रम पर वापस जाती है। पहले, यह वीडियो फ्रेम से दृश्य मात्रा के अनुमान का प्रयास करती है, गहराई के अनुमान और संदर्भ वस्तु स्केलिंग का उपयोग करके। दूसरा, यह व्यंजन प्रकार के लिए सामान्य मात्राओं का ज्ञान आधार पर परामर्श करती है। तीसरा, यह उसी व्यंजन की पहले से निकाली गई रेसिपियों से सांख्यिकीय औसत का उपयोग करती है। परिणामी अनुमान को एक निम्न विश्वास स्कोर के साथ चिह्नित किया जाता है, और Nutrola इसे उपयोगकर्ता को प्रस्तुत करता है, यह नोट करते हुए कि मात्रा का अनुमान लगाया गया था न कि स्पष्ट रूप से बताई गई।

क्या AI अन्य भाषाओं में कुकिंग वीडियो से रेसिपी निकाल सकता है?

हाँ। आधुनिक ASR मॉडल जैसे Whisper 915 भाषाओं में ट्रांसक्रिप्शन का समर्थन करते हैं, और OCR सिस्टम कई स्क्रिप्ट को संभालते हैं, जिनमें लैटिन, CJK, सायरीलिक, अरबी, और देवनागरी शामिल हैं। NLP पार्सिंग परत कई भाषाओं में काम कर सकती है, हालांकि सटीकता आमतौर पर उन भाषाओं के लिए सबसे अधिक होती है जिनमें सबसे अधिक प्रशिक्षण डेटा होता है। Whisper सीधे गैर-अंग्रेजी स्पीच का अंग्रेजी में अनुवाद भी कर सकता है, जिससे डाउनस्ट्रीम पाइपलाइन को अन्य भाषाओं में वीडियो के लिए अंग्रेजी में काम करने की अनुमति मिलती है। Nutrola 30 से अधिक भाषाओं में वीडियो से रेसिपी निष्कर्षण का समर्थन करता है।

प्रणाली उन रेसिपियों को कैसे संभालती है जहाँ निर्माता फिल्मांकन के दौरान प्रतिस्थापन या गलतियाँ करते हैं?

वीडियो विश्लेषण की समयिक प्रकृति वास्तव में इस परिदृश्य में मदद करती है। जब एक निर्माता कहता है "मैं मक्खन का उपयोग करने वाला था लेकिन मेरे पास केवल जैतून का तेल है," तो प्रणाली की NLP परत सुधार की पहचान करती है और अंतिम रेसिपी में मक्खन के बजाय जैतून के तेल का उपयोग करती है। इसी तरह, जब एक निर्माता एक सामग्री जोड़ता है और फिर कहता है "वास्तव में, यह बहुत अधिक है, मुझे कुछ बाहर निकालने दें," तो प्रणाली सुधार को ट्रैक करती है। ध्यान-आधारित मॉडल जो पूरे ट्रांसक्रिप्ट को प्रोसेस करते हैं, इन आत्म-सुधारों की पहचान कर सकते हैं, जो संशोधनों से संबंधित संवाद पैटर्न को पहचानते हैं।

वीडियो से रेसिपी निष्कर्षण और वेबपृष्ठ से रेसिपी निष्कर्षण में क्या अंतर है?

वेब रेसिपी निष्कर्षण मुख्य रूप से संरचित डेटा पार्सिंग पर निर्भर करता है। अधिकांश रेसिपी वेबसाइटें schema.org रेसिपी मार्कअप का उपयोग करती हैं, जो मशीन-पठनीय सामग्री सूचियाँ, मात्राएँ, और निर्देश प्रदान करती हैं। वीडियो रेसिपी निष्कर्षण मौलिक रूप से कठिन है क्योंकि जानकारी असंरचित होती है और ऑडियो, दृश्य, और टेक्स्ट तरीकों के बीच वितरित होती है जिन्हें एकीकृत करना होता है। हालाँकि, वीडियो निष्कर्षण का लाभ यह है कि यह तैयारी विवरण और दृश्य मात्रा संकेतों को कैप्चर करता है जो लिखित रेसिपियों में अनुपस्थित होते हैं। कई निर्माता अपनी व्याख्या में सुझाव, प्रतिस्थापन, और संदर्भ जानकारी साझा करते हैं जो कभी भी लिखित रेसिपी में नहीं आती।

खाना पकाने की विधि पहचान निकाली गई रेसिपियों की पोषण सटीकता को कैसे प्रभावित करती है?

खाना पकाने की विधि पहचान पोषण सटीकता को महत्वपूर्ण रूप से प्रभावित करती है। एक चिकन ब्रेस्ट को तेल में तलने से उसी ब्रेस्ट को ग्रिल करने की तुलना में लगभग 60 से 100 कैलोरी अधिक होती है, तेल अवशोषण के कारण। सब्जियों को उबालने से उनके विटामिन C की मात्रा 30 से 50 प्रतिशत तक कम हो सकती है। AI पाइपलाइन क्रिया पहचान मॉडलों का उपयोग करके खाना पकाने के तरीकों (ग्रिलिंग, तला हुआ, बेकिंग, भाप, कच्ची तैयारी) की पहचान करती है और USDA पोषण संरक्षण कारकों को लागू करती है। यह खाना पकाने की विधि से अवगत गणना आमतौर पर कच्ची सामग्री मानों का उपयोग करने की तुलना में कैलोरी अनुमान सटीकता में 10 से 15 प्रतिशत सुधार करती है।

निष्कर्ष

कुकिंग वीडियो से रेसिपी निकालना कृत्रिम बुद्धिमत्ता में व्यापक चुनौती का एक सूक्ष्म रूप है: असंरचित, बहु-आयामी, वास्तविक दुनिया की जानकारी को समझना। इसमें शोर भरी रसोई में काम करने वाली स्पीच पहचान, सामग्री की पहचान करने वाली कंप्यूटर विज़न, व्यस्त पृष्ठभूमियों पर टेक्स्ट पढ़ने वाली OCR, और सभी को एक सुसंगत पोषण चित्र में मिलाने वाली NLP की आवश्यकता होती है।

इस लेख में वर्णित पाइपलाइन, Whisper-आधारित ट्रांसक्रिप्शन से लेकर CLIP-संचालित दृश्य पहचान तक और LLM-आधारित रेसिपी संरचना तक, वर्तमान तकनीक की स्थिति का प्रतिनिधित्व करती है। प्रत्येक घटक वर्षों के मशीन लर्निंग अनुसंधान पर आधारित है, CNNs और RNNs पर मौलिक कार्य से लेकर ट्रांसफार्मर क्रांति तक, जिसने NLP और कंप्यूटर विज़न को एक ही आर्किटेक्चरल पैरेडाइम के तहत एकीकृत किया।

Nutrola का इस पाइपलाइन का कार्यान्वयन इन अनुसंधान प्रगति को दैनिक उपयोग में लाता है। उपयोगकर्ताओं द्वारा पहले से देखे जा रहे कुकिंग वीडियो से स्वचालित रूप से रेसिपी निकालकर, यह रेसिपी खोजने और इसके पोषण प्रभाव को समझने के बीच के अंतर को समाप्त करता है। परिणाम एक पोषण ट्रैकिंग अनुभव है जो उपयोगकर्ताओं को उनके पहले से मौजूद स्थान पर मिलता है, निष्क्रिय वीडियो उपभोग को सक्रिय पोषण जागरूकता में बदलता है बिना मैनुअल डेटा प्रविष्टि की आवश्यकता के।

जैसे-जैसे बहु-आयामी AI मॉडल में सुधार होता है, रेसिपी निष्कर्षण की सटीकता और गति केवल बढ़ेगी। किसी भी कुकिंग सामग्री पर अपने फोन को इंगित करने और तुरंत एक पूर्ण पोषण विश्लेषण प्राप्त करने का दृष्टिकोण अब एक अनुसंधान आकांक्षा नहीं है। यह एक कार्यशील तकनीक है, और यह अंतर्निहित विज्ञान में हर प्रगति के साथ बेहतर हो रहा है।

क्या आप अपने पोषण ट्रैकिंग को बदलने के लिए तैयार हैं?

उन हजारों में शामिल हों जिन्होंने Nutrola के साथ अपनी स्वास्थ्य यात्रा को बदल दिया!