Η Επιστήμη πίσω από την Εξαγωγή Συνταγών με AI: Πώς το NLP και η Υπολογιστική Όραση Διαβάζουν Βίντεο Μαγειρικής
Ανακαλύψτε την τεχνική διαδικασία που επιτρέπει στο AI να εξάγει συνταγές από βίντεο μαγειρικής, συνδυάζοντας αναγνώριση ομιλίας, OCR, οπτική αναγνώριση συστατικών και NLP για τη δημιουργία ακριβών διατροφικών δεδομένων αυτόματα.
Τα βίντεο μαγειρικής έχουν γίνει ο κυρίαρχος τρόπος για την κοινοποίηση συνταγών. Μόνο στο YouTube, οι προβολές βίντεο μαγειρικής ξεπερνούν το 1 δισεκατομμύριο το μήνα, το περιεχόμενο φαγητού στο TikTok παράγει δεκάδες δισεκατομμύρια προβολές ετησίως, και τα Instagram Reels έχουν μετατρέψει κάθε οικιακό μάγειρα σε δυνητικό δημιουργό περιεχομένου. Ωστόσο, υπάρχει μια διαρκής απόσταση μεταξύ της παρακολούθησης μιας συνταγής και της κατανόησης του τι περιέχει διατροφικά.
Για να γεφυρωθεί αυτή η απόσταση απαιτείται μια πολυδιάστατη διαδικασία AI που συνδυάζει αυτόματη αναγνώριση ομιλίας, οπτική αναγνώριση χαρακτήρων, υπολογιστική όραση και επεξεργασία φυσικής γλώσσας. Αυτό το άρθρο αναλύει κάθε στάδιο της τεχνικής διαδικασίας, εξηγεί τα μοντέλα και την έρευνα που την καθιστούν εφικτή και εξετάζει πώς αυτές οι τεχνολογίες συγκλίνουν για να μετατρέψουν ένα βίντεο μαγειρικής σε δομημένα διατροφικά δεδομένα.
Το Πρόβλημα της Εξαγωγής Συνταγών: Γιατί τα Βίντεο Είναι Δύσκολα
Οι συνταγές κειμένου σε ιστοσελίδες είναι σχετικά απλές στην ανάλυση. Ακολουθούν προβλέψιμες δομές με λίστες συστατικών, ποσότητες και βήμα προς βήμα οδηγίες. Η σήμανση HTML και οι αναφορές συνταγών schema.org παρέχουν επιπλέον δομή που είναι κατανοητή από μηχανές.
Τα βίντεο μαγειρικής παρουσιάζουν μια θεμελιωδώς διαφορετική πρόκληση. Οι πληροφορίες της συνταγής είναι κατανεμημένες σε πολλές μορφές ταυτόχρονα:
- Ομιλία που περιγράφει συστατικά, ποσότητες και τεχνικές
- Κείμενο στην οθόνη που εμφανίζει λίστες συστατικών, θερμοκρασίες και χρόνους
- Οπτικό περιεχόμενο που δείχνει τα συστατικά να προστίθενται, να αναμιγνύονται και να μεταμορφώνονται
- Υπονοούμενη γνώση που υποθέτει ότι οι θεατές κατανοούν μη δηλωμένα βήματα, όπως το προθέρμανμα του φούρνου ή το ξέπλυμα του ρυζιού
Καμία από αυτές τις μορφές δεν περιέχει την πλήρη συνταγή. Ένας δημιουργός μπορεί να πει "προσθέστε λίγο ελαιόλαδο" ενώ η οθόνη δείχνει μια ορατή ροή που υποδηλώνει περίπου δύο κουταλιές, και αργότερα το κείμενο στην οθόνη εμφανίζει "2 κουταλιές ελαιόλαδο." Η εξαγωγή της πλήρους συνταγής απαιτεί τη συγχώνευση πληροφοριών από όλες αυτές τις πηγές και την επίλυση συγκρούσεων μεταξύ τους.
Η Πολυδιάστατη Διαδικασία Εξαγωγής
Η πλήρης διαδικασία από το ακατέργαστο βίντεο σε δομημένα διατροφικά δεδομένα περιλαμβάνει πέντε κύρια στάδια:
| Στάδιο | Είσοδος | Τεχνολογία | Έξοδος |
|---|---|---|---|
| 1. Εξαγωγή Ήχου | Αρχείο βίντεο | ASR (Whisper) | Χρονοσημανθέν κείμενο |
| 2. Εξαγωγή Κειμένου Οθόνης | Καρέ βίντεο | OCR (PaddleOCR, EasyOCR) | Κείμενο στην οθόνη με χρονοσημάνσεις |
| 3. Οπτική Αναγνώριση Συστατικών | Καρέ βίντεο | CNN/Transformers Όρασης (CLIP, ViT) | Αναγνωρισμένα συστατικά και ενέργειες |
| 4. NLP Ανάλυση και Συγχώνευση | Κείμενο + OCR + οπτικά δεδομένα | Μοντέλα Transformer (BERT, LLMs) | Δομημένη συνταγή με ποσότητες |
| 5. Αντιστοίχιση με Βάση Δεδομένων Διατροφής | Δομημένη συνταγή | Θολή αντιστοίχιση + αναζήτηση βάσης δεδομένων | Πλήρης διατροφική ανάλυση |
Κάθε στάδιο παρουσιάζει ξεχωριστές τεχνικές προκλήσεις και αντλεί από διαφορετικούς τομείς έρευνας μηχανικής μάθησης.
Στάδιο 1: Αυτόματη Αναγνώριση Ομιλίας για την Αφήγηση Συνταγής
Το πρώτο βήμα στην εξαγωγή μιας συνταγής από ένα βίντεο μαγειρικής είναι η μετατροπή της προφορικής αφήγησης σε κείμενο. Αυτό είναι το πεδίο της αυτόματης αναγνώρισης ομιλίας, ή ASR.
Η Επανάσταση του Whisper
Το μοντέλο Whisper της OpenAI, που παρουσιάστηκε σε μια εργασία το 2022 από τους Radford και συνεργάτες, άλλαξε ριζικά το τοπίο της αναγνώρισης ομιλίας για την εξαγωγή συνταγών. Εκπαιδευμένο σε 680.000 ώρες πολυγλωσσικών και πολυδιάστατων εποπτευόμενων δεδομένων που συλλέχθηκαν από το διαδίκτυο, το Whisper πέτυχε σχεδόν ανθρώπινη ακρίβεια μεταγραφής σε ένα ευρύ φάσμα συνθηκών ήχου.
Αυτό που καθιστά το Whisper ιδιαίτερα πολύτιμο για τη μεταγραφή βίντεο μαγειρικής:
Ανθεκτικότητα σε θόρυβο. Οι κουζίνες είναι θορυβώδεις. Ο ήχος από τηγάνια, τρεχούμενο νερό, ήχοι κοπής και μουσική στο παρασκήνιο ανταγωνίζονται τη φωνή του αφηγητή. Η εκπαίδευση του Whisper σε διάφορες συνθήκες ήχου σημαίνει ότι χειρίζεται καλύτερα αυτές τις επικαλυπτόμενες πηγές ήχου σε σύγκριση με προηγούμενα μοντέλα ASR.
Πολυγλωσσική ικανότητα. Τα βίντεο μαγειρικής παράγονται σχεδόν σε κάθε γλώσσα. Το Whisper υποστηρίζει τη μεταγραφή σε 915 γλώσσες και μπορεί να εκτελεί μετάφραση στα Αγγλικά, επιτρέποντας την εξαγωγή συνταγών από περιεχόμενο ανεξαρτήτως της αρχικής γλώσσας.
Σημεία στίξης και μορφοποίηση. Σε αντίθεση με τα προηγούμενα συστήματα ASR που παρήγαγαν επίπεδες ροές κειμένου, το Whisper δημιουργεί κείμενα με σημεία στίξης και μορφοποίηση που διατηρούν τα όρια των προτάσεων. Αυτή η δομή είναι κρίσιμη για την επόμενη ανάλυση NLP.
Χρονοσημάνσεις σε επίπεδο λέξης. Το Whisper μπορεί να παράγει χρονοσημάνσεις σε επίπεδο λέξης, επιτρέποντας ακριβή ευθυγράμμιση μεταξύ αυτού που λέγεται και αυτού που εμφανίζεται στην οθόνη σε οποιαδήποτε δεδομένη στιγμή.
Προκλήσεις που Σχετίζονται με την Αφήγηση Μαγειρικής
Ακόμη και με τις δυνατότητες του Whisper, τα βίντεο μαγειρικής παρουσιάζουν προκλήσεις ASR που δεν εμφανίζονται σε τυπικά benchmarks αναγνώρισης ομιλίας:
Ειδική λεξικολογία. Τα ονόματα των συστατικών εκτείνονται σε χιλιάδες είδη από παγκόσσιες κουζίνες. Όροι όπως "gochujang", "za'atar", "tahini" ή "panko" μπορεί να μην εμφανίζονται συχνά στα γενικά εκπαιδευτικά δεδομένα. Απαιτούνται εξειδικευμένα μοντέλα λεξικολογίας τροφίμων ή λεξικά διόρθωσης μετά την επεξεργασία για να διορθωθούν οι συστηματικές αναγνωρίσεις.
Ασαφής ποσότητα. Οι προφορικές ποσότητες είναι συχνά ασαφείς. "Μια καλή ποσότητα αλατιού", "μια σταγόνα ξυδιού" ή "περίπου τόση αλεύρι" απαιτούν ερμηνεία που ξεπερνά τη μεταγραφή.
Εναλλαγή γλωσσών. Πολλοί δημιουργοί μαγειρικής εναλλάσσουν γλώσσες, χρησιμοποιώντας Αγγλικά για γενική αφήγηση αλλά τη μητρική τους γλώσσα για ονόματα πιάτων ή παραδοσιακές τεχνικές. Η πολυγλωσσική ASR πρέπει να χειρίζεται αυτές τις μεταβάσεις με χάρη.
Μη λεκτική επικοινωνία. Ένας δημιουργός μπορεί να δείξει προς ένα συστατικό χωρίς να το ονομάσει, ή να πει "αυτό" ενώ κρατάει ένα μπουκάλι. Αυτές οι αναφορές απαιτούν διασύνδεση με την οπτική ροή.
Μετα-Επεξεργασία του Κειμένου
Η ακατέργαστη έξοδος ASR απαιτεί αρκετά βήματα μετα-επεξεργασίας πριν γίνει χρήσιμη για την εξαγωγή συνταγών:
- Διόρθωση τροφίμων χρησιμοποιεί ένα λεξικό ειδικού τομέα για να διορθώσει κοινές αναγνωρίσεις (π.χ., "κύμινο" που ακούγεται ως "ερχόμενο")
- Κανονικοποίηση ποσοτήτων μετατρέπει τους προφορικούς αριθμούς και τις κλάσεις σε τυποποιημένες αριθμητικές μορφές
- Κατακερματισμός διαιρεί τη συνεχή μεταγραφή σε λογικά βήματα συνταγής με βάση τις χρονικές παύσεις, τις μεταβατικές φράσεις και τα όρια ρημάτων δράσης
- Φιλτράρισμα εμπιστοσύνης εντοπίζει και σηματοδοτεί τμήματα χαμηλής εμπιστοσύνης για πιθανή διασταύρωση με άλλες μορφές
Στάδιο 2: Οπτική Αναγνώριση Χαρακτήρων για Κείμενο στην Οθόνη
Πολλά βίντεο μαγειρικής εμφανίζουν λίστες συστατικών, μετρήσεις, θερμοκρασίες και οδηγίες ως κείμενα που προβάλλονται στην οθόνη. Αυτό το κείμενο είναι συχνά πιο ακριβές από την προφορική αφήγηση και ακολουθεί πιο τυποποιημένη μορφοποίηση.
Πώς Λειτουργεί το OCR σε Καρέ Βίντεο
Η εξαγωγή κειμένου από καρέ βίντεο περιλαμβάνει δύο υπο-καθήκοντα: ανίχνευση κειμένου (εύρεση του πού εμφανίζεται το κείμενο στο καρέ) και αναγνώριση κειμένου (ανάγνωση του τι λέει το κείμενο).
Ανίχνευση κειμένου εντοπίζει περιοχές στην εικόνα που περιέχουν κείμενο. Σύγχρονοι ανιχνευτές όπως το CRAFT (Character Region Awareness for Text Detection) και το DBNet (Differentiable Binarization Network) μπορούν να αναγνωρίσουν κείμενο ανεξαρτήτως προσανατολισμού, μεγέθους ή πολυπλοκότητας φόντου. Αυτά τα μοντέλα εξάγουν περιγράμματα ή πολύγωνα γύρω από περιοχές κειμένου.
Αναγνώριση κειμένου μετατρέπει τις ανιχνευμένες περιοχές κειμένου σε αλφαριθμητικές συμβολοσειρές. Αρχιτεκτονικές που βασίζονται σε συνελικτικά και αναδρομικά νευρωνικά δίκτυα, συχνά με αποκωδικοποίηση CTC (Connectionist Temporal Classification), επεξεργάζονται τις κομμένες περιοχές κειμένου και εξάγουν ακολουθίες χαρακτήρων. Πιο πρόσφατες προσεγγίσεις χρησιμοποιούν αρχιτεκτονικές βασισμένες σε transformers για βελτιωμένη ακρίβεια σε καλλιτεχνικές γραμματοσειρές.
Οι Μοναδικές Προκλήσεις του OCR σε Βίντεο Μαγειρικής
Το κείμενο στην οθόνη σε βίντεο μαγειρικής διαφέρει ουσιαστικά από το κείμενο εγγράφου για το οποίο τα περισσότερα συστήματα OCR είναι βελτιστοποιημένα:
Κινούμενα κείμενα. Το κείμενο συχνά κινείται μέσα και έξω, απαιτώντας χρονική συγκέντρωση σε πολλές καρέ για να καταγραφεί το πλήρες κείμενο. Μια κινούμενη ανίχνευση μπορεί να αποκαλύψει το κείμενο χαρακτήρα προς χαρακτήρα σε πολλές καρέ.
Διακοσμητικές γραμματοσειρές. Οι δημιουργοί περιεχομένου τροφίμων συχνά χρησιμοποιούν καλλιτεχνικές, χειρόγραφες ή διακοσμητικές γραμματοσειρές που διαφέρουν από τις καθαρές γραμματοσειρές στα τυπικά εκπαιδευτικά δεδομένα OCR. Η λεπτομερής εκπαίδευση σε σύνολα δεδομένων γραμματοσειρών ειδικά για μαγειρική βελτιώνει τα ποσοστά αναγνώρισης.
Σύνθετα φόντα. Το κείμενο συχνά επικαλύπτεται σε πολυάσχολα οπτικά φόντα που δείχνουν φαγητά, κουζίνες και χέρια. Υψηλή αντίθεση μεταξύ κειμένου και φόντου δεν μπορεί να θεωρηθεί δεδομένη. Η ανίχνευση περιγράμματος κειμένου, σκιάς και θολώματος φόντου βοηθά στην απομόνωση της στρώσης κειμένου.
Πολυγλωσσικά και μικτά σενάρια. Ένα μόνο καρέ μπορεί να περιέχει κείμενο σε πολλές γραφές, όπως Αγγλικές μετρήσεις δίπλα σε ονόματα πιάτων στα Ιαπωνικά. Μοντέλα OCR πολλαπλών γραφών ή ανίχνευση γραφής ακολουθούμενη από γλωσσικά συγκεκριμένες διαδικασίες αναγνώρισης χειρίζονται αυτή την ποικιλία.
Χρονική Αφαίρεση και Συγκέντρωση
Δεδομένου ότι τα καρέ βίντεο δειγματίζονται πολλές φορές ανά δευτερόλεπτο, το ίδιο κείμενο στην οθόνη θα ανιχνευθεί σε πολλές διαδοχικές καρέ. Η διαδικασία OCR πρέπει να:
- Δειγματίσει καρέ σε κατάλληλο ρυθμό (συνήθως 1 έως 2 καρέ ανά δευτερόλεπτο για ανίχνευση κειμένου)
- Παρακολουθεί τις περιοχές κειμένου σε καρέ για να εντοπίσει μόνιμο και παροδικό κείμενο
- Αφαιρεί τις επαναλαμβανόμενες ανιχνεύσεις του ίδιου κειμένου
- Συγχωνεύει τις μερικές ανιχνεύσεις από κινούμενα κείμενα
- Συσχετίζει κάθε στοιχείο κειμένου με το χρονικό του παράθυρο για μελλοντική συγχώνευση με δεδομένα ήχου και οπτικά δεδομένα
Η έξοδος αυτού του σταδίου είναι μια χρονοσημανθέντα λίστα στοιχείων κειμένου στην οθόνη, καθένα από τα οποία σχετίζεται με τη διάρκεια ορατότητάς του και τη χωρική του θέση στο καρέ.
Στάδιο 3: Οπτική Αναγνώριση Συστατικών με Υπολογιστική Όραση
Πέρα από το κείμενο, το οπτικό περιεχόμενο ενός βίντεο μαγειρικής περιέχει πλούσιες πληροφορίες σχετικά με τα συστατικά, τις ποσότητες και τις μεθόδους προετοιμασίας. Τα μοντέλα υπολογιστικής όρασης μπορούν να αναγνωρίσουν τα συστατικά καθώς εμφανίζονται, να εκτιμήσουν τις ποσότητες από οπτικά σημάδια και να αναγνωρίσουν τις μαγειρικές ενέργειες.
Αναγνώριση Συστατικών με Vision Transformers και CLIP
Η σύγχρονη αναγνώριση συστατικών βασίζεται σε δύο βασικές εξελίξεις: Vision Transformers (ViT) και εκπαίδευση αντίθεσης κειμένου-εικόνας (CLIP).
Vision Transformers, που εισήχθησαν από τους Dosovitskiy και συνεργάτες το 2020, εφαρμόζουν την αρχιτεκτονική transformer στην αναγνώριση εικόνας. Αντί να χρησιμοποιούν συνελικτικά στρώματα, το ViT διαιρεί μια εικόνα σε κομμάτια και τα επεξεργάζεται ως ακολουθία, παρόμοια με το πώς οι transformers επεξεργάζονται λέξεις σε μια πρόταση. Αυτή η προσέγγιση έχει αποδειχθεί ιδιαίτερα αποτελεσματική για λεπτομερείς οπτικές αναγνωρίσεις όπως η αναγνώριση συστατικών, όπου οι λεπτές διαφορές σε χρώμα, υφή και σχήμα διακρίνουν παρόμοια αντικείμενα.
CLIP, που αναπτύχθηκε από τους Radford και συνεργάτες στην OpenAI το 2021, μαθαίνει οπτικές έννοιες από φυσική γλωσσική εποπτεία. Εκπαιδευμένο σε 400 εκατομμύρια ζεύγη εικόνας-κειμένου, το CLIP μπορεί να αναγνωρίσει αντικείμενα που περιγράφονται σε κείμενο χωρίς να έχει εκπαιδευτεί ρητά σε επισημασμένα παραδείγματα αυτών των αντικειμένων. Για την αναγνώριση συστατικών, αυτό σημαίνει ότι ένα σύστημα βασισμένο σε CLIP μπορεί να αναγνωρίσει ένα συστατικό ακόμη και αν δεν ήταν στο εκπαιδευτικό σύνολο, αρκεί να μπορεί να ταιριάξει την οπτική εμφάνιση με μια γραπτή περιγραφή.
Το πρακτικό πλεονέκτημα του CLIP για την εξαγωγή συνταγών είναι η ικανότητά του να λειτουργεί χωρίς προηγούμενη εκπαίδευση και με ελάχιστα παραδείγματα. Τα τρόφιμα καλύπτουν μια τεράστια ποικιλία συστατικών, προετοιμασιών και πολιτιστικών παραστάσεων. Ένα παραδοσιακό μοντέλο ταξινόμησης θα χρειαζόταν επισημασμένα εκπαιδευτικά παραδείγματα για κάθε συστατικό σε κάθε κατάσταση προετοιμασίας. Το CLIP μπορεί να γενικεύσει από την ευρεία προεκπαίδευσή του για να αναγνωρίσει νέα συστατικά που περιγράφονται σε μορφή κειμένου.
Αναγνώριση Μαγειρικών Ενεργειών
Η αναγνώριση των ενεργειών που εκτελούνται είναι εξίσου σημαντική με την αναγνώριση των συστατικών. Η αναγνώριση δράσης ενημερώνει το σύστημα αν ένα συστατικό κόβεται, σωτάρεται, αναμιγνύεται ή ψήνεται, γεγονός που επηρεάζει άμεσα την τελική διατροφική αξία.
Η έρευνα στην αναγνώριση δράσεων σε βίντεο έχει παράγει μοντέλα που αναλύουν χρονικές ακολουθίες καρέ για να ταξινομήσουν τις δράσεις. Προσεγγίσεις όπως τα SlowFast networks (Feichtenhofer et al., 2019) επεξεργάζονται το βίντεο σε δύο χρονικές αναλύσεις ταυτόχρονα: μια αργή διαδρομή καταγράφει λεπτομέρειες του χώρου ενώ μια γρήγορη διαδρομή καταγράφει την κίνηση. Εφαρμοσμένα σε βίντεο μαγειρικής, αυτά τα μοντέλα μπορούν να διακρίνουν μεταξύ ανακατέματος, χτυπήματος, διπλώματος και ζυμώματος, καθένα από τα οποία έχει διαφορετικές επιπτώσεις στη δομή της συνταγής.
Τα σύνολα δεδομένων Food-101 και Recipe1M+ (Marin et al., 2019) έχουν διαδραματίσει καθοριστικό ρόλο στην εκπαίδευση και αξιολόγηση μοντέλων υπολογιστικής όρασης που σχετίζονται με τρόφιμα. Το Recipe1M+ περιέχει περισσότερες από 1 εκατομμύριο συνταγές μαγειρικής με 13 εκατομμύρια εικόνες τροφίμων, παρέχοντας την κλίμακα που απαιτείται για την εκπαίδευση μοντέλων που γενικεύουν σε διάφορες κουζίνες και στυλ προετοιμασίας.
Οπτική Εκτίμηση Ποσοτήτων
Μία από τις πιο προκλητικές πτυχές της οπτικής εξαγωγής συνταγών είναι η εκτίμηση ποσοτήτων συστατικών από το βίντεο. Όταν ένας δημιουργός ρίχνει λάδι σε ένα τηγάνι ή γεμίζει αλεύρι σε ένα μπολ, οι οπτικές πληροφορίες περιέχουν ενδείξεις για την ποσότητα, αλλά η μετάφραση αυτών των ενδείξεων σε ακριβείς μετρήσεις απαιτεί προηγμένη χωρική σκέψη.
Οι τρέχουσες προσεγγίσεις συνδυάζουν:
- Αναφορά αντικειμένου: Χρησιμοποιώντας γνωστά αντικείμενα στο καρέ (τυπικά τηγάνια, μετρητικές κούπες, ξύλινα ταψιά) για να καθορίσουν μια αναφορά κλίμακας
- Εκτίμηση όγκου από τη δυναμική ροής: Αναλύοντας τη διάρκεια και τον ρυθμό ροής των υγρών που χύνονται για να εκτιμήσουν τον όγκο
- Εκτίμηση βάθους: Μονοδιάστατα μοντέλα εκτίμησης βάθους όπως το MiDaS (Ranftl et al., 2020) μπορούν να εκτιμήσουν το βάθος των συστατικών σε δοχεία, βοηθώντας στην εκτίμηση του όγκου από μια 2D εικόνα
- Συγκριτική μάθηση: Μοντέλα εκπαιδευμένα σε ζεύγη εικόνων γνωστών ποσοτήτων μαθαίνουν να εκτιμούν ποσότητες μέσω οπτικής σύγκρισης
Η οπτική εκτίμηση ποσοτήτων παραμένει λιγότερο ακριβής από τις ρητές μετρήσεις από ομιλία ή κείμενο, συνήθως επιτυγχάνοντας ακρίβεια εντός 20 έως 30 τοις εκατό. Ωστόσο, παρέχει έναν χρήσιμο διασταυρωτικό έλεγχο και καλύπτει κενά όταν οι ποσότητες δεν δηλώνονται ρητά.
Στάδιο 4: Επεξεργασία Φυσικής Γλώσσας για Ανάλυση και Συγχώνευση Συνταγών
Με τα κείμενα, τα κείμενα στην οθόνη και τις οπτικές σημειώσεις στα χέρια, το στάδιο NLP αντιμετωπίζει την πρόκληση της συγχώνευσης αυτών των πολυδιάστατων σημάτων σε μια ενιαία, συνεκτική, δομημένη συνταγή.
Αναγνώριση Ονομάτων για Τρόφιμα
Η πρώτη εργασία NLP είναι η αναγνώριση τροφίμων στο κείμενο της μεταγραφής και του OCR. Αυτή είναι μια εξειδικευμένη μορφή αναγνώρισης ονομάτων (NER) που πρέπει να αναγνωρίσει:
- Συστατικά: "στήθος κοτόπουλου", "ελαιόλαδο εξαιρετικής ποιότητας", "αλάτι kosher"
- Ποσότητες: "δύο κούπες", "350 γραμμάρια", "μια πρέζα"
- Μονάδες: "κουταλιές", "χιλιοστόλιτρα", "μεσαίου μεγέθους"
- Επιρρηματικοί προσδιοριστές προετοιμασίας: "κομμένα", "ψιλοκομμένα", "σε θερμοκρασία δωματίου"
- Μαγειρικές ενέργειες: "σωτάρω", "ψήνω στους 375", "σιγοβράζω για 20 λεπτά"
- Εξοπλισμός: "τηγάνι από χυτοσίδηρο", "μίκτης", "ταψί"
Τα μοντέλα NER βασισμένα σε transformers που έχουν εκπαιδευτεί σε τροφικά σύνολα δεδομένων επιτυγχάνουν σκορ F1 άνω του 90 τοις εκατό σε τυπικά benchmarks NER τροφίμων. Το σύνολο δεδομένων FoodBase (Popovski et al., 2019) και το σύνολο δεδομένων TASTEset παρέχουν επισημασμένο τροφικό κείμενο ειδικά για την εκπαίδευση αυτών των μοντέλων.
Ανάλυση Εξαρτήσεων για Συσχέτιση Συστατικών-Ποσοτήτων
Η αναγνώριση οντοτήτων από μόνη της δεν είναι αρκετή. Το σύστημα πρέπει να καθορίσει ποιες ποσότητες ανήκουν σε ποια συστατικά. Στην πρόταση "Προσθέστε δύο κούπες αλευριού και μια κουταλιά αλατιού," το σύστημα πρέπει να συσχετίσει σωστά "δύο κούπες" με "αλεύρι" και "μια κουταλιά" με "αλάτι."
Αυτό απαιτεί ανάλυση εξαρτήσεων, η οποία αναλύει τη γραμματική δομή των προτάσεων για να εντοπίσει σχέσεις μεταξύ λέξεων. Σύγχρονοι αναλυτές εξαρτήσεων βασισμένοι στην αρχιτεκτονική BERT (Devlin et al., 2019) χειρίζονται τη συντακτική πολυπλοκότητα των οδηγιών μαγειρικής, συμπεριλαμβανομένων των σύνθετων περιγραφών συστατικών όπως "φρεσκοστυμμένος χυμός λεμονιού" και των φωτεινών προσδιοριστών όπως "μια κονσέρβα 14 ουγκιών με ψιλοκομμένες ντομάτες ψημένες στη φωτιά."
Συγχώνευση Διασύνδεσης: Επίλυση Συγκρούσεων και Κάλυψη Κενών
Η πιο τεχνικά απαιτητική πτυχή του σταδίου NLP είναι η συγχώνευση πληροφοριών από όλες τις τρεις μορφές (ήχος, κείμενο, οπτικά) σε μια ενιαία συνεπή συνταγή. Αυτή η συγχώνευση πρέπει να χειρίζεται:
Ενίσχυση συμφωνίας. Όταν η μεταγραφή λέει "δύο κουταλιές σόγιας," το κείμενο στην οθόνη δείχνει "2 κουταλιές σόγιας," και η οπτική ροή δείχνει ένα σκούρο υγρό να χύνεται, όλες οι τρεις πηγές συμφωνούν και το σύστημα έχει υψηλή εμπιστοσύνη.
Επίλυση συγκρούσεων. Όταν η μεταγραφή λέει "μια κούπα ζάχαρης" αλλά το κείμενο στην οθόνη λέει "3/4 κούπας ζάχαρης," το σύστημα πρέπει να αποφασίσει ποια πηγή να εμπιστευτεί. Γενικά, το κείμενο στην οθόνη έχει προτεραιότητα για ακριβείς μετρήσεις, καθώς οι δημιουργοί συνήθως προσθέτουν κείμενα ως διορθώσεις ή διευκρινίσεις στην αφήγησή τους.
Κάλυψη κενών. Όταν ο αφηγητής λέει "καρυκεύστε κατά βούληση" χωρίς να προσδιορίσει ποσότητες, το σύστημα μπορεί να χρησιμοποιήσει την οπτική εκτίμηση της δράσης καρυκεύματος σε συνδυασμό με τη βάση δεδομένων γνώσης για τις τυπικές ποσότητες καρυκευμάτων για τον τύπο πιάτου για να συμπεράνει λογικές τιμές.
Χρονική ευθυγράμμιση. Η αντιστοίχιση πληροφοριών μεταξύ των μορφών απαιτεί χρονική ευθυγράμμιση. Μια αναφορά συστατικού που γίνεται στη χρονική σήμανση 2:34 πρέπει να ταιριάζει με το κείμενο στην οθόνη που είναι ορατό από 2:30 έως 2:40 και την οπτική αναγνώριση συστατικών από την ίδια χρονική περίοδο. Μηχανισμοί ευθυγράμμισης βασισμένοι σε δυναμική χρονική παραμόρφωση και προσοχή χειρίζονται την ακριβή συγχρονισμό μεταξύ ομιλίας, κειμένου και οπτικών γεγονότων.
Μεγάλα Γλωσσικά Μοντέλα για Δομή Συνταγών
Οι πρόσφατες εξελίξεις στα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν εισαγάγει μια ισχυρή νέα προσέγγιση στη δομή συνταγών. Αντί να κατασκευάζουν ξεχωριστά μοντέλα για NER, ανάλυση εξαρτήσεων και συγχώνευση, ένα LLM μπορεί να επεξεργαστεί τη συνδυασμένη μεταγραφή και την έξοδο OCR και να δημιουργήσει μια δομημένη συνταγή σε μία μόνο διαδικασία.
Το μοντέλο λαμβάνει μια προτροπή που περιέχει τη μεταγραφή, το κείμενο OCR και περιγραφές οπτικών παρατηρήσεων, μαζί με οδηγίες για να εξάγει μια δομημένη συνταγή σε καθορισμένη μορφή. Τα LLMs διαπρέπουν σε αυτή την εργασία διότι κωδικοποιούν εκτενή παγκόσμια γνώση σχετικά με τη μαγειρική, συμπεριλαμβανομένων των τυπικών ποσοτήτων συστατικών, των κοινών συνδυασμών συστατικών και των τυπικών τεχνικών προετοιμασίας.
Αυτή η προσέγγιση έχει αρκετά πλεονεκτήματα:
- Χειρίζεται την αμφισημία φυσικά αντλώντας από τη παγκόσμια γνώση
- Επίλυση αναφορών (π.χ., κατανοώντας ότι "αυτό" στην πρόταση "ανακατέψτε το κατά διαστήματα" αναφέρεται στη σάλτσα που αναφέρθηκε τρεις προτάσεις νωρίτερα)
- Μπορεί να συμπεράνει μη δηλωμένα βήματα με βάση τη γνώση μαγειρικής
- Κανονικοποιεί τα ονόματα συστατικών σε κανονικές μορφές κατάλληλες για αναζήτηση βάσης δεδομένων
Ο κύριος περιορισμός είναι ότι οι έξοδοι των LLM απαιτούν επικύρωση. Η ψευδαίσθηση, όπου το μοντέλο παράγει πειστικές αλλά λανθασμένες πληροφορίες, πρέπει να προστατευθεί μέσω διασταύρωσης με τις πηγές και τους περιορισμούς της διατροφικής βάσης δεδομένων.
Στάδιο 5: Αντιστοίχιση και Υπολογισμός με Βάση Δεδομένων Διατροφής
Το τελευταίο στάδιο μετατρέπει τη δομημένη συνταγή σε μια πλήρη διατροφική ανάλυση. Αυτό απαιτεί την αντιστοίχιση κάθε εξαγόμενου συστατικού με μια καταχώρηση σε μια ολοκληρωμένη βάση δεδομένων διατροφής και τον υπολογισμό των διατροφικών τιμών ανά μερίδα.
Η Πρόκληση της Αντιστοίχισης
Τα ονόματα των συστατικών που εξάγονται από τα βίντεο μαγειρικής σπάνια ταιριάζουν ακριβώς με τις καταχωρήσεις βάσης δεδομένων. Ένα βίντεο μπορεί να αναφέρει "μια μεγάλη χούφτα μωρού σπανάκι" ενώ η βάση δεδομένων περιέχει καταχωρήσεις για "σπανάκι, ωμό" μετρημένο σε γραμμάρια. Το σύστημα αντιστοίχισης πρέπει να χειρίζεται:
- Επίλυση συνωνύμων: "κόλιαντρο" και "φύλλα κόλιαντρου" είναι το ίδιο συστατικό
- Χαρτογράφηση κατάστασης προετοιμασίας: "ψημένα αμύγδαλα" αντιστοιχούν σε διαφορετικό διατροφικό προφίλ από "ωμά αμύγδαλα"
- Κανονικοποίηση μάρκας και ποικιλίας: "Barilla penne" αντιστοιχεί σε "μακαρόνια, penne, ξηρά" με προσαρμογές συγκεκριμένες για τη μάρκα
- Μετάφραση από καθομιλουμένη σε τεχνική: "ένα κομμάτι βουτύρου" αντιστοιχεί σε "βούτυρο, αλατισμένο, 113g"
- Μετατροπή μονάδων: "μια κούπα αλευριού" πρέπει να μετατραπεί σε γραμμάρια χρησιμοποιώντας τιμές πυκνότητας συγκεκριμένες για το συστατικό, καθώς μια κούπα αλευριού ζυγίζει περίπου 120g ενώ μια κούπα ζάχαρης ζυγίζει περίπου 200g
Αλγόριθμοι θολής αντιστοίχισης όπως η απόσταση Levenshtein και η ομοιότητα TF-IDF παρέχουν βασική αντιστοίχιση. Πιο προηγμένες προσεγγίσεις χρησιμοποιούν ομοιότητα βασισμένη σε ενσωμάτωμα, όπου τόσο το εξαγόμενο κείμενο συστατικού όσο και οι καταχωρήσεις βάσης δεδομένων κωδικοποιούνται σε διανυσματικές αναπαραστάσεις χρησιμοποιώντας μοντέλα όπως το Sentence-BERT (Reimers και Gurevych, 2019), και η πιο κοντινή αντιστοίχιση στο διανυσματικό χώρο επιλέγεται.
Βάσεις Δεδομένων Διατροφής και Κάλυψη τους
Πολλές μεγάλες βάσεις δεδομένων διατροφής χρησιμεύουν ως θεμέλιο για τους διατροφικούς υπολογισμούς:
| Βάση Δεδομένων | Κάλυψη | Συντηρείται από | Κύρια Δύναμη |
|---|---|---|---|
| USDA FoodData Central | 370,000+ τρόφιμα | Υπουργείο Γεωργίας των Η.Π.Α. | Συνολικές διατροφικές προφίλ |
| Open Food Facts | 3,000,000+ προϊόντα | Κοινότητα συνεισφερόντων | Παγκόσμια κάλυψη συσκευασμένων τροφίμων |
| COFID (McCance και Widdowson) | 3,000+ τρόφιμα | Υπηρεσία Προτύπων Τροφίμων του Ηνωμένου Βασιλείου | Σύνθεση τροφίμων συγκεκριμένα για το Η.Β. |
| Australian Food Composition Database | 2,500+ τρόφιμα | Πρότυπα Τροφίμων Αυστραλίας και Νέας Ζηλανδίας | Περιφερειακή κάλυψη τροφίμων |
Ένα ισχυρό σύστημα εξαγωγής συνταγών ερωτά πολλές βάσεις δεδομένων και εφαρμόζει μέση τιμή με βάση την εμπιστοσύνη όταν οι καταχωρήσεις διαφέρουν. Για τρόφιμα που δεν βρίσκονται σε τυπικές βάσεις δεδομένων, το σύστημα μπορεί να εκτιμήσει τη διατροφική περιεκτικότητα αποσυνθέτοντας το τρόφιμο στα συστατικά του και αθροίζοντας τις ατομικές τους συνεισφορές.
Διαχείριση Μαγειρικών Μετασχηματισμών
Μια κρίσιμη λεπτομέρεια που χωρίζει την ακριβή από την προσεγγιστική διατροφική υπολογισμό είναι η λήψη υπόψη των μαγειρικών μετασχηματισμών. Όταν το φαγητό μαγειρεύεται, η διατροφική του περιεκτικότητα αλλάζει:
- Απώλεια νερού: Το κρέας χάνει το 20 έως 35 τοις εκατό του βάρους του κατά τη διάρκεια του μαγειρέματος, συγκεντρώνοντας θρεπτικά συστατικά ανά γραμμάριο μαγειρεμένου φαγητού
- Απορρόφηση λιπαρών: Τα τηγανητά τρόφιμα απορροφούν λάδι μαγειρέματος, προσθέτοντας θερμίδες που δεν ανήκουν στο προφίλ του ωμού συστατικού
- Αποδόμηση θρεπτικών συστατικών: Οι βιταμίνες που είναι ευαίσθητες στη θερμότητα, όπως η βιταμίνη C και οι βιταμίνες του συμπλέγματος B, αποδομούνται κατά τη διάρκεια του μαγειρέματος
- Γαλακτωματοποίηση αμύλου: Το μαγείρεμα αλλάζει τον γλυκαιμικό δείκτη των αμυλούχων τροφίμων
- Αποδόμηση λιπαρών: Το μαγείρεμα λιπαρών κρεάτων προκαλεί την αποδόμηση του λίπους, μειώνοντας την θερμιδική περιεκτικότητα της καταναλωθείσας μερίδας
Η USDA παρέχει παράγοντες διατήρησης για κοινά θρεπτικά συστατικά σε διάφορες μεθόδους μαγειρέματος. Η εφαρμογή αυτών των παραγόντων στις διατροφικές αξίες των ωμών συστατικών παράγει μια πιο ακριβή εκτίμηση του τελικού μαγειρεμένου πιάτου.
Η μηχανή διατροφής της Nutrola ενσωματώνει αυτά τα μοντέλα μαγειρικών μετασχηματισμών, προσαρμόζοντας τις τιμές της βάσης δεδομένων ωμών συστατικών με βάση τις μεθόδους μαγειρέματος που εντοπίστηκαν κατά τη διάρκεια της ανάλυσης του βίντεο. Όταν το σύστημα ανιχνεύει ότι το κοτόπουλο ψήνεται αντί να τηγανίζεται, εφαρμόζει τους κατάλληλους παράγοντες απώλειας υγρασίας και διατήρησης λιπαρών για να παράγει μια ακριβή εκτίμηση θερμίδων για το τελικό πιάτο.
Πώς η Nutrola Υλοποιεί Αυτή τη Διαδικασία
Η Nutrola φέρνει αυτή τη πολυδιάστατη τεχνική διαδικασία σε μια πρακτική εμπειρία για τους καταναλωτές. Όταν ένας χρήστης μοιράζεται ένα βίντεο μαγειρικής ή επικολλά έναν σύνδεσμο σε ένα βίντεο συνταγής, το backend της Nutrola επεξεργάζεται το βίντεο μέσω της διαδικασίας εξαγωγής που περιγράφεται παραπάνω και επιστρέφει μια δομημένη συνταγή με πλήρη διατροφικά δεδομένα.
Η πρακτική υλοποίηση περιλαμβάνει αρκετές μηχανικές αποφάσεις που ισορροπούν την ακρίβεια, την ταχύτητα και την εμπειρία του χρήστη:
Επιλεκτική δειγματοληψία καρέ. Αντί να επεξεργάζεται κάθε καρέ, το σύστημα της Nutrola εντοπίζει τα κλειδιά καρέ όπου συμβαίνουν σημαντικές οπτικές αλλαγές, όπως η εμφάνιση νέων συστατικών, η αλλαγή μαγειρικών ενεργειών ή η ενημέρωση του κειμένου στην οθόνη. Αυτό μειώνει το υπολογιστικό κόστος κατά 80 έως 90 τοις εκατό ενώ καταγράφει τις σχετικές οπτικές πληροφορίες.
Βαθμολόγηση εμπιστοσύνης. Κάθε εξαγόμενο στοιχείο φέρει μια βαθμολογία εμπιστοσύνης που προκύπτει από τη συμφωνία μεταξύ των μορφών. Τα συστατικά που επιβεβαιώνονται από την ομιλία, το κείμενο και την οπτική αναγνώριση λαμβάνουν υψηλή εμπιστοσύνη. Τα συστατικά που ανιχνεύονται μόνο από μία μορφή σηματοδοτούνται για επαλήθευση από τον χρήστη.
Βρόχος διόρθωσης χρήστη. Όταν το σύστημα δεν είναι σίγουρο για ένα συστατικό ή ποσότητα, παρουσιάζει την καλύτερη εκτίμησή του στον χρήστη με την επιλογή διόρθωσης. Αυτές οι διορθώσεις τροφοδοτούν πίσω στο μοντέλο, βελτιώνοντας την ακρίβεια εξαγωγής με την πάροδο του χρόνου μέσω μιας διαδικασίας μάθησης με ανθρώπινη παρέμβαση.
Επικύρωση βάσει δεδομένων. Οι εξαγόμενες συνταγές επικυρώνονται έναντι περιορισμών διατροφικής πιθανότητας. Εάν το σύστημα εξάγει μια ποσότητα που θα οδηγούσε σε απίστευτα υψηλή ή χαμηλή θερμιδική καταμέτρηση για τον τύπο πιάτου, σηματοδοτεί την εξαγωγή για αναθεώρηση.
Αυτή η προσέγγιση μετατρέπει την παθητική εμπειρία παρακολούθησης ενός βίντεο μαγειρικής σε ενεργά διατροφικά δεδομένα που ενσωματώνονται άμεσα στην καθημερινή παρακολούθηση ενός χρήστη. Αντί να αναζητούν χειροκίνητα κάθε συστατικό και να εκτιμούν τις μερίδες, οι χρήστες λαμβάνουν μια πλήρη διατροφική ανάλυση που προκύπτει απευθείας από το περιεχόμενο του βίντεο.
Το Ερευνητικό Μέτωπο: Τι Έρχεται Επόμενο
Ο τομέας της πολυδιάστατης εξαγωγής συνταγών προχωρά γρήγορα. Πολλές κατευθύνσεις έρευνας υπόσχονται να βελτιώσουν περαιτέρω την ακρίβεια και την ικανότητα.
Μοντέλα Πολυδιάστατης Διαδικασίας
Οι τρέχουσες διαδικασίες επεξεργάζονται κάθε μορφή ξεχωριστά πριν τις συγχωνεύσουν. Αναδυόμενες πολυδιάστατες αρχιτεκτονικές επεξεργάζονται τα βίντεο, τον ήχο και το κείμενο ταυτόχρονα σε ένα μόνο μοντέλο. Τα πολυδιάστατα θεμελιώδη μοντέλα της Google, όπως το Gemini, μπορούν να καταναλώνουν βίντεο απευθείας και να λογίζονται διασυνοριακά χωρίς ρητές ενδιάμεσες αναπαραστάσεις. Αυτά τα μοντέλα υπόσχονται απλούστερες διαδικασίες και καλύτερη διασυνοριακή λογική, αν και απαιτούν σημαντικούς υπολογιστικούς πόρους.
Διαδικαστική Κατανόηση
Τα τρέχοντα συστήματα εξάγουν μια επίπεδη λίστα συστατικών και βημάτων. Τα μελλοντικά συστήματα θα χτίσουν πλουσιότερες διαδικαστικές αναπαραστάσεις που θα καταγράφουν τη γραφική δομή μιας συνταγής: ποια βήματα εξαρτώνται από ποια άλλα, ποια συστατικά χρησιμοποιούνται σε ποιο στάδιο και πώς συνδυάζονται τα ενδιάμεσα αποτελέσματα. Αυτή η διαδικαστική κατανόηση επιτρέπει πιο ακριβή διατροφική υπολογισμό παρακολουθώντας πώς τα συστατικά μεταμορφώνονται σε κάθε βήμα.
Προσωποποιημένη Διατροφική Εκτίμηση
Καθώς τα συστήματα εξαγωγής συνταγών επεξεργάζονται περισσότερα δεδομένα, μπορούν να μάθουν τα ατομικά πρότυπα των δημιουργών. Ένα σύστημα που έχει αναλύσει 100 βίντεο από τον ίδιο δημιουργό μαθαίνει ότι όταν αυτός ο δημιουργός λέει "μια σταγόνα ελαιόλαδου," συνήθως χρησιμοποιεί περίπου μια κουταλιά. Αυτή η προσωπική βαθμονόμηση βελτιώνει σημαντικά την εκτίμηση ποσοτήτων.
Πολιτιστική και Περιφερειακή Γνώση Τροφίμων
Η επέκταση της εξαγωγής συνταγών στην πλήρη ποικιλία παγκόσμιων κουζινών απαιτεί βαθιά πολιτιστική γνώση τροφίμων. Γνωρίζοντας ότι "ένα πιάτο injera με wot" στην αιθιοπική κουζίνα ακολουθεί συγκεκριμένες αναλογίες, ή ότι "ένα μπολ pho" στην βιετναμέζικη κουζίνα έχει τυπικές αναλογίες συστατικών, επιτρέπει στο σύστημα να κάνει ενημερωμένες εκτιμήσεις ακόμη και όταν οι ρητές ποσότητες δεν παρέχονται.
Συχνές Ερωτήσεις
Πόσο ακριβής είναι η εξαγωγή συνταγών AI από βίντεο μαγειρικής σε σύγκριση με την ανάγνωση μιας συνταγής κειμένου;
Οι τρέχουσες πολυδιάστατες διαδικασίες εξαγωγής επιτυγχάνουν ακρίβεια 85 έως 92 τοις εκατό στην αναγνώριση συστατικών και 75 έως 85 τοις εκατό στην εξαγωγή ποσοτήτων σε σύγκριση με τις ακριβείς συνταγές που έχουν συνταχθεί από τους δημιουργούς του βίντεο. Η κύρια πηγή σφάλματος είναι η εκτίμηση ποσοτήτων όταν οι δημιουργοί δεν δηλώνουν ρητές μετρήσεις. Για σύγκριση, η χειροκίνητη μεταγραφή από ανθρώπινους θεατές επιτυγχάνει περίπου 90 έως 95 τοις εκατό ακρίβεια, πράγμα που σημαίνει ότι η εξαγωγή AI πλησιάζει την ανθρώπινη απόδοση για αυτή την εργασία. Η υλοποίηση της Nutrola περιλαμβάνει ένα βήμα επαλήθευσης από τον χρήστη για εξαγωγές χαμηλής εμπιστοσύνης, το οποίο αυξάνει την αποτελεσματική ακρίβεια πάνω από 95 τοις εκατό στην πράξη.
Τι συμβαίνει όταν ένα βίντεο μαγειρικής δεν δηλώνει ρητές ποσότητες συστατικών;
Όταν οι ποσότητες δεν δηλώνονται ρητά στην ομιλία ή στο κείμενο στην οθόνη, το σύστημα επιστρέφει σε μια ιεραρχία μεθόδων εκτίμησης. Πρώτον, προσπαθεί την οπτική εκτίμηση ποσοτήτων από τα καρέ του βίντεο χρησιμοποιώντας εκτίμηση βάθους και αναφορά αντικειμένου. Δεύτερον, συμβουλεύεται μια βάση γνώσεων για τυπικές ποσότητες για τον τύπο πιάτου. Τρίτον, χρησιμοποιεί στατιστικούς μέσους όρους από προηγούμενες εξαγωγές συνταγών του ίδιου πιάτου. Η προκύπτουσα εκτίμηση σηματοδοτείται με χαμηλότερη βαθμολογία εμπιστοσύνης, και η Nutrola την παρουσιάζει στον χρήστη με σημείωση ότι η ποσότητα εκτιμήθηκε αντί να δηλωθεί ρητά.
Μπορεί το AI να εξάγει συνταγές από βίντεο μαγειρικής σε γλώσσες άλλες από τα Αγγλικά;
Ναι. Τα σύγχρονα μοντέλα ASR όπως το Whisper υποστηρίζουν τη μεταγραφή σε 915 γλώσσες, και τα συστήματα OCR χειρίζονται πολλές γραφές, συμπεριλαμβανομένων των Λατινικών, CJK, Κυριλλικών, Αραβικών και Ντεβανάγκαρι. Το στάδιο ανάλυσης NLP μπορεί να λειτουργήσει σε πολλές γλώσσες, αν και η ακρίβεια είναι γενικά υψηλότερη για γλώσσες με τα περισσότερα εκπαιδευτικά δεδομένα. Το Whisper μπορεί επίσης να μεταφράσει την μη αγγλική ομιλία απευθείας στα Αγγλικά, επιτρέποντας τη λειτουργία της διαδικασίας σε Αγγλικά ακόμη και για βίντεο σε άλλες γλώσσες. Η Nutrola υποστηρίζει την εξαγωγή συνταγών από βίντεο σε πάνω από 30 γλώσσες.
Πώς το σύστημα χειρίζεται συνταγές όπου ο δημιουργός κάνει υποκαταστάσεις ή λάθη κατά τη διάρκεια της λήψης;
Η χρονική φύση της ανάλυσης βίντεο βοηθά πραγματικά σε αυτό το σενάριο. Όταν ένας δημιουργός λέει "ήθελα να χρησιμοποιήσω βούτυρο αλλά έχω μόνο ελαιόλαδο," το στάδιο NLP του συστήματος αναγνωρίζει τη διόρθωση και χρησιμοποιεί το ελαιόλαδο αντί για το βούτυρο στη τελική συνταγή. Παρομοίως, όταν ένας δημιουργός προσθέτει ένα συστατικό και στη συνέχεια λέει "στην πραγματικότητα, αυτό είναι πολύ, ας το αφαιρέσουμε," το σύστημα παρακολουθεί τη διόρθωση. Τα μοντέλα προσοχής που επεξεργάζονται τη συνολική μεταγραφή μπορούν να εντοπίσουν αυτές τις αυτοδιορθώσεις αναγνωρίζοντας τα μοτίβα λόγου που σχετίζονται με τις αναθεωρήσεις.
Ποια είναι η διαφορά μεταξύ της εξαγωγής συνταγών από βίντεο και της εξαγωγής συνταγών από μια ιστοσελίδα;
Η εξαγωγή συνταγών από το διαδίκτυο βασίζεται κυρίως σε ανάλυση δομημένων δεδομένων. Οι περισσότερες ιστοσελίδες συνταγών χρησιμοποιούν σήμανση schema.org Recipe, που παρέχει μηχανικά αναγνώσιμες λίστες συστατικών, ποσότητες και οδηγίες. Η εξαγωγή συνταγών από βίντεο είναι θεμελιωδώς πιο δύσκολη επειδή οι πληροφορίες είναι μη δομημένες και κατανεμημένες σε ηχητικές, οπτικές και κειμενικές μορφές που πρέπει να συγχωνευθούν. Ωστόσο, η εξαγωγή από βίντεο έχει το πλεονέκτημα της καταγραφής λεπτομερειών προετοιμασίας και οπτικών ενδείξεων ποσοτήτων που απουσιάζουν από τις συνταγές κειμένου. Πολλοί δημιουργοί μοιράζονται επίσης συμβουλές, υποκαταστάσεις και πληροφορίες συμφραζομένων στην αφήγησή τους που δεν εμφανίζονται ποτέ σε μια γραπτή συνταγή.
Πώς η ανίχνευση μεθόδου μαγειρέματος επηρεάζει την διατροφική ακρίβεια των εξαγόμενων συνταγών;
Η ανίχνευση μεθόδου μαγειρέματος επηρεάζει σημαντικά την διατροφική ακρίβεια. Το τηγάνισμα ενός στήθους κοτόπουλου σε λάδι προσθέτει περίπου 60 έως 100 θερμίδες σε σύγκριση με το ψήσιμο του ίδιου στήθους λόγω απορρόφησης λαδιού. Το βράσιμο λαχανικών μπορεί να μειώσει την περιεκτικότητα σε βιταμίνη C κατά 30 έως 50 τοις εκατό. Η AI διαδικασία χρησιμοποιεί μοντέλα αναγνώρισης δράσεων για να εντοπίσει τις μεθόδους μαγειρέματος (ψήσιμο, τηγάνισμα, ψήσιμο, ατμό, ωμή προετοιμασία) και εφαρμόζει τους παράγοντες διατήρησης θρεπτικών συστατικών της USDA αναλόγως. Αυτή η υπολογιστική μέθοδος που λαμβάνει υπόψη τη μέθοδο μαγειρέματος συνήθως βελτιώνει την ακρίβεια εκτίμησης θερμίδων κατά 10 έως 15 τοις εκατό σε σύγκριση με τη χρήση μόνο των τιμών ωμών συστατικών.
Συμπέρασμα
Η εξαγωγή μιας συνταγής από ένα βίντεο μαγειρικής είναι ένα μικρό κομμάτι της ευρύτερης πρόκλησης στην τεχνητή νοημοσύνη: η κατανόηση μη δομημένων, πολυδιάστατων, πραγματικών πληροφοριών. Απαιτεί αναγνώριση ομιλίας που λειτουργεί σε θορυβώδεις κουζίνες, υπολογιστική όραση που μπορεί να αναγνωρίσει εκατοντάδες συστατικά σε διάφορες καταστάσεις προετοιμασίας, OCR που διαβάζει καλλιτεχνικά κείμενα σε θολά φόντα και NLP που συγχωνεύει όλα αυτά σε μια συνεκτική διατροφική εικόνα.
Η διαδικασία που περιγράφεται σε αυτό το άρθρο, από τη μεταγραφή βασισμένη στο Whisper μέχρι την οπτική αναγνώριση που υποστηρίζεται από το CLIP και τη δομή συνταγών που βασίζεται σε LLM, αντιπροσωπεύει την τρέχουσα κατάσταση της τέχνης. Κάθε στοιχείο βασίζεται σε χρόνια έρευνας μηχανικής μάθησης, από τη θεμελιώδη εργασία στα CNN και RNN μέχρι την επανάσταση των transformers που ενοποίησε το NLP και την υπολογιστική όραση κάτω από μια ενιαία αρχιτεκτονική παράδοση.
Η υλοποίηση της Nutrola αυτής της διαδικασίας φέρνει αυτές τις ερευνητικές εξελίξεις στην καθημερινή χρήση. Με την αυτόματη εξαγωγή συνταγών από τα βίντεο μαγειρικής που οι χρήστες παρακολουθούν ήδη, εξαλείφει την απόσταση μεταξύ της ανακάλυψης μιας συνταγής και της κατανόησης της διατροφικής της επίδρασης. Το αποτέλεσμα είναι μια εμπειρία παρακολούθησης διατροφής που καλύπτει τους χρήστες εκεί που βρίσκονται ήδη, μετατρέποντας την παθητική κατανάλωση βίντεο σε ενεργή διατροφική συνείδηση χωρίς να απαιτείται χειροκίνητη καταχώρηση δεδομένων.
Καθώς τα πολυδιάστατα μοντέλα AI συνεχίζουν να βελτιώνονται, η ακρίβεια και η ταχύτητα εξαγωγής συνταγών θα αυξηθούν μόνο. Η ορατότητα του να δείχνετε το τηλέφωνό σας σε οποιοδήποτε περιεχόμενο μαγειρικής και να λαμβάνετε αμέσως μια πλήρη διατροφική ανάλυση δεν είναι πια μια ερευνητική φιλοδοξία. Είναι μια λειτουργική τεχνολογία, και γίνεται καλύτερη με κάθε πρόοδο στην υποκείμενη επιστήμη.
Έτοιμοι να Μεταμορφώσετε την Παρακολούθηση της Διατροφής σας;
Εγγραφείτε σε χιλιάδες που έχουν μεταμορφώσει το ταξίδι της υγείας τους με το Nutrola!