mAP και IoU: Βαθιά Ανάλυση των Δεικτών Υπολογιστικής Όρασης για Αναγνώριση Τροφίμων
Πόσο ακριβής είναι η αναγνώριση τροφίμων από την AI; Αναλύουμε τους σημαντικούς δείκτες, mAP και IoU, εξηγούμε τι σημαίνουν για την ακρίβεια παρακολούθησης θερμίδων και δείχνουμε πώς οι σύγχρονες αρχιτεκτονικές αντιμετωπίζουν το πιο δύσκολο πρόβλημα στην AI τροφίμων: τα επικαλυπτόμενα αντικείμενα σε ένα πιάτο.
Όταν μια εφαρμογή διατροφής ισχυρίζεται ότι η AI της μπορεί να "αναγνωρίσει το φαγητό σας από μια φωτογραφία", τι σημαίνει αυτό μετρήσιμα; Πόσο ακριβής είναι η αναγνώριση; Πώς διαχειρίζεται το σύστημα ένα πιάτο με έξι διαφορετικά αντικείμενα που αγγίζουν το ένα το άλλο; Και πώς συγκρίνετε ένα σύστημα αναγνώρισης τροφίμων με ένα άλλο;
Οι απαντήσεις βρίσκονται σε δύο δείκτες που χρησιμοποιεί η ερευνητική κοινότητα της υπολογιστικής όρασης για να αξιολογήσει τα μοντέλα ανίχνευσης αντικειμένων: mAP (mean Average Precision) και IoU (Intersection over Union). Αυτοί οι αριθμοί καθορίζουν αν μια AI τροφίμων είναι πραγματικά ακριβής ή απλώς εντυπωσιακή σε μια επίδειξη.
Κατανόηση του IoU: Ο Βασικός Δείκτης
Το Intersection over Union μετρά πόσο καλά μια προβλεπόμενη περιοχή ή μάσκα τμηματοποίησης επικαλύπτεται με την πραγματική αλήθεια, δηλαδή την πραγματική θέση και σχήμα του τροφίμου όπως έχει επισημανθεί από έναν άνθρωπο αναθεωρητή.
Η υπολογιστική διαδικασία είναι απλή:
IoU = Περιοχή Επικάλυψης / Περιοχή Ένωσης
Ένα IoU 1.0 σημαίνει ότι η πρόβλεψη ταιριάζει τέλεια με την πραγματική αλήθεια. Ένα IoU 0.0 σημαίνει ότι δεν υπάρχει καμία επικάλυψη. Στην πράξη, το κατώφλι που θεωρείται "σωστή" ανίχνευση στην αναγνώριση τροφίμων είναι IoU 0.5 ή υψηλότερο, που σημαίνει τουλάχιστον 50 τοις εκατό επικάλυψη μεταξύ της προβλεπόμενης και της πραγματικής περιοχής τροφίμου.
Γιατί έχει σημασία το IoU για τη Διατροφή
Το IoU επηρεάζει άμεσα την εκτίμηση των μερίδων. Αν το μοντέλο συλλαμβάνει μόνο το 60 τοις εκατό του ρυζιού στο πιάτο σας (IoU κάτω από το κατώφλι ακρίβειας για στενή τμηματοποίηση), η εκτίμηση της μερίδας θα είναι υπολογισμένη χαμηλότερα. Αντίθετα, αν η περιοχή είναι πολύ μεγάλη και περιλαμβάνει μέρος του γειτονικού κάρυ, η εκτίμηση θερμίδων για το ρύζι θα φουσκώσει από το διατροφικό προφίλ του κάρυ.
Για απλά πιάτα με ένα μόνο τρόφιμο στο κέντρο του καρέ, το IoU είναι σχετικά εύκολο να βελτιστοποιηθεί. Η πρόκληση αυξάνεται δραματικά με πολύπλοκα πιάτα πολλών αντικειμένων.
Κατανόηση του mAP: Ο Δείκτης Συστήματος
Το Mean Average Precision συγκεντρώνει την ακρίβεια ανίχνευσης σε όλες τις κατηγορίες τροφίμων και τα κατώφλια εμπιστοσύνης σε μια ενιαία βαθμολογία. Απαντά στην ερώτηση: σε όλες τις κατηγορίες τροφίμων που μπορεί να αναγνωρίσει αυτό το μοντέλο, πόσο αξιόπιστα ανιχνεύει και κατηγοριοποιεί σωστά;
Η υπολογιστική διαδικασία περιλαμβάνει:
- Ακρίβεια: Από όλες τις ανιχνεύσεις που έκανε το μοντέλο, πόσες ήταν σωστές;
- Ανάκληση: Από όλα τα πραγματικά τρόφιμα που υπήρχαν, πόσα βρήκε το μοντέλο;
- Μέση Ακρίβεια (AP): Η περιοχή κάτω από την καμπύλη ακρίβειας-ανάκλησης για μια μόνο κατηγορία τροφίμου
- mAP: Ο μέσος όρος των τιμών AP σε όλες τις κατηγορίες τροφίμων
Ένα μοντέλο με mAP@0.5 0.85 ανιχνεύει και κατηγοριοποιεί σωστά το 85 τοις εκατό των τροφίμων στο κατώφλι IoU 0.5 σε όλες τις κατηγορίες. Το mAP@0.5:0.95 είναι ένας αυστηρότερος δείκτης που μετρά την απόδοση σε κατώφλια IoU από 0.5 έως 0.95, ποινικοποιώντας μοντέλα που επιτυγχάνουν χαλαρές ανιχνεύσεις αλλά αποτυγχάνουν στη στενή τμηματοποίηση.
Το Χάσμα Μεταξύ Επίδειξης και Πραγματικότητας
Οι περισσότερες επιδείξεις AI τροφίμων παρουσιάζουν φωτογραφίες με ένα μόνο αντικείμενο, καλά φωτισμένες, από πάνω: ένα μπολ ρυζιού, ένα πιάτο σούσι, μια σαλάτα. Σε αυτές τις συνθήκες, τα σύγχρονα μοντέλα επιτυγχάνουν βαθμολογίες mAP@0.5 πάνω από 0.90. Ο αριθμός αυτός μειώνεται σημαντικά σε πραγματικές συνθήκες.
Παράγοντες που υποβαθμίζουν το mAP στην πράξη:
- Πολλαπλά επικαλυπτόμενα αντικείμενα: Ένα πιάτο με ρύζι, ντάλ, σαμπζί και ρότι που αγγίζουν το ένα το άλλο
- Μερική απόκρυψη: Ένα τρόφιμο μερικώς κρυμμένο πίσω από άλλο
- Μεταβλητός φωτισμός: Χαμηλός φωτισμός σε εστιατόριο σε σύγκριση με φωτεινό φωτισμό κουζίνας
- Μη τυπικές γωνίες: Φωτογραφίες που τραβήχτηκαν από το πλάι αντί από πάνω
- Οπτική ομοιότητα: Καφέ ρύζι και κινόα, ή διαφορετικοί τύποι ντάλ, που φαίνονται σχεδόν πανομοιότυποι
Η πραγματική αναγνώριση τροφίμων mAP συνήθως πέφτει 10 έως 20 μονάδες κάτω από την ελεγχόμενη απόδοση των δεικτών.
Το Πρόβλημα του Πιάτου με Πολλά Αντικείμενα
Η καθοριστική πρόκληση στην αναγνώριση τροφίμων δεν είναι η αναγνώριση ενός μόνο τροφίμου σε απομόνωση. Είναι η αναγνώριση πέντε ή έξι διαφορετικών αντικειμένων σε ένα πιάτο όπου αγγίζουν, επικαλύπτονται και οπτικά συγχέονται μεταξύ τους.
Σκεφτείτε ένα τυπικό ινδικό θάλι: ρύζι, δύο κάρυ, ντάλ, ραϊτά, παπαδάκι και τουρσί, όλα σερβιρισμένα σε ένα πιάτο με τα αντικείμενα να αγγίζουν. Ή ένα μεξικανικό πιάτο με ρύζι, φασόλια, γκουακαμόλε, σάλσα, ξινή κρέμα και τορτίγια. Κάθε αντικείμενο πρέπει να αναγνωριστεί ξεχωριστά και η μερίδα του να εκτιμηθεί ανεξάρτητα.
Semantic Segmentation vs. Instance Segmentation
Υπάρχουν δύο κύριες προσεγγίσεις για την επίλυση αυτού του προβλήματος, και η διάκριση έχει σημασία.
Semantic segmentation αναθέτει κάθε pixel στην εικόνα σε μια κατηγορία τροφίμου. Όλα τα pixels που είναι "ρύζι" επισημαίνονται ως ρύζι, όλα τα pixels που είναι "κάρυ" επισημαίνονται ως κάρυ. Αυτό λειτουργεί καλά για σαφώς διαχωρισμένα αντικείμενα αλλά αποτυγχάνει όταν υπάρχουν δύο περιπτώσεις της ίδιας κατηγορίας (δύο διαφορετικά κάρυ στο ίδιο πιάτο) ή όταν τα όρια είναι ασαφή.
Instance segmentation αναγνωρίζει κάθε ξεχωριστό τρόφιμο ως μια ξεχωριστή οντότητα, ακόμη και αν δύο αντικείμενα ανήκουν στην ίδια κατηγορία. Αυτή είναι η προσέγγιση που απαιτείται για ακριβή ανάλυση πιάτου με πολλά αντικείμενα, γιατί επιτρέπει στο σύστημα να εκτιμήσει το μέγεθος της μερίδας κάθε αντικειμένου ανεξάρτητα.
Οι σύγχρονες αρχιτεκτονικές instance segmentation όπως το Mask R-CNN και οι διάδοχοί του παράγουν τόσο μια ετικέτα κατηγοριοποίησης όσο και μια μάσκα pixel για κάθε ανιχνευόμενο τρόφιμο. Η ποιότητα αυτών των μασκών καθορίζει άμεσα την ακρίβεια εκτίμησης μερίδας.
Απόδοση Δεικτών: Πού Βρισκόμαστε
Ο τομέας της αναγνώρισης τροφίμων χρησιμοποιεί αρκετούς τυπικούς δείκτες για να αξιολογήσει την απόδοση των μοντέλων. Ακολουθεί η τρέχουσα κατάσταση της τέχνης.
Food-101
Ο αρχικός μεγάλης κλίμακας δείκτης τροφίμων, που περιέχει 101 κατηγορίες τροφίμων με 1.000 εικόνες η καθεμία. Τα τρέχοντα κορυφαία μοντέλα επιτυγχάνουν ακρίβεια κατηγοριοποίησης πάνω από 95 τοις εκατό στο Food-101. Ωστόσο, το Food-101 είναι δείκτης κατηγοριοποίησης (ένα τρόφιμο ανά εικόνα), όχι δείκτης ανίχνευσης, επομένως δεν δοκιμάζει σενάρια πιάτων με πολλά αντικείμενα.
UECFOOD-256
Ένα σύνολο δεδομένων 256 κατηγοριών με επισημάνσεις περιγράμματος, που επιτρέπει την αξιολόγηση ανίχνευσης. Τα μοντέλα αιχμής επιτυγχάνουν mAP@0.5 περίπου 0.78 έως 0.82 σε αυτό το σύνολο δεδομένων, αντικατοπτρίζοντας την αυξημένη δυσκολία της ανίχνευσης πολλαπλών κατηγοριών.
Nutrition5k
Ένας πιο πρόσφατος δείκτης που συνδυάζει εικόνες τροφίμων με πραγματικά διατροφικά δεδομένα που μετρήθηκαν μέσω εργαστηριακής ανάλυσης. Αυτό το σύνολο δεδομένων επιτρέπει την αξιολόγηση από άκρο σε άκρο: όχι μόνο "αναγνώρισε σωστά το μοντέλο το τρόφιμο;" αλλά "παρήγαγε μια ακριβή εκτίμηση θερμίδων;" Η απόδοση στο Nutrition5k αποκαλύπτει την σωρευτική επίδραση των σφαλμάτων ανίχνευσης στην διατροφική ακρίβεια.
ISIA Food-500
Ένα μεγάλο σύνολο δεδομένων με 500 κατηγορίες τροφίμων που προέρχονται από ποικιλία παγκόσμιων κουζινών. Εκθέτει το πρόβλημα πολιτισμικής προκατάληψης στην αναγνώριση τροφίμων: μοντέλα που εκπαιδεύονται κυρίως σε δυτικά σύνολα δεδομένων δείχνουν σημαντική πτώση ακρίβειας σε κατηγορίες τροφίμων από την Ασία, την Αφρική και τη Νότια Αμερική.
Εξέλιξη Αρχιτεκτονικής: Από CNN σε Vision Transformer
Οι αρχιτεκτονικές μοντέλων που χρησιμοποιούνται για την αναγνώριση τροφίμων έχουν εξελιχθεί σημαντικά, και κάθε γενιά έχει βελτιώσει την διαχείριση πιάτων με πολλά αντικείμενα.
Οικογένεια YOLO (YOLOv5 έως YOLOv10)
Η οικογένεια μοντέλων YOLO (You Only Look Once) δίνει προτεραιότητα στην ταχύτητα. Τα YOLOv8 και οι μεταγενέστερες εκδόσεις επιτυγχάνουν mAP@0.5 από 0.75 έως 0.82 σε δείκτες ανίχνευσης τροφίμων, ενώ εκτελούν ανίχνευση σε λιγότερο από 50 χιλιοστά του δευτερολέπτου σε σύγχρονο υλικό. Αυτό τα καθιστά κατάλληλα για εφαρμογές κινητής τηλεφωνίας σε πραγματικό χρόνο, όπου οι χρήστες περιμένουν αποτελέσματα εντός 1-2 δευτερολέπτων από τη λήψη φωτογραφίας.
Η θυσία είναι ότι τα μοντέλα YOLO μπορεί να δυσκολεύονται με αντικείμενα που επικαλύπτονται στενά, όπου η ακριβής περιγραφή ορίων είναι κρίσιμη για την εκτίμηση μερίδας.
Vision Transformers (ViT, DINOv2)
Οι αρχιτεκτονικές βασισμένες σε μετασχηματιστές επεξεργάζονται εικόνες ως ακολουθίες τμημάτων και χρησιμοποιούν μηχανισμούς αυτοπροσοχής για να συλλάβουν το παγκόσμιο πλαίσιο. Για την αναγνώριση τροφίμων, αυτό σημαίνει ότι το μοντέλο μπορεί να χρησιμοποιήσει συμφραζόμενα, αν υπάρχει ρύζι, το κάρυ είναι πιο πιθανό να βρίσκεται κοντά, για να βελτιώσει την ανίχνευση ασαφών αντικειμένων.
Οι Vision Transformers επιτυγχάνουν υψηλότερο mAP σε πολύπλοκα πιάτα με πολλά αντικείμενα σε σύγκριση με τις προσεγγίσεις βασισμένες σε CNN, ιδιαίτερα για αντικείμενα με ασαφή όρια. Το κόστος είναι υψηλότερες υπολογιστικές απαιτήσεις και πιο αργή ανίχνευση.
Υβριδικές Προσεγγίσεις
Τα τρέχοντα καλύτερα συστήματα συνδυάζουν την εξαγωγή χαρακτηριστικών βασισμένη σε CNN με μηχανισμούς προσοχής μετασχηματιστών. Αυτές οι υβριδικές αρχιτεκτονικές επιτυγχάνουν mAP@0.5 πάνω από 0.85 στην ανίχνευση τροφίμων με πολλά αντικείμενα, διατηρώντας παράλληλα ταχύτητες ανίχνευσης πρακτικές για εφαρμογές κινητής τηλεφωνίας.
Η διαδικασία αναγνώρισης της Nutrola χρησιμοποιεί μια υβριδική αρχιτεκτονική που ισορροπεί την ακρίβεια ανίχνευσης με τον χρόνο απόκρισης κάτω από 2 δευτερόλεπτα που περιμένουν οι χρήστες.
Από την Ανίχνευση στη Διατροφή: Η Διαδικασία Ακρίβειας
Η τελική έξοδος ενός συστήματος αναγνώρισης τροφίμων δεν είναι μια περιοχή ή μια μάσκα τμηματοποίησης. Είναι μια εκτίμηση θερμίδων και μακροθρεπτικών συστατικών. Η ακρίβεια αυτής της εκτίμησης εξαρτάται από μια διαδικασία βημάτων, καθένα από τα οποία έχει το δικό του ποσοστό σφάλματος.
- Ανίχνευση και κατηγοριοποίηση: Αναγνωρίζεται σωστά το τρόφιμο; (Μετριέται με mAP)
- Ποιότητα τμηματοποίησης: Είναι η μάσκα pixel αρκετά σφιχτή για ακριβή εκτίμηση μερίδας; (Μετριέται με IoU)
- Εκτίμηση όγκου: Δεδομένης της μάσκας, πόσο φαγητό υπάρχει πραγματικά; (Μετριέται σε σχέση με τα πραγματικά βάρη)
- Διατροφική χαρτογράφηση: Δεδομένου του αναγνωρισμένου τροφίμου και της εκτιμημένης ποσότητας, ποιες είναι οι θερμίδες και τα μακροθρεπτικά συστατικά; (Μετριέται σε σχέση με εργαστηριακά επαληθευμένα διατροφικά δεδομένα)
Τα σφάλματα σε κάθε στάδιο συσσωρεύονται. Ένα μοντέλο που αναγνωρίζει σωστά ένα τρόφιμο το 90 τοις εκατό του χρόνου με εκτιμήσεις μερίδας ακριβείς στο 15 τοις εκατό θα παράγει εκτιμήσεις θερμίδων με συνολικό ποσοστό σφάλματος μεγαλύτερο από αυτό που υποδηλώνουν οι μεμονωμένοι δείκτες.
Γι' αυτό οι δείκτες αναφοράς από μόνοι τους δεν λένε την πλήρη ιστορία. Η βάση δεδομένων διατροφής και οι παράγοντες εκτίμησης όγκου είναι εξίσου σημαντικοί, και εκεί είναι που τα συστήματα διατροφής που έχουν σχεδιαστεί ειδικά διαφοροποιούνται από τα γενικά μοντέλα αναγνώρισης τροφίμων.
Τι Σημαίνουν Αυτοί οι Δείκτες για την Παρακολούθησή σας
Για τον τελικό χρήστη, οι πρακτικές επιπτώσεις αυτών των δεικτών είναι απλές.
Γεύματα με ένα μόνο αντικείμενο (ένα μπολ βρώμης, ένα πρωτεϊνούχο ρόφημα, ένα κομμάτι φρούτου) αναγνωρίζονται με υψηλή ακρίβεια από τα περισσότερα σύγχρονα συστήματα AI τροφίμων. Το περιθώριο σφάλματος είναι συνήθως εντός 5 έως 10 τοις εκατό της πραγματικής περιεκτικότητας σε θερμίδες.
Πιάτα με πολλά αντικείμενα είναι πιο δύσκολα. Αναμένετε ακρίβεια εντός 10 έως 20 τοις εκατό για καλά διαχωρισμένα αντικείμενα και 15 έως 25 τοις εκατό για επικαλυπτόμενα ή μεικτά αντικείμενα. Εδώ, η πολυτροπική είσοδος (προσθήκη φωνής ή λεπτομερειών κειμένου) βελτιώνει σημαντικά τα αποτελέσματα.
Σύνθετα μεικτά πιάτα (σούπες, κατσαρόλες, κάρυ) παραμένουν η πιο δύσκολη πρόκληση. Εδώ, το σύστημα βασίζεται σε μεγάλο βαθμό στην αναγνώριση σε επίπεδο πιάτου και στην αναζήτηση στη βάση δεδομένων παρά στην ανάλυση σε επίπεδο συστατικού. Μια επαληθευμένη βάση δεδομένων με συγκεκριμένες καταχωρίσεις πιάτων γίνεται πιο σημαντική από την ακρίβεια ανίχνευσης.
Η πορεία της βελτίωσης είναι σαφής: κάθε γενιά αρχιτεκτονικών μοντέλων κλείνει το χάσμα μεταξύ της ελεγχόμενης απόδοσης δεικτών και της πραγματικής ακρίβειας. Αλλά οι πιο σημαντικές κερδισμένες ακρίβειες σήμερα προέρχονται όχι μόνο από καλύτερα μοντέλα ανίχνευσης, αλλά από τον συνδυασμό οπτικής AI με επαληθευμένα διατροφικά δεδομένα και πολυτροπική είσοδο χρήστη.
Συχνές Ερωτήσεις
Τι είναι το mAP στην αναγνώριση τροφίμων AI;
Το Mean Average Precision (mAP) είναι ο τυπικός δείκτης για την αξιολόγηση της ακρίβειας με την οποία ένα μοντέλο ανίχνευσης αντικειμένων αναγνωρίζει και εντοπίζει αντικείμενα σε εικόνες. Στην αναγνώριση τροφίμων, το mAP μετρά πόσο αξιόπιστα η AI ανιχνεύει και κατηγοριοποιεί σωστά διάφορα τρόφιμα σε όλες τις κατηγορίες που έχει εκπαιδευτεί. Ένα υψηλότερο mAP υποδηλώνει καλύτερη συνολική απόδοση ανίχνευσης. Οι τρέχοντες κορυφαίοι μοντέλα αναγνώρισης τροφίμων επιτυγχάνουν mAP@0.5 βαθμολογίες μεταξύ 0.78 και 0.88 σε τυπικούς δείκτες.
Πόσο ακριβής είναι η παρακολούθηση θερμίδων από φωτογραφίες AI;
Η ακρίβεια διαφέρει σημαντικά ανάλογα με την πολυπλοκότητα του γεύματος. Για γεύματα με ένα μόνο αντικείμενο με καθαρά ορατό φαγητό, η σύγχρονη AI επιτυγχάνει εκτιμήσεις θερμίδων εντός 5 έως 10 τοις εκατό των πραγματικών τιμών. Για πιάτα με πολλά αντικείμενα με καλά διαχωρισμένα συστατικά, η ακρίβεια πέφτει στο 10 έως 20 τοις εκατό. Σύνθετα μεικτά πιάτα και γεύματα με κρυφά συστατικά όπως έλαια μαγειρέματος παρουσιάζουν τη μεγαλύτερη πρόκληση, με πιθανά σφάλματα 20 έως 30 τοις εκατό αν βασίζονται μόνο σε ανάλυση φωτογραφιών. Τα συστήματα που συνδυάζουν την αναγνώριση φωτογραφιών με πληροφορίες που παρέχονται από τον χρήστη σχετικά με μεθόδους προετοιμασίας και κρυφά συστατικά επιτυγχάνουν την καλύτερη πραγματική ακρίβεια.
Ποια είναι η διαφορά μεταξύ semantic και instance segmentation στην AI τροφίμων;
Η semantic segmentation επισημαίνει κάθε pixel σε μια εικόνα με μια κατηγορία τροφίμου αλλά δεν διακρίνει μεταξύ ξεχωριστών περιπτώσεων της ίδιας κατηγορίας. Η instance segmentation αναγνωρίζει κάθε ξεχωριστό τρόφιμο ως μια διακριτή οντότητα με τη δική της μάσκα, ακόμη και αν πολλαπλά αντικείμενα μοιράζονται την ίδια κατηγορία. Για την παρακολούθηση θερμίδων, η instance segmentation είναι απαραίτητη γιατί επιτρέπει στο σύστημα να εκτιμήσει το μέγεθος των μερίδων για κάθε αντικείμενο ανεξάρτητα. Χωρίς instance segmentation, ένα πιάτο με δύο διαφορετικά κάρυ θα αντιμετωπιζόταν ως μια ενιαία περιοχή κάρυ, παράγοντας μια ανακριβή διατροφική εκτίμηση.
Γιατί οι δείκτες AI τροφίμων δεν αντικατοπτρίζουν την πραγματική απόδοση;
Οι τυπικοί δείκτες όπως το Food-101 και το UECFOOD-256 χρησιμοποιούν επιμελημένες εικόνες που τείνουν να παρουσιάζουν καλά φωτισμένες, φωτογραφίες με ένα μόνο αντικείμενο από πάνω. Οι πραγματικές φωτογραφίες τροφίμων τραβιούνται σε μεταβλητό φωτισμό, σε ακανόνιστες γωνίες, με πολλά επικαλυπτόμενα αντικείμενα και συχνά με μερική απόκρυψη. Επιπλέον, τα σύνολα δεδομένων δεικτών είναι κυρίως δυτικά κεντρικά, πράγμα που σημαίνει ότι τα μοντέλα που δοκιμάζονται σε αυτά μπορεί να δείχνουν υπερβολική ακρίβεια που δεν γενικεύεται σε παγκόσμιες ποικιλίες κουζινών. Η πραγματική mAP συνήθως πέφτει 10 έως 20 μονάδες κάτω από την απόδοση δεικτών λόγω αυτών των κενών κατανομής.
Ποια αρχιτεκτονική μοντέλου λειτουργεί καλύτερα για την αναγνώριση τροφίμων;
Τα τρέχοντα καλύτερα αποτελέσματα προέρχονται από υβριδικές αρχιτεκτονικές που συνδυάζουν την εξαγωγή χαρακτηριστικών βασισμένη σε CNN με μηχανισμούς προσοχής βασισμένους σε μετασχηματιστές. Τα καθαρά μοντέλα CNN όπως η οικογένεια YOLO προσφέρουν γρήγορη ανίχνευση κατάλληλη για εφαρμογές κινητής τηλεφωνίας, ενώ οι Vision Transformers παρέχουν καλύτερη ακρίβεια σε πολύπλοκα πιάτα με πολλά αντικείμενα. Οι υβριδικές προσεγγίσεις ισορροπούν και τα δύο πλεονεκτήματα, επιτυγχάνοντας mAP@0.5 πάνω από 0.85 στην ανίχνευση τροφίμων με πολλά αντικείμενα, διατηρώντας παράλληλα τους χρόνους απόκρισης κάτω από 2 δευτερόλεπτα που απαιτούνται για πρακτική χρήση κινητής τηλεφωνίας. Η επιλογή της αρχιτεκτονικής εξαρτάται επίσης από το πλαίσιο ανάπτυξης: οι εφαρμογές κινητής τηλεφωνίας προτιμούν ελαφρύτερα μοντέλα, ενώ η επεξεργασία στο cloud μπορεί να εκμεταλλευτεί μεγαλύτερες αρχιτεκτονικές μετασχηματιστών.
Έτοιμοι να Μεταμορφώσετε την Παρακολούθηση της Διατροφής σας;
Εγγραφείτε σε χιλιάδες που έχουν μεταμορφώσει το ταξίδι της υγείας τους με το Nutrola!