De la laborator de cercetare la telefonul tău: Viziunea computerizată din spatele recunoașterii alimentelor moderne

Inteligența artificială care îți identifică prânzul a început ca o lucrare de cercetare. Iată parcursul de la descoperirile academice în viziunea computerizată la tehnologia de recunoaștere a alimentelor din buzunarul tău.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Tehnologia care îți permite să faci o fotografie cu cina ta și să vezi instantaneu analiza caloriilor nu a apărut din senin. Este rezultatul a zeci de ani de cercetare academică, a numeroaselor lucrări publicate și a unei serii continue de descoperiri în domeniul viziunii computerizate și învățării profunde. Ceea ce a început ca o problemă de cercetare de nișă în laboratoarele universitare a devenit o caracteristică pe care milioane de oameni o folosesc zilnic fără să se gândească prea mult la ea.

Acest articol urmărește întregul parcurs al inteligenței artificiale de recunoaștere a alimentelor, de la rădăcinile sale în cercetarea fundamentală a viziunii computerizate până la identificarea alimentelor în timp real care rulează pe telefonul tău. Pe parcurs, vom analiza lucrările cheie, seturile de date de referință, provocările persistente și ingineria necesară pentru a transforma rezultatele de laborator într-un produs de consum fiabil.

Scânteia care a schimbat totul: ImageNet și revoluția învățării profunde

Pentru a înțelege cum funcționează astăzi recunoașterea alimentelor, trebuie să începi cu o competiție care nu avea legătură cu alimentele.

Provocarea de Recunoaștere Vizuală la Scară Mare ImageNet

În 2009, Fei-Fei Li și echipa sa de la Stanford au lansat ImageNet, un set de date cu peste 14 milioane de imagini organizate în mai mult de 20.000 de categorii. Provocarea asociată, ImageNet Large Scale Visual Recognition Challenge (ILSVRC), a solicitat cercetătorilor să construiască sisteme capabile să clasifice imagini în 1.000 de categorii de obiecte, de la avioane la zebre. Timp de câțiva ani, cele mai bune sisteme foloseau caracteristici create manual și tehnici tradiționale de învățare automată, atingând rate de eroare top-5 de aproximativ 25 până la 28 la sută.

Apoi a venit 2012.

Alex Krizhevsky, Ilya Sutskever și Geoffrey Hinton au introdus o rețea neurală convoluțională profundă pe care au numit-o AlexNet. Aceasta a atins o rată de eroare top-5 de 15,3 procente, depășind cu mai mult de 10 puncte procentuale intrarea de pe locul doi. Aceasta nu a fost o îmbunătățire incrementală. A fost o schimbare de paradigmă care a semnalat sosirea învățării profunde ca abordare dominantă în viziunea computerizată.

Lucrarea, "ImageNet Classification with Deep Convolutional Neural Networks" (Krizhevsky et al., 2012), este una dintre cele mai citate lucrări din întreaga știință a calculatoarelor. Impactul său a depășit cu mult provocarea ImageNet. Cercetătorii din fiecare subdomeniu al viziunii computerizate, inclusiv recunoașterea alimentelor, au început imediat să exploreze cum pot fi aplicate rețelele neuronale convoluționale profunde la problemele lor specifice.

De ce a fost important ImageNet 2012 pentru alimente

Înainte de AlexNet, sistemele de recunoaștere a alimentelor se bazau pe caracteristici create manual: histograme de culoare, descriitori de textură precum Local Binary Patterns (LBP) și caracteristici bazate pe formă extrase folosind algoritmi precum SIFT (Scale-Invariant Feature Transform). Aceste abordări aveau dificultăți în a generaliza. Un sistem antrenat să recunoască pizza folosind caracteristici de culoare și textură ar fi eșuat atunci când ar fi fost prezentat cu o pizza cu un topping necunoscut sau cu o iluminare neobișnuită.

Rețelele neuronale convoluționale profunde au schimbat fundamental ecuația. În loc să necesite ca cercetătorii să definească manual ce caracteristici vizuale sunt importante, rețeaua a învățat caracteristicile discriminative direct din date. Aceasta înseamnă că, având suficiente imagini de antrenament, o CNN putea învăța să recunoască alimentele în condiții variate, gestionând variațiile de iluminare, unghi, plating și preparare care ar fi învins abordările create manual.

Cascada de îmbunătățiri: 2013-2020

Anii care au urmat lui AlexNet au produs o succesiune rapidă de inovații arhitecturale, fiecare crescând acuratețea și făcând implementarea mai practică:

An Arhitectură Contribuție Cheie Rata de Eroare Top-5 ImageNet
2012 AlexNet A dovedit că CNN-urile profunde funcționează la scară 15.3%
2014 VGGNet A arătat că adâncimea (16-19 straturi) îmbunătățește acuratețea 7.3%
2014 GoogLeNet (Inception) Extracția caracteristicilor multi-scalare cu calcul eficient 6.7%
2015 ResNet Conexiuni reziduale care permit rețele de 152 de straturi 3.6%
2017 SENet Mecanisme de atenție pe canale 2.3%
2019 EfficientNet Scalare compusă pentru un compromis optim între acuratețe și eficiență 2.0%
2020 Vision Transformer (ViT) Auto-atenție aplicată pe patch-uri de imagine 1.8%

Fiecare dintre aceste arhitecturi a fost rapid adoptată de cercetătorii în recunoașterea alimentelor, care le-au folosit ca baze pentru modelele specifice alimentelor.

Datasetul Food-101: Oferind cercetătorilor un standard comun

Clasificatorii de imagini de uz general antrenați pe ImageNet puteau distinge o pizza de o mașină, dar a distinge pizza margherita de pizza bianca necesită un nivel mult mai fin de discriminare vizuală. Comunitatea de cercetare în recunoașterea alimentelor avea nevoie de propriul set de date la scară mare.

Bossard et al. și nașterea Food-101

În 2014, Lukas Bossard, Matthieu Guillaumin și Luc Van Gool de la ETH Zurich au publicat "Food-101 -- Mining Discriminative Components with Random Forests" la Conferința Europeană pe Tema Viziunii Computaționale (ECCV). Aceștia au introdus datasetul Food-101: 101.000 de imagini care acoperă 101 categorii de alimente, cu 1.000 de imagini per categorie. Imaginile au fost colectate intenționat din surse din lumea reală (Foodspotting, o platformă socială de partajare a alimentelor) în loc de medii de laborator controlate, ceea ce înseamnă că au inclus zgomotul, variația și imperfecțiunea fotografiilor reale cu alimente.

Food-101 a stabilit un standard comun care a permis cercetătorilor să compare direct abordările lor. Lucrarea originală a atins o acuratețe top-1 de 50.76 procente folosind o abordare de pădure aleatoare cu caracteristici create manual. Într-un an, abordările de învățare profundă au depășit 70 la sută. Până în 2018, modelele construite pe arhitecturi precum Inception și ResNet au depășit 90 la sută acuratețe top-1 pe Food-101.

Alte seturi de date importante pentru alimente

Food-101 a fost cel mai utilizat benchmark, dar comunitatea de cercetare a produs mai multe seturi de date care au avansat domeniul:

UEC-Food100 și UEC-Food256 (2012, 2014): Dezvoltate de Universitatea de Electro-Comunicări din Japonia, aceste seturi de date s-au concentrat pe bucătăria japoneză și au introdus anotări pentru detectarea multi-alimentelor. UEC-Food256 a extins acoperirea la 256 de categorii din mai multe bucătării asiatice.

VIREO Food-172 (2016): Creat de Universitatea din Hong Kong, acest set de date a inclus 172 de categorii de alimente chinezești, împreună cu anotări de ingrediente, permițând cercetarea în recunoașterea la nivel de ingredient.

Nutrition5k (2021): Dezvoltat de Google Research, acest set de date a asociat imagini cu alimente cu măsurători nutriționale precise obținute prin calorimetrie. Cu 5.006 farfurii de mese realiste și numărători de calorii verificate în laborator, Nutrition5k a oferit un set de date de adevăr pentru antrenarea și evaluarea sistemelor de estimare a porțiilor.

Food2K (2021): Un benchmark la scară mare care conține 2.000 de categorii de alimente și peste un milion de imagini, conceput pentru a avansa recunoașterea alimentelor către scala recunoașterii obiectelor generale.

MAFood-121 (2019): Concentrat pe recunoașterea alimentelor cu multiple atribute, inclusiv tipul de bucătărie și metoda de preparare, alături de categoria alimentului, reflectând nevoia din lumea reală de a înțelege nu doar ce este un aliment, ci și cum a fost preparat.

Disponibilitatea acestor seturi de date a fost esențială. În învățarea automată, calitatea și scala datelor de antrenament contează adesea mai mult decât arhitectura modelului. Fiecare nou set de date a extins gama de alimente, bucătării și condiții vizuale din care modelele puteau învăța.

De ce este mai greu să recunoști alimentele decât "obiectele" obișnuite

Cercetătorii care lucrează în recunoașterea alimentelor au descoperit rapid că alimentele prezintă provocări unice care nu apar în detectarea generală a obiectelor. Înțelegerea acestor provocări explică de ce un sistem care poate identifica fiabil mașini, câini și clădiri ar putea avea dificultăți cu o farfurie de mâncare.

Problema variației intra-clasă

Un golden retriever arată la fel fie că stă, aleargă sau doarme. Dar o salată poate arăta aproape oricum. O salată grecească, o salată Caesar, o salată Waldorf și o salată de varză cu quinoa împărtășesc aceeași etichetă de categorie "salată", dar au aproape nimic în comun vizual. Această variație intra-clasă este extremă pentru categoriile de alimente și depășește cu mult ceea ce găsești în cele mai multe sarcini de recunoaștere a obiectelor.

Pe de altă parte, similaritatea inter-clasă este, de asemenea, ridicată. O farfurie de supă de roșii și o farfurie de curry roșu pot părea aproape identice văzute de sus. Orezul prăjit și pilaf-ul împărtășesc caracteristici vizuale. O bară proteică și un brownie ar putea fi indistinguibile într-o fotografie. Granițele vizuale dintre categoriile de alimente sunt adesea neclare într-un mod în care granițele dintre mașini și camioane nu sunt.

Natura deformabilă a alimentelor

Cele mai multe obiecte pe care sistemele de viziune computerizată sunt antrenate să le recunoască au o structură geometrică consistentă. O scaun are picioare, un loc și un spătar. Alimentele, în schimb, sunt deformabile, amorfe și imprevizibile în prezentarea lor vizuală. O porție de piure de cartofi nu are o formă consistentă. Pastele pot fi prezentate în nenumărate configurații. Chiar și aceeași rețetă preparată de două persoane diferite poate arăta substanțial diferit.

Această deformabilitate înseamnă că caracteristicile bazate pe formă, care sunt puternice pentru detectarea obiectelor rigide, contribuie relativ puțin la recunoașterea alimentelor. Modelele trebuie să se bazeze mai mult pe culoare, textură și indicii contextuale.

Occluderea și preparatele mixte

Într-o fotografie tipică a unei mese, alimentele se suprapun și se occlud reciproc. Sosul acoperă carnea. Brânza se topește peste legume. Orezul se află sub un tocăniță. Aceste modele de occludere nu sunt doar comune; sunt norma. Un sistem de recunoaștere a alimentelor trebuie să fie robust la vizibilitate parțială într-un mod care este mult mai solicitant decât, de exemplu, detectarea pietonilor într-o scenă de stradă.

Preparatele mixte prezintă o problemă și mai dificilă. Un burrito își înfășoară ingredientele într-o tortilla, făcându-le invizibile. Un smoothie amestecă fructe și alte ingrediente într-un lichid omogen. O tocăniță combină mai multe ingrediente într-o masă vizuală unică. Pentru aceste alimente, recunoașterea trebuie să se bazeze pe aspectul holistic și asocierile învățate, mai degrabă decât pe identificarea componentelor individuale.

Variația iluminării și a mediului

Fotografiile cu alimente sunt realizate în condiții extrem de variabile. Iluminarea restaurantelor variază de la fluorescentă strălucitoare la lumina slabă a lumânărilor. Bucătăriile de acasă au temperaturi de culoare inconsistentă. Fotografiile cu blitz schimbă culoarea aparentă a alimentelor. Imaginile realizate în aer liber într-o zi însorită arată complet diferit față de cele realizate într-un birou întunecat. Această variație în condițiile de imagistică afectează dramatic caracteristicile bazate pe culoare, iar deoarece culoarea este unul dintre cele mai puternice indicii pentru identificarea alimentelor, aceasta creează o provocare substanțială.

Problema estimării porțiilor: Acolo unde cercetarea devine cu adevărat dificilă

Identificarea alimentelor de pe o farfurie este doar jumătate din problemă. Pentru a fi util pentru urmărirea nutriției, un sistem trebuie, de asemenea, să estimeze cât de mult din fiecare aliment este prezent. Aceasta este problema estimării porțiilor și rămâne una dintre cele mai active și provocatoare zone de cercetare în domeniul alimentelor.

De ce estimarea porțiilor este fundamental dificilă

O singură fotografie 2D elimină informațiile de adâncime. Fără a cunoaște distanța de la cameră la farfurie, dimensiunea farfuriei sau înălțimea unui morman de alimente, este imposibil să recuperezi volumul fizic real al alimentelor din măsurătorile pixelilor. Aceasta nu este o limitare a AI-ului actual. Este o realitate matematică a geometriei proiective. O farfurie mică aproape de cameră și o farfurie mare departe produc imagini identice.

Cercetătorii au explorat mai multe abordări pentru a ocoli această limitare:

Metodele obiectelor de referință: Unele sisteme cer utilizatorului să includă un obiect de referință cunoscut (o monedă, un card de credit, o farfurie specifică) în cadru. Măsurând dimensiunile pixelilor ale obiectului cunoscut în raport cu dimensiunea sa reală, sistemul poate estima scala. Sistemul TADA (Three-Dimensional Automatic Dietary Assessment) dezvoltat la Universitatea Purdue a folosit un marker fiducial (un model de tablă de șah) în acest scop. Deși precis, această abordare adaugă fricțiune care o face impracticabilă pentru utilizarea zilnică.

Estimarea adâncimii din imagini monoculare: Rețelele neuronale pot estima hărți de adâncime din imagini unice, valorificând priors învățate despre scene tipice. Cercetările de la grupuri de la Universitatea din Pittsburgh și Georgia Tech au aplicat estimarea adâncimii monoculare la imaginile cu alimente, obținând estimări de volum în cadrul a 15 până la 25 la sută din adevărul de bază în condiții controlate.

Reconstrucția din unghiuri multiple: Unele sisteme de cercetare cer utilizatorilor să captureze alimentele din unghiuri multiple, permițând reconstrucția 3D. Deși mai precisă, aceasta adaugă din nou fricțiune. Cercetările realizate de Fang et al. (2019) au demonstrat că chiar și două unghiuri pot îmbunătăți substanțial acuratețea estimării volumului.

Priori de porție învățate: În loc să încerce să recupereze volumul fizic exact, unele sisteme învață distribuții statistice ale dimensiunilor tipice ale porțiilor pentru fiecare categorie de alimente. Dacă sistemul știe că porția medie de orez alb gătit este de aproximativ 158 de grame, poate folosi acest prior împreună cu indicii vizuale despre dimensiunea relativă a alimentelor din imagine pentru a produce o estimare rezonabilă.

Lucrări cheie în estimarea porțiilor

Mai multe lucrări au avansat starea de artă în estimarea porțiilor:

  • Meyers et al. (2015), "Im2Calories: Towards an Automated Mobile Vision Food Diary," de la Google Research, au propus utilizarea unei CNN pentru a estima conținutul caloric direct din imaginile alimentelor, ocolind estimarea explicită a volumului.
  • Fang et al. (2019), "An End-to-End Image-Based Automatic Food Energy Estimation Technique Based on Learned Energy Distribution Maps," au introdus hărți de distribuție a energiei care prezic densitatea calorică pe pixel.
  • Thames et al. (2021), "Nutrition5k: Towards Automatic Nutritional Understanding of Generic Food," au furnizat primul set de date la scară mare cu adevărul nutrițional verificat prin calorimetrie, permițând o evaluare mai riguroasă a sistemelor de estimare a porțiilor.
  • Lu et al. (2020) au demonstrat că combinarea segmentării alimentelor cu estimarea adâncimii produce estimări ale porțiilor cu o eroare medie absolută sub 20 la sută pentru categoriile comune de alimente.

Diferența dintre acuratețea cercetării și performanța din lumea reală

Unul dintre cele mai importante și mai puțin discutate subiecte în AI-ul de recunoaștere a alimentelor este diferența dintre performanța benchmark și performanța din lumea reală. Înțelegerea acestei diferențe este esențială pentru a stabili așteptări realiste cu privire la ceea ce poate și nu poate face tehnologia de recunoaștere a alimentelor.

Condițiile de benchmark vs. realitate

Lucrările de cercetare raportează de obicei acuratețea pe seturi de teste curate extrase din aceeași distribuție ca datele de antrenament. O acuratețe de 93 la sută pe Food-101 sună impresionant, dar înseamnă că modelul a fost testat pe imagini din aceeași sursă și în condiții similare cu cele ale imaginilor sale de antrenament. Când este implementat în lumea reală, acuratețea scade din mai multe motive:

Schimbarea distribuției: Utilizatorii fac fotografii cu camere, iluminări, unghiuri și compoziții diferite față de cele reprezentate în datele de antrenament. Un model antrenat în principal pe fotografii cu alimente din perspectiva de sus de pe blogurile culinare va performa mai slab atunci când un utilizator face o fotografie înclinat cu un blitz de telefon într-un restaurant slab iluminat.

Alimente rare: Seturile de date de benchmark acoperă un set limitat de categorii. Food-101 are 101 categorii; Food2K are 2.000. Dar un sistem de recunoaștere a alimentelor cu adevărat global trebuie să gestioneze zeci de mii de feluri de mâncare. Performanța pe alimente rare sau specifice cultural este de obicei mult mai scăzută decât mediile raportate.

Mese compuse: Cele mai multe benchmark-uri evaluează clasificarea alimentelor individuale. Mesele reale conțin mai multe alimente pe o singură farfurie, necesitând detectarea, segmentarea și clasificarea simultan. Acuratețea multi-aliment este constant mai scăzută decât acuratețea alimentelor individuale.

Erorile de estimare a porțiilor: Chiar și erorile mici în identificarea alimentelor se acumulează atunci când sunt combinate cu estimarea porțiilor. Dacă sistemul confundă quinoa cu couscous (o confuzie vizuală plauzibilă), aplică densitatea nutrițională greșită estimării sale de volum, rezultând erori atât în analiza macronutrienților, cât și în numărul de calorii.

Quantificarea diferenței

Cercetările publicate sugerează următoarele intervale aproximative de performanță:

Sarcină Acuratețea Benchmark Acuratețea din Lumea Reală
Clasificarea alimentelor individuale (top-1) 88-93% 70-82%
Clasificarea alimentelor individuale (top-5) 96-99% 88-94%
Detectarea multi-aliment per item 75-85% 60-75%
Estimarea porțiilor (în cadrul a 20% din adevărat) 65-75% 45-60%
Estimarea caloriilor end-to-end (în cadrul a 20%) 55-65% 35-50%

Aceste cifre evidențiază o adevărată realitate: AI-ul de recunoaștere a alimentelor este bun și devine din ce în ce mai bun, dar nu este încă un înlocuitor pentru măsurători atente. Este un instrument care reduce dramatic fricțiunea, acceptând totodată o marjă de eroare cunoscută.

O cronologie a descoperirilor cheie

Următoarea cronologie rezumă principalele repere în parcursul de la cercetarea generală în viziunea computerizată la tehnologia de recunoaștere a alimentelor din telefonul tău:

2009 -- Datasetul ImageNet lansat. Fei-Fei Li și echipa de la Stanford publică datasetul ImageNet, oferind benchmark-ul la scară mare care va alimenta revoluția învățării profunde.

2012 -- AlexNet câștigă ILSVRC. Krizhevsky, Sutskever și Hinton demonstrează că rețelele neuronale convoluționale profunde depășesc dramatic abordările tradiționale în clasificarea imaginilor. Era învățării profunde începe.

2012 -- UEC-Food100 publicat. Unul dintre primele seturi de date mari cu imagini de alimente, concentrat pe bucătăria japoneză, stabilește recunoașterea alimentelor ca o problemă de cercetare distinctă.

2014 -- Datasetul Food-101 lansat. Bossard et al. de la ETH Zurich publică benchmark-ul care va deveni standardul de evaluare pentru cercetarea în recunoașterea alimentelor.

2014 -- GoogLeNet și VGGNet. Două arhitecturi influente demonstrează că rețelele mai adânci și mai sofisticate îmbunătățesc semnificativ acuratețea clasificării. Ambele sunt rapid adoptate de cercetătorii în recunoașterea alimentelor.

2015 -- ResNet introdus. He et al. de la Microsoft Research introduc conexiuni reziduale, permițând rețele cu peste 100 de straturi. ResNet devine cea mai utilizată bază în sistemele de recunoaștere a alimentelor în următorii câțiva ani.

2015 -- Lucrarea Im2Calories publicată. Google Research demonstrează estimarea end-to-end a caloriilor din imaginile alimentelor, stabilind fluxul direct de la imagine la nutriție ca o direcție de cercetare viabilă.

2016 -- Detectarea obiectelor în timp real se maturizează. YOLO (Redmon et al., 2016) și SSD (Liu et al., 2016) permit detectarea multi-obiect în timp real, făcând fezabilă detectarea mai multor alimente pe o farfurie în mai puțin de un secundă.

2017 -- Învățarea prin transfer devine o practică standard. Comunitatea de cercetare convergă asupra unei metodologii comune: antrenare inițială pe ImageNet, ajustare pe seturi de date alimentare. Această abordare atinge o acuratețe pe Food-101 de peste 88 la sută.

2019 -- EfficientNet publicat. Tan și Le de la Google introduc scalarea compusă, producând modele care sunt atât mai precise, cât și mai eficiente decât predecesoarele. Acest lucru face ca recunoașterea alimentelor cu înaltă acuratețe să fie fezabilă pe hardware mobil fără inferență în cloud.

2020 -- Vision Transformers (ViT) publicat. Dosovitskiy et al. de la Google demonstrează că arhitecturile transformer, dezvoltate inițial pentru procesarea limbajului natural, pot egala sau depăși CNN-urile în clasificarea imaginilor. Aceasta deschide noi căi pentru cercetarea în recunoașterea alimentelor.

2021 -- Datasetul Nutrition5k lansat. Google Research publică un set de date cu adevărul nutrițional verificat prin calorimetrie, oferind primul benchmark riguros pentru evaluarea estimării nutriționale end-to-end.

2022-2024 -- Modelele fundamentale apar. Modelele mari pre-antrenate de viziune-limbaj precum CLIP (Radford et al., 2021) și modelele ulterioare permit recunoașterea alimentelor zero-shot și few-shot, permițând sistemelor să identifice categorii de alimente pentru care nu au fost antrenate explicit.

2025-2026 -- Inferența pe dispozitiv devine standard. Progresele în comprimarea modelului, cuantificarea și unitățile de procesare neurală mobile (NPU) permit modelelor de recunoaștere a alimentelor să funcționeze complet pe dispozitiv, eliminând latența și problemele de confidențialitate asociate cu procesarea în cloud.

Cum Nutrola reduce diferența dintre cercetare și practică

Cercetarea academică descrisă mai sus este necesară, dar nu suficientă pentru a construi un sistem de recunoaștere a alimentelor care funcționează fiabil pentru oameni reali în condiții reale. Diferența dintre publicarea unei lucrări cu 93 la sută acuratețe pe Food-101 și livrarea unui produs în care utilizatorii au încredere pentru urmărirea nutriției zilnice este enormă. Aici devin la fel de importante ingineria, strategia de date și designul centrat pe utilizator, precum arhitectura modelului.

Antrenarea pe distribuțiile reale de date ale utilizatorilor

Seturile de date academice sunt curate din bloguri culinare, rețele sociale și sesiuni de fotografie controlate. Fotografii reale ale utilizatorilor sunt mai haotice: mese parțial mâncate, fundaluri aglomerate, iluminare slabă, unghiuri neobișnuite, mai multe farfurii în cadru. Nutrola își antrenează modelele pe distribuții de date care reflectă modelele reale de utilizare, inclusiv imaginile imperfecte din lumea reală pe care utilizatorii le capturează efectiv. Acest lucru închide o porțiune semnificativă a diferenței de distribuție.

Învățare continuă și bucle de feedback

Un model static antrenat o dată și implementat se va degrada pe măsură ce comportamentul utilizatorilor și tendințele alimentare se schimbă. Nutrola implementează fluxuri de învățare continuă care integrează corecțiile și feedback-ul utilizatorilor. Când un utilizator corectează o identificare greșită, acel semnal este agregat (cu protecții de confidențialitate) și folosit pentru a îmbunătăți performanța modelului pe alimentele și condițiile specifice unde erorile sunt cele mai frecvente.

Combinarea mai multor semnale

În loc să se bazeze exclusiv pe clasificarea vizuală, Nutrola combină recunoașterea bazată pe imagini cu semnale contextuale pentru a îmbunătăți acuratețea. Ora din zi, regiunea geografică, istoricul recent al meselor și preferințele utilizatorului servesc toate ca priors care ajută la deosebirea alimentelor vizual similare. O farfurie cu un lichid roșu fotografiată la micul dejun în America de Nord este mai probabil să fie suc de roșii decât gazpacho, iar sistemul poate folosi acel context pentru a face predicții mai bune.

Comunicare onestă a încrederii

Una dintre cele mai importante decizii de design este modul de comunicare a incertitudinii. Când modelul este încrezător, Nutrola își prezintă identificarea direct. Când încrederea este mai mică, sistemul prezintă mai multe opțiuni și cere utilizatorului să confirme. Acest tipar de interacțiune respectă limitările inerente ale tehnologiei, reducând în același timp fricțiunea în comparație cu înregistrarea manuală. În loc să pretindă că este perfect, sistemul este transparent cu privire la momentele când are nevoie de ajutor.

Optimizarea pentru acuratețea nutrițională, nu doar pentru acuratețea clasificării

Benchmark-urile academice măsoară acuratețea clasificării: a identificat modelul corect alimentul? Dar pentru urmărirea nutrițională, metrica relevantă este acuratețea nutrițională: cât de aproape este conținutul estimat de calorii și macronutrienți de valorile adevărate? Nutrola se optimizează pentru această metrică de downstream. O confuzie între două alimente vizual similare cu profile nutriționale similare (orez alb vs. orez jasmine) contează mult mai puțin decât o confuzie între două alimente vizual similare cu profile nutriționale foarte diferite (un muffin obișnuit vs. un muffin proteic). Sistemul este ajustat pentru a minimiza erorile care au cel mai mare impact asupra estimărilor nutriționale.

Frontiera cercetării: Ce urmează

Cercetarea în recunoașterea alimentelor continuă să avanseze. Mai multe direcții active de cercetare au potențialul de a închide și mai mult diferența dintre acuratețea de laborator și performanța din lumea reală:

Recunoașterea la nivel de ingredient: Trecerea dincolo de clasificarea la nivel de fel de mâncare pentru a identifica ingredientele individuale dintr-un fel de mâncare. Acest lucru permite estimări nutriționale mai precise pentru alimentele compuse și sprijină verificarea restricțiilor dietetice (detectarea alergenilor, de exemplu).

Reconstrucția 3D a alimentelor din imagini unice: Progresele în câmpurile de radianță neurală (NeRF) și reconstrucția 3D monocular sugerează că în curând va fi posibil să se reconstruiască un model 3D rezonabil de precis al unei mese dintr-o singură fotografie, îmbunătățind substanțial estimarea porțiilor.

Modele alimentare personalizate: Antrenarea modelelor care se adaptează la mesele tipice ale utilizatorilor individuali, restaurantele preferate și stilurile de gătit. Un model care știe că mănânci aceeași mic dejun în fiecare zi de lucru poate atinge o acuratețe aproape perfectă prin personalizare.

Raționare multimodală: Combinarea recunoașterii vizuale cu textul (descrierile meniului, numele rețetelor) și audio (descrierile vocale ale meselor) pentru a construi sisteme de înțelegere a alimentelor mai robuste.

Învățarea federată pentru alimente: Antrenarea modelelor de recunoaștere a alimentelor pe dispozitivele multor utilizatori fără a centraliza datele brute, păstrând confidențialitatea în timp ce beneficiază de date de antrenament diverse din lumea reală.

Întrebări frecvente

Cât de precisă este recunoașterea alimentelor AI astăzi comparativ cu un dietetician uman?

Pentru alimentele comune fotografiate în condiții bune, recunoașterea alimentelor AI se compară sau depășește viteza unui dietetician uman și atinge o acuratețe similară în identificare. Un dietetician înregistrat poate identifica de obicei un aliment dintr-o fotografie cu o acuratețe de 85 până la 95 la sută. Sistemele AI actuale ating rate similare pentru categoriile de alimente bine reprezentate. Cu toate acestea, dieteticienii încă depășesc AI-ul în cazul alimentelor rare sau ambigue, preparatelor specifice cultural și estimării porțiilor. Avantajul practic al AI-ului este viteza și disponibilitatea: oferă o estimare instantanee 24/7, în timp ce consultațiile cu dieteticieni sunt limitate și costisitoare.

Ce este datasetul Food-101 și de ce este important?

Food-101 este un set de date de benchmark cu 101.000 de imagini care acoperă 101 categorii de alimente, publicat de cercetătorii de la ETH Zurich în 2014. Este important deoarece a oferit primul standard adoptat pe scară largă pentru evaluarea modelelor de recunoaștere a alimentelor. Înainte de Food-101, cercetătorii își testau sistemele pe seturi de date private sau de mică amploare, făcând imposibilă compararea rezultatelor. Food-101 a permis cercetarea reproducibilă și a impulsionat progresul rapid în acuratețea clasificării alimentelor, de la aproximativ 50 la sută în 2014 la peste 93 la sută până în 2020.

De ce este mai greu să recunoști alimentele decât alte obiecte?

Alimentele prezintă mai multe provocări care sunt rare în recunoașterea generală a obiectelor: variație vizuală extremă în cadrul aceleași categorii de alimente (gândiți-vă la toate lucrurile numite "salată"), similaritate vizuală ridicată între diferite categorii de alimente (supă de roșii vs. curry roșu), forme deformabile și amorfe, occludere frecventă din sosuri și toppinguri și variație largă în stilurile de preparare în întreaga lume. În plus, alimentele trebuie să fie atât identificate, cât și cuantificate (estimarea porțiilor), ceea ce adaugă o dimensiune pe care cele mai multe sarcini de recunoaștere a obiectelor nu o necesită.

Cum ajută învățarea prin transfer la recunoașterea alimentelor?

Învățarea prin transfer implică preluarea unei rețele neuronale pre-antrenate pe un set de date general (de obicei ImageNet) și ajustarea acesteia pe un set de date mai mic specific alimentelor. Acest lucru funcționează deoarece caracteristicile vizuale de nivel scăzut învățate din ImageNet (margini, texturi, culori, forme) sunt utile în mod general și se transferă bine la imaginile cu alimente. Numai caracteristicile de nivel superior, specifice alimentelor, trebuie învățate de la zero. Învățarea prin transfer reduce dramatic cantitatea de date de antrenament specifice alimentelor necesare și îmbunătățește de obicei acuratețea cu 10 până la 20 de puncte procentuale comparativ cu antrenarea de la zero.

Poate AI-ul să estimeze dimensiunile porțiilor dintr-o singură fotografie?

AI-ul poate estima dimensiunile porțiilor dintr-o singură fotografie, dar cu o incertitudine semnificativă. Fără informații de adâncime, o fotografie 2D nu poate determina cu precizie volumul alimentelor. Sistemele moderne combină priors de porție învățate (cunoștințe statistice despre dimensiunile tipice ale porțiilor), indicii de dimensiune relativă (comparând alimentele cu farfuria sau alte obiecte) și estimarea adâncimii monoculare pentru a produce estimări care sunt de obicei în cadrul a 15 până la 30 la sută din dimensiunea reală a porției. Aceasta este suficient de precisă pentru a fi utilă în urmărirea zilnică, dar nu suficient de precisă pentru evaluarea dietetică clinică.

Care este diferența dintre clasificarea alimentelor și detectarea alimentelor?

Clasificarea alimentelor atribuie o singură etichetă întregii imagini (această imagine conține pizza). Detectarea alimentelor identifică și localizează mai multe alimente în cadrul unei imagini, desenând căsuțe în jurul fiecărui element și clasificându-le independent (această imagine conține pizza în colțul din stânga sus, salată în colțul din dreapta jos și un baton de pâine de-a lungul vârfului). Detectarea este o sarcină mai dificilă, dar este necesară pentru fotografiile reale ale meselor, care conțin aproape întotdeauna mai multe alimente.

Cum folosește Nutrola această cercetare?

Nutrola se bazează pe întreaga corp de cercetare academică în recunoașterea alimentelor descrisă în acest articol, incorporând arhitecturi de vârf, antrenând pe date diverse din lumea reală și optimizând pentru acuratețea nutrițională, nu doar pentru acuratețea clasificării. Sistemul combină recunoașterea vizuală cu semnale contextuale și feedback-ul utilizatorilor pentru a oferi o acuratețe care depășește ceea ce orice lucrare de cercetare individuală realizează în izolare. Nutrola contribuie, de asemenea, înapoi la comunitatea de cercetare prin publicarea constatărilor privind performanța recunoașterii alimentelor în lumea reală și provocările implementării acestor sisteme la scară.

Va fi vreodată AI-ul de recunoaștere a alimentelor 100% precis?

Acuratețea perfectă este puțin probabilă din mai multe motive. Unele alimente sunt cu adevărat vizual indistinguibile (zahărul alb și sarea, de exemplu). Estimarea porțiilor din imagini 2D are limitări matematice fundamentale. Și varietatea bucătăriilor globale înseamnă că vor exista întotdeauna alimente rare cu date de antrenament limitate. Totuși, întrebarea relevantă nu este dacă tehnologia este perfectă, ci dacă este utilă. La nivelurile actuale de acuratețe, recunoașterea alimentelor AI reduce deja fricțiunea în înregistrarea alimentelor cu 70 până la 80 la sută comparativ cu introducerea manuală, iar acuratețea continuă să se îmbunătățească cu fiecare generație de modele și date de antrenament.

Concluzie

Inteligența artificială de recunoaștere a alimentelor din telefonul tău este rezultatul unei călătorii de cercetare care se întinde pe mai bine de un deceniu. A început cu o descoperire în clasificarea imaginilor la provocarea ImageNet din 2012, a câștigat focus prin seturi de date specifice alimentelor precum Food-101, a confruntat provocările unice ale alimentelor ca domeniu vizual și a închis treptat diferența dintre benchmark-urile academice și performanța din lumea reală.

Această călătorie este departe de a se fi încheiat. Estimarea porțiilor rămâne o problemă de cercetare deschisă. Categoriile de alimente rare necesită o acoperire mai bună. Acuratețea din lumea reală continuă să rămână în urma acurateței benchmark cu o marjă semnificativă. Dar traiectoria este clară: fiecare an aduce modele mai bune, date de antrenament mai bogate și abordări mai sofisticate pentru problemele dificile.

Nutrola există la intersecția acestei cercetări și nevoilor practice ale oamenilor care încearcă să înțeleagă ce mănâncă. Prin menținerea unei legături strânse cu vârful cercetării academice, în timp ce păstrează o concentrare neîncetată pe performanța din lumea reală, lucrăm pentru a face promisiunea unei urmăriri nutriționale fără efort și precise o realitate pentru toată lumea.

Ești gata să îți transformi urmărirea nutriției?

Alătură-te celor mii care și-au transformat călătoria de sănătate cu Nutrola!