Globální mozek: Proč většina AI nedokáže rozpoznat biryani, arepas a dal
Většina AI pro rozpoznávání jídla byla trénována na burgerech a salátech. Zde je důvod, proč to vytváří obrovský rozdíl v přesnosti pro jihoasijské, latinskoamerické a blízkovýchodní kuchyně a jak globálně trénované modely tento problém řeší.
Pokud požádáte většinu aplikací pro rozpoznávání jídla, aby identifikovaly talíř kuřecího biryani, pravděpodobně dostanete odpověď „rýže s masem“ nebo, co je horší, „smažená rýže“. Odhad kalorií, který následuje, bude chybný o 200 až 400 kalorií, protože model nemá žádnou představu o ghee-namočené basmati, vrstvené marinádě nebo smažené cibuli, které jsou do pokrmu zakomponovány.
Toto není okrajový problém. Podle Organizace spojených národů žije více než 5,5 miliardy lidí mimo Severní Ameriku a Evropu. Jejich každodenní jídla, od nigerijské jollof rýže po peruánské ceviche a japonské okonomiyaki, jsou systematicky nedostatečně zastoupena v datech, která pohánějí mainstreamovou AI pro jídlo. Výsledkem je technologie, která funguje dobře pro cheeseburger, ale selhává pro většinu světové populace.
Problém západně orientovaných tréninkových dat
Modely počítačového vidění se učí z obrázků, na kterých jsou trénovány. Nejpoužívanější veřejné databáze jídel jasně ukazují, kde leží zaujatost.
Food-101, jedna z základních referencí ve výzkumu rozpoznávání jídla, obsahuje 101 kategorií jídel. Přibližně 70 procent z nich jsou pokrmy ze západní Evropy nebo Severní Ameriky: hamburgery, špagety bolognese, Caesar salát, jablečný koláč. Jihoasijská kuchyně je zastoupena jedinou kategorií. Africká kuchyně nemá žádné zastoupení.
UECFOOD-256, vyvinutá na Univerzitě elektrokomunikací v Tokiu, se silně zaměřuje na japonská jídla. Je vynikající pro rozpoznávání ramen a tempury, ale téměř nic nenabízí pro jihoamerická nebo západoafrická jídla.
Když se model trénovaný převážně na těchto databázích setká s talířem chole bhature, má dvě možnosti: buď pokrm zcela chybně klasifikovat, nebo ho přiřadit k nejbližšímu západnímu ekvivalentu. Ani jedna z možností nevytváří přesný odhad kalorií.
Proč chybné klasifikace stojí víc, než si myslíte
Kalorický rozdíl mezi správnou a nesprávnou klasifikací může být obrovský. Zvažte tyto příklady ze skutečného světa:
- Kuřecí biryani klasifikované jako „kuřecí smažená rýže“: biryani připravené s ghee a smaženou cibulí může obsahovat 450 až 600 kalorií na porci. Typický záznam kuřecí smažené rýže v běžné databázi uvádí 300 až 380 kalorií. To je potenciální podhodnocení o 200 kalorií na jídlo.
- Arepas klasifikované jako „kukuřičný chléb“: plněná arepa se sýrem a fazolemi může dosáhnout 500 kalorií. Plátek kukuřičného chleba je zaznamenán na 170 až 200 kalorií.
- Dal makhani klasifikované jako „čočka polévka“: máslo a smetana v tradičním dal makhani zvyšují obsah kalorií na 350 až 450 kalorií na šálek. Základní čočková polévka má 160 až 200 kalorií.
Během týdne se tyto chyby sčítají do stovek nebo dokonce tisíců chybně spočítaných kalorií, což může zcela podkopat snahu o úbytek nebo nabírání hmotnosti.
Složitost globálních pokrmů
Západní jídla mají tendenci mít relativně viditelné, oddělitelné komponenty: bílkovinu, škrob, zeleninu. Mnoho ne-západních kuchyní představuje zásadně odlišnou výzvu pro počítačové vidění.
Vrstvené a smíšené přípravy
Biryani je vrstvené jídlo. Rýže, maso, koření, smažená cibule a tuk jsou integrovány, nikoli servírovány odděleně. Fotografie povrchu odhaluje pouze horní vrstvu. Mole negro z Oaxacy obsahuje více než 30 ingrediencí mletých do jedné omáčky. Thajské massaman kari kombinuje kokosové mléko, pražené arašídy, brambory a maso v jedné nerozeznatelné směsi.
Aby AI model mohl přesně odhadnout kalorie, musí rozumět nejen tomu, jak pokrm vypadá, ale také tomu, co obsahuje.
Regionální variace v rámci stejného pokrmu
„Hummus“ vyrobený v Libanonu, Sýrii, Izraeli a Turecku se výrazně liší v obsahu olivového oleje, poměru tahini a velikosti porce. Domácí hyderabádské biryani se liší od restaurace Lucknowi biryani jak technikou, tak hustotou kalorií. Tamales se liší z regionu na region v Mexiku a Střední Americe, s náplněmi od libového kuřete po vepřové v sádle.
Model potřebuje regionální kontext, nikoli pouze rozpoznání pokrmu, aby mohl produkovat spolehlivé odhady.
Neviditelní přispěvatelé kalorií
Mnoho globálních kuchyňských tradic spoléhá na štědré používání kuchyňských tuků, které se v konečném pokrmu stávají neviditelnými. Indická kuchyně používá ghee. Pokrmy ze západní Afriky často používají palmový olej. Latinskoamerická kuchyně zahrnuje sádlo a manteca. Blízkovýchodní kuchyně používá velké množství olivového oleje a másla.
Tyto tuky se během vaření absorbují do pokrmu. Fotografie je nemůže odhalit, ale mohou představovat 30 až 50 procent celkových kalorií.
Jak Nutrola přistupuje k rozpoznávání globálního jídla
Vytvoření AI pro jídlo, která funguje napříč kuchyněmi, vyžaduje cílené úsilí v každé fázi: sběr dat, architektura modelu a post-recognice nutriční mapování.
Rozmanitá tréninková data v měřítku
Tréninková databáze Nutrola zahrnuje obrázky jídel z více než 130 zemí. Místo spoléhání se pouze na veřejně dostupné západně orientované databáze systém zahrnuje regionálně shromážděné obrázky s ověřenými štítky od nutričních specialistů. To znamená, že model viděl tisíce příkladů injera s tibs, nejen stock fotografie, ale skutečná jídla vyfotografovaná v domácnostech a restauracích v Etiopii a Eritreji.
Nutriční profily na úrovni pokrmu
Místo aby každé jídlo rozkládal na generické komponenty, Nutrola udržuje nutriční profily pro pokrmy tak, jak jsou skutečně připravovány. Dal makhani není „čočka + neznámý tuk“. Je to specifický pokrm s známou metodou přípravy, a odhad kalorií odráží máslo, smetanu a pomalou přípravu, které ho definují.
Tento přístup se vztahuje i na regionální varianty. Systém rozlišuje mezi kolkatským biryani s bramborami a hyderabádským dum biryani, protože kalorické profily jsou skutečně odlišné.
Multimodální vstup pro skryté ingredience
Když samotná fotografie nestačí, Nutrola používá hlasové a textové podněty k doplnění mezer. Uživatel může říci „to bylo vařeno v kokosovém oleji“ nebo „uvnitř arepy je sýr“ a systém odhad upraví. Tento multimodální přístup řeší problém neviditelných kalorií, který čistě fotografické systémy nemohou vyřešit.
Co znamená lepší globální rozpoznávání pro uživatele
Pro miliony lidí, kteří denně jedí ne-západní stravu, je přesná AI pro jídlo nezbytností, nikoli luxusní funkcí. Je to rozdíl mezi sledovačem výživy, který funguje, a tím, který tiše sabotuje jejich cíle.
Studie z roku 2023 publikovaná v Journal of the Academy of Nutrition and Dietetics zjistila, že dodržování sledování výživy klesá o 40 procent, když uživatelé vnímají svou aplikaci jako nepřesnou. Pokud váš sledovač neustále chybně identifikuje vaše jídla, přestanete mu důvěřovat, a pak přestanete jej používat.
Přesné globální rozpoznávání jídla je také důležité pro diasporní komunity. Druhá generace indicko-američanů, která během týdne jí směs dalu, rotí a salátů, potřebuje aplikaci, která se s oběma kuchyněmi vyrovná stejně přesně. Nigerijský student v Londýně, který vaří egusi polévku, by neměl muset ručně zadávat každou ingredienci, protože AI tuto misku nikdy neviděla.
Cesta vpřed pro AI v oblasti jídla
Oblast rozpoznávání jídla se posouvá směrem k větší rozmanitosti, ale pokrok je nerovnoměrný. Nové databáze jako ISIA Food-500 a Nutrition5k rozšiřují pokrytí a techniky transfer learning umožňují modelům přizpůsobit se nedostatečně zastoupeným kuchyním s menším množstvím označených dat.
Klíčovým diferenciátorem do budoucna budou ověřená nutriční data. Rozpoznání, že pokrm je biryani, je pouze polovina problému. Přiřazení tohoto rozpoznání k přesnému rozdělení kalorií a makroživin vyžaduje regionálně specifické nutriční znalosti, které přesahují to, co může poskytnout generická databáze jídel.
Pro každého, kdo sleduje výživu mimo standardní západní stravu, je otázka, kterou je třeba položit jakékoli AI pro jídlo, jednoduchá: byla tato systém trénována na mém jídle?
Často kladené otázky
Jaká je nejlepší aplikace pro sledování kalorií pro indické jídlo?
Nejlepší sledovač kalorií pro indické jídlo potřebuje dvě věci: model rozpoznávání trénovaný na různorodých jihoasijských pokrmech a nutriční databázi, která zohledňuje tradiční metody přípravy. Aplikace trénované převážně na západních databázích mají tendenci chybně klasifikovat pokrmy jako biryani, paneer tikka a dal makhani jako generické záznamy, což vede k významným chybám v kaloriích. Model Nutrola je trénován na obrázcích jídel z více než 130 zemí a udržuje nutriční profily specifické pro pokrmy, které odrážejí skutečné metody vaření, včetně ghee, smetany a regionálních variací.
Proč mi můj sledovač kalorií dává špatné výsledky pro etnické jídlo?
Většina mainstreamových sledovačů jídla používá modely rozpoznávání trénované na databázích dominovaných západními kuchyněmi, jako je Food-101. Když se tyto modely setkají s neznámými pokrmy, buď je chybně klasifikují jako vizuálně podobné západní jídlo, nebo se vrátí k generickým záznamům databáze. Nutriční profily pro tyto nesprávné shody jsou často o stovky kalorií mimo, zejména pro pokrmy připravené s kuchyňskými tuky, jako je ghee, palmový olej nebo kokosové mléko, které jsou na fotografiích neviditelné.
Může AI přesně sledovat kalorie pro blízkovýchodní jídlo?
AI může přesně sledovat blízkovýchodní jídlo, pokud byl model specificky trénován na pokrmech jako shawarma, fattoush, kibbeh a mansaf, a pokud nutriční databáze zohledňuje obsah olivového oleje, tahini a másla. Mnoho pokrmů v blízkovýchodní kuchyni získává významnou část svých kalorií z tuků, které se během vaření začleňují. Systém, který kombinuje rozpoznávání fotografií s uživatelsky poskytnutými detaily o přípravě, jako je množství použitého olivového oleje, poskytne spolehlivější odhady.
Jak se AI pro jídlo vypořádává s pokrmy s mnoha smíšenými ingrediencemi?
Složitá jídla s smíšenými nebo vrstvenými ingrediencemi, jako je mole, biryani a dušená jídla, patří mezi nejtěžší výzvy v rozpoznávání jídla. Systémy založené pouze na obrazech mohou analyzovat pouze viditelný povrch, přičemž chybí vnitřní vrstvy a absorbované tuky. Pokročilá AI pro jídlo to řeší prostřednictvím rozpoznávání na úrovni pokrmu, identifikující celé jídlo namísto jednotlivých komponentů, a prostřednictvím multimodálního vstupu, kde uživatelé mohou přidávat detaily o skrytých ingrediencích pomocí textu nebo hlasu. Tento kombinovaný přístup výrazně zvyšuje přesnost pro složitou, více ingredienční přípravu.
Je crowdsourced databáze jídel přesná pro mezinárodní kuchyně?
Crowdsourced nutriční databáze mají tendenci být nejméně přesné pro mezinárodní kuchyně. Záznamy pro pokrmy jako jollof rýže, ceviche nebo pad Thai často zadávají uživatelé, kteří nemusí zohlednit regionální variace, kuchyňské tuky nebo autentické metody přípravy. Jeden záznam „biryani“ nemůže reprezentovat kalorický rozsah od lehkého zeleninového biryani po bohaté mutton dum biryani. Ověřené databáze s regionálně specifickými nutričními profily a detaily na úrovni variant poskytují podstatně spolehlivější data pro ne-západní kuchyně.
Připraveni proměnit sledování výživy?
Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!