Az AI receptkivonás tudománya: Hogyan olvassák a főzővideókat az NLP és a számítógépes látás

2026. március 14.

Fedezd fel a technikai folyamatot, amely lehetővé teszi az AI számára, hogy receptet vonjon ki főzővideókból, ötvözve a beszédfelismerést, az OCR-t, a vizuális összetevőfelismerést és az NLP-t, hogy automatikusan generáljon pontos táplálkozási adatokat.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

A főzővideók mára a receptmegosztás domináló formátumává váltak. A YouTube-on havonta több mint 1 milliárd főzővideó megtekintés történik, a TikTok ételtartalmai évente több tízmilliárd megtekintést generálnak, míg az Instagram Reels minden otthoni szakácsot potenciális tartalomkészítővé változtatott. Ennek ellenére folyamatosan fennáll egy szakadék a recept megtekintése és a tényleges tápanyagtartalom ismerete között.

E szakadék áthidalásához egy több lépcsőből álló AI folyamat szükséges, amely ötvözi az automatikus beszédfelismerést, az optikai karakterfelismerést, a számítógépes látást és a természetes nyelvfeldolgozást. Ez a cikk részletezi a technikai folyamat minden szakaszát, elmagyarázza a lehetővé tevő modelleket és kutatásokat, valamint megvizsgálja, hogyan egyesülnek ezek a technológiák, hogy egy főzővideót strukturált táplálkozási adatokra alakítsanak.

A receptkivonás problémája: Miért nehezek a videók

A weboldalakon található szöveges receptek viszonylag egyszerűen feldolgozhatók. Ezek előre meghatározott struktúrákat követnek, amelyek tartalmazzák az összetevők listáját, mennyiségeket és lépésről lépésre útmutatásokat. A HTML jelölés és a schema.org recept annotációk további gép által olvasható struktúrát biztosítanak.

A főzővideók alapvetően más kihívást jelentenek. A receptinformációk többféle módon oszlanak meg egyszerre:

Beszélt narráció írja le az összetevőket, mennyiségeket és technikákat
Képernyőn megjelenő szöveg mutatja az összetevőket, hőmérsékleteket és időzítéseket
Vizuális tartalom mutatja az összetevők hozzáadását, keverését és átalakulását
Implicit tudás feltételezi, hogy a nézők értik az olyan nem kifejtett lépéseket, mint például a sütő előmelegítése vagy a rizs átmossa

Egyetlen mód sem tartalmazza a teljes receptet. Egy alkotó mondhatja, hogy „adjunk hozzá egy kis olívaolajat”, miközben a képernyőn láthatóan körülbelül két evőkanálnyi mennyiséget önt, és később a képernyőn megjelenő szöveg „2 evőkanál olívaolajat” mutat. A teljes recept kivonásához az összes forrásból származó információt össze kell fésülni, és fel kell oldani a közöttük lévő ellentmondásokat.

A többmodalitású kivonási folyamat

A nyers videótól a strukturált táplálkozási adatokig terjedő teljes folyamat öt fő szakaszból áll:

Szakasz	Bemenet	Technológia	Kimenet
1. Hangkivonás	Videofájl	ASR (Whisper)	Időbélyeggel ellátott átírás
2. Vizuális szövegkivonás	Videoképek	OCR (PaddleOCR, EasyOCR)	Képernyőn megjelenő szöveg időbélyegekkel
3. Vizuális összetevőfelismerés	Videoképek	CNN/Vision Transformers (CLIP, ViT)	Azonosított összetevők és műveletek
4. NLP elemzés és fúzió	Átírás + OCR + vizuális adatok	Transformer modellek (BERT, LLMs)	Strukturált recept mennyiségekkel
5. Táplálkozási adatbázis egyeztetése	Strukturált recept	Homályos egyeztetés + adatbázis-keresés	Teljes táplálkozási bontás

Minden szakasz különböző technikai kihívásokkal jár, és eltérő gépi tanulás kutatási területekre támaszkodik.

1. szakasz: Automatikus beszédfelismerés a recept narrációhoz

A recept kivonásának első lépése a beszélt narráció szöveggé alakítása. Ez az automatikus beszédfelismerés (ASR) területe.

A Whisper forradalom

Az OpenAI Whisper modellje, amelyet Radford és munkatársai mutattak be egy 2022-es tanulmányban, alapvetően megváltoztatta a beszédfelismerés területét a receptkivonásban. A weben gyűjtött 680 000 órányi többnyelvű és multitask felügyelt adaton képzett Whisper közel emberi szintű átírási pontosságot ért el a különböző hangkörülmények között.

A Whisper különösen értékes a főzővideók átírásához a következő okok miatt:

Zajállóság. A konyhai környezetek zajosak. A sistergő serpenyők, folyó víz, vágási hangok és háttérzene mind versenyeznek a narrátor hangjával. A Whisper különböző hangkörülmények között végzett képzése miatt jobban kezeli ezeket az átfedő hangforrásokat, mint a korábbi ASR modellek.

Többnyelvű képesség. A főzővideók szinte minden nyelven készülnek. A Whisper 915 nyelven támogatja az átírást, és képes fordítani angolra, lehetővé téve a receptkivonást a tartalom eredeti nyelvétől függetlenül.

Írásjelek és formázás. A korábbi ASR rendszerekkel ellentétben, amelyek lapos szöveges folyamokat állítottak elő, a Whisper írásjelek nélküli, formázott átírásokat generál, amelyek megőrzik a mondatbeli határokat. Ez a struktúra kritikus a későbbi NLP elemzéshez.

Szó szintű időbélyegek. A Whisper képes szó szintű időbélyegeket előállítani, lehetővé téve a pontos összehangolást a mondottak és a képernyőn láthatók között bármely adott pillanatban.

A főzői narrációval kapcsolatos kihívások

A Whisper képességei ellenére a főzővideók ASR kihívásokat jelentenek, amelyek nem jelennek meg a standard beszédfelismerési benchmarkokban:

Szakmai szókincs. Az összetevőnevek globális konyhákon keresztül több ezer elemet ölelnek fel. Az olyan kifejezések, mint a „gochujang”, „za'atar”, „tahini” vagy „panko” nem gyakran fordulnak elő a általános képzési adatokban. Szakosodott élelmiszer-szókincsmodellek vagy utófeldolgozó szótárak szükségesek a rendszeres téveszmékkel kapcsolatos korrekciókhoz.

Mennyiségi bizonytalanság. A beszélt mennyiségek gyakran imprecízek. Az olyan kifejezések, mint a „jó mennyiségű só”, „egy loccsanás ecet” vagy „körülbelül ennyi liszt” kontextuális értelmezést igényelnek, amely túlmutat az átíráson.

Nyelvváltás. Sok főzőalkotó váltogatja a nyelveket, angolul narrálva, de anyanyelvén nevezi meg az ételeket vagy hagyományos technikákat. A többnyelvű ASR-nek ügyesen kell kezelnie ezeket az átmeneteket.

Nem verbális kommunikáció. Egy alkotó gesztikulálhat egy összetevő felé anélkül, hogy megnevezné, vagy azt mondhatja, hogy „ez”, miközben egy üveget tart a kezében. Ezek a deiktikus hivatkozások keresztmodalitású feloldást igényelnek a vizuális áramlattal.

Az átírás utófeldolgozása

A nyers ASR kimenet több utófeldolgozási lépést igényel, mielőtt hasznos lenne a receptkivonás szempontjából:

Élelmiszer-elem javítása egy szakterület-specifikus szótár segítségével javítja a gyakori téveszméket (pl. „kömény” tévesen „jövő”).
Mennyiség normalizálása a beszélt számokat és törteket standardizált numerikus formátumokká alakítja.
Szegmentálás logikai receptlépésekké osztja a folyamatos átírást az időbeli szünetek, átmeneti kifejezések és cselekvési igék határainak alapján.
Bizalom szűrés azonosítja és megjelöli az alacsony bizalommal bíró szegmenseket, amelyek potenciális keresztmodalitású ellenőrzést igényelnek.

2. szakasz: Optikai karakterfelismerés a képernyőn megjelenő szöveghez

Sok főzővideó az összetevők listáit, méréseket, hőmérsékleteket és utasításokat képernyőn megjelenő szövegként mutatja be. Ez a szöveg gyakran pontosabb, mint a beszélt narráció, és szabványosabb formázást követ.

Hogyan működik az OCR a videoképeken

A szöveg kinyerése a videoképekből két alfeladatot foglal magában: a szöveg észlelését (megtalálni, hol jelenik meg a szöveg a képen) és a szöveg felismerését (elolvasni, mit mond a szöveg).

Szövegészlelés azonosítja azokat a területeket a képen, amelyek szöveget tartalmaznak. A modern észlelők, mint a CRAFT (Character Region Awareness for Text Detection) és a DBNet (Differentiable Binarization Network), képesek azonosítani a szöveget függetlenül az orientációtól, mérettől vagy háttér bonyolultságától. Ezek a modellek keretdobozokat vagy sokszögeket adnak vissza a szöveges területek körül.

Szövegfelismerés a észlelt szöveges területeket karakterláncokká alakítja. A konvolúciós és rekurzív neurális hálózatokra épülő architektúrák, gyakran CTC (Connectionist Temporal Classification) dekódolással, feldolgozzák a kivágott szöveges területeket, és karakterláncokat adnak vissza. A legújabb megközelítések transzformer alapú architektúrákat használnak a stilizált betűtípusok pontosabb azonosítása érdekében.

A főzővideók OCR-jának egyedi kihívásai

A főzővideók képernyőn megjelenő szövege lényegesen eltér a dokumentum szövegtől, amelyre a legtöbb OCR rendszer optimalizálva van:

Animált szövegátfedések. A szöveg gyakran animálva jelenik meg és tűnik el, ami megköveteli a több képkocka időbeli aggregálását a teljes szöveg rögzítéséhez. Egy csúszó animáció például a szöveget karakterről karakterre fedi fel több képkockán keresztül.

Dekoratív betűtípusok. Az ételtartalom készítői gyakran stilizált, kézzel írt vagy dekoratív betűtípusokat használnak, amelyek eltérnek a tiszta betűtípusoktól, amelyek a standard OCR képzési adatokban találhatók. A főzőspecifikus betűtípus-adatbázisokon végzett finomhangolás javítja a felismerési arányokat.

Bonyolult háttér. A szöveg gyakran zsúfolt vizuális háttér előtt jelenik meg, amely ételeket, konyhákat és kezeket mutat. A szöveg és a háttér közötti magas kontraszt nem feltételezhető. A szöveg vonala, árnyéka és háttérmosás észlelése segít a szövegréteg izolálásában.

Többnyelvű és vegyes írásmódok. Egyetlen képkocka tartalmazhat szöveget több írásmódban, például angol méréseket japán ételnevekkel. A többírásmódú OCR modellek vagy az írásmód-észlelés, amelyet nyelvspecifikus felismerési folyamat követ, kezelik ezt a változatosságot.

Időbeli duplikáció és aggregálás

Mivel a videoképek másodpercenként többször is mintavételezve vannak, ugyanaz a képernyőn megjelenő szöveg sok egymást követő képkockán észlelhető. Az OCR folyamatnak:

Megfelelő sebességgel kell mintavételeznie a képkockákat (általában 1-2 képkocka másodpercenként a szövegészleléshez)
Követnie kell a szöveges területeket a képkockák között, hogy azonosítsa a tartós és átmeneti szöveget
Duplikálnia kell az ugyanazon szöveg ismételt észlelését
Össze kell vonnia a részleges észleléseket az animált szöveg felfedéséből
Minden szövegelemhez társítania kell a temporális ablakát a későbbi fúzióhoz a hang- és vizuális adatokkal

Ennek a szakasznak a kimenete egy időbélyeggel ellátott lista a képernyőn megjelenő szövegelemekről, mindegyikhez hozzárendelve a láthatóságának időtartamát és a térbeli helyzetét a képkockában.

3. szakasz: Vizuális összetevőfelismerés számítógépes látással

A szövegen túl a főzővideók vizuális tartalma gazdag információt tartalmaz az összetevőkről, mennyiségekről és elkészítési módszerekről. A számítógépes látás modellek képesek az összetevők azonosítására, ahogy megjelennek, mennyiségek becslésére vizuális jelek alapján, és a főzési műveletek felismerésére.

Összetevőfelismerés Vision Transformers és CLIP segítségével

A modern vizuális összetevőfelismerés két kulcsfontosságú fejlődésre épít: Vision Transformers (ViT) és a kontrasztív nyelv-kép előképzés (CLIP).

Vision Transformers, amelyeket Dosovitskiy és munkatársai mutattak be 2020-ban, a transzformer architektúrát alkalmazzák a képfelismeréshez. A konvolúciós rétegek használata helyett a ViT egy képet darabokra oszt, és azokat sorozatként dolgozza fel, hasonlóan ahhoz, ahogyan a transzformerek a mondatokban a szavakat kezelik. Ez a megközelítés különösen hatékony a finom részletek azonosításában, mint például az összetevők azonosítása, ahol a szín, textúra és forma finom eltérései megkülönböztetik a hasonló elemeket.

CLIP, amelyet Radford és munkatársai fejlesztettek ki az OpenAI-nál 2021-ben, vizuális fogalmakat tanul természetes nyelvi felügyelet alapján. 400 millió kép-szöveg párra képzett CLIP képes azonosítani azokat az objektumokat, amelyeket szöveg ír le, anélkül, hogy kifejezetten tanították volna azokat a címkézett példákra. Az összetevőfelismerés szempontjából ez azt jelenti, hogy egy CLIP-alapú rendszer képes azonosítani egy összetevőt, még akkor is, ha az nem szerepel a tanulási készletben, amennyiben a vizuális megjelenés megfelel a szöveges leírásnak.

A CLIP gyakorlati előnye a receptkivonás szempontjából a zero-shot és few-shot képessége. Az ételek óriási változatosságot ölelnek fel az összetevők, elkészítési módok és kulturális bemutatók terén. Egy hagyományos osztályozási modellnek címkézett tanulási példákra lenne szüksége minden egyes összetevőhöz és elkészítési állapothoz. A CLIP képes általánosítani széleskörű előképzéséből, hogy felismerje az új összetevőket szöveges formában.

Főzési műveletek azonosítása

Fontos, hogy ne csak az összetevőket azonosítsuk, hanem azt is, hogy milyen műveletek zajlanak. A műveletfelismerés megmondja a rendszernek, hogy egy összetevőt aprítanak, pirítanak, turmixolnak vagy sütnek, ami közvetlenül befolyásolja a végső tápanyagtartalmat.

A videó akciófelismerés kutatása olyan modelleket hozott létre, amelyek időbeli keretek sorozatát elemzik az akciók osztályozásához. Az olyan megközelítések, mint a SlowFast hálózatok (Feichtenhofer et al., 2019), a videót két időbeli felbontásban dolgozzák fel: egy lassú útvonal rögzíti a térbeli részleteket, míg egy gyors útvonal a mozgást. A főzővideókra alkalmazva ezek a modellek meg tudják különböztetni a keverést, habverést, hajtogatást és dagasztást, mindegyiknek különböző következményei vannak a recept struktúrájára.

A Food-101 és Recipe1M+ adatbázisok (Marin et al., 2019) kulcsszerepet játszottak az étel-specifikus számítógépes látási modellek képzésében és értékelésében. A Recipe1M+ több mint 1 millió főzési receptet és 13 millió ételfotót tartalmaz, biztosítva a szükséges méretet a modellek képzéséhez, amelyek általánosítanak a különböző konyhák és elkészítési stílusok között.

Vizuális mennyiségbecslés

A vizuális receptkivonás egyik legnagyobb kihívása az összetevőmennyiségek becslése a videóból. Amikor egy alkotó olajat önt a serpenyőbe vagy lisztet merít egy tálba, a vizuális információk jeleket tartalmaznak a mennyiségről, de ezeknek a jeleknek a pontos méréssé alakítása kifinomult térbeli érvelést igényel.

A jelenlegi megközelítések kombinálják:

Referenciaobjektum méretezése: Ismert objektumok használata a képen (standard edények, mérőpoharak, vágódeszkák) a méret referencia megállapításához
Öntési dinamikákból származó térfogatbecslés: Az öntött folyadékok időtartamának és áramlási sebességének elemzése a térfogat becsléséhez
Mélységbecslés: Monokuláris mélységbecslő modellek, mint például a MiDaS (Ranftl et al., 2020), képesek becsülni az összetevők mélységét a tartályokban, segítve a térfogat becslését egy 2D képből
Összehasonlító tanulás: Az ismert mennyiségekkel párosított képek alapján tanított modellek vizuális összehasonlítással tanulják meg a mennyiségek becslését

A vizuális mennyiségbecslés általában 20-30%-os pontossággal működik, ami alacsonyabb, mint a beszédből vagy szövegből származó kifejezett mérések. Azonban hasznos keresztellenőrzést nyújt, és kitölti a hiányosságokat, amikor a mennyiségek nincsenek kifejezetten megadva.

4. szakasz: Természetes nyelvfeldolgozás a recept elemzéséhez és fúzióhoz

A rendelkezésre álló átírásokkal, képernyőn megjelenő szövegekkel és vizuális annotációkkal a NLP szakasz feladata, hogy ezeket a multimodális jeleket egyetlen, koherens, strukturált receptté fűzze össze.

Nevezett entitásfelismerés az ételekhez

Az első NLP feladat az ételekkel kapcsolatos entitások azonosítása az átírásban és az OCR szövegben. Ez egy specializált nevezett entitásfelismerés (NER) forma, amelynek az alábbiakat kell azonosítania:

Összetevők: „csirkemell”, „extra szűz olívaolaj”, „kosher só”
Mennyiségek: „két csésze”, „350 gramm”, „egy csipet”
Mértékegységek: „evőkanál”, „milliliter”, „közepes méretű”
Elkészítési módosítók: „felkockázva”, „finomra vágva”, „szobahőmérsékletű”
Főzési műveletek: „pirítani”, „sütni 375 fokon”, „párolni 20 percig”
Felszerelés: „öntöttvas serpenyő”, „álló mixer”, „tepsitál”

A transformer alapú NER modellek, amelyeket élelmiszer-korpuszokon finomhangoltak, a standard élelmiszer NER benchmarkokon 90%-nál magasabb F1 pontszámokat érnek el. A FoodBase korpusz (Popovski et al., 2019) és a TASTEset adatbázis kifejezetten az ilyen modellek képzésére szolgáló annotált élelmiszerszöveget biztosít.

Függőségi elemzés az összetevő-mennyiség társításhoz

Az entitások azonosítása önmagában nem elegendő. A rendszernek meg kell határoznia, hogy mely mennyiségek mely összetevőkhöz tartoznak. A „Adjunk hozzá két csésze lisztet és egy teáskanál sót” mondatban a rendszernek helyesen kell társítania a „két csésze” kifejezést a „liszthez” és a „teáskanál” kifejezést a „sóhoz”.

Ez függőségi elemzést igényel, amely a mondatok grammatikai szerkezetét elemzi a szavak közötti kapcsolatok azonosításához. A modern függőségi elemzők, amelyek a BERT architektúrára épülnek (Devlin et al., 2019), kezelik a főzési utasítások szintaktikai összetettségét, beleértve a bonyolult összetevőleírásokat, mint például a „frissen facsart citromlé” és a fészkelt módosítókat, mint például a „14 unciás doboz felkockázott tűzön sült paradicsom”.

Keresztmodalitású fúzió: ellentmondások feloldása és hiányosságok kitöltése

A NLP szakasz legtechnikai kihívást jelentő aspektusa az információk fúziója a három modalitásból (audio, szöveg, vizuális) egyetlen konzisztens receptté. Ennek a fúziónak kezelnie kell:

Megállapodás megerősítése. Amikor az átírás azt mondja, hogy „két evőkanál szójaszósz”, a képernyőn megjelenő szöveg „2 evőkanál szójaszószt” mutat, és a vizuális áramlattal egy sötét folyadékot öntenek, mindhárom forrás egyetért, és a rendszernek magas a bizalma.

Konfliktus feloldása. Amikor az átírás azt mondja, hogy „egy csésze cukor”, de a képernyőn megjelenő szöveg „3/4 csésze cukrot” mond, a rendszernek el kell döntenie, hogy melyik forrást bízzon meg. Általában a képernyőn megjelenő szöveget prioritásként kezelik a pontos mérésekhez, mivel az alkotók jellemzően szöveges átfedéseket adnak hozzá, mint korrekciókat vagy tisztázásokat a narrációjukhoz.

Hiányosságok kitöltése. Amikor a narrátor azt mondja, hogy „ízesítsd ízlés szerint” anélkül, hogy mennyiségeket határozna meg, a rendszer a fűszerezési művelet vizuális becslését kombinálhatja a tudásbázis ismereteivel a tipikus fűszerezési mennyiségekről az adott ételtípushoz, hogy ésszerű értékeket inferáljon.

Időbeli összehangolás. Az információk összepárosítása a modalitások között időbeli összehangolást igényel. Egy beszélt összetevő hivatkozásának a 2:34-es időbélyeggel kell egyeznie a képernyőn megjelenő szöveggel, amely 2:30-tól 2:40-ig látható, és a vizuális összetevőfelismeréssel ugyanabban az időablakban. A dinamikus időharangzás és a figyelem alapú összehangolási mechanizmusok kezelik a beszéd, szöveg és vizuális események közötti imprecíz szinkronizálást.

Nagy nyelvi modellek a recept struktúrázásához

A nagy nyelvi modellek (LLM) legújabb előrehaladásai új megközelítést vezettek be a recept struktúrázásához. Ahelyett, hogy külön modelleket építenének a NER, a függőségi elemzés és a fúzió számára, egy LLM képes feldolgozni a kombinált átírást és az OCR kimenetet, és egyetlen lépésben strukturált receptet generálni.

A modell egy olyan promptot kap, amely tartalmazza az átírást, az OCR szöveget és a vizuális megfigyelések leírásait, valamint utasításokat a strukturált recept egy meghatározott formátumban történő kiadására. Az LLM-ek kiválóan teljesítenek ebben a feladatban, mert széleskörű világismeretet kódolnak a főzésről, beleértve a tipikus összetevőmennyiségeket, a gyakori összetevőkombinációkat és a standard elkészítési technikákat.

Ennek a megközelítésnek számos előnye van:

Természetesen kezeli a bizonytalanságot a világismeretre támaszkodva
Feloldja a ko-referenciákat (pl. megérti, hogy az „ez” a „szósz” három mondattal korábban említett szóra utal)
Képes inferálni a nem kifejtett lépéseket a főzési tudás alapján
Normalizálja az összetevőneveket a megfelelő adatbázis-kereséshez alkalmas kanonikus formákra

A fő korlátozás az, hogy az LLM kimenetek validálást igényelnek. A hallucináció, amikor a modell plauzibilis, de helytelen információt generál, ellensúlyozni kell a forrásmodalitásokkal és a táplálkozási adatbázis korlátozásaival való keresztellenőrzéssel.

5. szakasz: Táplálkozási adatbázis egyeztetése és számítás

Az utolsó szakasz a strukturált receptet teljes táplálkozási bontássá alakítja. Ehhez minden kivont összetevőt egy átfogó táplálkozási adatbázis bejegyzéséhez kell egyeztetni, és kiszámítani a tálalásra jutó táplálkozási értékeket.

Az egyeztetési kihívás

A főzővideókból kivont összetevőnevek ritkán egyeznek meg pontosan az adatbázis bejegyzéseivel. Egy videó hivatkozhat „egy nagy marék bébi spenótra”, míg az adatbázis „nyers spenót” bejegyzéseket tartalmaz grammban. Az egyeztetési rendszernek kezelnie kell:

Szó szintű feloldás: „koriander” és „koriander levelek” ugyanaz az összetevő
Elkészítési állapot térképezése: A „pörkölt mandula” más táplálkozási profilt jelent, mint a „nyers mandula”
Márka és változat normalizálása: A „Barilla penne” a „tészta, penne, száraz” bejegyzéshez tér el a márkaspecifikus kiigazításokkal
Hétköznapi és technikai fordítás: „egy darab vaj” a „vaj, sózott, 113g” bejegyzéshez tér el
Mértékegység átváltás: „egy csésze liszt” grammban való átváltása az összetevő-specifikus sűrűségértékek felhasználásával, mivel egy csésze liszt körülbelül 120g, míg egy csésze cukor körülbelül 200g

A homályos sztringegyeztetési algoritmusok, mint a Levenshtein távolság és a TF-IDF koszinusz hasonlóság, alapegyeztetést biztosítanak. Fejlettebb megközelítések beágyazás-alapú hasonlóságot használnak, ahol mind a kivont összetevő szöveg, mind az adatbázis bejegyzések vektoros reprezentációkká vannak kódolva olyan modellek segítségével, mint a Sentence-BERT (Reimers és Gurevych, 2019), és a legközelebbi egyezést választják ki a beágyazási térben.

Táplálkozási adatbázisok és lefedettségük

Több jelentős táplálkozási adatbázis szolgál alapként a táplálkozási számításokhoz:

Adatbázis	Lefedettség	Karbantartja	Kulcsfontosságú erősség
USDA FoodData Central	370,000+ élelmiszer	U.S. Department of Agriculture	Átfogó tápanyagtartalom
Open Food Facts	3,000,000+ termék	Közösségi hozzájárulók	Globális csomagolt élelmiszer lefedettség
COFID (McCance és Widdowson)	3,000+ élelmiszer	UK Food Standards Agency	UK-specifikus élelmiszer összetételek
Australian Food Composition Database	2,500+ élelmiszer	Food Standards Australia New Zealand	Regionális élelmiszer lefedettség

Egy robusztus receptkivonó rendszer több adatbázist kérdez le, és alkalmazza a bizalommal súlyozott átlagolást, amikor a bejegyzések eltérnek. Azoknál az ételeknél, amelyeket nem találnak meg a standard adatbázisokban, a rendszer a táplálkozási tartalmat az élelmiszert alkotó összetevőkre bontva és azok egyéni hozzájárulásait összegezve becsüli meg.

Főzési átalakulások kezelése

A pontos és hozzávetőleges táplálkozási számítás közötti kritikus árnyalat a főzési átalakulások figyelembevételében rejlik. Amikor az ételt főzik, a tápanyagtartalma megváltozik:

Vízveszteség: A hús főzés közben a súlyának 20-35%-át elveszíti, így a tápanyagok koncentrálódnak a főtt étel grammonkénti mennyiségében
Zsírfelszívódás: A sült ételek felszívják a főzőolajat, így kalóriát adnak hozzá, amelyek nem részei a nyers összetevő profilnak
Tápanyag-degradáció: A hőérzékeny vitaminok, mint a C-vitamin és a B-vitaminok, a főzés során lebomlanak
Keményítő gélesedés: A főzés megváltoztatja a keményítőtartalmú ételek glikémiás indexét
Zsír kiolvadása: A zsíros húsok főzése során a zsír kiolvad, csökkentve a fogyasztott adag kalóriatartalmát

Az USDA megőrzi a közönséges tápanyagok megtartási tényezőit a különböző főzési módszerekhez. Ezeknek a tényezőknek az alkalmazása a nyers összetevő táplálkozási értékeire pontosabb becslést ad a végső főtt ételről.

A Nutrola táplálkozási motorja integrálja ezeket a főzési átalakulási modelleket, kiigazítva a nyers összetevő adatbázis értékeit a videóelemzés során azonosított főzési módszerek alapján. Amikor a rendszer észleli, hogy a csirkét grillezik, nem pedig sütik, alkalmazza a megfelelő nedvességveszteséget és zsírtartási tényezőket, hogy pontos kalória becslést adjon a kész ételhez.

Hogyan valósítja meg a Nutrola ezt a folyamatot

A Nutrola ezt a több lépcsőből álló technikai folyamatot egy gyakorlati felhasználói élménnyé alakítja. Amikor egy felhasználó megoszt egy főzővideót vagy beilleszt egy linket egy receptvideóhoz, a Nutrola háttérfolyamata a videót a fent leírt kivonási folyamaton keresztül dolgozza fel, és visszaad egy strukturált receptet teljes táplálkozási adatokkal.

A gyakorlati megvalósítás számos mérnöki döntést foglal magában, amelyek az pontosság, a sebesség és a felhasználói élmény egyensúlyát célozzák:

Szelektív képkocka mintavételezés. Ahelyett, hogy minden képkockát feldolgozna, a Nutrola rendszere azonosítja azokat a kulcsképkockákat, ahol jelentős vizuális változások történnek, például új összetevők megjelenése, főzési műveletek változása vagy a képernyőn megjelenő szöveg frissítése. Ez a számítási költséget 80-90%-kal csökkenti, miközben rögzíti a releváns vizuális információkat.

Bizalom pontozás. Minden kivont elem egy bizalom pontszámmal rendelkezik, amely a modalitások közötti megállapodásból származik. Az összetevők, amelyeket a beszéd, a szöveg és a vizuális észlelés is megerősít, magas bizalmat kapnak. Az egyetlen modalitás által észlelt összetevőket a felhasználói ellenőrzésre jelölik.

Felhasználói korrekciós ciklus. Amikor a rendszer bizonytalan egy összetevő vagy mennyiség kapcsán, a legjobb becslését a felhasználónak mutatja be, lehetőséggel a korrekcióra. Ezek a korrekciók visszakerülnek a modellbe, javítva a kivonás pontosságát az idő múlásával egy emberi visszajelzéses tanulási folyamat révén.

Adatbázis-alapú validálás. A kivont recepteket a táplálkozási plauzibilitási korlátoknak megfelelően validálják. Ha a rendszer egy olyan mennyiséget von ki, amely hihetetlenül magas vagy alacsony kalóriaszámot eredményezne az ételtípushoz, az kivonást felülvizsgálatra jelölik.

Ez a megközelítés átalakítja a főzővideó nézésének passzív élményét cselekvő táplálkozási adatokkal, amelyek közvetlenül integrálódnak a felhasználó napi nyomon követésébe. Ahelyett, hogy manuálisan keresnék meg minden összetevőt és becsülnék meg a részesedéseket, a felhasználók egy teljes táplálkozási bontást kapnak, amely közvetlenül a videótartalomból származik.

A kutatás határa: Mi következik

A multimodális receptkivonás területe gyorsan fejlődik. Számos kutatási irány ígérkezik a pontosság és a képesség további javítására.

End-to-End multimodális modellek

A jelenlegi folyamatok minden modalitást külön-külön dolgoznak fel, mielőtt fúzionálnak. A feltörekvő multimodális architektúrák egyszerre dolgozzák fel a videót, az audiót és a szöveget egyetlen modellben. A Google Gemini és hasonló multimodális alapmodellek közvetlenül képesek videót fogadni és észlelni a modalitások között explicit köztes reprezentációk nélkül. Ezek a modellek ígéretesebbek, egyszerűbb folyamatokat és jobb keresztmodalitású érvelést kínálnak, bár jelentős számítási erőforrásokat igényelnek.

Procedurális megértés

A jelenlegi rendszerek egy lapos listát állítanak elő az összetevőkről és lépésekről. A jövőbeli rendszerek gazdagabb procedurális reprezentációkat fognak építeni, amelyek rögzítik a recept gráf szerkezetét: mely lépések függenek egymástól, mely összetevők használatosak mely szakaszban, és hogyan kombinálódnak az átmeneti eredmények. Ez a procedurális megértés lehetővé teszi a pontosabb táplálkozási számítást az összetevők átalakulásának nyomon követésével minden lépés során.

Személyre szabott táplálkozási becslés

Ahogy a receptkivonó rendszerek egyre több adatot dolgoznak fel, képesek lesznek megtanulni az egyes alkotók mintáit. Egy rendszer, amely 100 videót elemezett ugyanattól az alkotótól, megtanulja, hogy amikor ez az alkotó azt mondja, hogy „egy loccsanás olívaolaj”, általában körülbelül egy evőkanálnyit használ. Ez a személyre szabott kalibrálás jelentősen javítja a mennyiségbecslést.

Kulturális és regionális étel tudás

A receptkivonás kiterjesztése a globális konyhák teljes sokszínűségére mély kulturális ételtudást igényel. Tudni, hogy az „injera egy tányérral wottal” az etióp főzésben meghatározott arányokat követ, vagy hogy a „pho egy tál” a vietnami konyhában tipikus összetevő arányokkal rendelkezik, lehetővé teszi a rendszer számára, hogy megalapozott becsléseket végezzen, még akkor is, ha a kifejezett mennyiségek nincsenek megadva.

Gyakran Ismételt Kérdések

Mennyire pontos az AI receptkivonás a főzővideókból a szöveges recept manuális olvasásához képest?

A jelenlegi multimodális kivonási folyamatok 85-92%-os pontosságot érnek el az összetevők azonosításában és 75-85%-os pontosságot a mennyiségkivonásban, amikor a videó alkotói által írt valós receptekkel hasonlítják össze. A fő hibaforrás a mennyiségbecslés, amikor az alkotók nem adnak meg kifejezett méréseket. Összehasonlításképpen, a manuális átírás az emberi nézők által körülbelül 90-95%-os pontosságot ér el, ami azt jelenti, hogy az AI kivonás közelít az emberi szintű teljesítményhez ezen a területen. A Nutrola megvalósítása alacsony bizalommal bíró kivonások esetén felhasználói ellenőrzési lépést tartalmaz, amely a tényleges pontosságot 95% fölé emeli a gyakorlatban.

Mi történik, ha egy főzővideó nem állít kifejezett összetevőmennyiségeket?

Ha a mennyiségek nincsenek kifejezetten megadva a beszédben vagy a képernyőn megjelenő szövegben, a rendszer egy hierarchiát alkalmaz a becslési módszerekre. Először a videókép alapján próbálja meg a vizuális mennyiségbecslést mélységbecsléssel és referenciaobjektum méretezéssel. Másodszor, konzultál a tudásbázissal a tipikus mennyiségekről az adott ételtípushoz. Harmadszor, statisztikai átlagokat használ a korábban kivont receptekből azonos ételtípushoz. Az így kapott becslést alacsonyabb bizalom pontszámmal jelölik, és a Nutrola figyelmezteti a felhasználót, hogy a mennyiség becslés volt, nem pedig kifejezetten megadva.

Az AI képes receptet kivonni főzővideókból más nyelveken, mint az angol?

Igen. A modern ASR modellek, mint a Whisper, 915 nyelven támogatják az átírást, és az OCR rendszerek több írásmódot kezelnek, beleértve a latin, CJK, cirill, arab és devanagari írásmódokat. Az NLP elemző réteg több nyelven is működhet, bár a pontosság általában a legnagyobb a legnagyobb képzési adatokkal rendelkező nyelveken. A Whisper közvetlenül le tudja fordítani a nem angol beszédet angolra, lehetővé téve, hogy a további folyamat angolul működjön, még akkor is, ha a videók más nyelveken vannak. A Nutrola több mint 30 nyelven támogatja a receptkivonást videókból.

Hogyan kezeli a rendszer azokat a recepteket, ahol az alkotó helyettesítéseket vagy hibákat végez a felvétel során?

A videóelemzés időbeli természete valójában segít ebben a forgatókönyvben. Amikor egy alkotó azt mondja: „Azt terveztem, hogy vajat használok, de csak olívaolajom van”, a rendszer NLP rétege azonosítja a korrekciót, és a végső receptben olívaolajat használ, nem vajat. Hasonlóképpen, amikor egy alkotó hozzáad egy összetevőt, majd azt mondja: „túl sok, vegyek ki belőle”, a rendszer nyomon követi a korrekciót. A figyelem alapú modellek, amelyek a teljes átírást dolgozzák fel, képesek azonosítani ezeket az önkorrekciókat a módosításokkal kapcsolatos diskurzusminták felismerésével.

Mi a különbség a receptkivonás között videóból és weboldalról?

A webes receptkivonás elsősorban a strukturált adatok feldolgozására támaszkodik. A legtöbb receptweboldal schema.org recept markupot használ, amely gép által olvasható összetevőlistákat, mennyiségeket és utasításokat biztosít. A videós receptkivonás alapvetően nehezebb, mert az információk strukturálatlanok és eloszlanak az audio, vizuális és szöveges modalitások között, amelyeket össze kell fésülni. Azonban a videós kivonás előnye, hogy rögzíti az elkészítési részleteket és a vizuális mennyiségi jeleket, amelyek hiányoznak a szöveges receptekről. Sok alkotó tippeket, helyettesítéseket és kontextuális információkat is megoszt a narrációjukban, amelyek soha nem jelennek meg egy írásos receptben.

Hogyan befolyásolja a főzési módszer észlelése a kivont receptek táplálkozási pontosságát?

A főzési módszer észlelése jelentősen befolyásolja a táplálkozási pontosságot. A csirkemell olajban való sütése körülbelül 60-100 kalóriát ad hozzá a grillezett csirkemellhez képest, mivel az olaj felszívódik. A zöldségek főzése 30-50%-kal csökkentheti a C-vitamin tartalmukat. Az AI folyamat akciófelismerő modelleket használ a főzési módszerek (grillezés, sütés, főzés, párolás, nyers elkészítés) azonosítására, és alkalmazza az USDA tápanyagtartási tényezőit ennek megfelelően. Ez a főzési módszer tudatos számítás általában 10-15%-kal javítja a kalória becslés pontosságát a nyers összetevő értékek használatához képest.

Következtetés

A recept kivonása egy főzővideóból a mesterséges intelligencia szélesebb kihívásának mikrokörnyezetét jelenti: az strukturálatlan, multimodális, valós információk értelmezését. Olyan beszédfelismerésre van szükség, amely zajos konyhákban működik, számítógépes látásra, amely képes azonosítani a számos összetevőt különböző elkészítési állapotokban, OCR-re, amely olvassa a stilizált szöveget zsúfolt háttér előtt, és NLP-re, amely mindezt egy koherens táplálkozási képpé fűzi össze.

A cikkben leírt folyamat, a Whisper-alapú átírástól a CLIP-alapú vizuális felismerésen át a LLM-alapú recept struktúrázásig, a jelenlegi csúcsot képviseli. Minden egyes komponens évek gépi tanulás kutatásának eredményeire épít, a CNN-ek és RNN-ek alapvető munkáitól kezdve a transzformer forradalomig, amely egyesítette az NLP-t és a számítógépes látást egyetlen architekturális paradigmában.

A Nutrola ezen folyamat megvalósítása a kutatási előrelépéseket a mindennapi használatba hozza. Azáltal, hogy automatikusan kivonja a recepteket a felhasználók által már nézett főzővideókból, megszünteti a szakadékot a recept felfedezése és táplálkozási hatásának megértése között. Az eredmény egy táplálkozási nyomon követési élmény, amely a felhasználók igényeihez igazodik, és a passzív videófogyasztást aktív táplálkozási tudatossággá alakítja, anélkül, hogy manuális adatbevitelt igényelne.

Ahogy a multimodális AI modellek tovább fejlődnek, a receptkivonás pontossága és sebessége csak növekedni fog. Az a vízió, hogy a telefonodat bármilyen főzési tartalomra irányítva azonnal egy teljes táplálkozási bontást kapj, már nem csupán kutatási vágyálom. Ez egy működő technológia, amely minden egyes előrelépéssel egyre jobbá válik az alapjául szolgáló tudományban.

Készen állsz a táplálkozásod nyomon követésének átalakítására?

Csatlakozz ezrekhez, akik a Nutrolával átalakították az egészségügyi útjukat!