Věda za extrakcí receptů pomocí AI: Jak NLP a počítačové vidění čtou kuchařské videa

Objevte technický proces, který umožňuje AI extrahovat recepty z kuchařských videí, kombinující převod řeči na text, OCR, vizuální rozpoznávání ingrediencí a NLP pro automatické generování přesných nutričních dat.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Kuchařská videa se stala dominantním formátem pro sdílení receptů. Na YouTube se každý měsíc zhlédne více než 1 miliarda kuchařských videí, obsah na TikToku generuje desítky miliard zhlédnutí ročně a Instagram Reels proměnil každého domácího kuchaře v potenciálního tvůrce obsahu. Přesto stále existuje mezera mezi sledováním receptu a skutečným porozuměním jeho nutričním hodnotám.

Zavření této mezery vyžaduje vícestupňový AI proces, který kombinuje automatické rozpoznávání řeči, optické rozpoznávání znaků, počítačové vidění a zpracování přirozeného jazyka. Tento článek rozebírá každý krok technického procesu, vysvětluje modely a výzkum, které to umožňují, a zkoumá, jak se tyto technologie spojují, aby přetvořily kuchařské video na strukturovaná nutriční data.

Problém extrakce receptu: Proč jsou videa složitá

Textové recepty na webových stránkách jsou relativně snadno zpracovatelné. Následují předvídatelné struktury s seznamy ingrediencí, množstvími a krok za krokem instrukcemi. HTML značkování a schema.org anotace receptů poskytují další strojově čitelnou strukturu.

Kuchařská videa představují zásadně jinou výzvu. Informace o receptech jsou rozptýleny napříč několika modality současně:

  • Mluvený komentář popisuje ingredience, množství a techniky
  • Text na obrazovce zobrazuje seznamy ingrediencí, teploty a časování
  • Vizuální obsah ukazuje, jak se ingredience přidávají, míchají a transformují
  • Implicitní znalosti předpokládají, že diváci chápou nevyřčené kroky, jako je předehřívání trouby nebo proplachování rýže

Žádná jednotlivá modality neobsahuje kompletní recept. Tvorce může říct „přidejte trochu olivového oleje“, zatímco na obrazovce se zobrazuje viditelný nalévání, které naznačuje přibližně dvě polévkové lžíce, a později se na obrazovce objeví text „2 lžíce olivového oleje“. Extrakce kompletního receptu vyžaduje spojení informací ze všech těchto zdrojů a vyřešení konfliktů mezi nimi.

Vícečetná extrakční pipeline

Celý proces od surového videa k strukturovaným nutričním datům zahrnuje pět hlavních fází:

Fáze Vstup Technologie Výstup
1. Extrakce zvuku Video soubor ASR (Whisper) Časově označený přepis
2. Extrakce vizuálního textu Rámce videa OCR (PaddleOCR, EasyOCR) Text na obrazovce s časovými značkami
3. Rozpoznávání vizuálních ingrediencí Rámce videa CNN/Vision Transformers (CLIP, ViT) Identifikované ingredience a akce
4. NLP parsování a fúze Přepis + OCR + vizuální data Transformer modely (BERT, LLMs) Strukturovaný recept s množstvími
5. Shoda s nutriční databází Strukturovaný recept Fuzzy shoda + vyhledávání v databázi Kompletní nutriční rozbor

Každá fáze představuje specifické technické výzvy a čerpá z různých oblastí výzkumu strojového učení.

Fáze 1: Automatické rozpoznávání řeči pro komentář receptu

Prvním krokem při extrakci receptu z kuchařského videa je převod mluveného komentáře na text. To je doménou automatického rozpoznávání řeči, tedy ASR.

Revoluce Whisper

Model Whisper od OpenAI, představený v roce 2022 Radfordem a jeho týmem, zásadně změnil oblast převodu řeči na text pro extrakci receptů. Trénovaný na 680 000 hodinách vícejazyčných a multitaskových supervizovaných dat shromážděných z webu, Whisper dosáhl téměř lidské úrovně přesnosti přepisu napříč širokým spektrem zvukových podmínek.

Co činí Whisper obzvlášť cenným pro přepis kuchařských videí:

Odolnost vůči šumu. Kuchyňská prostředí jsou hlučná. Sizzling pánve, tekoucí voda, zvuky krájení a hudba v pozadí soutěží s hlasem vypravěče. Trénink Whisper na různorodých zvukových podmínkách znamená, že lépe zvládá tyto překrývající se zvukové zdroje než předchozí ASR modely.

Vícejazyčná schopnost. Kuchařská videa se produkují prakticky ve všech jazycích. Whisper podporuje přepis v 915 jazycích a může provádět překlad do angličtiny, což umožňuje extrakci receptů z obsahu bez ohledu na původní jazyk.

Interpunkce a formátování. Na rozdíl od dřívějších ASR systémů, které produkovaly ploché proudy textu, Whisper generuje interpunkcí a formátované přepisy, které zachovávají hranice vět. Tato struktura je kritická pro následné NLP parsování.

Časové značky na úrovni slov. Whisper může produkovat časové značky na úrovni slov, což umožňuje přesné sladění mezi tím, co je řečeno, a tím, co je zobrazeno na obrazovce v daném okamžiku.

Výzvy specifické pro kuchařský komentář

I s možnostmi Whisperu představují kuchařská videa výzvy ASR, které se neobjevují v běžných benchmarkech rozpoznávání řeči:

Odborná slovní zásoba. Názvy ingrediencí zahrnují tisíce položek napříč světovými kuchyněmi. Termíny jako „gochujang“, „za'atar“, „tahini“ nebo „panko“ se nemusí často objevovat v obecných tréninkových datech. Specializované modely potravinové slovní zásoby nebo post-processingové slovníky jsou nezbytné k opravě systematických chyb rozpoznávání.

Nejasnost množství. Mluvená množství jsou často nepřesná. „Dobré množství soli“, „šplouchnutí octa“ nebo „tak nějak mouky“ vyžadují kontextuální interpretaci, která přesahuje pouhý přepis.

Kódování. Mnoho kuchařských tvůrců přepíná mezi jazyky, používaje angličtinu pro obecný komentář, ale svůj rodný jazyk pro názvy pokrmů nebo tradiční techniky. Vícejazyčné ASR musí tyto přechody zvládat s elegancí.

Neverbální komunikace. Tvorce může ukázat na ingredienci, aniž by ji pojmenoval, nebo říct „tohle“, zatímco drží láhev. Tyto deiktické odkazy vyžadují křížovou modalitu s vizuálním proudem.

Post-processing přepisu

Surový výstup ASR vyžaduje několik post-processingových kroků, než bude užitečný pro extrakci receptu:

  1. Oprava potravinových entit používá doménově specifický slovník k opravě běžných chyb rozpoznávání (např. „kmín“ slyšený jako „přicházející“)
  2. Normalizace množství převádí mluvená čísla a zlomky do standardizovaných číselných formátů
  3. Segmentace dělí kontinuální přepis na logické kroky receptu na základě časových pauz, přechodových frází a hranic sloves
  4. Filtrace důvěry identifikuje a označuje segmenty s nízkou důvěrou pro potenciální křížovou modalitu ověření

Fáze 2: Optické rozpoznávání znaků pro text na obrazovce

Mnoho kuchařských videí zobrazuje seznamy ingrediencí, měření, teploty a instrukce jako textové překryvy na obrazovce. Tento text je často přesnější než mluvený komentář a následuje standardizovanější formátování.

Jak funguje OCR na rámcích videa

Extrahování textu z rámců videa zahrnuje dva podúkoly: detekci textu (nalezení, kde se text objevuje v rámci) a rozpoznávání textu (čtení toho, co text říká).

Detekce textu lokalizuje oblasti v obraze, které obsahují text. Moderní detektory jako CRAFT (Character Region Awareness for Text Detection) a DBNet (Differentiable Binarization Network) mohou identifikovat text bez ohledu na orientaci, velikost nebo složitost pozadí. Tyto modely produkují ohraničující rámečky nebo polymery kolem textových oblastí.

Rozpoznávání textu převádí detekované oblasti textu na řetězce znaků. Architektury založené na konvolučních a rekurentních neuronových sítích, často s CTC (Connectionist Temporal Classification) dekódováním, zpracovávají oříznuté oblasti textu a produkují sekvence znaků. Novější přístupy používají architektury založené na transformátorech pro zlepšení přesnosti u stylizovaných písem.

Specifické výzvy OCR v kuchařských videích

Text na obrazovce v kuchařských videích se značně liší od textu dokumentů, pro které jsou většina OCR systémů optimalizována:

Animované textové překryvy. Text se často animuje dovnitř a ven, což vyžaduje časovou agregaci napříč několika rámci, aby se zachytil kompletní text. Posuvná animace může odhalit text po jednotlivých znacích během několika rámců.

Dekorativní písma. Tvůrci obsahu často používají stylizovaná, ručně psaná nebo dekorativní písma, která se liší od čistých typografických písem v standardních tréninkových datech OCR. Doladění na kuchařských specifických fontech zlepšuje míru rozpoznávání.

Složitá pozadí. Text je často překryt na rušných vizuálních pozadích, která zobrazují jídlo, kuchyně a ruce. Vysoký kontrast mezi textem a pozadím nelze předpokládat. Detekce textového obrysu, stínu a rozmazání pozadí pomáhá izolovat textovou vrstvu.

Vícejazyčné a smíšené skripty. Jeden rámec může obsahovat text v několika skriptech, jako jsou anglické měření vedle japonských názvů pokrmů. Modely OCR pro vícejazyčné skripty nebo detekce skriptů následované jazykově specifickými rozpoznávacími procesy se s touto variací vyrovnávají.

Časová deduplikace a agregace

Protože jsou rámce videa vzorkovány několikrát za sekundu, stejný text na obrazovce bude detekován napříč mnoha po sobě jdoucími rámci. OCR pipeline musí:

  1. Vzorkovat rámce v odpovídající frekvenci (typicky 1 až 2 rámce za sekundu pro detekci textu)
  2. Sledovat textové oblasti napříč rámci, aby identifikovala trvalý versus přechodný text
  3. Deduplikovat opakované detekce stejného textu
  4. Sloučit částečné detekce z animovaných textových odhalení
  5. Přiřadit každému textovému prvku jeho časové okno pro pozdější fúzi s audio a vizuálními daty

Výstup této fáze je časově označený seznam prvků textu na obrazovce, každý spojený s jeho dobou viditelnosti a prostorovou polohou v rámci.

Fáze 3: Rozpoznávání vizuálních ingrediencí pomocí počítačového vidění

Kromě textu obsahuje vizuální obsah kuchařského videa bohaté informace o ingrediencích, množstvích a metodách přípravy. Modely počítačového vidění mohou identifikovat ingredience, jak se objevují, odhadovat množství na základě vizuálních indicií a rozpoznávat kuchařské akce.

Rozpoznávání ingrediencí s Vision Transformers a CLIP

Moderní rozpoznávání vizuálních ingrediencí staví na dvou klíčových pokrocích: Vision Transformers (ViT) a kontrastivním jazykově-obrazovém předtrénování (CLIP).

Vision Transformers, představené Dosovitským a jeho týmem v roce 2020, aplikují architekturu transformátoru na rozpoznávání obrazů. Místo použití konvolučních vrstev ViT rozděluje obraz na části a zpracovává je jako sekvenci, podobně jako transformátory zpracovávají slova ve větě. Tento přístup se ukázal jako obzvlášť efektivní pro úkoly jemného vizuálního rozpoznávání, jako je identifikace ingrediencí, kde malé rozdíly v barvě, textuře a tvaru rozlišují podobné položky.

CLIP, vyvinutý Radfordem a jeho týmem v OpenAI v roce 2021, se učí vizuální koncepty z přirozeného jazykového dozoru. Trénovaný na 400 milionech párů obrázků a textů, CLIP dokáže rozpoznat objekty popsané v textu, aniž by byl explicitně trénován na označené příklady těchto objektů. Pro rozpoznávání ingrediencí to znamená, že systém založený na CLIP může identifikovat ingredienci, i když nebyla v tréninkovém souboru, pokud dokáže porovnat vizuální vzhled s textovým popisem.

Praktickou výhodou CLIP pro extrakci receptů je jeho schopnost zero-shot a few-shot. Jídlo zahrnuje obrovskou rozmanitost ingrediencí, příprav a kulturních prezentací. Tradiční klasifikační model by potřeboval označené tréninkové příklady pro každou ingredienci v každém stavu přípravy. CLIP může generalizovat z jeho širokého předtrénování, aby rozpoznal nové ingredience popsané v textové formě.

Rozpoznávání kuchařských akcí

Identifikace toho, jaké akce se provádějí, je stejně důležitá jako identifikace samotných ingrediencí. Rozpoznávání akcí říká systému, zda se ingredience krájí, restují, mixují nebo pečou, což přímo ovlivňuje konečný nutriční obsah.

Výzkum v rozpoznávání akcí ve videích vyprodukoval modely, které analyzují časové sekvence rámců pro klasifikaci akcí. Přístupy jako SlowFast sítě (Feichtenhofer et al., 2019) zpracovávají video ve dvou časových rozlišeních současně: pomalá cesta zachycuje prostorové detaily, zatímco rychlá cesta zachycuje pohyb. Aplikované na kuchařská videa mohou tyto modely rozlišovat mezi mícháním, šleháním, skládáním a hnětením, z nichž každé má různé důsledky pro strukturu receptu.

Datasety Food-101 a Recipe1M+ (Marin et al., 2019) byly zásadní pro trénink a hodnocení modelů počítačového vidění specifických pro jídlo. Recipe1M+ obsahuje více než 1 milion kuchařských receptů s 13 miliony obrázků jídla, což poskytuje měřítko potřebné k trénování modelů, které se generalizují napříč kuchyněmi a styly přípravy.

Odhad vizuálního množství

Jedním z nejnáročnějších aspektů vizuální extrakce receptů je odhadování množství ingrediencí z videa. Když tvůrce nalévá olej do pánve nebo nabírá mouku do mísy, vizuální informace obsahují indície o množství, ale převod těchto indicií na přesná měření vyžaduje sofistikované prostorové uvažování.

Současné přístupy kombinují:

  • Měřítko referenčního objektu: Použití známých objektů v rámci (standardní hrnce, odměrné šálky, krájecí desky) k určení měřítka
  • Odhad objemu z dynamiky nalévání: Analyzování doby a rychlosti toku nalévaných tekutin k odhadu objemu
  • Odhad hloubky: Monokulární modely odhadu hloubky jako MiDaS (Ranftl et al., 2020) mohou odhadnout hloubku ingrediencí v nádobách, což pomáhá odhadnout objem z 2D obrázku
  • Srovnávací učení: Modely trénované na párových obrázcích známých množství se učí odhadovat množství vizuálním porovnáním

Odhad vizuálního množství zůstává méně přesný než explicitní měření z řeči nebo textu, obvykle dosahuje přesnosti v rozmezí 20 až 30 procent. Nicméně poskytuje užitečné křížové ověření a vyplňuje mezery, když množství nejsou explicitně uvedena.

Fáze 4: Zpracování přirozeného jazyka pro parsování a fúzi receptů

S přepisy, textem na obrazovce a vizuálními anotacemi v ruce čelí fáze NLP úkolu fúze těchto multimodálních signálů do jednoho koherentního, strukturovaného receptu.

Rozpoznávání pojmenovaných entit pro potraviny

Prvním úkolem NLP je identifikovat potravinové entit v přepisu a OCR textu. To je specializovaná forma rozpoznávání pojmenovaných entit (NER), která musí identifikovat:

  • Ingredience: „kuřecí prsa“, „extra panenský olivový olej“, „košer sůl“
  • Množství: „dva šálky“, „350 gramů“, „špetka“
  • Jednotky: „polévkové lžíce“, „mililitry“, „střední“
  • Přípravy modifikátory: „nakrájené“, „sekané“, „pokojová teplota“
  • Kuchařské akce: „restovat“, „péct při 375“, „vařit 20 minut“
  • Vybavení: „litinová pánev“, „stojanový mixér“, „plech na pečení“

Modely NER založené na transformátorech, které byly doladěny na potravinových korpusech, dosahují F1 skóre nad 90 procent na standardních potravinových NER benchmarkech. Korpus FoodBase (Popovski et al., 2019) a dataset TASTEset poskytují anotovaný potravinový text speciálně pro trénink těchto modelů.

Závislostní analýza pro asociaci ingredience a množství

Identifikace entit sama o sobě nestačí. Systém musí určit, která množství patří ke kterým ingrediencím. Ve větě „Přidejte dva šálky mouky a lžičku soli“ musí systém správně přiřadit „dva šálky“ k „mouce“ a „lžičku“ k „soli“.

To vyžaduje závislostní analýzu, která analyzuje gramatickou strukturu vět, aby identifikovala vztahy mezi slovy. Moderní závislostní analyzátory založené na architektuře BERT (Devlin et al., 2019) zvládají syntaktickou složitost kuchařských instrukcí, včetně složených popisů ingrediencí jako „čerstvě vymačkaná citronová šťáva“ a vnořených modifikátorů jako „jedna plechovka o hmotnosti 14 uncí nakrájených rajčat“.

Křížová fúze: Řešení konfliktů a vyplňování mezer

Nejtechnicky náročnějším aspektem fáze NLP je fúze informací ze všech tří modalit (audio, text, vizuální) do jednoho konzistentního receptu. Tato fúze musí zvládat:

Posílení shody. Když přepis říká „dva polévkové lžíce sójové omáčky“, text na obrazovce zobrazuje „2 lžíce sójové omáčky“ a vizuální proud ukazuje tmavou tekutinu, která se nalévá, všechny tři zdroje souhlasí a systém má vysokou důvěru.

Řešení konfliktů. Když přepis říká „šálek cukru“, ale text na obrazovce říká „3/4 šálku cukru“, systém musí rozhodnout, kterému zdroji důvěřovat. Obecně je upřednostňován text na obrazovce pro přesná měření, protože tvůrci obvykle přidávají textové překryvy jako opravy nebo objasnění k jejich vyprávění.

Vyplňování mezer. Když vypravěč říká „ochutnejte podle chuti“ bez specifikace množství, systém může použít vizuální odhad akce koření v kombinaci s databázovými znalostmi o typických množstvích koření pro daný typ pokrmu, aby odvodil rozumné hodnoty.

Časové sladění. Sladění informací napříč modalitami vyžaduje časové sladění. Odkaz na ingredienci v mluveném slově v časovém razítku 2:34 by měl být sladěn s textem na obrazovce viditelným od 2:30 do 2:40 a vizuálním rozpoznáváním ingrediencí ze stejného časového okna. Mechanismy dynamického časového warping a založené na pozornosti se vyrovnávají s nepřesnou synchronizací mezi řečí, textem a vizuálními událostmi.

Velké jazykové modely pro strukturování receptů

Nedávné pokroky ve velkých jazykových modelech (LLMs) představily mocný nový přístup k strukturování receptů. Místo budování samostatných modelů pro NER, závislostní analýzu a fúzi může LLM zpracovat kombinovaný přepis a výstup OCR a generovat strukturovaný recept v jednom průchodu.

Model dostává prompt obsahující přepis, text OCR a popisy vizuálních pozorování, spolu s instrukcemi pro výstup strukturovaného receptu v definovaném formátu. LLM excelují v tomto úkolu, protože kódují rozsáhlé světové znalosti o vaření, včetně typických množství ingrediencí, běžných kombinací ingrediencí a standardních technik přípravy.

Tento přístup má několik výhod:

  • Přirozeně se vyrovnává s nejasnostmi tím, že čerpá ze světových znalostí
  • Řeší ko-referenci (např. pochopení, že „to“ ve větě „míchejte to občas“ odkazuje na omáčku zmíněnou tři věty zpět)
  • Může odvodit nevyřčené kroky na základě znalostí o vaření
  • Normalizuje názvy ingrediencí na kanonické formy vhodné pro vyhledávání v databázi

Hlavním omezením je, že výstupy LLM vyžadují validaci. Musí se chránit proti halucinacím, kdy model generuje pravděpodobné, ale nesprávné informace, prostřednictvím křížového ověřování se zdrojovými modalitami a omezeními nutriční databáze.

Fáze 5: Shoda a výpočet nutriční databáze

Poslední fáze transformuje strukturovaný recept na kompletní nutriční rozbor. To vyžaduje přiřazení každé extrahované ingredience k položce v komplexní nutriční databázi a výpočet nutričních hodnot na porci.

Výzva shody

Názvy ingrediencí extrahované z kuchařských videí se zřídka shodují přesně s položkami v databázi. Video může odkazovat na „velkou hrst baby špenátu“, zatímco databáze obsahuje položky pro „špenát, syrový“ měřené v gramech. Systém shody musí zvládat:

  • Řešení synonym: „koriandr“ a „listy koriandru“ jsou stejná ingredience
  • Mapování stavu přípravy: „pečené mandle“ se mapují na jiný nutriční profil než „syrové mandle“
  • Normalizace značky a odrůdy: „Barilla penne“ se mapuje na „těstoviny, penne, suché“ s úpravami specifickými pro značku
  • Kolokviální k technickému překladu: „tyč másla“ se mapuje na „máslo, slané, 113g“
  • Převod jednotek: „šálek mouky“ musí být převeden na gramy pomocí hodnot hustoty specifických pro ingredience, protože šálek mouky váží přibližně 120g, zatímco šálek cukru váží přibližně 200g

Algoritmy fuzzy shody jako Levenshteinova vzdálenost a TF-IDF kosinová podobnost poskytují základní shodu. Pokročilejší přístupy používají podobnost založenou na embeddingu, kde jsou jak extrahovaný text ingredience, tak položky databáze kódovány do vektorových reprezentací pomocí modelů jako Sentence-BERT (Reimers a Gurevych, 2019), a nejbližší shoda v embeddingovém prostoru je vybrána.

Nutriční databáze a jejich pokrytí

Několik hlavních nutričních databází slouží jako základ pro nutriční výpočty:

Databáze Pokrytí Udržováno Klíčová síla
USDA FoodData Central 370 000+ potravin Ministerstvo zemědělství USA Komplexní nutriční profily
Open Food Facts 3 000 000+ produktů Komunitní přispěvatelé Globální pokrytí balených potravin
COFID (McCance a Widdowson) 3 000+ potravin Úřad pro standardy potravin ve Velké Británii Kompozice potravin specifické pro Velkou Británii
Australská databáze složení potravin 2 500+ potravin Standardy potravin Austrálie a Nový Zéland Regionální pokrytí potravin

Robustní systém extrakce receptů dotazuje více databází a aplikuje vážené průměrování důvěry, když se položky liší. Pro potraviny, které se nenacházejí ve standardních databázích, může systém odhadnout nutriční obsah rozložením potraviny na její složkové ingredience a sečtením jejich individuálních příspěvků.

Zohlednění kuchařských transformací

Kritickou nuancí, která odděluje přesné od přibližného nutričního výpočtu, je zohlednění kuchařských transformací. Když se jídlo vaří, jeho nutriční obsah se mění:

  • Ztráta vody: Maso ztrácí 20 až 35 procent své hmotnosti během vaření, což koncentruje živiny na gram vařeného jídla
  • Absorpce tuku: Smažená jídla absorbují kuchyňský olej, což přidává kalorie, které nejsou součástí profilu syrové ingredience
  • Degradace živin: Vitamíny citlivé na teplo, jako je vitamin C a vitamíny skupiny B, se během vaření degradují
  • Gelatinace škrobu: Vaření mění glykemický index škrobových potravin
  • Vylučování tuku: Vaření tučných mas způsobuje, že tuk se vylučuje, což snižuje kalorický obsah konzumované porce

USDA poskytuje faktory retence pro běžné živiny napříč různými metodami vaření. Aplikací těchto faktorů na nutriční hodnoty syrových ingrediencí se produkuje přesnější odhad konečného vařeného pokrmu.

Nutrola's nutriční engine zahrnuje tyto modely kuchařských transformací, přizpůsobující hodnoty databáze syrových ingrediencí na základě metod vaření identifikovaných během analýzy videa. Když systém detekuje, že kuře se griluje místo smažení, aplikuje příslušné faktory ztráty vlhkosti a retence tuku, aby vytvořil přesný odhad kalorií pro hotový pokrm.

Jak Nutrola implementuje tento proces

Nutrola přináší tento vícestupňový technický proces do praktického uživatelského zážitku. Když uživatel sdílí kuchařské video nebo vloží odkaz na video receptu, backend Nutrola zpracovává video prostřednictvím výše popsané extrakční pipeline a vrací strukturovaný recept s kompletními nutričními daty.

Praktická implementace zahrnuje několik inženýrských rozhodnutí, která vyvažují přesnost, rychlost a uživatelský zážitek:

Selektivní vzorkování rámců. Místo zpracovávání každého rámce systém Nutrola identifikuje klíčové rámy, kde dochází k významným vizuálním změnám, jako je objevování nových ingrediencí, změny kuchařských akcí nebo aktualizace textu na obrazovce. To snižuje výpočetní náklady o 80 až 90 procent, zatímco zachycuje relevantní vizuální informace.

Skórování důvěry. Každý extrahovaný prvek nese skóre důvěry odvozené z shody napříč modalitami. Ingredience potvrzené řečí, textem a vizuálním rozpoznáváním dostávají vysokou důvěru. Ingredience detekované pouze jednou modalitou jsou označeny pro ověření uživateli.

Uživatelský korekční cyklus. Když je systém nejistý ohledně ingredience nebo množství, představí svůj nejlepší odhad uživateli s možností opravy. Tyto opravy se vracejí do modelu a zlepšují přesnost extrakce v průběhu času prostřednictvím procesu učení s lidským zásahem.

Validace založená na databázi. Extrahované recepty jsou validovány proti nutričním plausibilitním omezením. Pokud systém extrahuje množství, které by vedlo k nepravděpodobně vysokému nebo nízkému kalorickému počtu pro daný typ pokrmu, označuje extrakci k přezkoumání.

Tento přístup proměňuje pasivní zážitek ze sledování kuchařského videa na akční nutriční data, která se přímo integrují do každodenního sledování uživatele. Místo manuálního vyhledávání každé ingredience a odhadování porcí dostávají uživatelé kompletní nutriční rozbor odvozený přímo z obsahu videa.

Výzkumná hranice: Co přijde dál

Oblast multimodální extrakce receptů se rychle vyvíjí. Několik výzkumných směrů slibuje další zlepšení přesnosti a schopností.

End-to-End multimodální modely

Současné pipeline zpracovávají každou modalitu odděleně před jejich fúzí. Nově vznikající multimodální architektury zpracovávají video, audio a text současně v jednom modelu. Multimodální základní modely jako Google Gemini mohou přímo přijímat video a uvažovat napříč modalitami bez explicitních mezilehlých reprezentací. Tyto modely slibují jednodušší pipeline a lepší křížové modalitní uvažování, i když vyžadují značné výpočetní zdroje.

Procedurální porozumění

Současné systémy extrahují plochý seznam ingrediencí a kroků. Budoucí systémy budou budovat bohatší procedurální reprezentace, které zachycují grafovou strukturu receptu: které kroky závisí na kterých dalších, které ingredience se používají v jaké fázi a jak se kombinují mezilehlé výsledky. Toto procedurální porozumění umožňuje přesnější nutriční výpočty sledováním toho, jak se ingredience transformují v průběhu každého kroku.

Personalizované nutriční odhady

Jak systémy extrakce receptů zpracovávají více dat, mohou se naučit individuální vzorce tvůrců. Systém, který analyzoval 100 videí od stejného tvůrce, se naučí, že když tento tvůrce říká „šplouchnutí olivového oleje“, obvykle používá přibližně jednu polévkovou lžíci. Tato personalizovaná kalibrace výrazně zlepšuje odhad množství.

Kulturní a regionální znalosti o jídle

Rozšíření extrakce receptů na plnou rozmanitost globálních kuchyní vyžaduje hluboké kulturní znalosti o jídle. Vědět, že „talíř injery s wot“ v etiopské kuchyni následuje specifické proporční konvence, nebo že „miska pho“ ve vietnamské kuchyni má typické poměry ingrediencí, umožňuje systému provádět informované odhady, i když explicitní množství nejsou uvedena.

Často kladené otázky

Jak přesná je extrakce receptů AI z kuchařských videí ve srovnání s manuálním čtením textového receptu?

Současné multimodální extrakční pipeline dosahují 85 až 92 procent přesnosti při identifikaci ingrediencí a 75 až 85 procent přesnosti při extrakci množství ve srovnání se skutečnými recepty napsanými tvůrci videí. Hlavním zdrojem chyb je odhad množství, když tvůrci neuvádějí explicitní měření. Pro srovnání, manuální přepis od lidských diváků dosahuje přibližně 90 až 95 procent přesnosti, což znamená, že extrakce AI se blíží lidské úrovni výkonu pro tento úkol. Implementace Nutrola zahrnuje krok ověření uživatelem pro extrakce s nízkou důvěrou, což zvyšuje efektivní přesnost nad 95 procent v praxi.

Co se stane, když kuchařské video neuvádí explicitní množství ingrediencí?

Když nejsou explicitně uvedena množství v řeči nebo textu na obrazovce, systém se uchyluje k hierarchii odhadovacích metod. Nejprve se pokouší o vizuální odhad množství z rámců videa pomocí odhadu hloubky a měřítka referenčních objektů. Poté se konzultuje znalostní základna typických množství pro daný typ pokrmu. Nakonec se používají statistické průměry z dříve extrahovaných receptů stejného pokrmu. Výsledný odhad je označen nižším skóre důvěry a Nutrola jej uživateli představí s poznámkou, že množství bylo odhadnuto, nikoli explicitně uvedeno.

Může AI extrahovat recepty z kuchařských videí v jiných než anglických jazycích?

Ano. Moderní ASR modely jako Whisper podporují přepis v 915 jazycích a OCR systémy zvládají více skriptů včetně latinky, CJK, cyrilice, arabštiny a devanagari. Vrstva NLP parsování může fungovat v několika jazycích, i když přesnost je obecně nejvyšší pro jazyky s nejvíce tréninkovými daty. Whisper také může přímo překládat neanglickou řeč do angličtiny, což umožňuje downstream pipeline fungovat v angličtině i pro videa v jiných jazycích. Nutrola podporuje extrakci receptů z videí ve více než 30 jazycích.

Jak systém zachází s recepty, kde tvůrce během natáčení provádí substituce nebo chyby?

Časová povaha analýzy videa ve skutečnosti pomáhá v této situaci. Když tvůrce říká „Chtěl jsem použít máslo, ale mám jen olivový olej“, vrstva NLP systému identifikuje opravu a používá olivový olej místo másla v konečném receptu. Podobně, když tvůrce přidá ingredienci a pak říká „vlastně, to je příliš mnoho, nechám si to trochu ven“, systém sleduje opravu. Modely založené na pozornosti, které zpracovávají celý přepis, mohou identifikovat tyto seberevize tím, že rozpoznají diskursní vzory spojené s revizemi.

Jaký je rozdíl mezi extrakcí receptů z videa a extrakcí receptů z webové stránky?

Webová extrakce receptů primárně spoléhá na strukturované zpracování dat. Většina webových stránek s recepty používá schema.org Recipe markup, který poskytuje strojově čitelný seznam ingrediencí, množství a instrukce. Extrakce receptů z videa je zásadně obtížnější, protože informace jsou nestrukturované a rozptýlené napříč audio, vizuálními a textovými modalitami, které musí být fúzovány. Nicméně, extrakce videa má výhodu v zachycení detailů přípravy a vizuálních indicií množství, které chybí v textových receptech. Mnoho tvůrců také sdílí tipy, substituce a kontextové informace ve svém vyprávění, které se nikdy neobjeví v písemném receptu.

Jak detekce metod vaření ovlivňuje nutriční přesnost extrahovaných receptů?

Detekce metod vaření má významný dopad na nutriční přesnost. Smažení kuřecího prsa v oleji přidává přibližně 60 až 100 kalorií ve srovnání s grilováním stejného prsa kvůli absorpci oleje. Vaření zeleniny může snížit obsah vitaminu C o 30 až 50 procent. AI pipeline používá modely rozpoznávání akcí k identifikaci metod vaření (grilování, smažení, pečení, vaření, syrová příprava) a aplikuje faktory retence živin USDA odpovídajícím způsobem. Tento výpočet s ohledem na metodu vaření obvykle zlepšuje přesnost odhadu kalorií o 10 až 15 procent ve srovnání s použitím hodnot syrových ingrediencí.

Závěr

Extrahování receptu z kuchařského videa je mikrokosmem širšího problému v oblasti umělé inteligence: dávat smysl nestrukturovaným, multimodálním, reálným informacím. Vyžaduje rozpoznávání řeči, které funguje v hlučných kuchyních, počítačové vidění, které dokáže identifikovat stovky ingrediencí v různých stádiích přípravy, OCR, které čte stylizovaný text na přeplněných pozadích, a NLP, které fúzuje to vše do koherentního nutričního obrazu.

Pipeline popsaná v tomto článku, od přepisu založeného na Whisper přes vizuální rozpoznávání poháněné CLIP až po strukturování receptů založené na LLM, představuje současný stav techniky. Každá komponenta staví na letech výzkumu strojového učení, od základní práce na CNN a RNN až po revoluci transformátorů, která sjednotila NLP a počítačové vidění pod jednu architektonickou paradigmu.

Implementace Nutrola této pipeline přináší tyto výzkumné pokroky do každodenního použití. Automatickou extrakcí receptů z kuchařských videí, které uživatelé již sledují, eliminuje mezeru mezi objevováním receptu a porozuměním jeho nutričnímu dopadu. Výsledkem je zážitek ze sledování výživy, který splňuje potřeby uživatelů tam, kde již jsou, a proměňuje pasivní konzumaci videa na aktivní povědomí o výživě, aniž by vyžadoval manuální zadávání dat.

Jak multimodální AI modely pokračují v zlepšování, přesnost a rychlost extrakce receptů se pouze zvýší. Vize ukázat telefon na jakýkoli kuchařský obsah a okamžitě obdržet kompletní nutriční rozbor již není výzkumnou aspirací. Je to funkční technologie, která se zlepšuje s každým pokrokem v základní vědě.

Připraveni proměnit sledování výživy?

Přidejte se k tisícům, kteří svou cestu ke zdraví proměnili s Nutrola!