Nauka stojąca za wydobywaniem przepisów AI: Jak NLP i wizja komputerowa analizują filmy kulinarne

14 marca 2026

Poznaj techniczny proces, który pozwala AI wydobywać przepisy z filmów kulinarnych, łącząc rozpoznawanie mowy, OCR, wizualne rozpoznawanie składników i NLP, aby automatycznie generować dokładne dane żywieniowe.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Filmy kulinarne stały się dominującym formatem dzielenia się przepisami. Tylko na YouTube co miesiąc odnotowuje się ponad 1 miliard wyświetleń filmów kulinarnych, treści kulinarne na TikToku generują dziesiątki miliardów wyświetleń rocznie, a Instagram Reels przekształcił każdego domowego kucharza w potencjalnego twórcę treści. Mimo to istnieje trwała luka między oglądaniem przepisu a poznawaniem jego rzeczywistej wartości odżywczej.

Aby wypełnić tę lukę, potrzebny jest wieloetapowy proces AI, który łączy automatyczne rozpoznawanie mowy, optyczne rozpoznawanie znaków, wizję komputerową oraz przetwarzanie języka naturalnego. W tym artykule omówimy każdy etap technicznego procesu, wyjaśnimy modele i badania, które to umożliwiają, oraz zbadamy, jak te technologie łączą się, aby przekształcić film kulinarny w uporządkowane dane żywieniowe.

Problem wydobywania przepisów: Dlaczego filmy są trudne

Tekstowe przepisy na stronach internetowych są stosunkowo łatwe do przetworzenia. Mają przewidywalne struktury z listami składników, ilościami i instrukcjami krok po kroku. Oznaczenia HTML i adnotacje schemy.org dla przepisów dostarczają dodatkowej struktury zrozumiałej dla maszyn.

Filmy kulinarne stanowią zupełnie inne wyzwanie. Informacje o przepisie są rozproszone w różnych formach jednocześnie:

Mówiona narracja opisuje składniki, ilości i techniki
Tekst na ekranie wyświetla listy składników, temperatury i czasy
Treści wizualne pokazują, jak składniki są dodawane, mieszane i przekształcane
Implikowana wiedza zakłada, że widzowie rozumieją nieujawnione kroki, takie jak nagrzewanie piekarnika czy płukanie ryżu

Żaden pojedynczy element nie zawiera pełnego przepisu. Twórca może powiedzieć „dodaj trochę oliwy z oliwek”, podczas gdy na ekranie widoczny jest nalewający się płyn sugerujący około dwóch łyżek, a później tekst na ekranie wyświetla „2 łyżki oliwy z oliwek”. Wydobycie pełnego przepisu wymaga połączenia informacji z tych wszystkich źródeł i rozwiązania konfliktów między nimi.

Wielomodalny proces wydobywania

Cały proces od surowego wideo do uporządkowanych danych żywieniowych obejmuje pięć głównych etapów:

Etap	Wejście	Technologia	Wyjście
1. Ekstrakcja audio	Plik wideo	ASR (Whisper)	Transkrypcja z znacznikami czasowymi
2. Ekstrakcja tekstu wizualnego	Klatki wideo	OCR (PaddleOCR, EasyOCR)	Tekst na ekranie z znacznikami czasowymi
3. Rozpoznawanie składników wizualnych	Klatki wideo	CNN/Wizje Transformery (CLIP, ViT)	Zidentyfikowane składniki i działania
4. Parsowanie NLP i fuzja	Transkrypcja + OCR + dane wizualne	Modele transformatorowe (BERT, LLMs)	Uporządkowany przepis z ilościami
5. Dopasowanie do bazy danych żywieniowych	Uporządkowany przepis	Dopasowanie fuzzy + przeszukiwanie bazy danych	Pełne zestawienie wartości odżywczych

Każdy etap stawia przed sobą odrębne wyzwania techniczne i opiera się na różnych obszarach badań w dziedzinie uczenia maszynowego.

Etap 1: Automatyczne rozpoznawanie mowy dla narracji przepisu

Pierwszym krokiem w wydobywaniu przepisu z filmu kulinarnego jest przekształcenie mówionej narracji w tekst. To obszar automatycznego rozpoznawania mowy, czyli ASR.

Rewolucja Whisper

Model Whisper opracowany przez OpenAI, wprowadzony w artykule z 2022 roku autorstwa Radforda i in., fundamentalnie zmienił krajobraz rozpoznawania mowy dla wydobywania przepisów. Wytrenowany na 680 000 godzin wielojęzycznych i wielozadaniowych danych nadzorowanych zebranych z sieci, Whisper osiągnął dokładność transkrypcji bliską ludzkiej w różnych warunkach dźwiękowych.

Co sprawia, że Whisper jest szczególnie cenny dla transkrypcji filmów kulinarnych:

Odporność na hałas. Środowiska kuchenne są głośne. Smażenie patelni, płynąca woda, dźwięki krojenia i muzyka w tle konkurują z głosem narratora. Szkolenie Whispera na zróżnicowanych warunkach dźwiękowych sprawia, że radzi sobie z tymi nakładającymi się źródłami dźwięku lepiej niż wcześniejsze modele ASR.

Możliwości wielojęzyczne. Filmy kulinarne są produkowane w praktycznie każdym języku. Whisper obsługuje transkrypcję w 915 językach i może tłumaczyć na angielski, co umożliwia wydobywanie przepisów z treści niezależnie od oryginalnego języka.

Interpunkcja i formatowanie. W przeciwieństwie do wcześniejszych systemów ASR, które generowały płaskie strumienie tekstu, Whisper tworzy transkrypcje z interpunkcją i formatowaniem, które zachowują granice zdań. Ta struktura jest kluczowa dla dalszego przetwarzania NLP.

Znaczniki czasowe na poziomie słów. Whisper może generować znaczniki czasowe na poziomie słów, co umożliwia precyzyjne dopasowanie tego, co jest mówione, do tego, co jest pokazywane na ekranie w danym momencie.

Wyzwania specyficzne dla narracji kulinarnej

Nawet z możliwościami Whispera, filmy kulinarne stawiają przed ASR wyzwania, które nie występują w standardowych benchmarkach rozpoznawania mowy:

Słownictwo specyficzne dla dziedziny. Nazwy składników obejmują tysiące pozycji z różnych kuchni świata. Terminy takie jak „gochujang”, „za'atar”, „tahini” czy „panko” mogą nie pojawiać się często w ogólnych danych treningowych. Konieczne są specjalistyczne modele słownictwa żywności lub słowniki do przetwarzania po transkrypcji, aby poprawić systematyczne błędy rozpoznawania.

Niejasność ilości. Mówione ilości często są nieprecyzyjne. „Dobra ilość soli”, „szczypta octu” czy „około tyle mąki” wymagają interpretacji kontekstowej, która wykracza poza transkrypcję.

Przełączanie języków. Wielu twórców kulinarnych przełącza się między językami, używając angielskiego do ogólnej narracji, ale swojego ojczystego języka do nazw potraw lub tradycyjnych technik. Wielojęzyczne ASR musi radzić sobie z tymi przejściami w sposób płynny.

Komunikacja niewerbalna. Twórca może wskazywać na składnik bez jego nazwania lub powiedzieć „to”, trzymając butelkę. Te odniesienia deiktyczne wymagają rozwiązania krzyżowego z wizualnym strumieniem.

Post-processing transkryptu

Surowe dane wyjściowe ASR wymagają kilku kroków przetwarzania przed ich użyciem do wydobywania przepisów:

Korekcja jednostek żywnościowych wykorzystuje słownik specyficzny dla dziedziny, aby poprawić powszechne błędy rozpoznawania (np. „kumin” usłyszane jako „coming”)
Normalizacja ilości przekształca mówione liczby i ułamki w ustandaryzowane formaty numeryczne
Segmentacja dzieli ciągłą transkrypcję na logiczne kroki przepisu na podstawie przerw czasowych, fraz przejściowych i granic czasowników akcji
Filtracja pewności identyfikuje i oznacza segmenty o niskiej pewności do potencjalnej weryfikacji krzyżowej

Etap 2: Optyczne rozpoznawanie znaków dla tekstu na ekranie

Wiele filmów kulinarnych wyświetla listy składników, miary, temperatury i instrukcje jako nakładki tekstowe na ekranie. Ten tekst jest często dokładniejszy niż mówiona narracja i podąża za bardziej ustandaryzowanym formatowaniem.

Jak działa OCR na klatkach wideo

Ekstrakcja tekstu z klatek wideo obejmuje dwa podzadania: wykrywanie tekstu (znalezienie, gdzie tekst pojawia się w klatce) i rozpoznawanie tekstu (odczytanie, co tekst mówi).

Wykrywanie tekstu lokalizuje obszary w obrazie, które zawierają tekst. Nowoczesne detektory, takie jak CRAFT (Character Region Awareness for Text Detection) i DBNet (Differentiable Binarization Network), mogą identyfikować tekst niezależnie od orientacji, rozmiaru czy złożoności tła. Te modele generują prostokątne ramki lub wielokąty wokół obszarów tekstowych.

Rozpoznawanie tekstu przekształca wykryte obszary tekstowe w ciągi znaków. Architektury oparte na sieciach neuronowych konwolucyjnych i rekurencyjnych, często z dekodowaniem CTC (Connectionist Temporal Classification), przetwarzają przycięte obszary tekstowe i generują sekwencje znaków. Nowocześniejsze podejścia wykorzystują architektury oparte na transformatorach dla poprawy dokładności przy stylizowanych czcionkach.

Unikalne wyzwania OCR w filmach kulinarnych

Tekst na ekranie w filmach kulinarnych znacznie różni się od tekstu dokumentów, dla którego większość systemów OCR jest zoptymalizowana:

Animowane nakładki tekstowe. Tekst często animuje się, co wymaga agregacji czasowej w wielu klatkach, aby uchwycić pełny tekst. Animacja przesuwająca może ujawniać tekst znak po znaku przez kilka klatek.

Dekoracyjne czcionki. Twórcy treści kulinarnych często używają stylizowanych, ręcznie pisanych lub dekoracyjnych czcionek, które różnią się od czystych krojów pisma w standardowych danych treningowych OCR. Dostosowanie do specyficznych zbiorów czcionek kulinarnych poprawia wskaźniki rozpoznawania.

Złożone tła. Tekst często jest nałożony na zajęte wizualne tła pokazujące jedzenie, kuchnie i ręce. Nie można zakładać wysokiego kontrastu między tekstem a tłem. Wykrywanie konturów tekstu, cieni i rozmycia tła pomaga wyizolować warstwę tekstową.

Wielojęzyczne i mieszane skrypty. Pojedyncza klatka może zawierać tekst w wielu skryptach, takich jak angielskie miary obok japońskich nazw potraw. Modele OCR wieloskryptowe lub wykrywanie skryptów, a następnie rozpoznawanie specyficznych dla języka, radzą sobie z tą różnorodnością.

Temporalna de-duplikacja i agregacja

Ponieważ klatki wideo są próbkowane wiele razy na sekundę, ten sam tekst na ekranie będzie wykrywany w wielu kolejnych klatkach. Proces OCR musi:

Próbkować klatki w odpowiednim tempie (zwykle 1 do 2 klatek na sekundę dla wykrywania tekstu)
Śledzić obszary tekstowe w klatkach, aby zidentyfikować tekst stały i przejściowy
Usunąć powtórzone wykrycia tego samego tekstu
Połączyć częściowe wykrycia z animowanych ujawnień tekstu
Powiązać każdy element tekstowy z jego oknem czasowym do późniejszej fuzji z danymi audio i wizualnymi

Wynikiem tego etapu jest lista tekstów na ekranie z znacznikami czasowymi, z każdą pozycją powiązaną z czasem widoczności i pozycją przestrzenną w klatce.

Etap 3: Rozpoznawanie składników wizualnych za pomocą wizji komputerowej

Oprócz tekstu, treści wizualne filmu kulinarnego zawierają bogate informacje o składnikach, ilościach i metodach przygotowania. Modele wizji komputerowej mogą identyfikować składniki w miarę ich pojawiania się, szacować ilości na podstawie wskazówek wizualnych oraz rozpoznawać działania kulinarne.

Rozpoznawanie składników za pomocą Vision Transformers i CLIP

Nowoczesne rozpoznawanie składników wizualnych opiera się na dwóch kluczowych postępach: Vision Transformers (ViT) i kontrastowym wstępnym szkoleniu język-obraz (CLIP).

Vision Transformers, wprowadzone przez Dosovitskiy'a i in. w 2020 roku, stosują architekturę transformatora do rozpoznawania obrazów. Zamiast używać warstw konwolucyjnych, ViT dzieli obraz na fragmenty i przetwarza je jako sekwencję, podobnie jak transformery przetwarzają słowa w zdaniu. To podejście okazało się szczególnie skuteczne w zadaniach wymagających precyzyjnego rozpoznawania wizualnego, takich jak identyfikacja składników, gdzie subtelne różnice w kolorze, teksturze i kształcie odróżniają podobne przedmioty.

CLIP, opracowany przez Radforda i in. w OpenAI w 2021 roku, uczy się koncepcji wizualnych z nadzoru w postaci naturalnego języka. Wytrenowany na 400 milionach par obraz-tekst, CLIP potrafi rozpoznać obiekty opisane w tekście, nawet jeśli nie były one explicite trenowane na oznaczonych przykładach tych obiektów. W przypadku rozpoznawania składników oznacza to, że system oparty na CLIP może zidentyfikować składnik, nawet jeśli nie był on w zbiorze treningowym, pod warunkiem, że może dopasować wizualny wygląd do opisu tekstowego.

Praktyczną zaletą CLIP w wydobywaniu przepisów jest jego zdolność do działania w trybie zero-shot i few-shot. Żywność obejmuje ogromną różnorodność składników, przygotowań i prezentacji kulturowych. Tradycyjny model klasyfikacyjny potrzebowałby oznaczonych przykładów treningowych dla każdego składnika w każdym stanie przygotowania. CLIP może uogólniać na podstawie szerokiego wstępnego treningu, aby rozpoznać nowe składniki opisane w formie tekstowej.

Rozpoznawanie działań kulinarnych

Identyfikacja wykonywanych działań jest równie ważna jak identyfikacja samych składników. Rozpoznawanie działań informuje system, czy składnik jest krojony, smażony, miksowany czy pieczony, co bezpośrednio wpływa na końcową wartość odżywczą.

Badania nad rozpoznawaniem działań wideo doprowadziły do powstania modeli, które analizują sekwencje klatek w celu klasyfikacji działań. Podejścia takie jak sieci SlowFast (Feichtenhofer i in., 2019) przetwarzają wideo w dwóch rozdzielczościach czasowych jednocześnie: wolna ścieżka uchwyca szczegóły przestrzenne, podczas gdy szybka ścieżka uchwyca ruch. Zastosowane do filmów kulinarnych, te modele mogą odróżnić mieszanie, ubijanie, składanie i zagniatanie, z których każda ma różne implikacje dla struktury przepisu.

Zbiory danych Food-101 i Recipe1M+ (Marin i in., 2019) były kluczowe w szkoleniu i ocenie modeli wizji komputerowej specyficznych dla żywności. Recipe1M+ zawiera ponad 1 milion przepisów kulinarnych z 13 milionami zdjęć jedzenia, co zapewnia skalę potrzebną do szkolenia modeli, które uogólniają w różnych kuchniach i stylach przygotowania.

Wizualne szacowanie ilości

Jednym z najtrudniejszych aspektów wizualnego wydobywania przepisów jest szacowanie ilości składników z wideo. Kiedy twórca nalewa olej do patelni lub nabiera mąki do miski, informacje wizualne zawierają wskazówki dotyczące ilości, ale przetłumaczenie tych wskazówek na precyzyjne pomiary wymaga zaawansowanego rozumowania przestrzennego.

Obecne podejścia łączą:

Skalowanie obiektów odniesienia: Używanie znanych obiektów w kadrze (standardowe garnki, miarki, deski do krojenia) do ustalenia odniesienia skali
Szacowanie objętości na podstawie dynamiki nalewania: Analizowanie czasu trwania i szybkości przepływu nalewanych cieczy w celu oszacowania objętości
Szacowanie głębokości: Modele szacowania głębokości monocularnej, takie jak MiDaS (Ranftl i in., 2020), mogą oszacować głębokość składników w pojemnikach, co pomaga oszacować objętość na podstawie obrazu 2D
Uczenie porównawcze: Modele trenowane na sparowanych obrazach znanych ilości uczą się szacować ilości poprzez porównanie wizualne

Wizualne szacowanie ilości pozostaje mniej precyzyjne niż jawne pomiary z mowy lub tekstu, zazwyczaj osiągając dokładność w granicach 20 do 30 procent. Niemniej jednak stanowi przydatne sprawdzenie krzyżowe i wypełnia luki, gdy ilości nie są podane explicite.

Etap 4: Przetwarzanie języka naturalnego dla parsowania i fuzji przepisów

Mając transkrypty, teksty na ekranie i adnotacje wizualne, etap NLP staje przed zadaniem połączenia tych multimodalnych sygnałów w jeden spójny, uporządkowany przepis.

Rozpoznawanie jednostek nazwanych dla żywności

Pierwszym zadaniem NLP jest identyfikacja związanych z żywnością jednostek w transkrypcie i tekście OCR. To specjalistyczna forma rozpoznawania jednostek nazwanych (NER), która musi identyfikować:

Składniki: „pierś z kurczaka”, „oliwa z oliwek extra virgin”, „sól koszerna”
Ilości: „dwie szklanki”, „350 gramów”, „szczypta”
Jednostki: „łyżki”, „mililitry”, „średniej wielkości”
Modyfikatory przygotowania: „pokrojony”, „posiekany”, „w temperaturze pokojowej”
Akcje kulinarne: „smażyć”, „piec w 375”, „gotować przez 20 minut”
Sprzęt: „patelnia żeliwna”, „mikser stacjonarny”, „blacha do pieczenia”

Modele NER oparte na transformatorach, dostosowane do korpusów żywnościowych, osiągają wyniki F1 powyżej 90 procent w standardowych benchmarkach NER dla żywności. Korpus FoodBase (Popovski i in., 2019) oraz zestaw danych TASTEset dostarczają oznakowanego tekstu żywnościowego specjalnie do szkolenia tych modeli.

Analiza zależności dla powiązania składników z ilościami

Sama identyfikacja jednostek nie wystarcza. System musi określić, które ilości należą do których składników. W zdaniu „Dodaj dwie szklanki mąki i łyżeczkę soli” system musi poprawnie powiązać „dwie szklanki” z „mąką” i „łyżeczkę” z „solą”.

To wymaga analizy zależności, która bada strukturę gramatyczną zdań, aby zidentyfikować relacje między słowami. Nowoczesne analizatory zależności oparte na architekturze BERT (Devlin i in., 2019) radzą sobie z syntaktyczną złożonością instrukcji kulinarnych, w tym złożonymi opisami składników, takimi jak „świeżo wyciśnięty sok z cytryny” oraz zagnieżdżonymi modyfikatorami, takimi jak „jedna puszka 14-uncjowa pokrojonych pomidorów pieczonych ogniem”.

Fuzja krzyżowa: Rozwiązywanie konfliktów i wypełnianie luk

Najbardziej technicznie wymagającym aspektem etapu NLP jest fuzja informacji ze wszystkich trzech modalności (audio, tekst, wizualna) w jeden spójny przepis. Ta fuzja musi radzić sobie z:

Wzmocnieniem zgody. Gdy transkrypt mówi „dwie łyżki sosu sojowego”, tekst na ekranie pokazuje „2 łyżki sosu sojowego”, a wizualny strumień pokazuje ciemny płyn nalewany, wszystkie trzy źródła się zgadzają, a system ma wysoką pewność.

Rozwiązywaniem konfliktów. Gdy transkrypt mówi „szklanka cukru”, ale tekst na ekranie mówi „3/4 szklanki cukru”, system musi zdecydować, któremu źródłu zaufać. Zazwyczaj priorytetowo traktuje się tekst na ekranie dla precyzyjnych pomiarów, ponieważ twórcy zazwyczaj dodają nakładki tekstowe jako poprawki lub wyjaśnienia do swojej narracji.

Wypełnianiem luk. Gdy narrator mówi „doprawić do smaku” bez podawania ilości, system może wykorzystać wizualne oszacowanie akcji przyprawiania w połączeniu z wiedzą z bazy danych na temat typowych ilości przypraw dla danego typu potrawy, aby wywnioskować rozsądne wartości.

Dopasowaniem czasowym. Dopasowanie informacji między modalnościami wymaga dopasowania czasowego. Odniesienie do składnika mówionego w znaczniku czasowym 2:34 powinno być dopasowane do tekstu na ekranie widocznego od 2:30 do 2:40 oraz wizualnego rozpoznawania składników w tym samym oknie czasowym. Mechanizmy dynamicznego dopasowywania czasu i oparte na uwadze radzą sobie z niedokładną synchronizacją między mową, tekstem a wydarzeniami wizualnymi.

Modele językowe dużej skali dla strukturyzacji przepisów

Ostatnie postępy w modelach językowych dużej skali (LLM) wprowadziły potężne nowe podejście do strukturyzacji przepisów. Zamiast budować oddzielne modele dla NER, analizy zależności i fuzji, LLM może przetwarzać połączony transkrypt i dane wyjściowe OCR oraz generować uporządkowany przepis w jednym kroku.

Model otrzymuje polecenie zawierające transkrypt, tekst OCR i opisy obserwacji wizualnych, wraz z instrukcjami do wygenerowania uporządkowanego przepisu w określonym formacie. LLM doskonale radzą sobie z tym zadaniem, ponieważ kodują rozległą wiedzę o gotowaniu, w tym typowe ilości składników, powszechne kombinacje składników i standardowe techniki przygotowania.

To podejście ma kilka zalet:

Radzi sobie z niejasnościami w sposób naturalny, czerpiąc z wiedzy ogólnej
Rozwiązuje odniesienia (np. rozumie, że „to” w „mieszaj to od czasu do czasu” odnosi się do sosu wspomnianego trzy zdania wcześniej)
Może wywnioskować nieujawnione kroki na podstawie wiedzy kulinarnej
Normalizuje nazwy składników do form kanonicznych odpowiednich do przeszukiwania bazy danych

Głównym ograniczeniem jest to, że wyniki LLM wymagają walidacji. Należy chronić przed halucynacjami, gdzie model generuje wiarygodne, ale nieprawdziwe informacje, poprzez krzyżowe odniesienie do źródłowych modalności i ograniczeń bazy danych żywieniowych.

Etap 5: Dopasowanie i obliczenia w bazie danych żywieniowych

Ostatni etap przekształca uporządkowany przepis w pełne zestawienie wartości odżywczych. Wymaga to dopasowania każdego wydobytego składnika do wpisu w kompleksowej bazie danych żywieniowych i obliczenia wartości odżywczych na porcję.

Wyzwanie dopasowania

Nazwy składników wydobyte z filmów kulinarnych rzadko dokładnie pasują do wpisów w bazach danych. Film może odnosić się do „dużej garści młodego szpinaku”, podczas gdy baza danych zawiera wpisy dla „szpinaku, surowego” mierzonych w gramach. System dopasowujący musi radzić sobie z:

Rozwiązywaniem synonimów: „kolendra” i „liście kolendry” to ten sam składnik
Mapowaniem stanu przygotowania: „prażone migdały” mają inną wartość odżywczą niż „surowe migdały”
Normalizacją marki i odmiany: „makaron penne Barilla” mapuje do „makaronu, penne, suchego” z dostosowaniami specyficznymi dla marki
Tłumaczeniem potocznym na techniczne: „kawałek masła” mapuje do „masła, solonego, 113g”
Konwersją jednostek: „szklanka mąki” musi być przekształcona na gramy przy użyciu wartości gęstości specyficznych dla składnika, ponieważ szklanka mąki waży około 120g, podczas gdy szklanka cukru waży około 200g

Algorytmy dopasowania fuzzy, takie jak odległość Levenshteina i podobieństwo TF-IDF, zapewniają podstawowe dopasowanie. Bardziej zaawansowane podejścia wykorzystują podobieństwo oparte na osadzeniach, gdzie zarówno wydobyty tekst składnika, jak i wpisy w bazie danych są kodowane w reprezentacjach wektorowych przy użyciu modeli takich jak Sentence-BERT (Reimers i Gurevych, 2019), a najbliższe dopasowanie w przestrzeni osadzeń jest wybierane.

Bazy danych żywieniowych i ich pokrycie

Kilka głównych baz danych żywieniowych stanowi fundament dla obliczeń żywieniowych:

Baza danych	Pokrycie	Utrzymywana przez	Kluczowa siła
USDA FoodData Central	370 000+ produktów	Departament Rolnictwa USA	Kompletne profile składników odżywczych
Open Food Facts	3 000 000+ produktów	Wspólni współtwórcy	Globalne pokrycie żywności pakowanej
COFID (McCance i Widdowson)	3 000+ produktów	Agencja Standardów Żywności w Wielkiej Brytanii	Kompozycje żywności specyficzne dla Wielkiej Brytanii
Australijska Baza Danych Składników Żywności	2 500+ produktów	Standardy Żywności w Australii i Nowej Zelandii	Pokrycie regionalne

Solidny system wydobywania przepisów przeszukuje wiele baz danych i stosuje ważoną średnią pewność, gdy wpisy się różnią. Dla żywności, której nie znaleziono w standardowych bazach danych, system może oszacować zawartość odżywczą, rozkładając żywność na jej składniki i sumując ich indywidualne wkłady.

Uwzględnianie transformacji kulinarnych

Krytyczną niuansą, która oddziela dokładne obliczenia wartości odżywczych od przybliżonych, jest uwzględnienie transformacji kulinarnych. Kiedy jedzenie jest gotowane, jego zawartość odżywcza się zmienia:

Utrata wody: Mięso traci 20 do 35 procent swojej wagi podczas gotowania, koncentrując składniki odżywcze na gram gotowanej żywności
Absorpcja tłuszczu: Smażone potrawy absorbują olej do gotowania, dodając kalorie, które nie są częścią profilu surowego składnika
Degradacja składników odżywczych: Witaminy wrażliwe na ciepło, takie jak witamina C i witaminy z grupy B, degradują podczas gotowania
Żelatynizacja skrobi: Gotowanie zmienia indeks glikemiczny skrobiowych produktów
Renderowanie tłuszczu: Gotowanie tłustych mięs powoduje wytapianie tłuszczu, co zmniejsza kaloryczność spożywanej porcji

USDA dostarcza współczynniki retencji dla powszechnych składników odżywczych w różnych metodach gotowania. Zastosowanie tych współczynników do wartości odżywczych surowych składników daje dokładniejsze oszacowanie końcowego dania.

Silnik żywieniowy Nutrola uwzględnia te modele transformacji kulinarnych, dostosowując wartości bazy danych surowych składników w zależności od metod gotowania zidentyfikowanych podczas analizy wideo. Gdy system wykrywa, że kurczak jest grillowany, a nie smażony, stosuje odpowiednie współczynniki utraty wilgoci i retencji tłuszczu, aby uzyskać dokładne oszacowanie kalorii dla gotowego dania.

Jak Nutrola wdraża ten proces

Nutrola wprowadza ten wieloetapowy techniczny proces w praktyczne doświadczenie dla konsumentów. Gdy użytkownik udostępnia film kulinarny lub wkleja link do filmu z przepisem, zaplecze Nutrola przetwarza wideo przez opisany powyżej proces wydobywania i zwraca uporządkowany przepis z kompletnymi danymi żywieniowymi.

Praktyczna implementacja obejmuje kilka decyzji inżynieryjnych, które równoważą dokładność, szybkość i doświadczenie użytkownika:

Selektywne próbkowanie klatek. Zamiast przetwarzać każdą klatkę, system Nutrola identyfikuje klatki kluczowe, w których zachodzą istotne zmiany wizualne, takie jak pojawianie się nowych składników, zmiana działań kulinarnych czy aktualizacja tekstu na ekranie. To redukuje koszty obliczeniowe o 80 do 90 procent, jednocześnie uchwycając istotne informacje wizualne.

Ocena pewności. Każdy wydobyty element ma przypisaną ocenę pewności, pochodzącą z zgody między modalnościami. Składniki potwierdzone przez mowę, tekst i rozpoznawanie wizualne otrzymują wysoką pewność. Składniki wykryte tylko przez jedną modalność są oznaczane do weryfikacji przez użytkownika.

Pętla korekcji użytkownika. Gdy system ma wątpliwości co do składnika lub ilości, przedstawia swoją najlepszą ocenę użytkownikowi z możliwością korekty. Te poprawki są wprowadzane z powrotem do modelu, poprawiając dokładność wydobywania w czasie dzięki procesowi uczenia z udziałem człowieka.

Walidacja oparta na bazie danych. Wydobyte przepisy są weryfikowane pod kątem zgodności z ograniczeniami żywieniowymi. Jeśli system wydobywa ilość, która prowadziłaby do nieprawdopodobnie wysokiej lub niskiej liczby kalorii dla danego typu dania, oznacza to wydobycie do przeglądu.

To podejście przekształca pasywne doświadczenie oglądania filmu kulinarnego w aktywne dane żywieniowe, które integrują się bezpośrednio z codziennym śledzeniem użytkownika. Zamiast ręcznie wyszukiwać każdy składnik i szacować porcje, użytkownicy otrzymują pełne zestawienie wartości odżywczych, które pochodzi bezpośrednio z treści wideo.

Granice badań: Co dalej

Obszar wielomodalnego wydobywania przepisów szybko się rozwija. Kilka kierunków badawczych obiecuje dalsze poprawienie dokładności i możliwości.

Modele wielomodalne end-to-end

Obecne procesy przetwarzają każdą modalność oddzielnie przed ich fuzją. Nowe architektury multimodalne przetwarzają wideo, audio i tekst jednocześnie w jednym modelu. Modele podstawowe multimodalne, takie jak Gemini od Google, mogą bezpośrednio przetwarzać wideo i rozumieć różnice między modalnościami bez wyraźnych reprezentacji pośrednich. Te modele obiecują prostsze procesy i lepsze rozumienie międzymodalne, chociaż wymagają znacznych zasobów obliczeniowych.

Zrozumienie proceduralne

Obecne systemy wydobywają płaską listę składników i kroków. Przyszłe systemy będą budować bogatsze reprezentacje proceduralne, które uchwycą strukturę grafu przepisu: które kroki zależą od innych, które składniki są używane na którym etapie i jak łączą się wyniki pośrednie. To zrozumienie proceduralne umożliwia dokładniejsze obliczenia wartości odżywczych, śledząc, jak składniki przekształcają się w każdym kroku.

Personalizowane oszacowanie wartości odżywczych

W miarę jak systemy wydobywania przepisów przetwarzają więcej danych, mogą uczyć się wzorców poszczególnych twórców. System, który przeanalizował 100 filmów od tego samego twórcy, uczy się, że gdy ten twórca mówi „odrobina oliwy z oliwek”, zazwyczaj używa około jednej łyżki. Ta personalizowana kalibracja znacznie poprawia oszacowanie ilości.

Wiedza o żywności kulturowej i regionalnej

Rozszerzenie wydobywania przepisów na pełną różnorodność globalnych kuchni wymaga głębokiej wiedzy o żywności kulturowej. Wiedza, że „talerz injera z wot” w kuchni etiopskiej podąża za określonymi konwencjami proporcjonalnymi, lub że „misa pho” w kuchni wietnamskiej ma typowe proporcje składników, pozwala systemowi na dokonywanie świadomych oszacowań, nawet gdy ilości nie są explicite podane.

Najczęściej zadawane pytania

Jak dokładne jest wydobywanie przepisów AI z filmów kulinarnych w porównaniu do ręcznego odczytywania przepisu tekstowego?

Obecne wielomodalne procesy wydobywania osiągają dokładność od 85 do 92 procent w identyfikacji składników oraz 75 do 85 procent w wydobywaniu ilości w porównaniu do rzeczywistych przepisów napisanych przez twórców filmów. Głównym źródłem błędów jest oszacowanie ilości, gdy twórcy nie podają wyraźnych pomiarów. Dla porównania, ręczna transkrypcja przez ludzkich widzów osiąga około 90 do 95 procent dokładności, co oznacza, że wydobywanie AI zbliża się do wydajności ludzkiej w tym zadaniu. Implementacja Nutrola zawiera krok weryfikacji przez użytkownika dla wydobyć o niskiej pewności, co podnosi efektywną dokładność powyżej 95 procent w praktyce.

Co się dzieje, gdy w filmie kulinarnym nie podano wyraźnych ilości składników?

Gdy ilości nie są wyraźnie podane w mowie lub tekście na ekranie, system korzysta z hierarchii metod oszacowania. Najpierw próbuje wizualnego oszacowania ilości na podstawie klatek wideo, wykorzystując szacowanie głębokości i skalowanie obiektów odniesienia. Następnie konsultuje bazę wiedzy typowych ilości dla danego typu potrawy. Wreszcie, korzysta z danych statystycznych z wcześniej wydobytych przepisów tego samego dania. Ostateczne oszacowanie jest oznaczane niższą oceną pewności, a Nutrola przedstawia je użytkownikowi z informacją, że ilość została oszacowana, a nie wyraźnie podana.

Czy AI może wydobywać przepisy z filmów kulinarnych w innych językach niż angielski?

Tak. Nowoczesne modele ASR, takie jak Whisper, obsługują transkrypcję w 915 językach, a systemy OCR radzą sobie z wieloma skryptami, w tym łacińskim, CJK, cyrylicą, arabskim i dewanagari. Warstwa parsowania NLP może działać w wielu językach, chociaż dokładność jest zazwyczaj najwyższa dla języków z największą ilością danych treningowych. Whisper może również tłumaczyć mowę w języku obcym bezpośrednio na angielski, co umożliwia dalsze przetwarzanie w języku angielskim, nawet dla filmów w innych językach. Nutrola obsługuje wydobywanie przepisów z filmów w ponad 30 językach.

Jak system radzi sobie z przepisami, w których twórca dokonuje zamienników lub popełnia błędy podczas nagrywania?

Czasowa natura analizy wideo rzeczywiście pomaga w tej sytuacji. Gdy twórca mówi „Miałem zamiar użyć masła, ale mam tylko oliwę z oliwek”, warstwa NLP systemu identyfikuje poprawkę i używa oliwy z oliwek zamiast masła w końcowym przepisie. Podobnie, gdy twórca dodaje składnik, a następnie mówi „właściwie, to za dużo, pozwól, że trochę wyjmę”, system śledzi poprawkę. Modele oparte na uwadze, które przetwarzają pełny transkrypt, mogą identyfikować te samokorekcje, rozpoznając wzorce dyskursywne związane z rewizjami.

Jaka jest różnica między wydobywaniem przepisów z wideo a wydobywaniem przepisów ze strony internetowej?

Wydobywanie przepisów z sieci opiera się głównie na analizie danych strukturalnych. Większość stron internetowych z przepisami używa oznaczenia schema.org Recipe, które dostarcza maszynowo czytelnych list składników, ilości i instrukcji. Wydobywanie przepisów z wideo jest zasadniczo trudniejsze, ponieważ informacje są niestrukturalne i rozproszone w modalnościach audio, wizualnych i tekstowych, które muszą być połączone. Jednak wydobywanie wideo ma tę zaletę, że uchwyca szczegóły przygotowania i wizualne wskazówki dotyczące ilości, które są nieobecne w przepisach tekstowych. Wielu twórców dzieli się również wskazówkami, zamiennikami i informacjami kontekstowymi w swojej narracji, które nigdy nie pojawiają się w pisemnym przepisie.

Jak wykrywanie metod gotowania wpływa na dokładność żywieniową wydobytych przepisów?

Wykrywanie metod gotowania ma znaczący wpływ na dokładność żywieniową. Smażenie piersi z kurczaka w oleju dodaje około 60 do 100 kalorii w porównaniu do grillowania tej samej piersi z powodu absorpcji oleju. Gotowanie warzyw może zmniejszyć zawartość witaminy C o 30 do 50 procent. Pipeline AI wykorzystuje modele rozpoznawania działań do identyfikacji metod gotowania (grillowanie, smażenie, pieczenie, gotowanie na parze, surowe przygotowanie) i stosuje współczynniki retencji składników odżywczych USDA odpowiednio. To obliczenie uwzględniające metodę gotowania zazwyczaj poprawia dokładność oszacowania kalorii o 10 do 15 procent w porównaniu do użycia tylko wartości surowych składników.

Podsumowanie

Wydobycie przepisu z filmu kulinarnego jest mikrocosmosem szerszego wyzwania w sztucznej inteligencji: zrozumienie niestrukturalnych, wielomodalnych informacji z rzeczywistego świata. Wymaga to rozpoznawania mowy, które działa w hałaśliwych kuchniach, wizji komputerowej, która potrafi identyfikować setki składników w różnych stanach przygotowania, OCR, które odczytuje stylizowany tekst na złożonych tłach, oraz NLP, które łączy to wszystko w spójną obraz żywieniowy.

Pipeline opisany w tym artykule, od transkrypcji opartej na Whisper przez wizualne rozpoznawanie oparte na CLIP po strukturyzację przepisu opartą na LLM, reprezentuje obecny stan sztuki. Każdy komponent opiera się na latach badań w dziedzinie uczenia maszynowego, od podstawowych prac nad CNN i RNN po rewolucję transformatorową, która zjednoczyła NLP i wizję komputerową w ramach jednej architektury.

Implementacja Nutrola tego procesu wprowadza te postępy badawcze w codzienne użytkowanie. Automatycznie wydobywając przepisy z filmów kulinarnych, które użytkownicy już oglądają, eliminuje lukę między odkrywaniem przepisu a zrozumieniem jego wpływu na odżywianie. Efektem jest doświadczenie śledzenia wartości odżywczych, które odpowiada użytkownikom tam, gdzie już są, przekształcając pasywne konsumowanie wideo w aktywną świadomość żywieniową bez potrzeby ręcznego wprowadzania danych.

W miarę jak modele AI wielomodalne będą się rozwijać, dokładność i szybkość wydobywania przepisów tylko wzrosną. Wizja skierowania telefonu na jakąkolwiek treść kulinarną i natychmiastowego otrzymania pełnego zestawienia wartości odżywczych nie jest już aspiracją badawczą. To działająca technologia, która staje się coraz lepsza z każdym postępem w podstawowej nauce.

Gotowy, aby przeksztalcic sledzenie zywienia?

Dolacz do tysiecy osob, ktore przeksztalcily swoja podroz zdrowotna z Nutrola!

Download on theApp Store

GET IT ONGoogle Play