Наука про витягування рецептів за допомогою ШІ: як NLP та комп'ютерне зору аналізують кулінарні відео
Досліджуйте технічний процес, який дозволяє ШІ витягувати рецепти з кулінарних відео, поєднуючи розпізнавання мови, OCR, візуальне розпізнавання інгредієнтів та NLP для автоматичного створення точних даних про харчування.
Кулінарні відео стали основним форматом для обміну рецептами. Лише на YouTube щомісяця переглядають понад 1 мільярд кулінарних відео, контент про їжу в TikTok генерує десятки мільярдів переглядів щорічно, а Instagram Reels перетворив кожного домашнього кухаря на потенційного творця контенту. Проте існує постійний розрив між переглядом рецепту та розумінням його харчової цінності.
Заповнити цей розрив можна за допомогою багатоступеневої AI-процедури, яка поєднує автоматичне розпізнавання мови, оптичне розпізнавання символів, комп'ютерне зору та обробку природної мови. У цій статті розглядається кожен етап технічного процесу, пояснюються моделі та дослідження, які роблять це можливим, а також аналізується, як ці технології об'єднуються для перетворення кулінарного відео на структуровані дані про харчування.
Проблема витягування рецептів: чому відео важко аналізувати
Текстові рецепти на вебсайтах відносно просто розпізнати. Вони мають передбачувані структури з переліками інгредієнтів, кількостями та покроковими інструкціями. HTML-розмітка та анотації схеми.org для рецептів забезпечують додаткову структуру, зручну для машинного читання.
Кулінарні відео ставлять зовсім інші виклики. Інформація про рецепт розподілена по кількох модальностях одночасно:
- Говорене озвучення описує інгредієнти, кількості та техніки
- Текст на екрані відображає списки інгредієнтів, температури та час
- Візуальний контент показує, як інгредієнти додаються, змішуються та трансформуються
- Непрямі знання припускають, що глядачі розуміють неозвучені кроки, такі як попереднє розігрівання духовки або промивання рису
Жодна з модальностей не містить повного рецепту. Творець може сказати "додайте трохи оливкової олії", тоді як на екрані видно, як приблизно дві столові ложки олії наливаються, а пізніше на екрані з'являється текст "2 ст. л. оливкової олії". Витягнення повного рецепту вимагає об'єднання інформації з усіх цих джерел і вирішення конфліктів між ними.
Багатомодальна процедура витягування
Повний процес від сирого відео до структурованих даних про харчування складається з п'яти основних етапів:
| Етап | Вхід | Технологія | Вихід |
|---|---|---|---|
| 1. Витягнення аудіо | Відеофайл | ASR (Whisper) | Транскрипція з часовими мітками |
| 2. Витягнення тексту з зображення | Кадри відео | OCR (PaddleOCR, EasyOCR) | Текст на екрані з часовими мітками |
| 3. Візуальне розпізнавання інгредієнтів | Кадри відео | CNN/Трансформери зору (CLIP, ViT) | Визначені інгредієнти та дії |
| 4. Обробка NLP та об'єднання | Транскрипція + OCR + візуальні дані | Моделі трансформерів (BERT, LLMs) | Структурований рецепт з кількостями |
| 5. Пошук у базі даних харчування | Структурований рецепт | Нечітке співвідношення + пошук у базі даних | Повний розрахунок харчування |
Кожен етап має свої технічні виклики і спирається на різні сфери досліджень машинного навчання.
Етап 1: Автоматичне розпізнавання мови для озвучення рецептів
Перший крок у витягуванні рецепту з кулінарного відео полягає в перетворенні озвучення на текст. Це сфера автоматичного розпізнавання мови, або ASR.
Революція Whisper
Модель Whisper від OpenAI, представлена в статті 2022 року Радфорда та ін., кардинально змінила ландшафт розпізнавання мови для витягування рецептів. Навчена на 680 000 годин багатомовних та багатозадачних даних, зібраних з Інтернету, Whisper досягла точності транскрипції, близької до людської, в широкому діапазоні умов звуку.
Що робить Whisper особливо цінним для транскрипції кулінарних відео:
Стійкість до шуму. Кухонні середовища зазвичай шумні. Сичання сковорідок, шум води, звуки нарізання та фонової музики конкурують з голосом ведучого. Навчання Whisper на різноманітних звукових умовах дозволяє йому краще справлятися з цими накладеними звуковими джерелами, ніж попередні моделі ASR.
Мультимовна здатність. Кулінарні відео створюються практично на всіх мовах. Whisper підтримує транскрипцію на 915 мовах і може виконувати переклад на англійську, що дозволяє витягувати рецепти з контенту незалежно від оригінальної мови.
Пунктуація та форматування. На відміну від ранніх систем ASR, які генерували плоскі потоки тексту, Whisper створює пунктуовані, відформатовані транскрипції, які зберігають межі речень. Ця структура критично важлива для подальшої обробки NLP.
Часові мітки на рівні слів. Whisper може генерувати часові мітки на рівні слів, що дозволяє точно співвідносити те, що сказано, з тим, що показано на екрані в будь-який момент часу.
Виклики, специфічні для озвучення кулінарії
Навіть з можливостями Whisper кулінарні відео ставлять перед ASR виклики, які не з'являються в стандартних тестах розпізнавання мови:
Специфічна термінологія. Назви інгредієнтів охоплюють тисячі позицій з різних кухонь світу. Такі терміни, як "гочуджан", "заатар", "тахіні" або "панко", можуть не з'являтися часто в загальних навчальних даних. Необхідні спеціалізовані моделі словника або словники для постобробки, щоб виправити систематичні помилки розпізнавання.
Неоднозначність кількостей. Говорені кількості часто неточні. "Добре кількість солі", "плескання оцту" або "приблизно стільки борошна" вимагають контекстуального тлумачення, яке виходить за межі транскрипції.
Перемикання мов. Багато кулінарних творців перемикаються між мовами, використовуючи англійську для загального озвучення, але свою рідну мову для назв страв або традиційних технік. Багатомовний ASR повинен елегантно справлятися з цими переходами.
Невербальна комунікація. Творець може вказати на інгредієнт, не називаючи його, або сказати "це", тримаючи пляшку. Ці деїктичні посилання вимагають крос-модального вирішення з візуальним потоком.
Постобробка транскрипції
Сирий вихід ASR потребує кількох етапів постобробки, перш ніж він стане корисним для витягування рецептів:
- Виправлення їдальних сутностей використовує словник, специфічний для галузі, щоб виправити загальні помилки розпізнавання (наприклад, "кумин", почутий як "coming")
- Нормалізація кількостей перетворює сказані числа та дроби в стандартизовані числові формати
- Сегментація ділить безперервну транскрипцію на логічні кроки рецепту на основі тимчасових пауз, перехідних фраз та меж дієслів дій
- Фільтрація впевненості ідентифікує та позначає сегменти з низькою впевненістю для потенційної крос-модальної перевірки
Етап 2: Оптичне розпізнавання символів для тексту на екрані
Багато кулінарних відео відображають списки інгредієнтів, вимірювання, температури та інструкції у вигляді текстових накладок на екрані. Цей текст часто точніший, ніж озвучене озвучення, і слідує більш стандартному форматуванню.
Як працює OCR на кадрах відео
Витягнення тексту з кадрів відео включає два підзавдання: виявлення тексту (знаходження, де текст з'являється в кадрі) та розпізнавання тексту (читання того, що говорить текст).
Виявлення тексту знаходить області в зображенні, які містять текст. Сучасні детектори, такі як CRAFT (Character Region Awareness for Text Detection) та DBNet (Differentiable Binarization Network), можуть ідентифікувати текст незалежно від орієнтації, розміру чи складності фону. Ці моделі виводять обмежувальні рамки або полігони навколо текстових областей.
Розпізнавання тексту перетворює виявлені текстові області в рядки символів. Архітектури, основані на згорткових та рекурентних нейронних мережах, часто з декодуванням CTC (Connectionist Temporal Classification), обробляють обрізані текстові області та виводять послідовності символів. Більш нові підходи використовують архітектури на основі трансформерів для покращення точності на стилізованих шрифтах.
Унікальні виклики OCR для кулінарних відео
Текст на екрані в кулінарних відео суттєво відрізняється від тексту документів, для яких більшість систем OCR оптимізовані:
Анімовані текстові накладки. Текст часто анімується, з'являючись і зникаючи, що вимагає тимчасової агрегації з кількох кадрів для захоплення повного тексту. Анімація може показувати текст по одному символу за кілька кадрів.
Декоративні шрифти. Творці контенту часто використовують стилізовані, рукописні або декоративні шрифти, які відрізняються від чистих шрифтів у стандартних навчальних даних OCR. Тонке налаштування на наборах даних шрифтів, специфічних для кулінарії, покращує показники розпізнавання.
Складні фони. Текст часто накладається на зайняті візуальні фони, що показують їжу, кухні та руки. Висока контрастність між текстом і фоном не може бути припущена. Виявлення штриха тексту, тіні та розмиття фону допомагає ізолювати текстовий шар.
Мультимовні та змішані скрипти. Один кадр може містити текст на кількох скриптах, таких як англійські вимірювання поряд з японськими назвами страв. Моделі OCR з багатьма скриптами або виявленням скриптів, за якими слідують мовно-специфічні процеси розпізнавання, справляються з цією різноманітністю.
Тимчасова дедуплікація та агрегація
Оскільки кадри відео зразкиються кілька разів на секунду, той самий текст на екрані буде виявлений у багатьох послідовних кадрах. Процес OCR повинен:
- Зразкові кадри з відповідною частотою (зазвичай 1-2 кадри на секунду для виявлення тексту)
- Відстежувати текстові області в кадрах, щоб ідентифікувати постійний та транзитний текст
- Дедуплікувати повторні виявлення одного й того ж тексту
- Об'єднувати часткові виявлення з анімованих текстових показів
- Ассоціювати кожен текстовий елемент з його часовим вікном для подальшого об'єднання з аудіо та візуальними даними
Вихід цього етапу — це список текстових елементів на екрані з часовими мітками, кожен з яких асоційований з його тривалістю видимості та просторовим положенням у кадрі.
Етап 3: Візуальне розпізнавання інгредієнтів за допомогою комп'ютерного зору
Окрім тексту, візуальний контент кулінарного відео містить багатий інформаційний контент про інгредієнти, кількості та методи приготування. Моделі комп'ютерного зору можуть ідентифікувати інгредієнти, коли вони з'являються, оцінювати кількості за візуальними підказками та розпізнавати кулінарні дії.
Розпізнавання інгредієнтів з трансформерами зору та CLIP
Сучасне візуальне розпізнавання інгредієнтів базується на двох ключових досягненнях: трансформерах зору (ViT) та контрастному навчанні зображень і тексту (CLIP).
Трансформери зору, представлені Досовіцьким та ін. у 2020 році, застосовують архітектуру трансформера до розпізнавання зображень. Замість використання згорткових шарів, ViT ділить зображення на патчі та обробляє їх як послідовність, подібно до того, як трансформери обробляють слова в реченні. Цей підхід виявився особливо ефективним для завдань тонкого візуального розпізнавання, таких як ідентифікація інгредієнтів, де незначні відмінності в кольорі, текстурі та формі відрізняють схожі предмети.
CLIP, розроблений Радфордом та ін. в OpenAI у 2021 році, навчає візуальні концепції з природним мовним наглядом. Навчений на 400 мільйонах пар зображень і тексту, CLIP може розпізнавати об'єкти, описані в тексті, навіть якщо не був явно навчений на маркованих прикладах цих об'єктів. Для розпізнавання інгредієнтів це означає, що система на базі CLIP може ідентифікувати інгредієнт, навіть якщо його не було в навчальному наборі, за умови, що вона може зіставити візуальний вигляд з текстовим описом.
Практична перевага CLIP для витягування рецептів полягає в його здатності до нульового та малоразового навчання. Їжа охоплює величезну різноманітність інгредієнтів, приготувань та культурних презентацій. Традиційна модель класифікації потребувала б маркованих навчальних прикладів для кожного інгредієнта в кожному стані приготування. CLIP може узагальнити з широкого попереднього навчання, щоб розпізнати нові інгредієнти, описані в текстовій формі.
Розпізнавання кулінарних дій
Важливо не лише ідентифікувати інгредієнти, а й розуміти, які дії виконуються. Розпізнавання дій повідомляє системі, чи нарізають, смажать, змішують чи запікають інгредієнт, що безпосередньо впливає на кінцеву харчову цінність.
Дослідження в розпізнаванні дій у відео призвело до створення моделей, які аналізують часові послідовності кадрів для класифікації дій. Підходи, такі як мережі SlowFast (Feichtenhofer et al., 2019), обробляють відео на двох часових роздільностях одночасно: повільний шлях захоплює просторові деталі, тоді як швидкий шлях захоплює рух. Застосовані до кулінарних відео, ці моделі можуть розрізняти помішування, збивання, складання та замішування, кожне з яких має різні наслідки для структури рецепту.
Набори даних Food-101 та Recipe1M+ (Marin et al., 2019) були важливими для навчання та оцінки моделей комп'ютерного зору, специфічних для їжі. Recipe1M+ містить понад 1 мільйон кулінарних рецептів з 13 мільйонами зображень їжі, що забезпечує масштаб, необхідний для навчання моделей, які узагальнюють на різні кухні та стилі приготування.
Оцінка візуальної кількості
Одним з найскладніших аспектів візуального витягування рецептів є оцінка кількостей інгредієнтів з відео. Коли творець наливає олію в сковороду або насипає борошно в миску, візуальна інформація містить підказки про кількість, але перетворення цих підказок на точні вимірювання вимагає складного просторового мислення.
Сучасні підходи поєднують:
- Масштабування за допомогою об'єктів-орієнтирів: Використання відомих об'єктів у кадрі (стандартні каструлі, мірні чашки, обробні дошки) для встановлення масштабного орієнтира
- Оцінка об'єму за динамікою наливу: Аналіз тривалості та швидкості потоку налитих рідин для оцінки об'єму
- Оцінка глибини: Моделі оцінки глибини з одного зображення, такі як MiDaS (Ranftl et al., 2020), можуть оцінювати глибину інгредієнтів у контейнерах, допомагаючи оцінити об'єм з 2D зображення
- Порівняльне навчання: Моделі, навчені на парних зображеннях відомих кількостей, навчаються оцінювати обсяги за візуальним порівнянням
Візуальна оцінка кількості залишається менш точною, ніж явні вимірювання з мови або тексту, зазвичай досягаючи точності в межах 20-30 відсотків. Проте вона забезпечує корисну перевірку та заповнює прогалини, коли кількості не вказані явно.
Етап 4: Обробка природної мови для розбору та об'єднання рецептів
Отримавши транскрипції, текст на екрані та візуальні анотації, етап NLP стикається з завданням об'єднання цих багатомодальних сигналів в єдиний, зрозумілий, структурований рецепт.
Розпізнавання названих сутностей для їжі
Першим завданням NLP є ідентифікація їдальних сутностей у транскрипції та тексті OCR. Це спеціалізована форма розпізнавання названих сутностей (NER), яка повинна ідентифікувати:
- Інгредієнти: "куряча грудинка", "оливкова олія екстра класу", "косерна сіль"
- Кількості: "дві чашки", "350 грамів", "щіпка"
- Одиниці: "столові ложки", "мілілітри", "середнього розміру"
- Модифікатори приготування: "нарізані", "подрібнені", "кімнатної температури"
- Кулінарні дії: "смажити", "випікати при 375", "тушкувати 20 хвилин"
- Обладнання: "чавунна сковорода", "стаціонарний міксер", "декоративний лист"
Моделі NER на основі трансформерів, налаштовані на їдальні корпуси, досягають F1-оцінок вище 90 відсотків на стандартних тестах NER для їжі. Корпус FoodBase (Popovski et al., 2019) та набір даних TASTEset забезпечують анотований текст їжі, спеціально призначений для навчання цих моделей.
Парсинг залежностей для асоціації інгредієнтів і кількостей
Ідентифікація сутностей сама по собі недостатня. Система повинна визначити, які кількості належать до яких інгредієнтів. У реченні "Додайте дві чашки борошна та чайну ложку солі" система повинна правильно асоціювати "дві чашки" з "борошном" і "чайну ложку" з "сіллю".
Це вимагає парсингу залежностей, який аналізує граматичну структуру речень, щоб визначити відносини між словами. Сучасні парсери залежностей на основі архітектури BERT (Devlin et al., 2019) справляються зі складністю синтаксису кулінарних інструкцій, включаючи складні описи інгредієнтів, такі як "свіжовичавлений лимонний сік" та вкладені модифікатори, такі як "одна банка 14 унцій нарізаних томатів, запечених на вогні".
Крос-модальне об'єднання: вирішення конфліктів і заповнення прогалин
Найбільш технічно складним аспектом етапу NLP є об'єднання інформації з усіх трьох модальностей (аудіо, текст, візуальні) в єдиний узгоджений рецепт. Це об'єднання повинно враховувати:
Підтвердження угоди. Коли транскрипція говорить "дві столові ложки соєвого соусу", текст на екрані показує "2 ст. л. соєвого соусу", а візуальний потік показує, як темна рідина наливається, всі три джерела погоджуються, і система має високу впевненість.
Вирішення конфліктів. Коли транскрипція говорить "чашка цукру", але текст на екрані говорить "3/4 чашки цукру", система повинна вирішити, якому джерелу довіряти. Зазвичай текст на екрані має пріоритет для точних вимірювань, оскільки творці зазвичай додають текстові накладки як виправлення або уточнення до свого озвучення.
Заповнення прогалин. Коли ведучий говорить "приправити за смаком", не вказуючи кількості, система може використовувати візуальну оцінку дії приправлення в поєднанні з базою знань про типові кількості приправ для цього типу страви, щоб зробити обґрунтовані значення.
Часове вирівнювання. Співвідношення інформації між модальностями вимагає часового вирівнювання. Згадка про інгредієнт, сказана на таймстемпі 2:34, повинна бути співвіднесена з текстом на екрані, видимим з 2:30 до 2:40, та візуальним розпізнаванням інгредієнтів з того ж часового вікна. Динамічне вирівнювання часу та механізми на основі уваги справляються з неточною синхронізацією між мовою, текстом та візуальними подіями.
Великі мовні моделі для структурування рецептів
Останні досягнення у великих мовних моделях (LLMs) представили потужний новий підхід до структурування рецептів. Замість створення окремих моделей для NER, парсингу залежностей та об'єднання, LLM може обробляти комбіновану транскрипцію та вихід OCR і генерувати структурований рецепт в один прохід.
Модель отримує запит, що містить транскрипцію, текст OCR та описи візуальних спостережень, разом з інструкціями вивести структурований рецепт у визначеному форматі. LLM відмінно справляються з цим завданням, оскільки вони кодують обширні знання про приготування їжі, включаючи типові кількості інгредієнтів, загальні комбінації інгредієнтів та стандартні техніки приготування.
Цей підхід має кілька переваг:
- Він природно справляється з неоднозначністю, спираючись на світові знання
- Він вирішує спільні посилання (наприклад, розуміння, що "це" в "перемішуйте це час від часу" відноситься до соусу, згаданого три реченнями раніше)
- Він може виводити неозвучені кроки на основі знань про приготування їжі
- Він нормалізує назви інгредієнтів до канонічних форм, придатних для пошуку в базі даних
Основним обмеженням є те, що виходи LLM потребують валідації. Необхідно запобігти "галюцинаціям", коли модель генерує правдоподібну, але неправильну інформацію, шляхом перехресної перевірки з джерелами та обмеженнями харчової бази даних.
Етап 5: Пошук у базі даних харчування та розрахунок
Останній етап перетворює структурований рецепт на повний розрахунок харчування. Це вимагає співвіднесення кожного витягнутого інгредієнта з записом у всебічній базі даних харчування та розрахунку значень харчування на порцію.
Виклик співвіднесення
Назви інгредієнтів, витягнуті з кулінарних відео, рідко точно співпадають з записами в базі даних. Відео може згадувати "велика жменя молодого шпинату", тоді як база даних містить записи для "шпинат, сирий", виміряний у грамах. Система співвіднесення повинна враховувати:
- Вирішення синонімів: "кінза" та "листи коріандру" — це один і той же інгредієнт
- Картографування стану приготування: "смажені мигдалі" мають інший харчовий профіль, ніж "сирі мигдалі"
- Нормалізація брендів та сортів: "Barilla penne" відноситься до "пасту, пенне, суху" з корекціями, специфічними для бренду
- Переклад з розмовної на технічну мову: "паличка масла" відноситься до "масло, солоне, 113 г"
- Перетворення одиниць: "чашка борошна" повинна бути перетворена в грами, використовуючи специфічні для інгредієнтів значення щільності, оскільки чашка борошна важить приблизно 120 г, тоді як чашка цукру важить приблизно 200 г
Алгоритми нечіткого рядкового співвіднесення, такі як відстань Левенштейна та косинусна схожість TF-IDF, забезпечують базове співвіднесення. Більш просунуті підходи використовують схожість на основі векторного кодування, де як витягнутий текст інгредієнта, так і записи бази даних кодуються у векторні представлення за допомогою моделей, таких як Sentence-BERT (Reimers and Gurevych, 2019), і вибирається найближче співвідношення в векторному просторі.
Бази даних харчування та їх охоплення
Кілька основних баз даних харчування слугують основою для харчових розрахунків:
| База даних | Охоплення | Підтримується | Ключова перевага |
|---|---|---|---|
| USDA FoodData Central | 370,000+ продуктів | Міністерство сільського господарства США | Комплексні профілі поживних речовин |
| Open Food Facts | 3,000,000+ продуктів | Спільнота | Глобальне охоплення упакованих продуктів |
| COFID (McCance and Widdowson's) | 3,000+ продуктів | Агентство стандартів харчування Великобританії | Специфічні для Великобританії складові їжі |
| Австралійська база даних складу їжі | 2,500+ продуктів | Стандарти харчування Австралія та Нова Зеландія | Регіональне охоплення їжі |
Система витягування рецептів запитує кілька баз даних і застосовує середнє значення з урахуванням впевненості, коли записи відрізняються. Для продуктів, які не знайдені в стандартних базах даних, система може оцінити харчовий вміст, розкладаючи їжу на її складові інгредієнти та підсумовуючи їхні індивідуальні внески.
Облік кулінарних трансформацій
Критичним нюансом, який відрізняє точний харчовий розрахунок від приблизного, є врахування кулінарних трансформацій. Коли їжа готується, її харчовий вміст змінюється:
- Втрата води: М'ясо втрачає 20-35 відсотків своєї ваги під час приготування, концентруючи поживні речовини на грам готової їжі
- Всмоктування жиру: Смажені продукти всмоктують олію для приготування, додаючи калорії, які не є частиною профілю сирого інгредієнта
- Розпад поживних речовин: Вітаміни, чутливі до тепла, такі як вітамін C та вітаміни групи B, розпадаються під час приготування
- Гелітизація крохмалю: Приготування змінює глікемічний індекс крохмалистих продуктів
- Витоплення жиру: Приготування жирного м'яса призводить до витоплення жиру, зменшуючи калорійність споживаної порції
USDA надає коефіцієнти утримання для звичайних поживних речовин у різних методах приготування. Застосування цих коефіцієнтів до значень харчування сирних інгредієнтів забезпечує більш точну оцінку готової страви.
Харчовий двигун Nutrola включає ці моделі кулінарних трансформацій, коригуючи значення бази даних сирих інгредієнтів на основі методів приготування, виявлених під час аналізу відео. Коли система виявляє, що курка готується на грилі, а не смажиться, вона застосовує відповідні коефіцієнти втрати вологи та утримання жиру, щоб надати точну оцінку калорій для готової страви.
Як Nutrola реалізує цей процес
Nutrola втілює цей багатоступеневий технічний процес у практичний споживчий досвід. Коли користувач ділиться кулінарним відео або вставляє посилання на відео рецепту, бекенд Nutrola обробляє відео через описану вище процедуру витягування та повертає структурований рецепт з повними даними про харчування.
Практична реалізація включає кілька інженерних рішень, які балансують точність, швидкість та користувацький досвід:
Вибіркове зразкове зображення. Замість обробки кожного кадру система Nutrola ідентифікує ключові кадри, де відбуваються значні візуальні зміни, такі як поява нових інгредієнтів, зміна кулінарних дій або оновлення тексту на екрані. Це зменшує обчислювальні витрати на 80-90 відсотків, зберігаючи при цьому релевантну візуальну інформацію.
Оцінка впевненості. Кожен витягнутий елемент має оцінку впевненості, отриману з угоди між модальностями. Інгредієнти, підтверджені мовою, текстом та візуальним розпізнаванням, отримують високу впевненість. Інгредієнти, виявлені лише однією модальністю, позначаються для перевірки користувачем.
Цикл корекції користувача. Коли система не впевнена в інгредієнті або кількості, вона представляє свою найкращу оцінку користувачу з можливістю виправлення. Ці корекції повертаються в модель, покращуючи точність витягування з часом через процес навчання з людиною в циклі.
Валідація на основі бази даних. Витягнуті рецепти перевіряються на відповідність харчовій правдоподібності. Якщо система витягує кількість, яка призведе до неправдоподібно високої або низької калорійності для типу страви, вона позначає витягування для перегляду.
Цей підхід перетворює пасивний досвід перегляду кулінарного відео на дієві дані про харчування, які безпосередньо інтегруються в щоденний облік користувача. Замість того, щоб вручну шукати кожен інгредієнт і оцінювати порції, користувачі отримують повний розрахунок харчування, отриманий безпосередньо з відео контенту.
Дослідження на передовій: що далі
Сфера багатомодального витягування рецептів швидко розвивається. Кілька напрямків досліджень обіцяють подальше покращення точності та можливостей.
Моделі багатомодального навчання
Поточні процеси обробляють кожну модальність окремо перед їх об'єднанням. Нові багатомодальні архітектури обробляють відео, аудіо та текст одночасно в одній моделі. Моделі багатофункціональних основ, такі як Gemini від Google, можуть безпосередньо сприймати відео та міркувати між модальностями без явних проміжних представлень. Ці моделі обіцяють спростити процеси та покращити крос-модальне міркування, хоча вони потребують значних обчислювальних ресурсів.
Процедурне розуміння
Поточні системи витягують плоский список інгредієнтів та кроків. Майбутні системи створюватимуть багатші процедурні представлення, які захоплюють графічну структуру рецепту: які кроки залежать від інших, які інгредієнти використовуються на якому етапі та як проміжні результати поєднуються. Це процедурне розуміння дозволяє більш точно розраховувати харчування, відстежуючи, як інгредієнти трансформуються через кожен крок.
Персоналізована оцінка харчування
Оскільки системи витягування рецептів обробляють більше даних, вони можуть вивчати індивідуальні патерни творців. Система, яка проаналізувала 100 відео від одного творця, дізнається, що коли цей творець говорить "плескання оливкової олії", вони зазвичай використовують приблизно одну столову ложку. Ця персоналізована калібрування значно покращує оцінку кількості.
Культурні та регіональні знання про їжу
Розширення витягування рецептів на всю різноманітність світових кухонь вимагає глибоких культурних знань про їжу. Знання того, що "тарілка інджери з вотом" в етіопській кухні слідує певним пропорційним конвенціям, або що "чаша фо" у в'єтнамській кухні має типові співвідношення інгредієнтів, дозволяє системі робити обґрунтовані оцінки, навіть коли явні кількості не надаються.
Часто задавані питання
Наскільки точним є витягування рецептів ШІ з кулінарних відео в порівнянні з ручним читанням текстового рецепту?
Поточні багатомодальні процеси витягування досягають точності 85-92 відсотки в ідентифікації інгредієнтів та 75-85 відсотків у витягуванні кількостей у порівнянні з істинними рецептами, написаними творцями відео. Основним джерелом помилок є оцінка кількостей, коли творці не вказують явні вимірювання. Для порівняння, ручна транскрипція людськими глядачами досягає приблизно 90-95 відсотків точності, що означає, що витягування ШІ наближається до людського рівня виконання для цього завдання. Реалізація Nutrola включає крок перевірки користувача для витягнень з низькою впевненістю, що підвищує ефективну точність до понад 95 відсотків на практиці.
Що відбувається, коли кулінарне відео не вказує явні кількості інгредієнтів?
Коли кількості не вказані явно в мовленні або тексті на екрані, система повертається до ієрархії методів оцінки. Спочатку вона намагається оцінити візуальну кількість з кадрів відео, використовуючи оцінку глибини та масштабування за об'єктами-орієнтирами. По-друге, вона консультується з базою знань про типові кількості для типу страви. По-третє, вона використовує статистичні середні з раніше витягнутих рецептів тієї ж страви. Отримана оцінка позначається нижчою оцінкою впевненості, і Nutrola представляє її користувачу з приміткою, що кількість була оцінена, а не явно вказана.
Чи може ШІ витягувати рецепти з кулінарних відео іншими мовами, окрім англійської?
Так. Сучасні моделі ASR, такі як Whisper, підтримують транскрипцію на 915 мовах, а системи OCR обробляють кілька скриптів, включаючи латиницю, CJK, кирилицю, арабську та деванагарі. Шар обробки NLP може працювати на кількох мовах, хоча точність зазвичай вища для мов з найбільшою кількістю навчальних даних. Whisper також може перекладати неанглійську мову безпосередньо на англійську, що дозволяє подальшій обробці працювати англійською навіть для відео іншими мовами. Nutrola підтримує витягування рецептів з відео на понад 30 мовах.
Як система справляється з рецептами, де творець робить заміни або помилки під час зйомки?
Часова природа відеоаналізу насправді допомагає в цій ситуації. Коли творець говорить "Я збиралася використовувати масло, але в мене тільки оливкова олія", шар NLP системи ідентифікує виправлення і використовує оливкову олію замість масла в кінцевому рецепті. Аналогічно, коли творець додає інгредієнт і потім говорить "насправді, це занадто багато, давайте я трохи візьму", система відстежує виправлення. Моделі на основі уваги, які обробляють повну транскрипцію, можуть ідентифікувати ці самовиправлення, розпізнаючи патерни дискурсу, пов'язані з корекціями.
У чому різниця між витягуванням рецептів з відео та витягуванням рецептів з веб-сторінки?
Веб-витягування рецептів в основному покладається на парсинг структурованих даних. Більшість вебсайтів рецептів використовують розмітку схеми.org Recipe, яка надає машиночитабельні списки інгредієнтів, кількостей та інструкцій. Витягування рецептів з відео є суттєво складнішим, оскільки інформація є неструктурованою та розподілена між аудіо, візуальними та текстовими модальностями, які повинні бути об'єднані. Однак витягування з відео має перевагу в захопленні деталей приготування та візуальних підказок кількості, які відсутні в текстових рецептах. Багато творців також діляться порадами, замінами та контекстною інформацією в своїй озвучці, яка ніколи не з'являється в письмовому рецепті.
Як виявлення методу приготування впливає на харчову точність витягнутих рецептів?
Виявлення методу приготування суттєво впливає на харчову точність. Смаження курячої грудинки в олії додає приблизно 60-100 калорій у порівнянні з грилюванням тієї ж грудинки через всмоктування олії. Варіння овочів може зменшити їх вміст вітаміну C на 30-50 відсотків. ШІ-процес використовує моделі розпізнавання дій для ідентифікації методів приготування (гриль, смаження, випікання, приготування на пару, сирна підготовка) і відповідно застосовує коефіцієнти утримання поживних речовин USDA. Цей розрахунок з урахуванням методу приготування зазвичай покращує точність оцінки калорій на 10-15 відсотків у порівнянні з використанням лише значень сирих інгредієнтів.
Висновок
Витягування рецепту з кулінарного відео є мікрокосмом більшого виклику в штучному інтелекті: розуміння неструктурованої, багатомодальної інформації з реального світу. Це вимагає розпізнавання мови, яке працює в шумних кухнях, комп'ютерного зору, яке може ідентифікувати сотні інгредієнтів у різних станах приготування, OCR, яке читає стилізований текст на захаращених фонах, та NLP, яке об'єднує все це в узгоджену харчову картину.
Процес, описаний у цій статті, від транскрипції на основі Whisper до візуального розпізнавання на базі CLIP до структурування рецептів на базі LLM, представляє сучасний стан технологій. Кожен компонент спирається на роки досліджень у машинному навчанні, від основоположних робіт над CNN та RNN до революції трансформерів, яка об'єднала NLP та комп'ютерне зору під єдиною архітектурною парадигмою.
Реалізація Nutrola цього процесу приносить ці наукові досягнення в повсякденне використання. Автоматично витягуючи рецепти з кулінарних відео, які користувачі вже переглядають, вона усуває розрив між відкриттям рецепту та розумінням його харчового впливу. Результат — це досвід обліку харчування, який відповідає потребам користувачів, перетворюючи пасивне споживання відео на активну обізнаність про харчування без необхідності ручного введення даних.
Оскільки багатомодальні моделі ШІ продовжують вдосконалюватися, точність і швидкість витягування рецептів лише зростатимуть. Візія вказати телефон на будь-який кулінарний контент і миттєво отримати повний розрахунок харчування більше не є дослідницькою амбіцією. Це працююча технологія, яка стає кращою з кожним новим досягненням у базових науках.
Готові трансформувати своє відстеження харчування?
Приєднуйтесь до тисяч, які трансформували свою подорож до здоров'я з Nutrola!