Научный подход к извлечению рецептов с помощью ИИ: как NLP и компьютерное зрение анализируют кулинарные видео

14 марта 2026 г.

Изучите технический процесс, который позволяет ИИ извлекать рецепты из кулинарных видео, сочетая распознавание речи, оптическое распознавание символов, визуальное распознавание ингредиентов и NLP для автоматической генерации точных данных о питательной ценности.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Кулинарные видео стали основным форматом для обмена рецептами. Только на YouTube ежемесячно наблюдается более 1 миллиарда просмотров кулинарных видео, контент о еде в TikTok генерирует десятки миллиардов просмотров ежегодно, а Instagram Reels превратил каждого домашнего повара в потенциального создателя контента. Тем не менее, существует постоянный разрыв между просмотром рецепта и пониманием его питательной ценности.

Чтобы преодолеть этот разрыв, необходим многоступенчатый процесс ИИ, который сочетает автоматическое распознавание речи, оптическое распознавание символов, компьютерное зрение и обработку естественного языка. В этой статье мы подробно рассмотрим каждый этап технического процесса, объясним модели и исследования, которые делают это возможным, и проанализируем, как эти технологии объединяются для преобразования кулинарного видео в структурированные данные о питательной ценности.

Проблема извлечения рецептов: почему видео так сложно анализировать

Текстовые рецепты на веб-сайтах относительно легко обрабатывать. Они следуют предсказуемым структурам с перечнями ингредиентов, количествами и пошаговыми инструкциями. HTML-разметка и аннотации схемы schema.org обеспечивают дополнительную машиночитаемую структуру.

Кулинарные видео представляют собой совершенно другую задачу. Информация о рецепте распределена по нескольким модальностям одновременно:

Устное повествование описывает ингредиенты, количества и техники
Текст на экране отображает списки ингредиентов, температуры и время
Визуальный контент показывает, как добавляются, смешиваются и преобразуются ингредиенты
Неявные знания предполагают, что зрители понимают не озвученные шаги, такие как предварительный разогрев духовки или промывание риса

Ни одна из модальностей не содержит полного рецепта. Создатель может сказать "добавьте немного оливкового масла", в то время как на экране видно, как выливается примерно две столовые ложки, а позже текст на экране показывает "2 ст. ложки оливкового масла". Извлечение полного рецепта требует объединения информации из всех этих источников и разрешения конфликтов между ними.

Многофункциональный процесс извлечения

Полный процесс от сырого видео до структурированных данных о питательной ценности включает пять основных этапов:

Этап	Вход	Технология	Выход
1. Извлечение аудио	Видеофайл	ASR (Whisper)	Транскрипция с временными метками
2. Извлечение текста	Кадры видео	OCR (PaddleOCR, EasyOCR)	Текст на экране с временными метками
3. Визуальное распознавание ингредиентов	Кадры видео	CNN/Трансформеры (CLIP, ViT)	Определенные ингредиенты и действия
4. NLP парсинг и объединение	Транскрипция + OCR + визуальные данные	Модели трансформеров (BERT, LLMs)	Структурированный рецепт с количествами
5. Сопоставление с базой данных о питательной ценности	Структурированный рецепт	Неявное сопоставление + поиск в базе данных	Полный анализ питательной ценности

Каждый этап представляет собой отдельные технические задачи и опирается на различные области исследований машинного обучения.

Этап 1: Автоматическое распознавание речи для повествования рецепта

Первый шаг в извлечении рецепта из кулинарного видео — это преобразование устного повествования в текст. Это область автоматического распознавания речи, или ASR.

Революция Whisper

Модель Whisper от OpenAI, представленная в статье 2022 года Радфорда и др., кардинально изменила подход к распознаванию речи для извлечения рецептов. Обученная на 680 000 часов многоязычных и многозадачных данных, собранных из интернета, Whisper достигла точности транскрипции, близкой к человеческой, в различных аудиоситуациях.

Что делает Whisper особенно ценным для транскрипции кулинарных видео:

Устойчивость к шуму. Кулинарные среды шумные. Шипящие сковородки, текущая вода, звуки нарезки и фоновая музыка конкурируют с голосом рассказчика. Обучение Whisper на разнообразных аудиоситуациях позволяет лучше справляться с такими перекрывающимися звуковыми источниками, чем предыдущие модели ASR.

Многоязычные возможности. Кулинарные видео создаются практически на всех языках. Whisper поддерживает транскрипцию на 915 языках и может выполнять перевод на английский, что позволяет извлекать рецепты из контента независимо от оригинального языка.

Пунктуация и форматирование. В отличие от более ранних систем ASR, которые создавали плоские текстовые потоки, Whisper генерирует пунктуированные и отформатированные транскрипции, которые сохраняют границы предложений. Эта структура критически важна для последующего NLP парсинга.

Временные метки на уровне слов. Whisper может производить временные метки на уровне слов, что позволяет точно сопоставлять то, что говорится, с тем, что показывается на экране в любой момент времени.

Проблемы, специфичные для кулинарного повествования

Даже с возможностями Whisper кулинарные видео представляют собой вызовы ASR, которые не встречаются в стандартных тестах распознавания речи:

Специфическая лексика. Названия ингредиентов охватывают тысячи наименований из различных кухонь мира. Такие термины, как "гочуджан", "заатар", "тахини" или "панко", могут не встречаться часто в общих обучающих данных. Необходимы специализированные модели лексики или словари для постобработки, чтобы исправить систематические ошибки распознавания.

Неопределенность количеств. Устные количества часто неточные. "Немного соли", "капля уксуса" или "примерно столько муки" требуют контекстуальной интерпретации, выходящей за рамки транскрипции.

Смешение языков. Многие кулинарные авторы переключаются между языками, используя английский для общего повествования, но свой родной язык для названий блюд или традиционных техник. Многоязычный ASR должен плавно обрабатывать эти переходы.

Невербальная коммуникация. Создатель может указать на ингредиент, не называя его, или сказать "это", держа бутылку. Эти указательные ссылки требуют кросс-модального разрешения с визуальным потоком.

Постобработка транскрипции

Сырой вывод ASR требует нескольких этапов постобработки, прежде чем он станет полезным для извлечения рецепта:

Коррекция пищевых сущностей использует специализированный словарь для исправления распространенных ошибок распознавания (например, "кумин" неправильно услышан как "приходящий")
Нормализация количеств преобразует устные числа и дроби в стандартизированные числовые форматы
Сегментация делит непрерывную транскрипцию на логические шаги рецепта на основе временных пауз, переходных фраз и границ глаголов действия
Фильтрация уверенности выявляет и отмечает сегменты с низкой уверенностью для потенциальной кросс-модальной проверки

Этап 2: Оптическое распознавание символов для текста на экране

Многие кулинарные видео отображают списки ингредиентов, измерения, температуры и инструкции в виде текстовых наложений на экране. Этот текст часто более точен, чем устное повествование, и следует более стандартизированному форматированию.

Как работает OCR на кадрах видео

Извлечение текста из кадров видео включает две подзадачи: обнаружение текста (поиск мест, где появляется текст в кадре) и распознавание текста (чтение того, что говорит текст).

Обнаружение текста находит области в изображении, содержащие текст. Современные детекторы, такие как CRAFT (Character Region Awareness for Text Detection) и DBNet (Differentiable Binarization Network), могут идентифицировать текст независимо от ориентации, размера или сложности фона. Эти модели выводят ограничивающие рамки или полигоны вокруг текстовых областей.

Распознавание текста преобразует обнаруженные текстовые области в строку символов. Архитектуры, основанные на свёрточных и рекуррентных нейронных сетях, часто с декодированием CTC (Connectionist Temporal Classification), обрабатывают обрезанные текстовые области и выводят последовательности символов. Более новые подходы используют архитектуры на основе трансформеров для повышения точности при работе со стилизованными шрифтами.

Уникальные проблемы OCR в кулинарных видео

Текст на экране в кулинарных видео существенно отличается от текстов документов, для которых большинство систем OCR оптимизировано:

Анимированные текстовые наложения. Текст часто анимируется, требуя временной агрегации по нескольким кадрам для захвата полного текста. Слайд-анимация может показывать текст по одному символу за несколько кадров.

Декоративные шрифты. Создатели контента о еде часто используют стилизованные, рукописные или декоративные шрифты, отличающиеся от чистых шрифтов в стандартных обучающих данных OCR. Тонкая настройка на наборах данных со шрифтами для кулинарии улучшает показатели распознавания.

Сложные фоны. Текст часто накладывается на загруженные визуальные фоны, показывающие еду, кухни и руки. Высокий контраст между текстом и фоном не может быть гарантирован. Обнаружение обводки текста, теней и размытия фона помогает изолировать текстовый слой.

Многоязычные и смешанные скрипты. Один кадр может содержать текст на нескольких скриптах, таких как английские измерения рядом с японскими названиями блюд. Модели OCR для многоязычных скриптов или обнаружение скриптов с последующим распознаванием на языке обрабатывают это разнообразие.

Темпоральная дедупликация и агрегация

Поскольку кадры видео выбираются несколько раз в секунду, один и тот же текст на экране будет обнаруживаться на многих последовательных кадрах. Процесс OCR должен:

Выбирать кадры с соответствующей частотой (обычно 1-2 кадра в секунду для обнаружения текста)
Отслеживать текстовые области по кадрам, чтобы определить постоянный и временный текст
Удалять дублирующие обнаружения одного и того же текста
Объединять частичные обнаружения из анимированных текстовых раскрытий
Ассоциировать каждый текстовый элемент с его временным окном для последующего объединения с аудио и визуальными данными

Выходом этого этапа является список текстовых элементов на экране с временными метками, каждый из которых связан с его длительностью видимости и пространственным положением в кадре.

Этап 3: Визуальное распознавание ингредиентов с помощью компьютерного зрения

Помимо текста, визуальный контент кулинарного видео содержит богатую информацию об ингредиентах, количествах и методах приготовления. Модели компьютерного зрения могут идентифицировать ингредиенты по мере их появления, оценивать количества по визуальным подсказкам и распознавать кулинарные действия.

Распознавание ингредиентов с помощью Vision Transformers и CLIP

Современное распознавание ингредиентов строится на двух ключевых достижениях: Vision Transformers (ViT) и контрастном предобучении языка и изображения (CLIP).

Vision Transformers, представленные Досовицким и др. в 2020 году, применяют архитектуру трансформеров к распознаванию изображений. Вместо использования свёрточных слоёв ViT делит изображение на патчи и обрабатывает их как последовательность, аналогично тому, как трансформеры обрабатывают слова в предложении. Этот подход оказался особенно эффективным для задач точного визуального распознавания, таких как идентификация ингредиентов, где тонкие различия в цвете, текстуре и форме отличают похожие предметы.

CLIP, разработанный Радфордом и др. в OpenAI в 2021 году, обучается распознавать визуальные концепции на основе естественного языка. Обученный на 400 миллионах пар изображений и текстов, CLIP может распознавать объекты, описанные в тексте, даже если они не были явно обучены на помеченных примерах этих объектов. Для распознавания ингредиентов это означает, что система на основе CLIP может идентифицировать ингредиент, даже если он не входил в обучающий набор, при условии, что она может сопоставить визуальный вид с текстовым описанием.

Практическое преимущество CLIP для извлечения рецептов заключается в его способности работать без обучения и с минимальным обучением. Пища охватывает огромное разнообразие ингредиентов, приготовлений и культурных представлений. Традиционной классификационной модели потребовались бы помеченные обучающие примеры для каждого ингредиента в каждом состоянии приготовления. CLIP может обобщать на основе своего широкого предобучения, чтобы распознавать новые ингредиенты, описанные в текстовой форме.

Распознавание кулинарных действий

Идентификация выполняемых действий так же важна, как и распознавание самих ингредиентов. Распознавание действий сообщает системе, нарезается ли ингредиент, обжаривается, смешивается или запекается, что напрямую влияет на конечную питательную ценность.

Исследования в области распознавания действий в видео привели к созданию моделей, которые анализируют временные последовательности кадров для классификации действий. Подходы, такие как сети SlowFast (Feichtenhofer и др., 2019), обрабатывают видео на двух временных разрешениях одновременно: медленный путь захватывает пространственные детали, в то время как быстрый путь фиксирует движение. Примененные к кулинарным видео, эти модели могут различать помешивание, взбивание, складывание и замешивание, каждое из которых имеет разные последствия для структуры рецепта.

Наборы данных Food-101 и Recipe1M+ (Marin и др., 2019) сыграли важную роль в обучении и оценке моделей компьютерного зрения, специфичных для еды. Recipe1M+ содержит более 1 миллиона кулинарных рецептов с 13 миллионами изображений еды, предоставляя масштаб, необходимый для обучения моделей, которые обобщают по кухням и стилям приготовления.

Оценка визуального количества

Одним из самых сложных аспектов визуального извлечения рецептов является оценка количеств ингредиентов по видео. Когда создатель выливает масло в сковороду или накладывает муку в миску, визуальная информация содержит подсказки о количестве, но перевод этих подсказок в точные измерения требует сложного пространственного рассуждения.

Современные подходы объединяют:

Масштабирование по эталонным объектам: Использование известных объектов в кадре (стандартные кастрюли, мерные чашки, разделочные доски) для установления эталонного масштаба
Оценка объема по динамике выливания: Анализ продолжительности и скорости потока выливаемых жидкостей для оценки объема
Оценка глубины: Модели оценки глубины по одному изображению, такие как MiDaS (Ranftl и др., 2020), могут оценивать глубину ингредиентов в контейнерах, помогая оценить объем по 2D-изображению
Сравнительное обучение: Модели, обученные на парных изображениях известных количеств, учатся оценивать объемы по визуальному сравнению

Оценка визуального количества остается менее точной, чем явные измерения из речи или текста, обычно достигая точности в пределах 20-30 процентов. Тем не менее, она предоставляет полезную проверку и заполняет пробелы, когда количества не указаны явно.

Этап 4: Обработка естественного языка для парсинга и объединения рецептов

С транскрипциями, текстом на экране и визуальными аннотациями в руках, этап NLP сталкивается с задачей объединения этих многомодальных сигналов в единый, согласованный, структурированный рецепт.

Распознавание именованных сущностей для еды

Первая задача NLP заключается в идентификации связанных с едой сущностей в транскрипции и тексте OCR. Это специализированная форма распознавания именованных сущностей (NER), которая должна выявлять:

Ингредиенты: "куриная грудка", "оливковое масло первого отжима", "кошерная соль"
Количество: "две чашки", "350 граммов", "щепотка"
Единицы измерения: "столовые ложки", "миллилитры", "среднего размера"
Модификаторы приготовления: "нарезанный", "измельченный", "комнатной температуры"
Кулинарные действия: "обжарить", "запекать при 375", "тушить в течение 20 минут"
Оборудование: "чугунная сковорода", "стационарный миксер", "противень"

Модели NER на основе трансформеров, тонко настроенные на пищевых корпусах, достигают F1-оценок выше 90 процентов на стандартных тестах NER для еды. Корпус FoodBase (Popovski и др., 2019) и набор данных TASTEset предоставляют аннотированный текст о еде, специально предназначенный для обучения этих моделей.

Парсинг зависимостей для ассоциации ингредиентов и количеств

Идентификация сущностей недостаточна. Система должна определить, какие количества относятся к каким ингредиентам. В предложении "Добавьте две чашки муки и чайную ложку соли" система должна правильно ассоциировать "две чашки" с "мукой" и "чайную ложку" с "солью".

Это требует парсинга зависимостей, который анализирует грамматическую структуру предложений для выявления отношений между словами. Современные парсеры зависимостей на основе архитектуры BERT (Devlin и др., 2019) справляются со синтаксической сложностью кулинарных инструкций, включая составные описания ингредиентов, такие как "свежевыжатый лимонный сок", и вложенные модификаторы, такие как "одна банка нарезанных томатов весом 14 унций".

Кросс-модальное объединение: разрешение конфликтов и заполнение пробелов

Наиболее технически сложный аспект этапа NLP заключается в объединении информации из всех трех модальностей (аудио, текст, визуальные данные) в единый согласованный рецепт. Это объединение должно учитывать:

Укрепление согласия. Когда транскрипция говорит "две столовые ложки соевого соуса", текст на экране показывает "2 ст. ложки соевого соуса", а визуальный поток показывает, как выливается темная жидкость, все три источника согласны, и система имеет высокую уверенность.

Разрешение конфликтов. Когда транскрипция говорит "чашка сахара", но текст на экране говорит "3/4 чашки сахара", система должна решить, какому источнику доверять. Обычно текст на экране имеет приоритет для точных измерений, поскольку создатели обычно добавляют текстовые наложения как исправления или уточнения к своему повествованию.

Заполнение пробелов. Когда рассказчик говорит "приправьте по вкусу", не указывая количеств, система может использовать визуальную оценку действия приправления в сочетании с базой данных о типичных количествах приправ для данного типа блюда, чтобы вывести разумные значения.

Темпоральное выравнивание. Сопоставление информации между модальностями требует временного выравнивания. Упоминание ингредиента в устной речи на временной метке 2:34 должно соответствовать тексту на экране, видимому с 2:30 до 2:40, и визуальному распознаванию ингредиентов из того же временного окна. Механизмы динамического временного выравнивания и на основе внимания обрабатывают неточное синхронизирование между речью, текстом и визуальными событиями.

Большие языковые модели для структурирования рецептов

Недавние достижения в области больших языковых моделей (LLMs) представляют собой мощный новый подход к структурированию рецептов. Вместо того чтобы строить отдельные модели для NER, парсинга зависимостей и объединения, LLM может обрабатывать объединенную транскрипцию и вывод OCR и генерировать структурированный рецепт за один проход.

Модель получает подсказку, содержащую транскрипцию, текст OCR и описания визуальных наблюдений, вместе с инструкциями по выводу структурированного рецепта в определенном формате. LLM превосходно справляются с этой задачей, поскольку они кодируют обширные знания о мире, связанные с кулинарией, включая типичные количества ингредиентов, распространенные комбинации ингредиентов и стандартные техники приготовления.

Этот подход имеет несколько преимуществ:

Он естественно обрабатывает неоднозначности, опираясь на знания о мире
Он разрешает сопоставления (например, понимая, что "это" в "периодически помешивайте это" относится к соусу, упомянутому три предложения назад)
Он может выводить неявные шаги на основе кулинарных знаний
Он нормализует названия ингредиентов до канонических форм, подходящих для поиска в базе данных

Основное ограничение заключается в том, что выводы LLM требуют проверки. Необходимо предотвращать галлюцинации, когда модель генерирует правдоподобную, но неверную информацию, путем перекрестной проверки с исходными модальностями и ограничениями базы данных о питательной ценности.

Этап 5: Сопоставление и расчет питательной ценности

Последний этап преобразует структурированный рецепт в полный анализ питательной ценности. Это требует сопоставления каждого извлеченного ингредиента с записью в обширной базе данных о питательной ценности и расчета значений питательной ценности на порцию.

Проблема сопоставления

Названия ингредиентов, извлеченные из кулинарных видео, редко совпадают с записями в базе данных. Видео может упоминать "большую горсть шпината", в то время как база данных содержит записи для "шпината, сырого", измеряемого в граммах. Система сопоставления должна обрабатывать:

Разрешение синонимов: "кинза" и "листья кориандра" — это один и тот же ингредиент
Сопоставление состояния приготовления: "жареные миндаль" имеет другой питательный профиль, чем "сырые миндаль"
Нормализация брендов и сортов: "Barilla penne" сопоставляется с "паста, пенне, сухая" с учетом специфических корректировок бренда
Перевод разговорного на технический: "палка масла" сопоставляется с "масло, соленое, 113 г"
Конверсия единиц: "чашка муки" должна быть преобразована в граммы с использованием значений плотности, специфичных для ингредиента, поскольку чашка муки весит примерно 120 г, в то время как чашка сахара весит примерно 200 г

Алгоритмы неявного сопоставления строк, такие как расстояние Левенштейна и косинусное сходство TF-IDF, обеспечивают базовое сопоставление. Более продвинутые подходы используют основанные на встраивании сходства, когда как извлеченный текст ингредиента, так и записи базы данных кодируются в векторные представления с использованием моделей, таких как Sentence-BERT (Reimers и Gurevych, 2019), и выбирается ближайшее соответствие в пространстве встраивания.

Базы данных о питательной ценности и их охват

Несколько крупных баз данных о питательной ценности служат основой для расчетов питательной ценности:

База данных	Охват	Поддерживается	Ключевое преимущество
USDA FoodData Central	370 000+ продуктов	Министерство сельского хозяйства США	Комплексные профили питательных веществ
Open Food Facts	3 000 000+ продуктов	Сообщество участников	Глобальное покрытие упакованных продуктов
COFID (McCance и Widdowson)	3 000+ продуктов	Агентство стандартов питания Великобритании	Составы продуктов, специфичные для Великобритании
База данных о составе пищи Австралии	2 500+ продуктов	Стандарты питания Австралии и Новой Зеландии	Региональное покрытие продуктов

Система извлечения рецептов запрашивает несколько баз данных и применяет взвешенное усреднение уверенности, когда записи различаются. Для продуктов, не найденных в стандартных базах данных, система может оценивать питательную ценность, разлагая продукт на его составные ингредиенты и суммируя их индивидуальные вклады.

Учет кулинарных преобразований

Критическая деталь, которая отличает точный расчет питательной ценности от приблизительного, заключается в учете кулинарных преобразований. Когда еда готовится, ее питательная ценность меняется:

Потеря воды: Мясо теряет 20-35 процентов своего веса во время приготовления, концентрируя питательные вещества на грамм готовой пищи
Поглощение жира: Жареные продукты впитывают масло для приготовления, добавляя калории, которые не входят в профиль сырого ингредиента
Разрушение питательных веществ: Витамины, чувствительные к теплу, такие как витамин C и витамины группы B, разрушаются во время приготовления
Гелатинизация крахмала: Приготовление изменяет гликемический индекс крахмалистых продуктов
Выделение жира: Приготовление жирного мяса приводит к выделению жира, уменьшая калорийность потребляемой порции

USDA предоставляет коэффициенты сохранения для общих питательных веществ при различных методах приготовления. Применение этих коэффициентов к питательным значениям сырных ингредиентов дает более точную оценку готового блюда.

Система Nutrola включает в себя модели этих кулинарных преобразований, корректируя значения базы данных сырных ингредиентов в зависимости от методов приготовления, определенных в процессе анализа видео. Когда система обнаруживает, что курица жарится, а не запекается, она применяет соответствующие коэффициенты потери влаги и удержания жира, чтобы получить точную оценку калорийности готового блюда.

Как Nutrola реализует этот процесс

Nutrola внедряет этот многоступенчатый технический процесс в практический пользовательский опыт. Когда пользователь делится кулинарным видео или вставляет ссылку на видео с рецептом, бэкэнд Nutrola обрабатывает видео через описанный выше процесс извлечения и возвращает структурированный рецепт с полными данными о питательной ценности.

Практическая реализация включает несколько инженерных решений, которые балансируют между точностью, скоростью и пользовательским опытом:

Выборочная выборка кадров. Вместо обработки каждого кадра система Nutrola определяет ключевые кадры, где происходят значительные визуальные изменения, такие как появление новых ингредиентов, изменение кулинарных действий или обновление текста на экране. Это снижает вычислительные затраты на 80-90 процентов, сохраняя при этом релевантную визуальную информацию.

Оценка уверенности. Каждый извлеченный элемент имеет оценку уверенности, основанную на согласии между модальностями. Ингредиенты, подтвержденные речью, текстом и визуальным распознаванием, получают высокую уверенность. Ингредиенты, обнаруженные только одной модальностью, помечаются для проверки пользователем.

Цикл коррекции пользователя. Когда система не уверена в ингредиенте или количестве, она предлагает свою лучшую оценку пользователю с возможностью исправления. Эти исправления возвращаются в модель, улучшая точность извлечения со временем через процесс обучения с участием человека.

Валидация на основе базы данных. Извлеченные рецепты проверяются на соответствие ограничениям питательной правдоподобности. Если система извлекает количество, которое приведет к неправдоподобно высокой или низкой калорийности для данного типа блюда, она помечает извлечение для проверки.

Этот подход трансформирует пассивный опыт просмотра кулинарного видео в активные данные о питательной ценности, которые интегрируются непосредственно в ежедневный учет пользователя. Вместо того чтобы вручную искать каждый ингредиент и оценивать порции, пользователи получают полный анализ питательной ценности, полученный непосредственно из контента видео.

Исследовательский фронт: что будет дальше

Область многомодального извлечения рецептов быстро развивается. Несколько направлений исследований обещают дальнейшее улучшение точности и возможностей.

Модели многомодального обучения от начала до конца

Текущие процессы обрабатывают каждую модальность отдельно, прежде чем объединять их. Появляющиеся многомодальные архитектуры обрабатывают видео, аудио и текст одновременно в одной модели. Модели многомодального фундамента, такие как Gemini от Google, могут напрямую обрабатывать видео и рассуждать по модальностям без явных промежуточных представлений. Эти модели обещают более простые процессы и лучшее кросс-модальное рассуждение, хотя требуют значительных вычислительных ресурсов.

Процедурное понимание

Текущие системы извлекают плоский список ингредиентов и шагов. Будущие системы будут строить более богатые процедурные представления, которые фиксируют графовую структуру рецепта: какие шаги зависят от каких других, какие ингредиенты используются на каком этапе и как промежуточные результаты комбинируются. Это процедурное понимание позволяет более точно рассчитывать питательную ценность, отслеживая, как ингредиенты трансформируются на каждом этапе.

Персонализированная оценка питательной ценности

По мере того как системы извлечения рецептов обрабатывают больше данных, они могут изучать индивидуальные паттерны создателей. Система, которая проанализировала 100 видео от одного и того же создателя, узнает, что когда этот создатель говорит "капля оливкового масла", он обычно использует примерно одну столовую ложку. Эта персонализированная калибровка значительно улучшает оценку количеств.

Культурные и региональные знания о пище

Расширение извлечения рецептов на полное разнообразие глобальных кухонь требует глубоких культурных знаний о пище. Знание того, что "тарелка инжеры с вотом" в эфиопской кухне следует определенным пропорциональным конвенциям, или что "миска фо" во вьетнамской кухне имеет типичные соотношения ингредиентов, позволяет системе делать обоснованные оценки, даже когда явные количества не указаны.

Часто задаваемые вопросы

Насколько точен ИИ в извлечении рецептов из кулинарных видео по сравнению с ручным чтением текстового рецепта?

Текущие многомодальные процессы извлечения достигают 85-92% точности в идентификации ингредиентов и 75-85% точности в извлечении количеств по сравнению с истинными рецептами, написанными создателями видео. Основным источником ошибок является оценка количеств, когда создатели не указывают явные измерения. Для сравнения, ручная транскрипция человеческими зрителями достигает примерно 90-95% точности, что означает, что извлечение ИИ приближается к уровню производительности человека для этой задачи. Реализация Nutrola включает в себя этап проверки пользователем для извлечений с низкой уверенностью, что повышает эффективную точность выше 95% на практике.

Что происходит, когда в кулинарном видео не указаны явные количества ингредиентов?

Когда количества не указаны явно в речи или тексте на экране, система использует иерархию методов оценки. Сначала она пытается оценить количество визуально по кадрам видео, используя оценку глубины и масштабирование по эталонным объектам. Затем она обращается к базе знаний о типичных количествах для данного типа блюда. В-третьих, она использует статистические средние значения из ранее извлеченных рецептов того же блюда. Полученная оценка помечается более низкой оценкой уверенности, и Nutrola представляет ее пользователю с примечанием о том, что количество было оценено, а не указано явно.

Может ли ИИ извлекать рецепты из кулинарных видео на языках, отличных от английского?

Да. Современные модели ASR, такие как Whisper, поддерживают транскрипцию на 915 языках, а системы OCR обрабатывают несколько скриптов, включая латиницу, CJK, кириллицу, арабский и деванагари. Уровень NLP может работать на нескольких языках, хотя точность обычно выше для языков с наибольшими объемами обучающих данных. Whisper также может переводить неанглийскую речь непосредственно на английский, позволяя последующему процессу работать на английском, даже для видео на других языках. Nutrola поддерживает извлечение рецептов из видео на более чем 30 языках.

Как система обрабатывает рецепты, когда создатель делает замены или ошибки во время съемки?

Темпоральная природа видеоанализа на самом деле помогает в этой ситуации. Когда создатель говорит "Я собирался использовать масло, но у меня только оливковое", слой NLP системы идентифицирует исправление и использует оливковое масло вместо масла в финальном рецепте. Аналогично, когда создатель добавляет ингредиент и затем говорит "на самом деле, этого слишком много, давайте я немного уберу", система отслеживает исправление. Модели на основе внимания, которые обрабатывают всю транскрипцию, могут идентифицировать эти самокоррекции, распознавая паттерны дискурса, связанные с исправлениями.

В чем разница между извлечением рецептов из видео и извлечением рецептов с веб-страницы?

Извлечение рецептов из веба в основном зависит от парсинга структурированных данных. Большинство сайтов с рецептами используют разметку schema.org Recipe, которая предоставляет машиночитаемые списки ингредиентов, количества и инструкции. Извлечение рецептов из видео принципиально сложнее, поскольку информация неструктурирована и распределена по аудио, визуальным и текстовым модальностям, которые необходимо объединить. Тем не менее, извлечение из видео имеет преимущество в захвате деталей приготовления и визуальных подсказок о количестве, которые отсутствуют в текстовых рецептах. Многие создатели также делятся советами, заменами и контекстной информацией в своем повествовании, которые никогда не появляются в письменном рецепте.

Как обнаружение метода приготовления влияет на точность питательной ценности извлеченных рецептов?

Обнаружение метода приготовления значительно влияет на точность питательной ценности. Обжаривание куриной грудки в масле добавляет примерно 60-100 калорий по сравнению с запеканием той же грудки из-за поглощения масла. Варка овощей может снизить их содержание витамина C на 30-50 процентов. Пайплайн ИИ использует модели распознавания действий для идентификации методов приготовления (гриль, жарка, запекание, паровая обработка, сырое приготовление) и применяет коэффициенты сохранения питательных веществ USDA соответственно. Этот расчет с учетом метода приготовления обычно улучшает точность оценки калорий на 10-15 процентов по сравнению с использованием значений сырого ингредиента.

Заключение

Извлечение рецепта из кулинарного видео является микрокосмом более широкой задачи в области искусственного интеллекта: осмысление неструктурированной, многомодальной, реальной информации. Это требует распознавания речи, которое работает в шумных кухнях, компьютерного зрения, способного идентифицировать сотни ингредиентов в различных состояниях приготовления, OCR, который читает стилизованный текст на загруженных фонах, и NLP, который объединяет все это в согласованную картину питательной ценности.

Процесс, описанный в этой статье, от транскрипции на основе Whisper через визуальное распознавание на основе CLIP до структурирования рецептов на основе LLM, представляет собой современное состояние искусства. Каждый компонент основывается на многолетних исследованиях машинного обучения, начиная с основополагающих работ по CNN и RNN до революции трансформеров, которая объединила NLP и компьютерное зрение под одной архитектурной парадигмой.

Реализация Nutrola этого процесса приносит эти достижения исследований в повседневное использование. Автоматически извлекая рецепты из кулинарных видео, которые пользователи уже смотрят, она устраняет разрыв между открытием рецепта и пониманием его питательного воздействия. Результат — это опыт отслеживания питания, который соответствует потребностям пользователей, превращая пассивное потребление видео в активное осознание питания без необходимости ручного ввода данных.

По мере того как многомодальные модели ИИ продолжают улучшаться, точность и скорость извлечения рецептов будут только увеличиваться. Видение того, чтобы навести телефон на любой кулинарный контент и мгновенно получить полный анализ питательной ценности, больше не является исследовательской целью. Это работающая технология, и она становится лучше с каждым достижением в основной науке.

Готовы трансформировать отслеживание питания?

Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!