AIレシピ抽出の科学:NLPとコンピュータビジョンが料理動画を読み解く方法

料理動画からレシピを抽出するための技術的なパイプラインを探り、音声認識、OCR、視覚的な材料認識、NLPを組み合わせて自動的に正確な栄養データを生成する方法を解説します。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

料理動画は、レシピを共有するための主流のフォーマットとなっています。YouTubeだけでも月に10億回以上の料理動画の視聴があり、TikTokのフードコンテンツは年間数十億回の視聴を生み出し、Instagram Reelsは家庭の料理人を潜在的なコンテンツクリエイターに変えています。しかし、レシピを視聴することと、その栄養成分を理解することの間には、依然としてギャップがあります。

このギャップを埋めるためには、自動音声認識、光学文字認識、コンピュータビジョン、自然言語処理を組み合わせた多段階のAIパイプラインが必要です。本記事では、技術的なパイプラインの各段階を分解し、それを可能にするモデルや研究を解説し、これらの技術がどのように結びついて料理動画を構造化された栄養データに変換するかを考察します。

レシピ抽出の課題:動画が難しい理由

ウェブサイトのテキストレシピは比較的簡単に解析できます。材料リスト、分量、手順が予測可能な構造に従っています。HTMLマークアップやschema.orgのレシピ注釈は、機械可読な構造を追加します。

一方、料理動画は根本的に異なる課題を提示します。レシピ情報は、複数のモダリティに分散しています:

  • 音声ナレーションが材料、分量、技術を説明します
  • 画面上のテキストが材料リスト、温度、時間を表示します
  • 視覚コンテンツが材料の追加、混合、変化を示します
  • 暗黙の知識がオーブンの予熱や米のすすぎなどの明示されていないステップを視聴者が理解していることを前提としています

どのモダリティも完全なレシピを含んでいません。クリエイターが「オリーブオイルを少し加えて」と言う一方で、画面には約2杯分を示唆する注ぎ方が映り、後に画面上のテキストには「2 tbspオリーブオイル」と表示されることがあります。完全なレシピを抽出するためには、これらの情報を融合し、矛盾を解決する必要があります。

マルチモーダル抽出パイプライン

生の動画から構造化された栄養データへの完全なパイプラインは、5つの主要な段階で構成されています:

ステージ 入力 技術 出力
1. 音声抽出 動画ファイル ASR (Whisper) タイムスタンプ付きのトランスクリプト
2. 視覚テキスト抽出 動画フレーム OCR (PaddleOCR, EasyOCR) タイムスタンプ付きの画面上のテキスト
3. 視覚的材料認識 動画フレーム CNN/ビジョントランスフォーマー (CLIP, ViT) 特定された材料とアクション
4. NLP解析と融合 トランスクリプト + OCR + 視覚データ トランスフォーマーモデル (BERT, LLMs) 分量を含む構造化レシピ
5. 栄養データベース照合 構造化レシピ ファジーマッチング + データベース照会 完全な栄養分析

各ステージは異なる技術的課題を提示し、機械学習研究のさまざまな分野に依存しています。

ステージ1:レシピナレーションのための自動音声認識

料理動画からレシピを抽出する最初のステップは、音声ナレーションをテキストに変換することです。これが自動音声認識(ASR)の領域です。

Whisper革命

OpenAIのWhisperモデルは、2022年にRadfordらによって発表され、レシピ抽出のための音声からテキストへの変換の風景を根本的に変えました。ウェブから収集した680,000時間の多言語・多タスクの監督データで訓練され、Whisperは幅広い音声条件において人間レベルの転写精度を達成しました。

Whisperが料理動画の転写に特に価値がある理由は以下の通りです:

ノイズ耐性。 キッチン環境は騒がしいです。ジュウジュウと焼ける音、水の流れる音、刻む音、バックグラウンドミュージックがナレーターの声と競合します。Whisperは多様な音声条件で訓練されているため、これらの重なり合う音源を以前のASRモデルよりも良く処理できます。

多言語対応。 料理動画はほぼすべての言語で制作されています。Whisperは915の言語での転写をサポートし、英語への翻訳も行えるため、元の言語に関係なくコンテンツからレシピを抽出できます。

句読点とフォーマット。 以前のASRシステムが平坦なテキストストリームを生成するのに対し、Whisperは文の境界を保持した句読点付きのフォーマットされたトランスクリプトを生成します。この構造は、下流のNLP解析にとって重要です。

単語レベルのタイムスタンプ。 Whisperは単語レベルでタイムスタンプを生成でき、何が言われているかと画面に表示されているものとの正確な整合性を可能にします。

料理ナレーション特有の課題

Whisperの能力があっても、料理動画には標準的な音声認識ベンチマークには現れないASRの課題があります:

ドメイン特有の語彙。 材料名は世界中の料理にわたって数千のアイテムに及びます。「コチュジャン」、「ザアタール」、「タヒニ」、「パン粉」といった用語は、一般的な訓練データにはあまり登場しません。専門的な食材語彙モデルや後処理辞書が必要です。

数量のあいまいさ。 音声での数量はしばしば不正確です。「適量の塩」、「少しの酢」、「これくらいの小麦粉」といった表現は、転写を超えた文脈的解釈を必要とします。

コードスイッチング。 多くの料理クリエイターは、一般的なナレーションには英語を使用し、料理名や伝統的な技法には母国語を使うことがあります。多言語ASRは、これらの切り替えをスムーズに処理する必要があります。

非言語コミュニケーション。 クリエイターが材料を指し示すことなく「これ」と言ったり、ボトルを持ちながら「これ」と言ったりすることがあります。これらの指示的な参照は、視覚ストリームとのクロスモーダル解決を必要とします。

トランスクリプトの後処理

生のASR出力は、レシピ抽出に役立つ前にいくつかの後処理ステップを必要とします:

  1. 食材エンティティの修正は、ドメイン特有の辞書を使用して一般的な誤認識を修正します(例:「クミン」を「来る」と誤認識する)。
  2. 数量の正規化は、話された数字や分数を標準化された数値形式に変換します。
  3. セグメンテーションは、時間的なポーズ、移行フレーズ、アクション動詞の境界に基づいて連続したトランスクリプトを論理的なレシピステップに分割します。
  4. 信頼度フィルタリングは、低信頼度のセグメントを特定し、クロスモーダル検証の可能性を示します。

ステージ2:画面上のテキストのための光学文字認識

多くの料理動画では、材料リスト、測定値、温度、手順が画面上のテキストオーバーレイとして表示されます。このテキストは、しばしば音声ナレーションよりも正確で、より標準化されたフォーマットに従います。

動画フレームでのOCRの仕組み

動画フレームからテキストを抽出するには、2つのサブタスクがあります:テキスト検出(テキストがフレーム内のどこにあるかを見つける)とテキスト認識(テキストが何を言っているかを読む)です。

テキスト検出は、画像内のテキストを含む領域を特定します。CRAFT(Character Region Awareness for Text Detection)やDBNet(Differentiable Binarization Network)などの最新の検出器は、方向、サイズ、背景の複雑さに関係なくテキストを識別できます。これらのモデルは、テキスト領域の周りにバウンディングボックスやポリゴンを出力します。

テキスト認識は、検出されたテキスト領域を文字列に変換します。畳み込みニューラルネットワークや再帰的ニューラルネットワークに基づくアーキテクチャは、CTC(Connectionist Temporal Classification)デコーディングを使用して、切り取られたテキスト領域を処理し、文字列を出力します。最近のアプローチでは、スタイライズされたフォントでの精度向上のためにトランスフォーマーベースのアーキテクチャが使用されています。

料理動画OCRの特有の課題

料理動画の画面上のテキストは、ほとんどのOCRシステムが最適化されている文書テキストとは大きく異なります:

アニメーションテキストオーバーレイ。 テキストは頻繁にアニメーションで表示され、複数のフレームにわたって完全なテキストをキャッチするために時間的集約が必要です。スライドアニメーションは、数フレームにわたって文字ごとにテキストを表示することがあります。

装飾的フォント。 フードコンテンツクリエイターは、スタイライズされた手書きのフォントや装飾的なフォントを使用することが多く、標準的なOCR訓練データのクリーンな書体とは異なります。料理特有のフォントデータセットでのファインチューニングは、認識率を向上させます。

複雑な背景。 テキストは、食材、キッチン、手を示す賑やかな視覚背景の上に重ねられることが多いです。テキストと背景の間の高コントラストは保証されません。テキストのストローク、影、背景のぼかしを検出することで、テキストレイヤーを分離します。

多言語および混合スクリプト。 単一のフレームには、英語の測定値と日本語の料理名など、複数のスクリプトのテキストが含まれることがあります。多スクリプトOCRモデルやスクリプト検出を行い、その後言語特有の認識パイプラインがこの変動を処理します。

時間的重複排除と集約

動画フレームは1秒あたり複数回サンプリングされるため、同じ画面上のテキストが連続する多くのフレームで検出されます。OCRパイプラインは以下を行う必要があります:

  1. 適切なレートでフレームをサンプリングします(通常、テキスト検出のために1秒あたり1〜2フレーム)。
  2. フレーム間でテキスト領域を追跡し、持続的なテキストと一時的なテキストを特定します。
  3. 同じテキストの重複した検出を排除します。
  4. アニメーションテキストの表示から部分的な検出を統合します。
  5. 各テキスト要素をその可視性の時間ウィンドウに関連付け、後で音声および視覚データと融合します。

このステージの出力は、タイムスタンプ付きの画面上のテキスト要素のリストであり、それぞれの可視性の期間とフレーム内の空間的位置に関連付けられています。

ステージ3:コンピュータビジョンによる視覚的材料認識

テキストの他にも、料理動画の視覚コンテンツには、材料、分量、調理方法に関する豊富な情報が含まれています。コンピュータビジョンモデルは、材料が現れると同時にそれを特定し、視覚的な手がかりから分量を推定し、調理アクションを認識できます。

ビジョントランスフォーマーとCLIPによる材料認識

現代の視覚的材料認識は、2つの重要な進展に基づいています:ビジョントランスフォーマー(ViT)と対照的な言語-画像事前学習(CLIP)。

ビジョントランスフォーマーは、2020年にDosovitskiyらによって導入され、画像認識にトランスフォーマーアーキテクチャを適用します。畳み込み層を使用するのではなく、ViTは画像をパッチに分割し、それらをシーケンスとして処理します。これは、トランスフォーマーが文中の単語を処理する方法に似ています。このアプローチは、材料の識別のような微細な視覚認識タスクに特に効果的です。

CLIPは、2021年にOpenAIのRadfordらによって開発され、自然言語の監視から視覚概念を学習します。4億の画像-テキストペアで訓練されたCLIPは、ラベル付けされた例がなくてもテキストで説明されたオブジェクトを認識できます。材料認識において、CLIPベースのシステムは、訓練セットに含まれていなくても、視覚的外観をテキスト記述に一致させることができれば、材料を特定できます。

レシピ抽出におけるCLIPの実用的な利点は、そのゼロショットおよび少数ショット能力です。食材は膨大な種類があり、調理法や文化的なプレゼンテーションも多様です。従来の分類モデルは、各材料の各調理状態に対してラベル付けされた訓練例を必要としますが、CLIPはその広範な事前訓練から一般化して新しい材料を認識できます。

調理アクションの認識

材料を特定することと同様に、どのアクションが行われているかを特定することも重要です。アクション認識は、材料が切られているのか、炒められているのか、混ぜられているのか、焼かれているのかを示し、最終的な栄養成分に直接影響します。

動画アクション認識の研究では、フレームの時間的シーケンスを分析してアクションを分類するモデルが開発されています。SlowFastネットワーク(Feichtenhofer et al., 2019)などのアプローチは、2つの時間的解像度で動画を同時に処理します。遅い経路は空間的な詳細をキャッチし、速い経路は動きを捉えます。料理動画に適用すると、これらのモデルは、かき混ぜる、泡立てる、折りたたむ、こねるといったアクションを区別できます。

Food-101およびRecipe1M+データセット(Marin et al., 2019)は、食品特有のコンピュータビジョンモデルの訓練と評価において重要な役割を果たしています。Recipe1M+には、130万以上の料理レシピと1300万の食品画像が含まれており、さまざまな料理や調理スタイルにわたって一般化するモデルを訓練するためのスケールを提供します。

視覚的数量推定

視覚的レシピ抽出の最も難しい側面の一つは、動画から材料の分量を推定することです。クリエイターが油をフライパンに注いだり、小麦粉をボウルにすくったりする際、視覚情報には分量に関する手がかりが含まれていますが、これらの手がかりを正確な測定値に変換するには高度な空間的推論が必要です。

現在のアプローチは以下を組み合わせます:

  • 参照物のスケーリング: フレーム内の既知の物体(標準的な鍋、計量カップ、まな板)を使用してスケールの基準を確立します。
  • 注ぎのダイナミクスからの体積推定: 注がれる液体の持続時間と流量を分析して体積を推定します。
  • 深度推定: MiDaS(Ranftl et al., 2020)などの単眼深度推定モデルは、容器内の材料の深度を推定し、2D画像から体積を推定するのに役立ちます。
  • 比較学習: 知られた数量のペア画像で訓練されたモデルは、視覚的比較によって量を推定することを学びます。

視覚的数量推定は、音声やテキストからの明示的な測定値よりも精度が低いですが、通常は20〜30%の精度を達成します。それでも、これは有用なクロスチェックを提供し、数量が明示的に示されていない場合のギャップを埋めます。

ステージ4:レシピ解析と融合のための自然言語処理

トランスクリプト、画面上のテキスト、視覚的注釈が揃ったところで、NLPステージはこれらのマルチモーダル信号を単一の一貫した構造化レシピに融合するという課題に直面します。

食品に関する固有名詞認識

最初のNLPタスクは、トランスクリプトとOCRテキスト内の食品関連エンティティを特定することです。これは、固有名詞認識(NER)の専門的な形式であり、以下を特定する必要があります:

  • 材料: 「鶏胸肉」、「エクストラバージンオリーブオイル」、「コーシャーソルト」
  • 分量: 「2カップ」、「350グラム」、「ひとつまみ」
  • 単位: 「大さじ」、「ミリリットル」、「中サイズ」
  • 調理修飾語: 「さいの目切り」、「みじん切り」、「室温」
  • 調理アクション: 「炒める」、「375°Fで焼く」、「20分煮る」
  • 器具: 「鋳鉄製スキレット」、「スタンドミキサー」、「シートパン」

トランスフォーマーベースのNERモデルは、食品コーパスでファインチューニングされ、標準的な食品NERベンチマークで90%以上のF1スコアを達成します。FoodBaseコーパス(Popovski et al., 2019)やTASTEsetデータセットは、これらのモデルを訓練するための注釈付き食品テキストを提供します。

食材-分量の関連付けのための依存関係解析

エンティティを特定するだけでは不十分です。システムは、どの分量がどの材料に属するかを判断する必要があります。「小麦粉2カップと塩小さじ1を加える」という文では、「2カップ」を「小麦粉」と、「小さじ1」を「塩」と正しく関連付けなければなりません。

これは、文の文法構造を分析して単語間の関係を特定する依存関係解析を必要とします。BERTアーキテクチャ(Devlin et al., 2019)に基づく最新の依存関係パーサーは、料理指示の構文的な複雑さを処理し、「絞りたてのレモンジュース」や「14オンスの缶のダイスカットした焙煎トマト」のような複合材料の説明や、ネストされた修飾語を扱います。

クロスモーダル融合:矛盾の解決とギャップの埋め

NLPステージの最も技術的に難しい側面は、すべての3つのモダリティ(音声、テキスト、視覚)からの情報を単一の一貫したレシピに融合することです。この融合は以下を処理する必要があります:

合意の強化。 トランスクリプトが「大さじ2の醤油」と言い、画面上のテキストが「2 tbsp醤油」と表示され、視覚ストリームが濃い液体が注がれる様子を示す場合、すべての情報源が一致し、システムは高い信頼度を持ちます。

矛盾の解決。 トランスクリプトが「砂糖1カップ」と言っているが、画面上のテキストが「砂糖3/4カップ」と言っている場合、システムはどの情報源を信頼するかを決定する必要があります。一般的に、画面上のテキストは正確な測定値に優先されます。なぜなら、クリエイターは通常、ナレーションの修正や明確化としてテキストオーバーレイを追加するからです。

ギャップの埋め。 ナレーターが「味を見て調整する」と言った場合、具体的な分量を指定しない場合、システムは視覚的な調味アクションの推定と、料理の種類に基づく典型的な調味分量の知識を組み合わせて合理的な値を推測できます。

時間的整合。 モダリティ間の情報を一致させるには、時間的整合が必要です。タイムスタンプ2:34での音声の材料参照は、2:30から2:40まで表示されている画面上のテキストと、同じ時間ウィンドウの視覚的材料認識と一致させる必要があります。動的時間ワーピングや注意に基づく整合メカニズムは、音声、テキスト、視覚イベント間の不正確な同期を処理します。

レシピ構造化のための大規模言語モデル

最近の大規模言語モデル(LLMs)の進展は、レシピ構造化に新しい強力なアプローチをもたらしました。NER、依存関係解析、融合のための別々のモデルを構築するのではなく、LLMは結合されたトランスクリプトとOCR出力を処理し、単一のパスで構造化されたレシピを生成できます。

モデルは、トランスクリプト、OCRテキスト、視覚観察の説明を含むプロンプトを受け取り、定義されたフォーマットで構造化されたレシピを出力するよう指示されます。LLMは、典型的な材料の分量、一般的な材料の組み合わせ、標準的な調理技術に関する広範な世界知識をエンコードしているため、このタスクに優れています。

このアプローチにはいくつかの利点があります:

  • 世界知識を活用してあいまいさを自然に処理します
  • 参照の解決(例:「それ」と言った場合、3文前のソースを指していることを理解する)を行います
  • 調理知識に基づいて明示されていないステップを推測できます
  • 材料名をデータベース照会に適した標準形に正規化します

主な制限は、LLMの出力が検証を必要とすることです。モデルが妥当だが不正確な情報を生成する「幻覚」を防ぐために、ソースモダリティや栄養データベースの制約と照らし合わせる必要があります。

ステージ5:栄養データベースの照合と計算

最終段階では、構造化されたレシピを完全な栄養分析に変換します。これには、抽出された各材料を包括的な栄養データベースのエントリに照合し、1食あたりの栄養価を計算することが必要です。

照合の課題

料理動画から抽出された材料名は、データベースのエントリと正確に一致することはほとんどありません。動画では「大きなひとつかみのベビーほうれん草」と言っているかもしれませんが、データベースには「生のほうれん草」のエントリがグラム単位で含まれています。照合システムは以下を処理する必要があります:

  • 同義語の解決: 「コリアンダー」と「コリアンダーの葉」は同じ材料です
  • 調理状態のマッピング: 「ローストアーモンド」は「生のアーモンド」と異なる栄養プロファイルを持ちます
  • ブランドと品種の正規化: 「Barillaペンネ」は「乾燥ペンネパスタ」にマッピングされ、ブランド特有の調整が行われます
  • 口語から技術への翻訳: 「バターのスティック」は「塩バター、113g」にマッピングされます
  • 単位変換: 「小麦粉1カップ」は、材料特有の密度値を使用してグラムに変換する必要があります。小麦粉1カップは約120gですが、砂糖1カップは約200gです。

レーベンシュタイン距離やTF-IDFコサイン類似度のようなファジーストリングマッチングアルゴリズムが基本的な照合を提供します。より高度なアプローチでは、抽出された材料テキストとデータベースエントリの両方をSentence-BERT(Reimers and Gurevych, 2019)などのモデルを使用してベクトル表現にエンコードし、埋め込み空間で最も近いマッチを選択します。

栄養データベースとそのカバレッジ

いくつかの主要な栄養データベースが栄養計算の基盤を提供します:

データベース カバレッジ 管理者 主要な強み
USDA FoodData Central 370,000以上の食品 米国農務省 包括的な栄養プロファイル
Open Food Facts 3,000,000以上の製品 コミュニティ貢献者 グローバルなパッケージ食品のカバレッジ
COFID (McCance and Widdowson's) 3,000以上の食品 英国食品基準庁 英国特有の食品成分
オーストラリア食品成分データベース 2,500以上の食品 食品基準オーストラリア・ニュージーランド 地域特有の食品カバレッジ

堅牢なレシピ抽出システムは、複数のデータベースを照会し、エントリが異なる場合には信頼度加重平均を適用します。標準データベースに見つからない食品については、食品を構成する材料に分解し、それぞれの貢献を合計することで栄養内容を推定できます。

調理変換の処理

正確な栄養計算を分ける重要なニュアンスは、調理変換を考慮することです。食品が調理されると、その栄養成分は変化します:

  • 水分損失: 肉は調理中に20〜35%の重量を失い、調理された食品のグラムあたりの栄養素が濃縮されます
  • 脂肪吸収: 揚げ物は調理油を吸収し、原材料プロファイルには含まれないカロリーを追加します
  • 栄養素の劣化: ビタミンCやBビタミンのような熱に敏感な栄養素は、調理中に劣化します
  • デンプンのゼラチン化: 調理はでんぷん食品のグリセミックインデックスを変えます
  • 脂肪の溶出: 脂肪の多い肉を調理すると、脂肪が溶け出し、消費される部分のカロリーが減少します

USDAは、さまざまな調理方法における一般的な栄養素の保持因子を提供しています。これらの因子を生の材料の栄養価に適用することで、最終的な調理された料理のより正確な推定が得られます。

Nutrolaの栄養エンジンは、これらの調理変換モデルを組み込み、動画分析パイプライン中に特定された調理方法に基づいて生の材料データベースの値を調整します。システムが鶏肉が揚げられるのではなく焼かれていることを検出すると、適切な水分損失と脂肪保持因子を適用して、完成した料理の正確なカロリー推定を行います。

Nutrolaがこのパイプラインを実装する方法

Nutrolaは、この多段階技術パイプラインを実用的な消費者体験に持ち込みます。ユーザーが料理動画を共有したり、レシピ動画のリンクを貼り付けたりすると、Nutrolaのバックエンドは上記の抽出パイプラインを通じて動画を処理し、構造化されたレシピと完全な栄養データを返します。

実用的な実装には、精度、速度、ユーザー体験のバランスを取るいくつかのエンジニアリング上の決定が含まれます:

選択的フレームサンプリング。 すべてのフレームを処理するのではなく、Nutrolaのシステムは、新しい材料が現れたり、調理アクションが変わったり、画面上のテキストが更新されたりする重要なフレームを特定します。これにより、計算コストを80〜90%削減し、関連する視覚情報をキャッチします。

信頼度スコアリング。 抽出された各要素には、モダリティ間の合意から導出された信頼度スコアが付与されます。音声、テキスト、視覚認識によって確認された材料は高い信頼度を持ちます。1つのモダリティによってのみ検出された材料は、ユーザーの確認のためにフラグが立てられます。

ユーザー修正ループ。 システムが材料や分量について不確かである場合、最良の推定をユーザーに提示し、修正のオプションを提供します。これらの修正はモデルにフィードバックされ、時間とともに抽出精度を向上させます。

データベースに基づく検証。 抽出されたレシピは、栄養的な妥当性の制約に対して検証されます。システムが料理タイプに対して不自然に高いまたは低いカロリー数をもたらす分量を抽出した場合、その抽出はレビューのためにフラグが立てられます。

このアプローチは、料理動画を視聴する受動的な体験を、ユーザーの日常的な追跡に直接統合された行動可能な栄養データに変えます。各材料を手動で検索し、分量を推定するのではなく、ユーザーは動画コンテンツから直接導出された完全な栄養分析を受け取ります。

研究の最前線:次に来るもの

マルチモーダルレシピ抽出の分野は急速に進展しています。いくつかの研究方向が、精度と能力をさらに向上させることを約束しています。

エンドツーエンドのマルチモーダルモデル

現在のパイプラインは、各モダリティを個別に処理してから融合します。新興のマルチモーダルアーキテクチャは、動画、音声、テキストを同時に単一のモデルで処理します。GoogleのGeminiや同様のマルチモーダル基盤モデルは、動画を直接取り込み、明示的な中間表現なしにモダリティ間で推論を行うことができます。これらのモデルは、よりシンプルなパイプラインと優れたクロスモーダル推論を約束しますが、かなりの計算リソースが必要です。

手続き理解

現在のシステムは、平坦な材料と手順のリストを抽出します。将来のシステムは、レシピの手順のグラフ構造をキャプチャするよりリッチな手続き表現を構築します:どのステップがどの他のステップに依存しているか、どの材料がどの段階で使用されるか、そして中間結果がどのように結合されるか。これにより、各ステップを通じて材料がどのように変化するかを追跡することで、より正確な栄養計算が可能になります。

個別化された栄養推定

レシピ抽出システムがより多くのデータを処理するにつれて、個々のクリエイターのパターンを学習できます。同じクリエイターの100本の動画を分析したシステムは、「オリーブオイルを少し加える」と言った場合、通常は約1大さじを使用することを学びます。この個別化されたキャリブレーションは、数量推定を大幅に改善します。

文化的および地域的な食品知識

レシピ抽出を世界中の料理の多様性に拡大するには、深い文化的食品知識が必要です。「インジェラとワットの皿」はエチオピア料理で特定の比率の慣習に従うことを知っていることや、「フォーのボウル」はベトナム料理で典型的な材料比率を持つことを知っていることで、明示的な分量が提供されていない場合でも、システムは情報に基づいた推定を行うことができます。

よくある質問

AIレシピ抽出は、手動でテキストレシピを読むのと比べてどれくらい正確ですか?

現在のマルチモーダル抽出パイプラインは、材料の特定で85〜92%、分量抽出で75〜85%の精度を達成しています。これは、動画クリエイターによって書かれたグラウンドトゥルースレシピと比較した場合です。主なエラーの原因は、クリエイターが明示的な測定値を示さない場合の数量推定です。比較のために、人間の視聴者による手動転写は約90〜95%の精度を達成しており、AI抽出はこのタスクに対して人間レベルのパフォーマンスに近づいています。Nutrolaの実装には、低信頼度の抽出に対するユーザー確認ステップが含まれており、実際の精度を95%以上に引き上げています。

料理動画で明示的な材料の分量が示されていない場合はどうなりますか?

分量が音声や画面上のテキストで明示的に示されていない場合、システムは推定方法の階層に従って処理します。まず、動画フレームからの視覚的数量推定を試み、深度推定や参照物のスケーリングを使用します。次に、料理の種類に基づく典型的な分量の知識ベースを参照します。最後に、同じ料理の以前に抽出されたレシピからの統計的平均を使用します。得られた推定値は低い信頼度スコアでフラグが立てられ、Nutrolaはそれが明示的に示されていないことをユーザーに通知します。

AIは英語以外の言語の料理動画からレシピを抽出できますか?

はい。最新のASRモデルであるWhisperは915の言語での転写をサポートしており、OCRシステムはラテン文字、CJK、キリル文字、アラビア文字、デーヴァナーガリーなどの複数のスクリプトを処理します。NLP解析層は複数の言語で機能しますが、精度は一般的に訓練データが最も多い言語で最も高くなります。Whisperは、非英語の音声を直接英語に翻訳することもでき、下流のパイプラインが他の言語の動画でも英語で機能することを可能にします。Nutrolaは、30以上の言語の動画からのレシピ抽出をサポートしています。

クリエイターが撮影中に代替や間違いをするレシピは、システムはどう処理しますか?

動画分析の時間的特性は、実際にこのシナリオに役立ちます。クリエイターが「バターを使うつもりだったが、オリーブオイルしかない」と言った場合、システムのNLP層は修正を特定し、最終レシピにはオリーブオイルを使用します。同様に、クリエイターが材料を追加し、「実際には多すぎるので、少し取り出します」と言った場合、システムは修正を追跡します。全体のトランスクリプトを処理する注意ベースのモデルは、修正に関連する談話パターンを認識することで、これらの自己修正を特定できます。

動画からのレシピ抽出とウェブページからのレシピ抽出の違いは何ですか?

ウェブレシピ抽出は主に構造化データの解析に依存します。ほとんどのレシピウェブサイトは、材料リスト、分量、手順を提供するschema.orgレシピマークアップを使用しています。動画レシピ抽出は、情報が非構造化で音声、視覚、テキストのモダリティに分散しているため、根本的に難しいです。しかし、動画抽出は、テキストレシピにはない調理の詳細や視覚的な数量の手がかりをキャッチする利点があります。多くのクリエイターは、ナレーションの中で書かれたレシピには現れないヒントや代替案、文脈情報を共有します。

調理方法の検出は、抽出されたレシピの栄養精度にどのように影響しますか?

調理方法の検出は、栄養精度に大きな影響を与えます。鶏胸肉を油で揚げると、同じ胸肉を焼く場合に比べて約60〜100カロリーが追加されます。野菜を茹でると、ビタミンCの含有量が30〜50%減少する可能性があります。AIパイプラインは、調理方法(焼く、揚げる、焼く、蒸す、生の調理)を特定するためにアクション認識モデルを使用し、USDAの栄養保持因子を適用します。この調理方法を考慮した計算は、生の材料の値だけを使用する場合に比べて、カロリー推定の精度を通常10〜15%向上させます。

結論

料理動画からレシピを抽出することは、人工知能のより広範な課題の縮図です:非構造化されたマルチモーダルな現実世界の情報を理解することです。騒がしいキッチンで機能する音声認識、さまざまな調理状態の数百の材料を特定できるコンピュータビジョン、混雑した背景のスタイライズされたテキストを読み取るOCR、そしてこれらすべてを一貫した栄養的な絵に融合するNLPが必要です。

本記事で説明したパイプラインは、Whisperベースの転写からCLIPによる視覚認識、LLMによるレシピ構造化まで、現在の最先端を代表しています。各コンポーネントは、CNNやRNNに関する基礎的な研究から、NLPとコンピュータビジョンを単一のアーキテクチャパラダイムの下に統一したトランスフォーマー革命まで、数年にわたる機械学習研究に基づいています。

Nutrolaのこのパイプラインの実装は、これらの研究の進展を日常的な使用に結びつけます。ユーザーがすでに視聴している料理動画から自動的にレシピを抽出することで、レシピを発見することとその栄養的影響を理解することの間のギャップを埋めます。その結果、手動データ入力を必要とせず、受動的な動画消費を積極的な栄養意識に変える栄養追跡体験が実現します。

マルチモーダルAIモデルが進化し続ける中で、レシピ抽出の精度と速度はさらに向上するでしょう。料理コンテンツにスマートフォンを向けるだけで、瞬時に完全な栄養分析を受け取るというビジョンは、もはや研究の願望ではありません。これは実用的な技術であり、基礎となる科学の進展とともに改善され続けています。

栄養追跡を革新する準備はできていますか?

Nutrolaで健康の旅を変えた数千人に参加しましょう!