AIによる食べ物認識のデータ分析:AIが最も誤認識した20種類の食品

NutrolaのAI食べ物認識システムから得られたデータは、コンピュータビジョンが正しく識別するのが最も難しい食品を明らかにし、その理由と精度向上の方法を示しています。

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

AIによる食べ物認識のデータ

AIを活用した食べ物認識は、栄養管理の方法を一変させました。データベースを検索したり、ポーションサイズを推測したりする代わりに、写真を撮るだけでコンピュータビジョンが作業を行います。NutrolaのSnap & Track機能は、毎月数百万枚の食べ物画像を処理しており、50カ国以上のユーザーが主なログ記録方法として利用しています。

しかし、AIによる食べ物認識は完璧ではありません。特定の食品は、最も高度なコンピュータビジョンモデルでさえも誤認識してしまうことがあります。この技術が得意とする部分と苦手な部分を理解するために、2025年1月から2026年1月までの間にNutrolaのSnap & Trackシステムを通じて処理された1000万枚の食べ物写真を分析しました。AIの識別結果をユーザーの修正、手動確認、栄養士のレビューと比較し、食品ごとの精度率を算出し、誤認識の体系的なパターンを特定しました。

その結果、以下のことがわかりました。

方法論

私たちの分析には、Nutrolaのユーザーから提出された10,247,831枚の食べ物写真が含まれています。各写真について、以下の情報を追跡しました:

  • 初期AI識別結果: AIが最も自信を持って識別した食品
  • ユーザー修正率: ユーザーがAIの識別をどれだけ頻繁に変更したか
  • 栄養士による確認: 50,000枚の画像を無作為に選び、資格を持つ栄養士が確認し、ユーザーの修正とは独立した真の精度を確立
  • トップ1精度: AIの最も高い自信を持った識別が正しいかどうか
  • トップ3精度: 正しい食品がAIの3つの最も高い自信の予測の中に含まれているかどうか

全体として、NutrolaのSnap & Trackは、すべての食品カテゴリーで87.3%のトップ1精度と94.1%のトップ3精度を達成しました。これらの数値は、Food-101やISIA Food-500などの標準データセットで、最先端の食べ物認識モデルが通常報告する80-90%のトップ1精度と一致しています。

しかし、精度は食品の種類によって大きく異なります。あるカテゴリーは95%を超えるトップ1精度を達成する一方で、他のカテゴリーは60%未満です。

最も誤認識された食品20種類

完全ランキング

ランク 食品 トップ1精度 トップ3精度 最も一般的な誤認識 誤認識時のカロリー誤差
1 クスクス 52.1% 71.4% キヌア、ブルグール、小米 +/- 15-40 kcal/サービング
2 プレーンギリシャヨーグルト 55.8% 78.2% サワークリーム、ラブネ、通常のヨーグルト +/- 30-80 kcal/サービング
3 カリフラワーライス 57.3% 74.6% 白米、クスクス +110-150 kcal/サービング
4 味噌汁 58.9% 76.1% 他の出汁ベースのスープ、だし +/- 20-60 kcal/サービング
5 フラットブレッドの種類 59.4% 73.8% ナン、ロティ、ピタ、トルティーヤ +/- 50-150 kcal/個
6 アサイーボウル 61.2% 79.5% スムージーボウル、ミックスベリーボウル +/- 100-200 kcal/ボウル
7 七面鳥のベーコン 62.0% 80.1% 豚のベーコン +40-70 kcal/サービング
8 テンペ 63.4% 77.9% 豆腐(固形)、セイタン +/- 30-80 kcal/サービング
9 ズッキーニヌードル 64.1% 81.3% 通常のパスタ、ガラスヌードル +150-200 kcal/サービング
10 ババガヌーシュ 64.8% 79.7% フムス +30-60 kcal/サービング
11 ホワイトフィッシュフィレ 65.2% 82.4% 鶏むね肉、他の白身魚 +/- 20-50 kcal/サービング
12 プロテインパンケーキ 66.1% 83.0% 通常のパンケーキ +80-150 kcal/サービング
13 オートミルク 67.3% 84.2% 通常の牛乳、アーモンドミルク、大豆ミルク +/- 30-80 kcal/カップ
14 ダークリーフグリーン(調理済み) 67.9% 85.1% ホウレンソウ、ケール、コラード、チャード +/- 5-15 kcal/サービング
15 無糖デザート 68.4% 80.6% 同じデザートの通常版 +100-250 kcal/サービング
16 グレインボウル 69.1% 83.7% 穀物ベースの種類の誤認識 +/- 40-100 kcal/サービング
17 植物由来の肉 69.8% 84.9% 本物の肉の代替品 +/- 30-80 kcal/サービング
18 餃子 70.2% 85.6% ワンタン、ギョーザ、ピエロギ、モモ +/- 20-60 kcal/個
19 ミックスカレー料理 70.5% 82.3% カレーの種類やベースの混同 +/- 50-150 kcal/サービング
20 オーバーナイトオーツ 71.0% 86.2% 通常のオートミール、チアプディング +/- 50-120 kcal/サービング

なぜこれらの食品がAIを欺くのか:5つのパターン

パターン1:カロリープロファイルが異なる視覚的双子

誤認識の最も一般的な原因は、見た目がほぼ同じでありながら、栄養プロファイルが大きく異なる食品です。クスクスとキヌア、私たちの誤認識された食品の中で最も多いものは、特に野菜やソースと混ざっていると、写真ではほとんど区別がつきません。しかし、キヌアはクスクスよりも約20%多くのカロリーと、かなり多くのタンパク質を含んでいます。

同様に、カリフラワーライスと白米も、写真ではほぼ同じ視覚的特徴を持っていますが、カロリーの差は非常に大きいです:カリフラワーライスは1カップあたり約25 kcal、白米は200 kcal以上です。AIがカリフラワーライスを白米と誤認識すると、単一のサイドディッシュで150 kcal以上のカロリーが増加する可能性があります。

ギリシャヨーグルト、サワークリーム、ラブネは、別の視覚的双子のクラスを形成しています。これら3つはすべて白くクリーミーで、通常はボウルに盛られます。フルファットのギリシャヨーグルトは1カップあたり約130 kcalですが、サワークリームは約445 kcalです。ここでの誤認識は、ユーザーの一日の摂取計算を大きく歪める可能性があります。

パターン2:類似食品の地域的バリエーション

フラットブレッドは、視覚的に似ているが栄養的に異なる食品が文化ごとに数十種類存在するため、私たちのリストで5位にランクインしました。標準的な小麦粉のトルティーヤ(約120 kcal)は、写真で部分的に折りたたまれたり、巻かれたりすると、ナン(約260 kcal)と似て見えます。ロティ(約100 kcal)やパラタ(約260 kcal、油やバターの層があるため)も見た目は区別がつきませんが、カロリーは倍以上の差があります。

餃子(18位)も同様の課題を抱えています。日本のギョーザ、中国のジャオズィ、ポーランドのピエロギ、ネパールのモモ、ジョージアのヒンカリは、同じ形状(生地の包みと具)を持っていますが、サイズ、包みの厚さ、具の組成、調理方法(蒸し、揚げ、茹で)において大きく異なります。

Nutrolaの利点は、50カ国以上にわたるカバレッジです。AIモデルは、すべての主要な料理伝統からの食べ物画像でトレーニングされており、西洋の食べ物写真に主に基づいてトレーニングされたモデルよりも広範な視覚的語彙を持っています。それでも、カテゴリー内の区別は依然として難しいです。

パターン3:オリジナルに似せた代替食品

食事の代替品の増加は、新たな認識の課題を生み出しました。七面鳥のベーコンは豚のベーコンに似せて作られています。植物由来のバーガーは牛肉のバーガーに似せています。ズッキーニヌードルはパスタに似せています。プロテインパンケーキは通常のパンケーキに似せています。無糖デザートは、同じデザートのフルシュガー版に似せています。

これらの代替品は、置き換える食品に似せて意図的にデザインされています。これは消費者満足の観点からの全体的な目的ですが、視覚認識システムにとって根本的な問題を引き起こします。カロリーの影響は大きいです:通常のパンケーキは平均175 kcalですが、プロテインパンケーキは通常90-110 kcalです。ズッキーニヌードルは1カップあたり約20 kcalで、調理したスパゲッティは220 kcalです。

私たちのデータセットでは、代替食品のトップ1精度は66.7%で、非代替食品の89.2%と比較されます。これは、文脈信号(ユーザーの食事の好み、過去のログパターン)が役立つ領域であり、NutrolaのAIはこれらの信号を取り入れて予測を改善しています。

パターン4:液体および半液体食品

スープ、スムージーボウル、飲料は、固形食品よりもAIが識別するのが一貫して難しいです。味噌汁(4位)は、豆腐や海藻の目に見える部分がある透明な液体で、他のアジアの出汁と混同されることがあります。アサイーボウル(6位)は、他のベリースムージーボウルと視覚的特徴を共有していますが、ベースのブレンドやトッピングによってカロリー含有量が大きく異なります。

液体食品の課題は、重要な栄養情報が文字通り目に見えないことです。写真で見た目が同じ2カップの液体が、10 kcal(ブラックコーヒー)から400 kcal(高カロリースムージー)まで含む可能性があります。Nutrolaは、液体食品が検出されたときにユーザーにフォローアップの質問を促すことでこれに対処しています:「これは通常版ですか、それともダイエット版ですか?」、「これはどのブランドですか?」

パターン5:隠れた成分を含む混合料理

カレー料理(19位)やグレインボウル(16位)は、栄養的に重要な成分が目に見えない多成分料理というより広い課題を表しています。タイのグリーンカレーは、ココナッツミルク(1サービングあたり200 kcal以上を追加)または軽い出汁ベースで作られる可能性があります。グレインボウルのカロリーは、ベースがキヌア、白米、玄米、またはファロであるかどうかによって大きく異なり、トッピングによって隠されることがあります。

混合料理は、Nutrolaのユーザーが記録したすべての食事の約35%を占めていますが、カロリー推定誤差の52%を占めています(誤差が料理の真のカロリー含有量の15%を超えるものとして定義)。

Nutrolaが精度を改善した方法

繰り返しモデルのトレーニング

Nutrolaのユーザーによるすべての修正は、AIモデルのトレーニングパイプラインにフィードバックされます。ユーザーが「キヌア」を「クスクス」に変更すると、その修正と元の画像がトレーニングデータセットに追加されます。私たちの分析の12か月間で、この継続的な学習プロセスにより、全体のトップ1精度は82.6%から87.3%に向上し、4.7ポイントの増加を達成しました。

四半期 トップ1精度 トップ3精度 平均カロリー誤差
2025年第1四半期 82.6% 90.3% 47 kcal
2025年第2四半期 84.1% 91.8% 41 kcal
2025年第3四半期 85.9% 93.2% 36 kcal
2025年第4四半期 86.8% 93.9% 33 kcal
2026年第1四半期(部分) 87.3% 94.1% 31 kcal

文脈信号

NutrolaのAIは、孤立して食品を識別するわけではありません。精度を向上させるために文脈信号を取り入れています:

  • ユーザーの食事プロフィール: ユーザーが植物由来の食事を選択している場合、モデルは植物由来の代替品(鶏肉より豆腐、乳製品よりオートミルク、牛肉より植物由来のバーガー)の自信スコアを高めます。
  • 食事のタイミング: 朝食の画像には、朝食食品が含まれる可能性が高いです。これは明白に思えますが、オーバーナイトオーツとチアプディングのような曖昧なアイテムの精度を大幅に向上させます。
  • 地理的位置: 東京で撮影された写真は、ミネストローネより味噌汁である可能性が高いです。Nutrolaは50カ国以上のユーザーにサービスを提供しており、ユーザーの許可を得て一般的な位置データを使用して食品識別の優先順位を調整します。
  • 過去のログパターン: ユーザーがカリフラワーライスを定期的に記録している場合、モデルは視覚入力が曖昧なときにこのユーザーがカリフラワーライスを食べる可能性が高いと学習します。

複数画像認識

2025年、Nutrolaは同じ食事の異なる角度から複数の写真を撮る機能を導入しました。複雑な料理や曖昧な食品に対して、別の角度からの写真が識別の不確実性を解消できます。テストでは、複数角度認識により、最も誤認識された食品20種類のトップ1精度が8.2ポイント向上しました。

自信スコアとユーザーのプロンプト

AIの自信スコアが75%未満の場合、Nutrolaはユーザーにトップ3の候補を提示し、トップ結果を自動的に記録するのではなく、正しい識別をタップしたり、食品名を入力したりすることができます。この透明なアプローチにより、自信が低い識別が記録される前に捕捉され、修正されます。

誤認識のカロリー影響

すべての誤認識が同じというわけではありません。ケールとホウレンソウを混同する(14位)は、1サービングあたりのカロリー影響が5-15 kcalで、栄養的には無視できる範囲です。カリフラワーライスと白米(3位)やズッキーニヌードルとパスタ(9位)を混同すると、150-200 kcalの誤差が生じ、日々のカロリー予算に大きな影響を与える可能性があります。

私たちは、データセット全体の誤認識によるカロリー影響を計算しました:

カロリー誤差範囲 誤認識の割合 実際の影響
25 kcal未満 38.2% 無視できる
25-75 kcal 29.6% 軽微
75-150 kcal 19.7% 中程度、時間とともに目立つ
150-250 kcal 9.1% 重要、日々の目標に影響を与える可能性
250 kcal以上 3.4% 大きな影響、小さな食事に相当

すべての誤認識における中央値のカロリー誤差は42 kcalで、ほとんどの栄養追跡目的において許容範囲内です。しかし、分布の尾部(150 kcal以上の誤差を引き起こす誤認識の12.5%)は、AI食べ物認識が最も改善の余地がある領域です。

ユーザーがAIの精度を向上させるためにできること

  1. 明確で十分な照明の写真を撮る。 AIは、良好な照明と皿の上からの明確なトップダウンビューで最も効果的に機能します。薄暗いレストランの写真や極端な角度は、精度を平均6ポイント低下させます。

  2. 可能な場合はコンポーネントを分ける。 食事に明確なコンポーネント(タンパク質、穀物、野菜)がある場合、目に見える分離を持たせることで、AIが各アイテムを個別に識別しやすくなります。

  3. 修正機能を使用する。 あなたが行うすべての修正は、あなた自身とNutrolaコミュニティ全体のためにAIを改善します。使用開始から最初の2週間以内に誤認識を修正するユーザーは、特定の食事パターンを学習するため、長期的な精度率が11%高くなります。

  4. 代替食品を指定する。 代替食品(カリフラワーライス、植物由来の肉、無糖オプション)を定期的に食べる場合は、Nutrolaの食事の好みにそれを記載してください。AIは、予測においてこれらの代替品をより重視します。

  5. 複数角度の写真を試す。 複雑な料理の場合、異なる角度からの2枚目の写真が曖昧さを解消できます。これは、トッピングの下に隠れた重要な成分があるボウルやスープ、混合料理に特に役立ちます。

今後の展望

AI食べ物認識の精度は、過去3年間で劇的に改善されており、その傾向は衰える兆しを見せていません。NutrolaのSnap & Trackモデルは、月ごとに処理する食べ物写真の数が、ほとんどの公表された学術データセットの合計よりも多く、すべてのインタラクションがシステムを賢くしています。

2026年末までの目標は、すべての食品カテゴリーでトップ1精度90%、現在の最も誤認識された食品20種類で75%を達成することです。モデルの改善を続け、50カ国以上の成長するユーザーベースからのトレーニングデータを拡大し、複数角度認識や文脈信号のような機能を活用することで、これらの目標は達成可能だと考えています。

目指すのは、人間の判断を完全に置き換えることではありません。食事の記録を迅速かつ正確に行えるようにし、栄養追跡の摩擦を効果的に取り除くことです。まだそこには至っていませんが、1000万枚の写真を経て、昨年よりも確実に近づいています。

栄養追跡を革新する準備はできていますか?

Nutrolaで健康の旅を変えた数千人に参加しましょう!