AIは幻覚を見ている?一般的なLLMを使ったダイエットアドバイスの危険性
ChatGPTやGeminiは詩を書くことができますが、カロリーを正確に計算できますか?私たちは一般的なLLMを検証済みの栄養データと比較し、その結果はダイエット追跡に使用している人々にとって懸念すべきものでした。
「ねえ、ChatGPT、私のチキン炒めには何カロリー入ってる?」
返ってきた答えは即座に自信満々で、「一般的なチキン炒めは1人前あたり約350〜450カロリーです。」と。合理的に聞こえ、マクロ栄養素の内訳も示しています。しかし、問題があります。それは、数字が捏造されたものであることです。推定でも近似でもなく、実際の栄養データベースとは無関係に、テキストデータの統計パターンから生成されたものです。
これがAI研究者が「幻覚」と呼ぶ現象であり、栄養に関する文脈で起こると、その影響は悪いエッセイや間違ったトリビアの答えを超えます。人々はこれらの数字に基づいて実際の食事の決定を行い、その決定は健康に影響を与えます。
栄養における「幻覚」の意味
大規模言語モデルの用語では、幻覚とは、モデルがもっともらしく聞こえるが事実に反する情報を生成することを指します。LLMはデータベースで事実を調べることはありません。トレーニング中に学習したパターンに基づいて、次に最も可能性の高い単語を予測します。
ChatGPTに食品のカロリーを尋ねると、USDAのFoodData Centralデータベースを照会したり、NCCDBと照らし合わせたりすることはありません。トレーニングデータに現れるであろう答えに統計的に似た応答を生成します。時にはその答えが正しいこともありますが、時には大きく外れることもあります。
危険なのは、自信のレベルが両方の場合で同じであることです。幻覚によって生成されたカロリー数は、正確なものと全く同じように見えます。
一般的なLLMが栄養を間違える理由
私たちはChatGPT(GPT-4o)、Gemini、Claudeに一般的な食事の栄養成分を推定させる一連のテストを行いました。その推定値をUSDAの検証済み参照値やNutrolaの栄養士がレビューしたデータベースと比較しました。失敗のパターンは一貫しており、明らかでした。
捏造された精度
「オリーブオイルの大さじ1杯には何カロリー入っていますか?」と尋ねると、正しい答えが得られることがよくあります:およそ119カロリー。これは、その特定の事実がトレーニングデータに頻繁に現れるからです。
しかし「自家製のチキンティッカマサラとナンには何カロリー入っていますか?」と尋ねると、モデルは即興で答えなければなりません。私たちのテストでは、GPT-4oは異なる会話で同じ食事について450〜750カロリーの範囲で推定値を返しました。実際の値は、検証済みの材料データから計算した685カロリーでした。1つの回答は近かったですが、他は200カロリー以上も外れていました。
モデルには、どの回答が信頼できるもので、どれが即興の推測であるかを示す方法がありません。
調理方法の盲点
LLMには、食品の調理方法に関する根本的な盲点があります。「グリルした鶏むね肉」と「バターで焼いた鶏むね肉」は、主成分に焦点を当てるため、似たようなカロリー推定を受けることがあります。
私たちのテストでは、「サーモン」とだけ尋ねると、回答は常に6オンスのフィレに対して230〜280カロリーの焼きまたはグリルの推定にデフォルトされました。しかし、2大さじのバターで焼き、照り焼きソースをかけた6オンスのサーモンフィレは、実際には450〜500カロリーに近いです。この差は、カロリー不足を長期的に悪化させるのに十分なものです。
サービングサイズの幻覚
おそらく最も危険な失敗モードは、サービングサイズの仮定です。一般的なLLMに食品のカロリーを尋ねると、サービングサイズを仮定しなければなりません。これらの仮定は一貫性がなく、しばしば明示されません。
「パスタのボウル」は300〜400カロリーと推定されるかもしれません。しかし、誰のボウルですか?標準的な2オンスの乾燥スパゲッティにマリナーラソースをかけたものは約280カロリーです。レストランの4〜6オンスの乾燥パスタにソースをかけたものは、600〜900カロリーに達することが簡単にあります。LLMは中間の数字を選び、それを事実として提示します。
食事プランにおけるエラーの累積
ユーザーがLLMに完全な食事プランを生成させると、リスクはさらに高まります。各推定には誤差があり、それらの誤差は食事や日をまたいで累積します。1日あたり1,800カロリーを提供すると主張する食事プランは、実際には2,200カロリーまたは1,400カロリーになる可能性があります。
糖尿病などの医療条件を管理するために食事プランを使用している人や、特定のアスリートパフォーマンス目標を達成するために使用している人にとって、このレベルの不正確さは単に役に立たないだけでなく、潜在的に有害です。
目的特化型栄養AIが異なる理由
一般的なLLMと目的特化型の栄養システムの違いは、外見上のものではなく、構造的なものです。
データベースに基づく応答
NutrolaのAIは、言語パターンからカロリー推定を生成しません。食品項目を特定すると、それを検証済みの栄養データベースのエントリにマッピングします。このデータベースには、USDAのFoodData Central、複数の国の国立栄養データベース、社内の栄養士がレビューしたエントリが含まれています。
これにより、システムはカロリー数を幻覚することができません。数字は特定の監査可能なデータベースエントリから来ており、統計的な言語モデルからではありません。
ビジュアル検証
ユーザーが食事の写真を撮ると、Nutrolaのコンピュータビジョンモデルは個々の食品項目を特定し、視覚分析に基づいてポーションサイズを推定します。この視覚的な基盤は、テキストのみのLLMが実行できないチェックを提供します。システムは、テキストの説明から推測するのではなく、実際に食べているものを見ています。
透明な不確実性
よく設計された栄養システムは、不確実性がある場合にそれを認識します。料理があいまいである場合や、写真からポーションサイズを推定するのが難しい場合、システムはその不確実性を示し、ユーザーに確認を求めることができます。一般的なLLMは、栄養推定が低信頼性であることを示すことはほとんどありません。なぜなら、事実の主張に対する自信を測定するメカニズムがないからです。
実際の健康リスク
AIからの不正確なカロリーデータは、抽象的な問題ではありません。具体的な形で現れます。
体重管理の失敗。 一貫して1日200カロリーの過大評価または過小評価は、どのダイエットの結果を変えます。30日間で、それは6,000カロリーの誤差であり、約1.7ポンドの体脂肪に相当します。
微量栄養素の盲点。 LLMは微量栄養素データを提供することはほとんどなく、提供する場合でも、その数字はカロリー推定よりも信頼性が低いです。妊娠中の鉄分摂取を追跡している人や、高血圧のためにナトリウムを監視している人は、生成された推定値に依存することはできません。
誤った自信。 最も厄介なリスクは、ユーザーが正確なデータを持っていると信じていることです。これは、より良いツールを探したり、実際の結果に基づいて調整を行ったりするのを妨げます。
食品についてLLMに尋ねるのが許可される場合
一般的なLLMは栄養に対して無用ではありません。特定のタイプのクエリには効果的です:
- 一般的な教育:「カリウムが豊富な食品は?」や「可溶性と不溶性の食物繊維の違いは?」などの知識に関する質問では、概算の答えが適切です。
- レシピアイデア:「500カロリー未満の高タンパクランチアイデアを教えて」などは、正確なカロリー数を確認する必要があっても、有用なインスピレーションを提供できます。
- 概念の理解:「カロリー不足とは何か?」や「タンパク質が筋肉の回復にどのように役立つのか?」などの分野では、LLMは良好に機能します。
明確な境界があります:栄養について学ぶためにLLMを使用し、追跡には検証済みのデータベースに基づくツールを使用してください。
AIの栄養主張を検証する方法
チャットボットや他のツールを使用している場合、得られるデータを確認するための実用的なステップがあります:
- USDAのFoodData Centralと照合する。 USDAのデータベースは無料で公開されており、実験室で検証されています。AIの推定が同じ食品のUSDAエントリから大きく逸脱している場合、そのAIはおそらく間違っています。
- サービングサイズの仮定を確認する。 常に推定が基づいているサービングサイズを尋ねたり確認したりしてください。サービングサイズなしのカロリー数は意味がありません。
- 調理方法を考慮する。 同じ材料でも、生の状態、焼き、揚げ、油で炒めた場合によってカロリー密度が2〜3倍変わることがあります。
- 丸い数字には懐疑的である。 AIが「正確に500カロリー」と言った場合、それは生成された推定値であり、測定された値ではありません。実際の栄養データには487や523のような具体的な数字があります。
よくある質問
ChatGPTはカロリー計算に正確ですか?
ChatGPTや同様の大規模言語モデルは、カロリー計算において信頼性がありません。これらは、検証済みの栄養データベースで値を調べるのではなく、テキストパターンに基づいて推定を生成します。テストでは、LLMのカロリー推定は、同じ食品に対する異なるクエリで200〜300カロリーも異なることがありました。「大きな卵1個」のような単純でよく知られたアイテムでは、データがトレーニングテキストに頻繁に現れるため、推定は近い傾向があります。しかし、調理された食事、レストランの料理、混合成分の食品では、誤差率が大幅に増加します。
ChatGPTを使ってマクロを追跡できますか?
特定の健康やフィットネス目標を追求している人には、ChatGPTをマクロ追跡に使用することは推奨されません。このモデルは、実際のポーションサイズ、調理方法、特定の材料を考慮することができません。また、一貫性も欠けています。同じ質問を2回尋ねると、異なるマクロの内訳が得られることがあります。食品がタンパク質や炭水化物が豊富であるかどうかの一般的な認識には、LLMは有用な方向性を提供できますが、正確な追跡には、検証済みのデータベースを持つ目的特化型の栄養アプリがはるかに正確で一貫した結果を生み出します。
栄養におけるAIの幻覚とは何ですか?
栄養におけるAIの幻覚とは、言語モデルがカロリー数、マクロの内訳、微量栄養素の値などの栄養データを生成し、それが権威あるように聞こえるが事実に反することを指します。モデルは意図的に嘘をついているわけではなく、パターンに基づいてもっともらしいテキストを予測しています。その結果、事実のように見えるカロリー数が生成されますが、栄養データベースで確認されたことはありません。これは特に危険であり、ユーザーは手動で照合しない限り、幻覚による推定値と正確なものを区別する方法がありません。
自分の栄養AIが正確なデータを提供しているかどうかはどうやって確認できますか?
3つのことを確認してください。まず、そのツールが検証済みの栄養データベース(USDAのFoodData CentralやNCCDBなど)からデータを取得しているか、言語モデルから推定を生成しているかを尋ねます。次に、調理方法を考慮しているか確認します。調理方法によって食品のカロリー含量が50〜200パーセント変わる可能性があるからです。最後に、その推定が基づいている正確なサービングサイズを指定しているかどうかを確認します。信頼できる栄養AIは、データソースについて透明であり、不確実な推定を示すべきです。
AIが作成した食事プランに従うのは安全ですか?
AIが生成した食事プランは、出発点としては有用ですが、特定の医療やパフォーマンス目標のために盲目的に従うべきではありません。プラン内の各カロリー推定には潜在的な誤差があり、それらの誤差は1日の食事全体にわたって累積します。プランが1,800カロリーを提供すると主張していても、各食事の推定が10〜15パーセントずれている場合、実際の1日の摂取量は1,500から2,100カロリーの範囲になる可能性があります。一般的な健康的な食事のインスピレーションとして、AIの食事プランは合理的な出発点です。しかし、臨床栄養管理、減量プログラム、またはアスリートのパフォーマンスダイエットにおいては、カロリーとマクロの目標をデータベースに基づくツールで確認する必要があります。