AI가 환각을 일으키고 있나요? 일반 LLM을 다이어트 조언에 사용하는 위험성
ChatGPT와 Gemini는 시를 쓸 수 있지만, 당신의 칼로리를 계산할 수 있을까요? 우리는 일반 LLM을 검증된 영양 데이터와 비교해 보았고, 그 결과는 다이어트 추적에 사용하는 모든 이에게 우려를 불러일으켜야 합니다.
"Hey ChatGPT, 내 치킨 볶음밥에 칼로리가 얼마나 되나요?"
즉각적이고 자신감 있게 돌아오는 답변: "일반적인 치킨 볶음밥은 1인분에 약 350에서 450칼로리입니다." 그럴듯하게 들리며, 매크로도 나누어 설명합니다. 하지만 문제는 이 숫자가 조작되었다는 것입니다. 추정된 것도 아니고, 근사치도 아닌, 실제 영양 데이터베이스와는 아무런 연관이 없는 텍스트 데이터의 통계적 패턴에서 생성된 것입니다.
AI 연구자들이 이를 환각이라고 부르며, 영양 맥락에서 발생할 경우 그 결과는 잘못된 에세이나 잘못된 퀴즈 답변을 넘어서게 됩니다. 사람들은 이러한 숫자를 바탕으로 실제 식단 결정을 내리며, 이 결정은 건강에 영향을 미칩니다.
영양 맥락에서 "환각"의 의미
대규모 언어 모델 용어에서 환각은 모델이 그럴듯하게 들리지만 사실과는 다른 정보를 생성할 때 발생합니다. LLM은 데이터베이스에서 사실을 조회하지 않습니다. 훈련 중 학습한 패턴을 기반으로 다음에 올 가능성이 높은 단어를 예측합니다.
ChatGPT에 음식의 칼로리 함량을 물어보면, USDA FoodData Central 데이터베이스를 조회하거나 NCCDB와 교차 확인하지 않습니다. 훈련 데이터에서 나타날 법한 답변을 통계적으로 생성하는 것입니다. 때로는 그 답변이 정확에 가까울 수 있지만, 때로는 크게 벗어날 수도 있습니다.
위험한 점은 두 경우 모두 자신감 수준이 동일하다는 것입니다. 환각된 칼로리 수치는 정확한 수치와 똑같이 읽힙니다.
일반 LLM이 영양을 잘못 이해하는 이유
우리는 ChatGPT(GPT-4o), Gemini, Claude에게 일반적인 식사의 영양 함량을 추정해 달라고 요청하는 일련의 테스트를 진행했습니다. 그런 다음 이 추정치를 USDA 검증 값 및 Nutrola의 영양사 검토 데이터베이스와 비교했습니다. 실패의 패턴은 일관되고 드러나는 것이었습니다.
조작된 정확성
LLM에게 "올리브 오일 한 스푼의 칼로리는 얼마인가요?"라고 물으면 종종 올바른 답변인 약 119칼로리를 받을 수 있습니다. 이는 그 특정 사실이 훈련 데이터에서 자주 나타나기 때문입니다.
하지만 "수제 치킨 티카 마살라와 난의 칼로리는 얼마인가요?"라고 물으면 모델은 즉흥적으로 답변해야 합니다. 우리의 테스트에서 GPT-4o는 같은 식사에 대해 서로 다른 대화에서 450에서 750칼로리까지의 추정치를 반환했습니다. 검증된 재료 데이터를 기반으로 한 표준 레시피에서 계산된 실제 값은 685칼로리였습니다. 한 응답은 가까웠지만, 다른 응답은 200칼로리 이상 차이가 났습니다.
모델은 어떤 답변이 신뢰할 수 있는 조회 결과인지, 어떤 것이 즉흥적인 추측인지 신호를 보낼 방법이 없습니다.
조리 방법에 대한 무지
LLM은 음식이 어떻게 조리되는지에 대한 근본적인 맹점을 가지고 있습니다. "구운 닭 가슴살"과 "버터에 팬 프라이한 닭 가슴살"은 조리 방법보다는 주재료에 초점을 맞추기 때문에 유사한 칼로리 추정치를 받을 수 있습니다.
테스트에서 "연어"에 대해 조리 방법을 명시하지 않고 물어보면, 응답은 일관되게 6온스 필레에 대해 230에서 280칼로리의 구운 또는 구운 추정치로 기본값을 설정했습니다. 하지만 두 스푼의 버터와 테리야끼 소스를 입힌 6온스 연어 필레는 실제로 450에서 500칼로리에 가까운 칼로리를 포함하고 있습니다. 이 차이는 시간이 지남에 따라 칼로리 적자를 무너뜨릴 만큼 충분히 큽니다.
서빙 사이즈 환각
가장 위험한 실패 모드는 서빙 사이즈 가정입니다. 일반 LLM에 음식의 칼로리를 물어보면 서빙 사이즈를 가정해야 합니다. 이러한 가정은 일관성이 없고 종종 명시되지 않습니다.
"파스타 한 그릇"은 300에서 400칼로리로 추정될 수 있습니다. 하지만 누구의 그릇인가요? 표준 2온스의 마리나라 소스를 곁들인 스파게티는 약 280칼로리입니다. 레스토랑에서 제공되는 4에서 6온스의 마른 파스타와 소스는 쉽게 600에서 900칼로리에 이를 수 있습니다. LLM은 중간 숫자를 선택하고 이를 사실로 제시합니다.
식사 계획에서의 오류 누적
사용자가 LLM에게 전체 식사 계획을 생성해 달라고 요청할 때 위험이 커집니다. 각 개별 추정치는 오류를 포함하고 있으며, 이러한 오류는 식사와 일수를 거치면서 누적됩니다. 하루에 1,800칼로리를 제공한다고 주장하는 식사 계획은 실제로는 2,200 또는 1,400칼로리를 제공할 수 있습니다.
당뇨병과 같은 의학적 상태를 관리하거나 특정 운동 성과 목표를 달성하기 위해 식사 계획을 사용하는 사람에게 이러한 수준의 부정확성은 단순히 도움이 되지 않는 것이 아니라, 잠재적으로 해로울 수 있습니다.
목적 기반 영양 AI가 다른 이유
일반 LLM과 목적 기반 영양 시스템의 차이는 외형적이지 않고 구조적입니다.
데이터베이스 기반 응답
Nutrola의 AI는 언어 패턴에서 칼로리 추정치를 생성하지 않습니다. 음식 항목을 식별하면, 이를 검증된 영양 데이터베이스의 항목에 매핑합니다. 이 데이터베이스는 USDA FoodData Central, 여러 국가의 국가 영양 데이터베이스, 그리고 내부 영양사 검토 항목에서 수집된 데이터를 포함합니다.
이는 시스템이 칼로리 수치를 환각할 수 없음을 의미합니다. 숫자는 특정하고 감사 가능한 데이터베이스 항목에서 나온 것이며, 통계적 언어 모델에서 나온 것이 아닙니다.
시각적 검증
사용자가 식사의 사진을 찍으면, Nutrola의 컴퓨터 비전 모델이 개별 음식 항목을 식별하고 시각적 분석을 기반으로 부분 크기를 추정합니다. 이러한 시각적 기반은 텍스트만 있는 LLM이 수행할 수 없는 확인을 제공합니다. 시스템은 문자 설명에서 추측하는 것이 아니라 실제로 당신이 먹고 있는 것을 보고 있습니다.
투명한 불확실성
잘 설계된 영양 시스템은 불확실할 때 이를 인정합니다. 요리가 모호하거나 사진에서 부분 크기를 추정하기 어려운 경우, 시스템은 그 불확실성을 표시하고 사용자에게 명확한 설명을 요청할 수 있습니다. 일반 LLM은 사실적 주장에 대한 자신의 신뢰도를 측정할 수 있는 메커니즘이 없기 때문에, 영양 추정치가 낮은 신뢰도를 가질 때 거의 표시하지 않습니다.
실제 건강 위험
AI로부터의 부정확한 칼로리 데이터는 추상적인 문제가 아닙니다. 이는 구체적인 방식으로 나타납니다.
체중 관리 실패. 하루에 200칼로리를 지속적으로 초과하거나 부족하게 계산하면 어떤 다이어트의 결과가 달라집니다. 30일 동안, 이는 6,000칼로리의 오류로, 대략 1.7파운드의 체지방에 해당합니다.
미량 영양소 무시. LLM은 미량 영양소 데이터를 제공하는 경우가 드물며, 제공할 때도 칼로리 추정치보다 훨씬 덜 신뢰할 수 있습니다. 임신 중 철분 섭취를 추적하거나 고혈압을 위해 나트륨을 모니터링하는 사람은 생성된 추정치에 의존할 수 없습니다.
잘못된 자신감. 가장 교활한 위험은 사용자가 정확한 데이터를 가지고 있다고 믿는 것입니다. 이 잘못된 자신감은 그들이 더 나은 도구를 찾거나 실제 결과에 따라 조정하는 것을 방해합니다.
LLM에 음식에 대해 물어보는 것이 괜찮은 경우
일반 LLM은 영양에 대해 전혀 쓸모없는 것은 아닙니다. 특정 유형의 질문에 대해서는 효과적입니다:
- 일반 교육: "칼륨이 풍부한 음식은 무엇인가요?" 또는 "수용성 섬유와 불용성 섬유의 차이는 무엇인가요?"와 같은 지식 질문은 대략적인 답변이 적절합니다.
- 레시피 아이디어: "500칼로리 이하의 고단백 점심 아이디어를 주세요"는 유용한 영감을 줄 수 있으며, 정확한 칼로리 수치는 확인해야 합니다.
- 개념 이해: "칼로리 적자가 무엇인지 설명해 주세요" 또는 "단백질이 근육 회복에 어떻게 도움이 되는지?"와 같은 분야에서 LLM은 잘 수행합니다.
선은 명확합니다: 영양에 대해 배우는 데 LLM을 사용하세요. 추적하는 데는 검증된 데이터베이스 기반 도구를 사용하세요.
AI 영양 주장을 검증하는 방법
챗봇이나 다른 도구를 사용할 때, 얻고 있는 데이터를 확인하기 위한 실용적인 단계가 있습니다:
- USDA FoodData Central과 교차 확인하세요. USDA 데이터베이스는 무료이며 공개적이고 실험실에서 검증되었습니다. AI의 추정치가 동일한 음식에 대한 USDA 항목과 크게 다르면, AI는 잘못된 것입니다.
- 서빙 사이즈 가정을 확인하세요. 항상 추정치가 어떤 서빙 사이즈를 기반으로 하는지 물어보거나 확인하세요. 서빙 사이즈 없이 제시된 칼로리 수치는 무의미합니다.
- 조리 방법을 고려하세요. 같은 재료라도 생, 구운, 튀긴, 기름에 볶은 경우에 따라 칼로리 밀도가 2배에서 3배까지 달라질 수 있습니다.
- 둥근 숫자에 회의적이 되세요. AI가 "정확히 500칼로리"라고 말하면, 이는 생성된 추정치이지 측정된 값이 아닙니다. 실제 영양 데이터는 487이나 523과 같은 특정 숫자를 가집니다.
자주 묻는 질문
ChatGPT는 칼로리 계산에 정확한가요?
ChatGPT와 유사한 대규모 언어 모델은 칼로리 계산에 신뢰할 수 없습니다. 이들은 검증된 영양 데이터베이스에서 값을 조회하는 것이 아니라 텍스트 패턴을 기반으로 추정치를 생성합니다. 테스트에서 LLM의 복잡한 식사에 대한 칼로리 추정치는 동일한 음식에 대해 서로 다른 쿼리에서 200에서 300칼로리까지 차이가 났습니다. "큰 계란 하나"와 같은 간단하고 잘 알려진 항목에 대해서는 데이터가 자주 나타나기 때문에 추정치가 대체로 근접합니다. 하지만 조리된 식사, 레스토랑 요리, 혼합 재료 음식의 경우 오류율이 크게 증가합니다.
ChatGPT를 사용하여 매크로를 추적할 수 있나요?
특정 건강이나 피트니스 목표를 추구하는 사람에게는 ChatGPT를 매크로 추적에 사용하는 것을 권장하지 않습니다. 모델은 실제 서빙 사이즈, 조리 방법 또는 특정 재료를 고려할 수 없습니다. 또한 일관성이 부족하여 같은 질문을 두 번 하면 서로 다른 매크로 분해를 생성할 수 있습니다. 음식이 단백질이나 탄수화물이 풍부한지에 대한 일반적인 인식을 위해 LLM은 유용한 방향 정보를 제공할 수 있습니다. 하지만 정확한 추적을 위해서는 검증된 데이터베이스가 있는 목적 기반 영양 앱이 훨씬 더 정확하고 일관된 결과를 제공합니다.
영양에서 AI 환각이란 무엇인가요?
영양에서 AI 환각은 언어 모델이 칼로리 수치, 매크로 분해 또는 미량 영양소 값을 생성할 때 발생합니다. 이는 권위 있게 들리지만 사실과는 다릅니다. 모델은 의도적으로 거짓말하는 것이 아니라, 패턴에 기반하여 그럴듯한 텍스트를 예측하는 것입니다. 그 결과는 사실처럼 읽히지만, 어떤 영양 데이터베이스와도 검증되지 않은 칼로리 수치입니다. 이는 사용자가 환각된 추정치를 정확한 수치와 구별할 수 없기 때문에 특히 위험합니다.
내 영양 AI가 정확한 데이터를 제공하는지 어떻게 알 수 있나요?
세 가지를 확인하세요. 첫째, 도구가 검증된 영양 데이터베이스인 USDA FoodData Central이나 NCCDB에서 데이터를 가져오는지, 아니면 언어 모델에서 추정치를 생성하는지 물어보세요. 둘째, 조리 방법을 고려하는지 확인하세요. 조리 방법에 따라 음식의 칼로리 함량이 50%에서 200%까지 달라질 수 있습니다. 셋째, 추정치가 어떤 서빙 사이즈를 기준으로 하는지 명시하는지 확인하세요. 신뢰할 수 있는 영양 AI는 데이터 출처에 대해 투명해야 하며, 불확실한 추정치를 표시하고 모든 숫자를 동일한 자신감으로 제시하지 않아야 합니다.
AI가 생성한 식사 계획을 따르는 것이 안전한가요?
AI가 생성한 식사 계획은 출발점으로 유용할 수 있지만, 특정 의학적 또는 성과 목표를 위해 맹목적으로 따르지 말아야 합니다. 계획의 각 칼로리 추정치는 잠재적인 오류를 포함하고 있으며, 이러한 오류는 하루의 식사 전체에 걸쳐 누적됩니다. 계획이 1,800칼로리를 제공한다고 주장하지만 각 식사 추정치가 10%에서 15%까지 오차가 있다면, 실제 일일 섭취량은 1,500에서 2,100칼로리까지 다양할 수 있습니다. 일반적인 건강한 식사를 위한 영감을 위해 AI 식사 계획은 합리적인 출발점입니다. 임상 영양 관리, 체중 감량 프로그램 또는 운동 성과 식단의 경우, 칼로리 및 매크로 목표는 데이터베이스 기반 도구와 비교하여 검증해야 합니다.