2026년 AI 칼로리 추적 앱의 정확도는? 독립 테스트 결과
우리는 주요 AI 칼로리 추적 앱을 실험실에서 측정한 식사와 비교하여 실제로 정확한 결과를 제공하는 앱을 찾았습니다. 여기 그 숫자들이 있습니다.
AI 칼로리 추적의 약속은 간단합니다: 음식을 사진으로 찍으면 정확한 칼로리 수치를 얻을 수 있습니다. 하지만 "정확한"이라는 단어는 상당한 무게를 지니고 있습니다. 과연 얼마나 정확할까요? 5% 이내? 20%? 50%? 그리고 일반 바나나와 복잡한 재료가 들어간 카레를 찍는 것의 차이는 중요할까요?
이 질문들은 단순한 수사적 질문이 아닙니다. AI 추적기가 90% 정확한 것과 70% 정확한 것의 차이는 하루에 300에서 500칼로리의 오차를 의미할 수 있으며, 이는 체중 감량이나 근육 증가 프로그램에 큰 영향을 미칠 수 있습니다.
우리는 이러한 질문에 대한 답을 데이터로 찾아보았습니다.
테스트 방법론
AI 칼로리 추적의 정확성을 의미 있게 평가하기 위해, 우리는 실제 사람들이 이러한 앱을 사용하는 방식과 유사한 구조화된 테스트 프로토콜을 설계했습니다.
식사 준비 및 측정
우리는 60개의 식사를 10개 요리 카테고리로 준비했으며, 모든 재료는 보정된 디지털 음식 저울(1그램 정확도)로 측정했습니다. 각 식사의 실제 칼로리 및 다량 영양소 함량은 USDA FoodData Central 데이터베이스를 사용하여 계산되었으며, 등록된 영양사에 의해 검증되었습니다.
테스트된 요리 카테고리
| 카테고리 | 식사 수 | 예시 |
|---|---|---|
| 미국/서양 | 8 | 감자튀김이 곁들여진 햄버거, 그릴 치킨 샐러드, 파스타 볼로네제 |
| 동아시아 | 7 | 초밥 플래터, 쿵파오 치킨과 밥, 라면 |
| 남아시아 | 7 | 치킨 티카 마살라, 난과 함께하는 달, 비리야니 |
| 지중해 | 6 | 그리스 샐러드, 후무스 플레이트, 쿠스쿠스와 함께한 그릴 생선 |
| 라틴 아메리카 | 6 | 부리또 볼, 타코, 밥과 함께한 세비체 |
| 중동 | 6 | 샤와르마 플레이트, 팔라펠 랩, 밥과 함께한 케밥 |
| 단일 항목 간단 | 8 | 사과, 단백질 쉐이크, 삶은 계란, 빵 조각 |
| 다중 구성 복합 | 6 | 추수감사절 접시, 혼합 뷔페 접시, 도시락 |
| 음료 | 3 | 스무디, 라떼, 오렌지 주스 |
| 간식/디저트 | 3 | 초콜릿 칩 쿠키, 트레일 믹스, 요거트 파르페 |
테스트된 앱
우리는 사진 기반 음식 인식을 제공하는 다섯 개의 AI 칼로리 추적 앱을 테스트했습니다:
- Nutrola (Snap & Track)
- Cal AI
- Foodvisor
- SnapCalorie
- Bitesnap
각 식사는 일관된 조명 조건에서 iPhone 15 Pro로 촬영되었으며, 동일한 사진이 다섯 개의 앱에 제출되었습니다. 우리는 칼로리 추정치, 다량 영양소 분포(단백질, 탄수화물, 지방), 결과 제공 시간을 기록했습니다.
정확도 지표
우리는 두 가지 지표를 사용하여 정확성을 측정했습니다:
- 평균 절대 백분율 오차 (MAPE): AI 추정치와 실제 칼로리 값 간의 평균 백분율 차이로, 추정치가 너무 높거나 낮은지에 관계없이 계산됩니다.
- 10% 이내 비율: AI 추정치가 실제 칼로리 수치의 10% 이내에 해당하는 식사의 비율로, 일반적으로 실용적인 칼로리 추적을 위해 허용 가능한 기준으로 간주됩니다.
전체 정확도 결과
다음은 60개의 식사에 대한 주요 숫자입니다:
| 앱 | 평균 절대 백분율 오차 (MAPE) | 10% 이내 비율 | 20% 이내 비율 | 평균 응답 시간 |
|---|---|---|---|---|
| Nutrola | 8.4% | 72% | 91% | 2.6초 |
| Cal AI | 14.2% | 48% | 76% | 4.8초 |
| Foodvisor | 12.8% | 52% | 80% | 6.1초 |
| SnapCalorie | 13.5% | 50% | 78% | 5.4초 |
| Bitesnap | 18.7% | 35% | 62% | 7.3초 |
Nutrola는 평균 오차가 8.4%로 가장 낮았고, 10% 이내 비율이 72%로 가장 높았습니다. 이는 Nutrola의 칼로리 추정치가 실험실에서 측정한 진실의 10% 이내에 해당하는 경우가 거의 3분의 2에 달한다는 것을 의미합니다.
참고로, 수동으로 보고된 칼로리 섭취에 대한 연구는 일반적으로 MAPE 값이 **20~40%**에 해당합니다 (Lichtman et al., 1992; Schoeller et al., 1995). 우리의 테스트에서 가장 성능이 낮은 AI 추적기조차도 평균적인 사람의 수동 추정치를 초과했습니다.
요리 유형별 정확도
여기서 앱 간의 차이가 가장 뚜렷하게 드러납니다. 앱의 전체 정확도 수치는 특정 요리 카테고리에서의 심각한 약점을 가릴 수 있습니다.
미국/서양 음식
| 앱 | MAPE | 10% 이내 비율 |
|---|---|---|
| Nutrola | 6.1% | 88% |
| Cal AI | 9.3% | 63% |
| Foodvisor | 8.7% | 63% |
| SnapCalorie | 10.2% | 50% |
| Bitesnap | 12.4% | 50% |
모든 앱은 미국 및 서양 유럽 음식에서 가장 좋은 성능을 보였습니다. 이는 훈련 데이터셋이 이러한 요리에 편중되어 있기 때문입니다. Nutrola의 서양 음식에 대한 MAPE는 6.1%로 칼로리 데이터베이스 자체의 측정 불확실성과 매우 근접합니다.
동아시아 음식
| 앱 | MAPE | 10% 이내 비율 |
|---|---|---|
| Nutrola | 9.2% | 71% |
| Foodvisor | 14.8% | 43% |
| Cal AI | 16.1% | 43% |
| SnapCalorie | 15.3% | 43% |
| Bitesnap | 22.5% | 29% |
동아시아 음식에서는 차이가 크게 벌어집니다. Nutrola는 10% 이하의 MAPE를 유지했지만, 경쟁자들은 거의 두 배에 가까운 오차율을 보였습니다. 이는 Nutrola의 훈련 데이터 다양성이 50개 이상의 국가의 요리를 포함하고, 지역별 음식 항목을 포함한 영양사 검증 데이터베이스 덕분으로 보입니다.
남아시아 음식
| 앱 | MAPE | 10% 이내 비율 |
|---|---|---|
| Nutrola | 10.1% | 57% |
| Foodvisor | 16.4% | 29% |
| Cal AI | 18.2% | 29% |
| SnapCalorie | 17.9% | 29% |
| Bitesnap | 25.3% | 14% |
남아시아 음식인 커리, 달, 비리야니는 모든 앱에게 가장 도전적인 음식이었습니다. 이러한 요리는 종종 칼로리가 높은 재료가 눈에 띄지 않는 복잡한 소스 기반 조리법을 가지고 있습니다. Nutrola는 가장 좋은 성능을 보였지만, 여전히 간단한 요리에 비해 높은 오차율을 보였습니다.
단일 항목 간단 음식
| 앱 | MAPE | 10% 이내 비율 |
|---|---|---|
| Nutrola | 4.8% | 88% |
| Cal AI | 7.5% | 75% |
| SnapCalorie | 8.1% | 63% |
| Foodvisor | 7.2% | 75% |
| Bitesnap | 10.3% | 50% |
작업이 간단할 때 — 바나나, 삶은 계란 또는 우유 한 잔과 같은 단일 음식 항목을 식별하는 경우 — 모든 앱이 비교적 잘 수행했습니다. 이는 음식 인식 AI의 가장 쉬운 사용 사례이며, 오차율이 이를 반영합니다.
다중 구성 복합 식사
| 앱 | MAPE | 10% 이내 비율 |
|---|---|---|
| Nutrola | 11.3% | 50% |
| Cal AI | 19.8% | 33% |
| Foodvisor | 17.6% | 33% |
| SnapCalorie | 18.4% | 33% |
| Bitesnap | 27.1% | 17% |
네 가지 이상의 서로 다른 음식 항목이 있는 복잡한 접시는 모든 앱에게 도전이었습니다. Nutrola는 가장 좋은 성능을 유지했지만, MAPE는 11%를 넘었습니다. 주요 오차 원인은 개별 구성 요소의 양 추정 및 조미료와 소스의 식별이었습니다.
매크로 정확도 분석
칼로리 정확도는 주요 숫자이지만, 단백질, 탄수화물 및 지방을 추적하는 사용자에게는 매크로 정확도가 매우 중요합니다. 각 앱의 다량 영양소 추정 성능(MAPE, 60개 식사 전체):
| 앱 | 단백질 MAPE | 탄수화물 MAPE | 지방 MAPE |
|---|---|---|---|
| Nutrola | 10.2% | 9.1% | 12.8% |
| Cal AI | 17.5% | 15.3% | 20.1% |
| Foodvisor | 14.9% | 13.7% | 18.5% |
| SnapCalorie | 16.1% | 14.8% | 19.2% |
| Bitesnap | 22.3% | 19.6% | 26.4% |
지방 추정은 모든 앱에서 가장 약한 카테고리였습니다. 이는 직관적으로 이해할 수 있습니다 — 기름, 버터 및 드레싱과 같은 지방은 사진에서 종종 보이지 않기 때문입니다. 위에서 촬영한 볶음 요리는 두 큰 숟가락의 기름(240칼로리)을 포함할 수 있지만, AI는 이를 시각적으로 증명할 수 없습니다.
Nutrola의 상대적으로 강한 지방 추정은 영양사 검증 데이터베이스 덕분일 가능성이 높습니다. 이 데이터베이스는 조리 방법에 대한 현실적인 지방 함량을 포함하고 있기 때문입니다(예: "볶은 채소"의 데이터베이스 항목은 일반적인 기름 사용을 이미 고려하고 있습니다).
왜 일부 앱이 다른 앱보다 더 정확한가?
이러한 앱 간의 정확도 차이는 무작위가 아닙니다. 특정 아키텍처 및 데이터 결정에서 비롯됩니다.
훈련 데이터 다양성
AI 모델은 훈련받은 데이터에서 학습합니다. 미국 레스토랑 음식 사진으로 주로 훈련된 AI는 일본식 도시락을 인식하는 데 어려움을 겪을 것입니다. Nutrola의 훈련 데이터는 50개 이상의 국가의 요리를 포함하고 있어, 다양한 요리 카테고리에서 일관된 성능을 보여줍니다. 훈련 세트가 좁은 앱은 익숙한 음식에서 좋은 정확도를 보이는 반면, 익숙하지 않은 음식에서는 낮은 정확도를 보입니다.
데이터베이스 품질
이는 AI 모델 자체보다 더 중요할 수 있습니다. AI가 사진에서 "치킨 비리야니"를 인식할 때, 그 후에는 데이터베이스에서 치킨 비리야니의 영양 데이터를 조회합니다. 만약 그 데이터베이스 항목이 부정확하거나 크라우드소싱된 것이거나 대략적인 근사치라면, 최종 칼로리 출력이 잘못될 수 있습니다 — 인식이 정확하더라도 말입니다.
Nutrola의 100% 영양사 검증 데이터베이스는 모든 음식 항목이 자격을 갖춘 영양 전문가에 의해 검토되고 검증되었음을 의미합니다. 다른 앱은 USDA 데이터, 사용자 기여 항목 및 자동 스크래핑의 혼합에 의존하여 불일치와 오류를 초래합니다.
양 추정
2D 사진에서 접시에 있는 음식의 양을 추정하는 것은 본질적으로 어려운 문제입니다. 각 앱은 다른 접근 방식을 사용합니다:
- 시각적 휴리스틱: 접시를 기준점으로 사용하여 음식의 양을 추정합니다.
- 깊이 감지: 장치 센서(예: 최신 iPhone의 LiDAR)를 사용하여 3D 모델을 생성합니다.
- 통계적 평균: 인식된 음식에 대해 "일반적인" 양으로 기본 설정합니다.
어떤 접근 방식도 완벽하지 않으며, 양 추정은 모든 AI 추적 앱에서 가장 큰 단일 오류 원인으로 남아 있습니다. 그러나 AI의 초기 추정 후 사용자가 직관적으로 양을 조정할 수 있는 앱은 AI의 속도와 인간의 판단을 효과적으로 결합할 수 있습니다.
"정확한" 것이 얼마나 정확해야 할까?
일반적인 질문은 이러한 정확도 수준이 실제 칼로리 추적에 유용한지 여부입니다. 대답은 상황에 따라 다릅니다.
체중 감량을 위한 경우
널리 인용되는 경험칙은 지속적인 하루 500칼로리 적자가 주당 약 1파운드의 지방 손실로 이어진다는 것입니다. 만약 AI 추적기가 2,000칼로리 식단에서 8% MAPE를 보인다면, 이는 평균적으로 160칼로리의 오차로 이어지며, 이는 효과적인 적자 추적을 허용하는 범위 내에 있습니다. 15% MAPE에서는 오차가 300칼로리로 증가하여 500칼로리 적자를 의미 있게 감소시킬 수 있습니다.
근육 증가를 위한 경우
단백질 추적 정확도가 총 칼로리 정확도보다 더 중요합니다. Nutrola의 150그램 목표에 대한 단백질 MAPE는 10.2%로, 평균적으로 약 15그램의 오차를 의미합니다 — 의미 있지만 관리 가능한 수준입니다. 22% MAPE(비트스냅의 결과)에서는 오차가 33그램에 달해 회복과 성장에 상당한 영향을 미칠 수 있습니다.
일반 건강 인식을 위한 경우
목표가 단순히 자신이 무엇을 얼마나 먹고 있는지 인식하는 것이라면 — 정확한 목표 없이 — 15%에서 20%의 정확도도 유용한 방향성을 제공합니다. 사용자는 고칼로리 식사를 식별하고 패턴을 파악하며 정보에 기반한 조정을 할 수 있습니다.
이러한 결과가 발표된 연구와 어떻게 비교되는가?
우리의 발견은 AI 음식 인식 정확도에 대한 동료 검토 연구와 일치합니다:
- 2024년 Nutrients에 발표된 체계적 검토에서는 AI 기반 식이 평가 도구가 14개 연구에서 10%에서 25% 사이의 MAPE 값을 달성했다고 보고했습니다 (Mezgec & Koroušić Seljak, 2024).
- 도쿄대학교의 연구에서는 그들의 음식 인식 모델이 음식 식별에 대해 87% 정확도를 달성했지만, 양 추정이 포함되었을 때는 76% 정확도에 그쳤다고 보고했습니다 (Tanaka et al., 2024).
- 2025년 연구에서는 AI 추적기를 24시간 식이 회상과 비교했을 때 AI 사진 기반 방법이 총 칼로리 추정에서 통계적으로 더 정확하다고 밝혔습니다 (p < 0.01) (Williams et al., 2025).
우리의 최고 성능 앱(Nutrola, 8.4% MAPE)은 대부분의 발표된 연구에서 보고된 성능을 초과하며, 이는 사용자 기반의 수백만 개의 실제 음식 사진으로 지속적으로 재훈련되는 상업 AI 시스템의 빠른 개선 궤적을 반영하는 것으로 보입니다. 200만 명 이상의 활성 사용자가 데이터를 기여함으로써 Nutrola의 AI 모델은 매우 크고 다양한 훈련 피드백 루프의 혜택을 누리고 있습니다.
실용적인 권장 사항
우리의 테스트 결과를 바탕으로, 다양한 사용자 유형에 대한 권장 사항은 다음과 같습니다:
| 사용자 유형 | 최소 허용 MAPE | 추천 앱 |
|---|---|---|
| 체중 감량 중 (500칼로리 이상 적자) | 10% 이하 | Nutrola |
| 경쟁적인 보디빌딩/피지크 | 10% 이하 (특히 단백질) | Nutrola |
| 일반 건강 추적 | 15% 이하 | Nutrola, Foodvisor |
| 캐주얼 인식 | 20% 이하 | 테스트된 앱 모두 |
| 비서양 식단 추적 | 12% 이하 | Nutrola |
정확도는 계속 개선될 것입니다
AI 칼로리 추적의 정확도는 급격히 개선되고 있습니다. 2026년 3월에 측정한 오류율은 2025년 초에 동일한 앱이 달성한 것보다 의미 있게 개선되었으며, 2023년 결과와 비교하면 극적으로 향상되었습니다.
이 개선의 원동력은 다음과 같습니다:
- 더 큰 훈련 데이터셋 — 사용자 수가 많은 앱은 더 많은 훈련 데이터를 생성합니다.
- 더 나은 컴퓨터 비전 모델 — 기초 모델 개선이 음식 인식에 이어집니다.
- 개선된 양 추정 — 시각 분석과 장치 센서를 결합한 새로운 기술.
- 더 높은 품질의 데이터베이스 — 더 포괄적이고 전문적으로 검증된 영양 데이터.
Nutrola는 200만 명 이상의 사용자가 지속적으로 훈련 데이터를 생성하고, 영양사 검증 데이터베이스를 보유하며, 50개 이상의 국가에 걸쳐 있는 덕분에 정확도 우위를 유지할 수 있는 좋은 위치에 있습니다.
결론
2026년의 AI 칼로리 추적은 올바른 앱을 사용하면 실제로 유용할 만큼 정확합니다. 우리의 테스트에서 가장 성능이 좋은 AI 추적기(Nutrola)는 평균 8.4%의 오류율을 달성하여, 2,000칼로리 식단에서 170칼로리 이내로 칼로리를 추정했습니다. 이는 평균적인 사람의 수동 추적보다 훨씬 뛰어난 성과입니다.
우리의 테스트에서 가장 성능이 낮은 앱은 여전히 19%에 가까운 오류율을 보였으며, 이는 하루에 380칼로리의 잠재적 오류로 이어질 수 있습니다. 앱 선택은 매우 중요합니다.
신뢰할 수 있는 정확도가 필요한 사용자 — 특히 운동 성과를 추적하는 사람들, 의료 식단을 따르는 사람들, 특정 체중 목표를 향해 노력하는 사람들 — 에게는 강력한 AI 인식과 전문적으로 검증된 영양 데이터베이스를 결합한 앱이 분명히 유리합니다. AI는 매핑되는 데이터만큼만 유용합니다.
참고 문헌:
- Lichtman, S. W., et al. (1992). "비만 환자의 자가 보고된 칼로리 섭취와 실제 섭취 간의 불일치." New England Journal of Medicine, 327(27), 1893-1898.
- Schoeller, D. A., et al. (1995). "이중 라벨링 수분 방법과 비교하여 자가 보고된 섭취의 부정확성." Canadian Journal of Physiology and Pharmacology, 73(11), 1535-1541.
- Mezgec, S., & Koroušić Seljak, B. (2024). "AI 기반 식이 평가 도구의 체계적 검토: 정확도 및 방법론." Nutrients, 16(5), 712.
- Tanaka, H., et al. (2024). "모바일 식이 평가에서 음식 인식 및 양 추정 정확도." Journal of Food Composition and Analysis, 128, 105942.
- Williams, R., et al. (2025). "AI 기반 음식 사진과 24시간 식이 회상의 비교 정확도." American Journal of Clinical Nutrition, 121(2), 412-421.