Ваш ИИ галлюцинирует? Опасность использования универсальных LLM для диетических рекомендаций

ChatGPT и Gemini умеют писать стихи, но могут ли они считать ваши калории? Мы проверили универсальные LLM на фоне верифицированных данных о питании, и результаты должны насторожить каждого, кто использует их для контроля диеты.

«Эй, ChatGPT, сколько калорий в моём курином стир-фрае?»

Ответ приходит мгновенно и уверенно: «Типичный куриный стир-фрай содержит приблизительно от 350 до 450 калорий на порцию». Звучит правдоподобно. Он даже расписывает макронутриенты. Но есть проблема: это число выдумано. Не оценено, не приближено, а сгенерировано на основе статистических закономерностей в текстовых данных без какой-либо связи с реальной базой данных о пищевой ценности.

Это то, что исследователи ИИ называют галлюцинацией, и когда это происходит в контексте питания, последствия выходят далеко за рамки плохого эссе или неправильного ответа на вопрос викторины. Люди принимают реальные диетические решения на основе этих цифр, и эти решения влияют на их здоровье.

Что означает «галлюцинация» в контексте питания

В терминологии больших языковых моделей галлюцинация возникает, когда модель генерирует информацию, которая звучит правдоподобно, но фактически неверна. LLM не ищут факты в базе данных. Они предсказывают следующее наиболее вероятное слово в последовательности на основе закономерностей, выученных в ходе обучения.

Когда вы спрашиваете ChatGPT о калорийности продукта, он не обращается к базе данных USDA FoodData Central и не сверяется с NCCDB. Он генерирует ответ, который статистически напоминает тот тип ответа, который встречался бы в его обучающих данных. Иногда этот ответ близок к правильному. Иногда он кардинально ошибочен.

Опасность в том, что уровень уверенности одинаков в обоих случаях. Выдуманное количество калорий выглядит точно так же, как и достоверное.

Где универсальные LLM ошибаются в вопросах питания

Мы провели серию тестов, попросив ChatGPT (GPT-4o), Gemini и Claude оценить пищевую ценность распространённых блюд. Затем мы сравнили эти оценки с верифицированными справочными значениями USDA и базой данных Nutrola, проверенной нутрициологами. Закономерности ошибок оказались устойчивыми и показательными.

Сфабрикованная точность

Спросите LLM «сколько калорий в столовой ложке оливкового масла?» — и вы, скорее всего, получите правильный ответ: около 119 калорий. Это потому, что этот конкретный факт часто встречается в обучающих данных.

Но спросите «сколько калорий в домашней курице тикка-масала с нааном?» — и модели приходится импровизировать. В наших тестах GPT-4o выдавал оценки от 450 до 750 калорий для одного и того же описанного блюда в разных диалогах. Фактическое значение, рассчитанное по стандартному рецепту с верифицированными данными об ингредиентах, составило 685 калорий. Один ответ был близок к правильному. Другие отличались более чем на 200 калорий.

У модели нет способа сигнализировать, какие ответы основаны на надёжных данных, а какие являются импровизированными предположениями.

Слепота к способу приготовления

У LLM есть фундаментальное слепое пятно в вопросе способа приготовления пищи. «Куриная грудка на гриле» и «куриная грудка, обжаренная на сковороде в масле» могут получить схожие оценки калорийности, потому что модель фокусируется на основном ингредиенте, а не на способе приготовления.

В наших тестах, когда мы спрашивали о «лососе» без уточнения способа приготовления, ответы стабильно по умолчанию давали оценку для запечённого или приготовленного на гриле варианта — около 230-280 калорий для филе весом 170 граммов. Филе лосося весом 170 граммов, обжаренное на двух столовых ложках сливочного масла с глазурью терияки, на самом деле содержит ближе к 450-500 калорий. Разница достаточно значительна, чтобы подорвать дефицит калорий со временем.

Галлюцинация размера порции

Пожалуй, наиболее опасный вид ошибки — это предположение о размере порции. Когда вы спрашиваете универсальную LLM о калорийности продукта, ей приходится предполагать размер порции. Эти предположения непоследовательны и часто не указываются.

«Тарелка пасты» может быть оценена в 300-400 калорий. Но чья тарелка? Стандартная порция из 56 граммов сухих спагетти с маринарой — это около 280 калорий. Ресторанная порция из 110-170 граммов сухой пасты с соусом легко достигает 600-900 калорий. LLM выбирает число посередине и преподносит его как факт.

Накопление ошибок в планах питания

Риск возрастает, когда пользователи просят LLM сгенерировать полные планы питания. Каждая отдельная оценка содержит погрешность, и эти погрешности накапливаются в течение приёмов пищи и дней. План питания, который заявляет о 1800 калориях в день, на самом деле может обеспечивать 2200 или 1400 в зависимости от направления ошибок.

Для человека, использующего план питания для управления таким заболеванием, как диабет, или для достижения конкретных целей в спортивной подготовке, такой уровень неточности не просто бесполезен. Он потенциально опасен.

Почему специализированный ИИ для питания — это другое

Различие между универсальной LLM и специализированной системой для питания — архитектурное, а не косметическое.

Ответы, основанные на базе данных

ИИ Nutrola не генерирует оценки калорий из языковых паттернов. Когда он идентифицирует продукт, он сопоставляет его с верифицированной записью в базе данных о пищевой ценности. База данных содержит записи из USDA FoodData Central, национальных баз данных о питании из нескольких стран и записей, проверенных штатными нутрициологами.

Это означает, что система не может галлюцинировать количество калорий. Число берётся из конкретной, проверяемой записи в базе данных, а не из статистической языковой модели.

Визуальная верификация

Когда пользователь фотографирует приём пищи, модель компьютерного зрения Nutrola идентифицирует отдельные продукты и оценивает размеры порций на основе визуального анализа. Эта визуальная привязка обеспечивает проверку, которую текстовые LLM не могут выполнить. Система буквально видит то, что вы едите, а не угадывает по текстовому описанию.

Прозрачная неопределённость

Хорошо спроектированная система для питания признаёт, когда она не уверена. Если блюдо неоднозначно или размер порции сложно оценить по фотографии, система может обозначить эту неопределённость и попросить пользователя уточнить. Универсальные LLM почти никогда не указывают, когда их оценки пищевой ценности имеют низкую достоверность, потому что у них нет механизма измерения собственной уверенности в фактических утверждениях.

Реальные риски для здоровья

Неточные данные о калориях от ИИ — это не абстрактная проблема. Она проявляется в конкретных последствиях.

Неудача в управлении весом. Постоянная ошибка в 200 калорий в день — в большую или меньшую сторону — меняет результат любой диеты. За 30 дней это ошибка в 6000 калорий, что примерно эквивалентно 0,8 кг жировой ткани в ту или иную сторону.

Слепота к микронутриентам. LLM редко предоставляют данные о микронутриентах, а когда предоставляют, цифры ещё менее надёжны, чем их оценки калорийности. Человек, отслеживающий потребление железа во время беременности или контролирующий натрий при гипертонии, не может полагаться на сгенерированные оценки.

Ложная уверенность. Самый коварный риск заключается в том, что пользователь верит в точность данных, которые на самом деле неточны. Эта ложная уверенность мешает ему искать лучшие инструменты или вносить корректировки на основе реальных результатов.

Когда можно спрашивать LLM о еде

Универсальные LLM не бесполезны для вопросов о питании. Они эффективны для определённых типов запросов:

  • Общее образование: «Какие продукты богаты калием?» или «В чём разница между растворимой и нерастворимой клетчаткой?» Это вопросы на знание, где приблизительные ответы уместны.
  • Идеи рецептов: «Предложи высокобелковый обед до 500 калорий» может дать полезное вдохновение, даже если точное количество калорий следует проверить.
  • Понимание концепций: «Объясни, что такое дефицит калорий» или «Как белок помогает восстановлению мышц?» — это области, где LLM работают хорошо.

Граница ясна: используйте LLM для изучения вопросов питания. Используйте верифицированные инструменты, основанные на базах данных, для его отслеживания.

Как проверить любое утверждение ИИ о питании

Независимо от того, используете ли вы чат-бот или любой другой инструмент, существуют практические шаги для проверки получаемых данных:

  1. Сверяйтесь с USDA FoodData Central. База данных USDA бесплатна, общедоступна и верифицирована лабораторно. Если оценка ИИ существенно отличается от записи USDA для того же продукта, ИИ, вероятно, ошибается.
  2. Проверяйте предполагаемый размер порции. Всегда уточняйте или проверяйте, на каком размере порции основана оценка. Количество калорий без указания размера порции не имеет смысла.
  3. Учитывайте способ приготовления. Один и тот же ингредиент может отличаться в 2-3 раза по калорийности в зависимости от того, сырой он, запечённый, жареный или обжаренный в масле.
  4. Скептически относитесь к круглым числам. Если ИИ говорит вам, что блюдо содержит «ровно 500 калорий», это сгенерированная оценка, а не измеренное значение. Реальные данные о пищевой ценности содержат конкретные числа, такие как 487 или 523.

Часто задаваемые вопросы

Точен ли ChatGPT для подсчёта калорий?

ChatGPT и аналогичные большие языковые модели ненадёжны для подсчёта калорий. Они генерируют оценки на основе текстовых паттернов, а не ищут значения в верифицированных базах данных о пищевой ценности. В ходе тестирования оценки калорийности LLM для сложных блюд варьировались на 200-300 калорий при разных запросах для одного и того же продукта. Для простых, хорошо известных продуктов, таких как «одно крупное яйцо», оценки обычно близки к реальности, потому что эти данные часто встречаются в обучающих текстах. Для приготовленных блюд, ресторанных блюд и продуктов со смешанными ингредиентами частота ошибок значительно возрастает.

Можно ли использовать ChatGPT для отслеживания макронутриентов?

Использование ChatGPT для отслеживания макронутриентов не рекомендуется тем, кто преследует конкретные цели в области здоровья или фитнеса. Модель не может учитывать ваши фактические размеры порций, способы приготовления или конкретные ингредиенты. Она также непоследовательна: один и тот же вопрос, заданный дважды, может дать разные разбивки по макронутриентам. Для общего понимания того, содержит ли продукт много белка или углеводов, LLM может предоставить полезную ориентировочную информацию. Для точного отслеживания специализированное приложение для питания с верифицированной базой данных даст значительно более точные и последовательные результаты.

Что такое галлюцинация ИИ в нутрициологии?

Галлюцинация ИИ в нутрициологии — это когда языковая модель генерирует данные о пищевой ценности, такие как количество калорий, разбивку по макронутриентам или значения микронутриентов, которые звучат авторитетно, но фактически неверны. Модель не лжёт намеренно; она предсказывает правдоподобно звучащий текст на основе паттернов. В результате появляется количество калорий, которое выглядит как факт, но никогда не было проверено по какой-либо базе данных о пищевой ценности. Это особенно опасно, потому что у пользователей нет возможности отличить выдуманную оценку от точной без ручной перепроверки.

Как узнать, даёт ли мой ИИ для питания точные данные?

Проверьте три вещи. Во-первых, узнайте, берёт ли инструмент данные из верифицированной базы данных о пищевой ценности, такой как USDA FoodData Central или NCCDB, а не генерирует оценки из языковой модели. Во-вторых, убедитесь, что он учитывает способы приготовления, поскольку метод готовки может изменить калорийность продукта на 50-200 процентов. В-третьих, проверьте, указывает ли инструмент точный размер порции, на котором основана его оценка. Надёжный ИИ для питания должен быть прозрачен в отношении источников данных и должен отмечать неуверенные оценки, а не представлять каждое число с одинаковой степенью достоверности.

Безопасно ли следовать плану питания, созданному ИИ?

Планы питания, сгенерированные ИИ, могут быть полезны как отправные точки, но им не следует слепо следовать для достижения конкретных медицинских или спортивных целей. Каждая оценка калорий в плане несёт потенциальную ошибку, и эти ошибки накапливаются в течение целого дня приёмов пищи. Если план заявляет о 1800 калориях, но каждая оценка блюда отклоняется на 10-15 процентов, фактическое дневное потребление может составлять от 1500 до 2100 калорий. Для общего вдохновения в здоровом питании планы от ИИ — разумная отправная точка. Для клинического управления питанием, программ снижения веса или диет для спортивных достижений целевые значения калорий и макронутриентов следует проверять с помощью инструмента, основанного на базе данных.

Готовы трансформировать отслеживание питания?

Присоединяйтесь к тысячам тех, кто изменил свой путь к здоровью с Nutrola!

Ваш ИИ галлюцинирует? Опасность использования универсальных LLM для диетических рекомендаций | Nutrola