Yapay Zeka Tarif Çıkarma Bilimi: NLP ve Bilgisayarla Görme ile Yemek Videolarını Okuma

Yapay zekanın yemek videolarından tarifleri nasıl çıkardığını keşfedin. Ses tanıma, OCR, görsel malzeme tanıma ve NLP'yi bir araya getirerek otomatik olarak doğru besin verileri oluşturma sürecini inceleyin.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Yemek videoları, tarif paylaşımında baskın bir format haline geldi. Sadece YouTube'da her ay 1 milyardan fazla yemek video görüntülenmesi gerçekleşiyor, TikTok'taki yemek içerikleri yıllık on milyarlarca görüntüleme alıyor ve Instagram Reels, her ev aşçısını potansiyel bir içerik üreticisine dönüştürüyor. Ancak, bir tarife bakmak ile onun besin içeriğini bilmek arasında sürekli bir boşluk var.

Bu boşluğu kapatmak, otomatik konuşma tanıma, optik karakter tanıma, bilgisayarla görme ve doğal dil işleme gibi çok aşamalı bir yapay zeka süreci gerektiriyor. Bu makale, teknik sürecin her aşamasını ayrıntılı olarak inceliyor, bunu mümkün kılan modelleri ve araştırmaları açıklıyor ve bu teknolojilerin bir yemek videosunu nasıl yapılandırılmış besin verilerine dönüştürdüğünü inceliyor.

Tarif Çıkarma Problemi: Videolar Neden Zor?

Web sitelerindeki metin tarifleri, genellikle tahmin edilebilir yapılar izler; malzeme listeleri, miktarlar ve adım adım talimatlar içerir. HTML işaretlemeleri ve schema.org tarif anotasyonları, ek makine okunabilir yapı sağlar.

Yemek videoları ise tamamen farklı bir zorluk sunar. Tarif bilgisi, birden fazla modda aynı anda dağılmıştır:

  • Sesli anlatım, malzemeleri, miktarları ve teknikleri tanımlar
  • Ekrandaki metin, malzeme listelerini, sıcaklıkları ve zamanlamaları gösterir
  • Görsel içerik, malzemelerin eklenmesini, karıştırılmasını ve dönüştürülmesini gösterir
  • Dolaylı bilgi, izleyicilerin fırını önceden ısıtmak veya pirinci durulamak gibi belirtilmemiş adımları anladığını varsayar

Hiçbir tek mod, tam tarife sahip değildir. Bir içerik üreticisi "biraz zeytinyağı ekleyin" derken ekran, yaklaşık iki yemek kaşığı kadar zeytinyağı döküldüğünü gösteriyor ve daha sonra ekranda "2 yemek kaşığı zeytinyağı" yazıyor olabilir. Tam tarifin çıkarılması, tüm bu kaynaklardan gelen bilgilerin birleştirilmesini ve aralarındaki çelişkilerin çözülmesini gerektirir.

Çok Modlu Çıkarma Süreci

Ham videodan yapılandırılmış besin verisine giden süreç beş ana aşamadan oluşur:

Aşama Girdi Teknoloji Çıktı
1. Ses Çıkarma Video dosyası ASR (Whisper) Zaman damgalı transkript
2. Görsel Metin Çıkarma Video kareleri OCR (PaddleOCR, EasyOCR) Zaman damgalı ekrandaki metin
3. Görsel Malzeme Tanıma Video kareleri CNN/Vizyon Dönüştürücüler (CLIP, ViT) Tanımlanan malzemeler ve eylemler
4. NLP Ayrıştırma ve Birleştirme Transkript + OCR + görsel veri Dönüştürücü modeller (BERT, LLM'ler) Miktarlarla yapılandırılmış tarif
5. Besin Veritabanı Eşleştirme Yapılandırılmış tarif Bulanık eşleştirme + veritabanı sorgulama Tam besin analizi

Her aşama, belirli teknik zorluklar sunar ve farklı makine öğrenimi araştırma alanlarından faydalanır.

Aşama 1: Tarif Anlatımı için Otomatik Konuşma Tanıma

Yemek videosundan bir tarifi çıkarmanın ilk adımı, sesli anlatımı metne dönüştürmektir. Bu, otomatik konuşma tanıma (ASR) alanıdır.

Whisper Devrimi

OpenAI'nin Whisper modeli, Radford ve arkadaşları tarafından 2022'de tanıtıldığında, tarif çıkarma için sesli metne dönüştürme alanında köklü bir değişim yarattı. İnternetten toplanan 680.000 saatlik çok dilli ve çok görevli denetimli verilerle eğitilen Whisper, geniş bir ses koşulları yelpazesinde insan seviyesinde transkripsiyon doğruluğu sağladı.

Whisper'ı yemek video transkripsiyonu için özellikle değerli kılan özellikler:

Gürültü dayanıklılığı. Mutfak ortamları gürültülüdür. Kızaran tavalar, akan su, doğrama sesleri ve arka plandaki müzik, anlatıcının sesiyle rekabet eder. Whisper'ın çeşitli ses koşulları üzerinde eğitilmesi, bu örtüşen ses kaynaklarını önceki ASR modellerinden daha iyi yönetmesini sağlar.

Çok dilli yetenek. Yemek videoları neredeyse her dilde üretilmektedir. Whisper, 915 dilde transkripsiyon desteği sunar ve İngilizceye çeviri yapabilir, böylece içeriklerin orijinal dilinden bağımsız olarak tarif çıkarımına olanak tanır.

Noktalama ve formatlama. Önceki ASR sistemlerinin düz metin akışları ürettiği yerlerde, Whisper, cümle sınırlarını koruyan noktalı ve formatlı transkriptler üretir. Bu yapı, sonraki NLP ayrıştırması için kritik öneme sahiptir.

Kelime düzeyinde zaman damgaları. Whisper, kelime düzeyinde zaman damgaları üretebilir, bu da söylenen ile ekranda gösterilenler arasında hassas bir hizalama sağlar.

Yemek Anlatımına Özgü Zorluklar

Whisper'ın yeteneklerine rağmen, yemek videoları, standart konuşma tanıma benchmarklarında görünmeyen ASR zorlukları sunar:

Alan spesifik kelime dağarcığı. Malzeme isimleri, dünya mutfakları arasında binlerce öğeyi kapsar. "Gochujang," "za'atar," "tahin" veya "panko" gibi terimler, genel eğitim verilerinde sıkça yer almayabilir. Sistematik yanlış tanımlamaları düzeltmek için özel gıda kelime dağarcığı modelleri veya son işlem sözlükleri gereklidir.

Miktar belirsizliği. Sözel miktarlar genellikle belirsizdir. "İyi bir miktar tuz," "bir parça sirke" veya "yaklaşık bu kadar un" gibi ifadeler, transkripti aşan bağlamsal yorumlama gerektirir.

Dil geçişleri. Birçok yemek içerik üreticisi, genel anlatım için İngilizceyi kullanırken, yemek isimleri veya geleneksel teknikler için kendi dillerine geçiş yapar. Çok dilli ASR, bu geçişleri zarif bir şekilde yönetmelidir.

Sözel olmayan iletişim. Bir içerik üreticisi, bir malzemeye işaret edebilir veya "bu" derken bir şişeyi tutuyor olabilir. Bu tür referanslar, görsel akışla çapraz mod çözümleme gerektirir.

Transkripti Son İşleme

Ham ASR çıktısı, tarif çıkarımında kullanılabilir hale gelmeden önce birkaç son işleme adımı gerektirir:

  1. Gıda varlık düzeltmesi, yaygın yanlış tanımlamaları düzeltmek için alan spesifik bir sözlük kullanır (örneğin, "kimyon"ın "coming" olarak yanlış duyulması)
  2. Miktar normalizasyonu, sözel sayıları ve kesirleri standart sayısal formatlara dönüştürür
  3. Segmentasyon, sürekli transkripti, zaman aralıkları, geçiş ifadeleri ve eylem fiili sınırlarına dayalı olarak mantıksal tarif adımlarına ayırır
  4. Güvenilirlik filtrelemesi, düşük güvenilirlikteki segmentleri potansiyel çapraz mod doğrulaması için işaretler

Aşama 2: Ekrandaki Metin için Optik Karakter Tanıma

Birçok yemek videosu, malzeme listeleri, ölçümler, sıcaklıklar ve talimatları ekrandaki metin katmanları olarak gösterir. Bu metin, genellikle sesli anlatımdan daha kesin olup daha standart bir format izler.

OCR'nin Video Karelerinde Çalışma Şekli

Video karelerinden metin çıkarmak, iki alt görev içerir: metin tespiti (metnin karede nerede göründüğünü bulma) ve metin tanıma (metnin ne söylediğini okuma).

Metin tespiti, görüntüde metin içeren bölgeleri bulur. CRAFT (Karakter Bölge Farkındalığı için Metin Tespiti) ve DBNet (Farklılaştırılabilir İkili Ağ) gibi modern tespitçiler, metni yön, boyut veya arka plan karmaşıklığına bakılmaksızın tanımlayabilir. Bu modeller, metin bölgeleri etrafında sınır kutuları veya çokgenler çıkarır.

Metin tanıma, tespit edilen metin bölgelerini karakter dizilerine dönüştürür. Konvolüsyonel ve geri döngüsel sinir ağlarına dayanan mimariler, genellikle CTC (Bağlantısal Zamansal Sınıflandırma) çözümlemesi ile, kesilmiş metin bölgelerini işler ve karakter dizileri üretir. Daha yeni yaklaşımlar, stilize edilmiş yazı tiplerinde doğruluğu artırmak için dönüştürücü tabanlı mimarileri kullanır.

Yemek Videosu OCR'nin Benzersiz Zorlukları

Yemek videolarındaki ekrandaki metin, çoğu OCR sisteminin optimize edildiği belge metninden önemli ölçüde farklıdır:

Animasyonlu metin katmanları. Metin sık sık animasyonlu olarak girip çıkar, bu da tamamlanmış metni yakalamak için birden fazla karede zamansal toplama gerektirir. Kaydırmalı bir animasyon, metni birkaç kare boyunca karakter karakter açığa çıkarabilir.

Süsleme yazı tipleri. Gıda içerik üreticileri genellikle stilize, el yazısı veya süsleme yazı tipleri kullanır; bu yazı tipleri standart OCR eğitim verilerindeki temiz yazı tiplerinden farklıdır. Yemek spesifik yazı tipi veri setlerinde ince ayar yapmak, tanıma oranlarını artırır.

Karmaşık arka planlar. Metin, genellikle yiyecekler, mutfaklar ve ellerin gösterildiği karmaşık görsel arka planların üzerine yerleştirilir. Metin ile arka plan arasında yüksek kontrast olduğu varsayılmamalıdır. Metin vuruşu, gölge ve arka plan bulanıklığı tespiti, metin katmanını izole etmeye yardımcı olur.

Çok dilli ve karışık yazılar. Tek bir kare, İngilizce ölçümlerle birlikte Japon yemek isimleri gibi birden fazla yazıda metin içerebilir. Çok yazılı OCR modelleri veya yazı tespiti ile dil spesifik tanıma süreçleri, bu çeşitliliği yönetir.

Zamansal Tekilleştirme ve Toplama

Video kareleri, saniyede birden fazla kez örneklenir, bu nedenle aynı ekrandaki metin birçok ardışık karede tespit edilir. OCR süreci:

  1. Uygun bir hızda kare örneklemesi yapmalıdır (genellikle metin tespiti için saniyede 1-2 kare)
  2. Metin bölgelerini kareler arasında takip ederek kalıcı ve geçici metni ayırt etmelidir
  3. Aynı metnin tekrar eden tespitlerini tekilleştirmelidir
  4. Animasyonlu metin açılımlarından kısmi tespitleri birleştirmelidir
  5. Her metin öğesini, ses ve görsel verilerle daha sonra birleştirmek için zamansal penceresiyle ilişkilendirmelidir

Bu aşamanın çıktısı, her birinin görünürlük süresi ve karedeki mekansal konumu ile ilişkilendirilmiş zaman damgalı ekrandaki metin öğeleri listesidir.

Aşama 3: Bilgisayarla Görme ile Görsel Malzeme Tanıma

Metin dışında, bir yemek videosunun görsel içeriği, malzemeler, miktarlar ve hazırlama yöntemleri hakkında zengin bilgiler içerir. Bilgisayarla görme modelleri, malzemeleri göründükleri anda tanımlayabilir, görsel ipuçlarından miktarları tahmin edebilir ve yemek eylemlerini tanıyabilir.

Görüş Dönüştürücüler ve CLIP ile Malzeme Tanıma

Modern görsel malzeme tanıma, iki ana ilerlemeye dayanır: Görüş Dönüştürücüler (ViT) ve karşıt dil-görüntü ön eğitimi (CLIP).

Görüş Dönüştürücüler, 2020'de Dosovitskiy ve arkadaşları tarafından tanıtılmıştır ve görüntü tanımada dönüştürücü mimarisini uygular. Konvolüsyon katmanları yerine, ViT bir görüntüyü parçalara ayırır ve bunları bir dizilim olarak işler; bu, dönüştürücülerin bir cümledeki kelimeleri işlemesine benzer. Bu yaklaşım, benzer öğeleri ayırt eden renk, doku ve şekil gibi ince farklılıkların tanınmasında özellikle etkili olmuştur.

CLIP, OpenAI'de Radford ve arkadaşları tarafından 2021'de geliştirilmiştir ve doğal dil denetimi ile görsel kavramları öğrenir. 400 milyon görüntü-metni çiftleri üzerinde eğitilen CLIP, etiketli örnekler üzerinde açıkça eğitilmemiş nesneleri tanıyabilir. Malzeme tanıma için bu, CLIP tabanlı bir sistemin, eğitim setinde yer almasa bile, görsel görünümü bir metin tanımına eşleştirerek bir malzemeyi tanıyabileceği anlamına gelir.

CLIP'in tarif çıkarımındaki pratik avantajı, sıfırdan ve az örnekle tanıma yeteneğidir. Gıda, çok çeşitli malzemeleri, hazırlama yöntemlerini ve kültürel sunumları kapsar. Geleneksel bir sınıflandırma modeli, her malzeme için etiketli eğitim örneklerine ihtiyaç duyar. CLIP, geniş ön eğitiminden genelleme yaparak, metin biçiminde tanımlanan yeni malzemeleri tanıyabilir.

Yemek Eylemlerini Tanıma

Eylemlerin tanınması, malzemelerin tanınması kadar önemlidir. Eylem tanıma, sistemin bir malzemenin doğranıp doğranmadığını, sotelenip sotelenmediğini, karıştırılıp karıştırılmadığını veya fırınlanıp fırınlanmadığını belirtir; bu, nihai besin içeriğini doğrudan etkiler.

Video eylem tanıma üzerine yapılan araştırmalar, eylemleri sınıflandırmak için karelerin zamansal dizilerini analiz eden modeller üretmiştir. SlowFast ağları gibi yaklaşımlar (Feichtenhofer ve arkadaşları, 2019), videoyu iki zamansal çözünürlükte aynı anda işler: yavaş bir yol, mekansal ayrıntıyı yakalarken hızlı bir yol hareketi yakalar. Yemek videolarına uygulandığında, bu modeller karıştırma, çırpma, katlama ve yoğurma gibi eylemleri ayırt edebilir; her biri tarif yapısında farklı etkiler yaratır.

Food-101 ve Recipe1M+ veri setleri (Marin ve arkadaşları, 2019), gıda spesifik bilgisayarla görme modellerinin eğitimi ve değerlendirilmesinde önemli bir rol oynamıştır. Recipe1M+, 13 milyon gıda görüntüsü ile birlikte 1 milyondan fazla yemek tarifi içerir ve bu, farklı mutfaklar ve hazırlama stilleri arasında genelleme yapabilen modellerin eğitimi için gereken ölçeği sağlar.

Görsel Miktar Tahmini

Görsel tarif çıkarımının en zorlu yönlerinden biri, videodan malzeme miktarlarını tahmin etmektir. Bir içerik üreticisi, bir tavaya yağ dökerken veya bir kaseye un koyarken, görsel bilgi miktar hakkında ipuçları içerir; ancak bu ipuçlarını kesin ölçümlere dönüştürmek, karmaşık mekansal akıl yürütme gerektirir.

Mevcut yaklaşımlar şunları birleştirir:

  • Referans nesne ölçeklendirmesi: Karedeki bilinen nesneleri (standart tencereler, ölçü kapları, kesme tahtaları) ölçek referansı olarak kullanma
  • Dökme dinamiklerinden hacim tahmini: Dökülen sıvıların süresi ve akış hızını analiz ederek hacmi tahmin etme
  • Derinlik tahmini: MiDaS (Ranftl ve arkadaşları, 2020) gibi monoküler derinlik tahmin modelleri, kaplarda malzemelerin derinliğini tahmin edebilir ve 2D görüntüden hacim tahminine yardımcı olabilir
  • Karşılaştırmalı öğrenme: Bilinen miktarların eşleştirilmiş görüntüleri üzerinde eğitilen modeller, görsel karşılaştırma yoluyla miktarları tahmin etmeyi öğrenir

Görsel miktar tahmini, genellikle ses veya metinden elde edilen kesin ölçümlere göre daha az doğrudur ve genellikle %20 ila %30 arasında bir doğrulukla sonuçlanır. Ancak, bu, yararlı bir çapraz kontrol sağlar ve miktarların açıkça belirtilmediği durumlarda boşlukları doldurur.

Aşama 4: Tarif Ayrıştırma ve Birleştirme için Doğal Dil İşleme

Transkriptler, ekrandaki metinler ve görsel notlar elde edildikten sonra, NLP aşaması, bu çok modlu sinyalleri tek bir tutarlı, yapılandırılmış tarif haline getirme görevini üstlenir.

Gıda için İsimlendirilmiş Varlık Tanıma

İlk NLP görevi, transkripttaki ve OCR metnindeki gıda ile ilgili varlıkları tanımlamaktır. Bu, özel bir isimlendirilmiş varlık tanıma (NER) türüdür ve aşağıdakileri tanımlamalıdır:

  • Malzemeler: "tavuk göğsü," "sızma zeytinyağı," "kosher tuz"
  • Miktarlar: "iki su bardağı," "350 gram," "bir tutam"
  • Birlikler: "yemek kaşığı," "mililitre," "orta boy"
  • Hazırlama değiştiricileri: "doğranmış," "ince doğranmış," "oda sıcaklığında"
  • Pişirme eylemleri: "sote," "375 derecede fırınla," "20 dakika kaynat"
  • Ekipman: "dökme demir tava," "stand mikseri," "fırın tepsisi"

Gıda veri setleri üzerinde ince ayar yapılmış dönüştürücü tabanlı NER modelleri, standart gıda NER benchmarklarında %90'ın üzerinde F1 puanları elde eder. FoodBase veri seti (Popovski ve arkadaşları, 2019) ve TASTEset veri seti, bu modellerin eğitimi için özel olarak anotasyonlu gıda metni sağlar.

Malzeme-Miktar İlişkisini Belirlemek için Bağlantı Ayrıştırması

Varlıkları tanımlamak yeterli değildir. Sistem, hangi miktarların hangi malzemelere ait olduğunu belirlemelidir. "İki su bardağı un ve bir çay kaşığı tuz ekleyin" cümlesinde, sistemin "iki su bardağı"nı "un" ile ve "bir çay kaşığı"nı "tuz" ile doğru bir şekilde ilişkilendirmesi gerekir.

Bu, kelimeler arasındaki ilişkileri belirlemek için cümlelerin gramer yapısını analiz eden bağımlılık ayrıştırması gerektirir. BERT mimarisine (Devlin ve arkadaşları, 2019) dayanan modern bağımlılık ayrıştırıcıları, "taze sıkılmış limon suyu" gibi bileşik malzeme tanımlamaları ve "bir 14 onsluk doğranmış ateşte kavrulmuş domates konservesi" gibi iç içe geçmiş değiştiriciler gibi yemek talimatlarının sözdizimsel karmaşıklığını yönetir.

Çapraz Mod Birleştirme: Çelişkileri Çözme ve Boşlukları Doldurma

NLP aşamasının en teknik zorluğu, tüm üç moddan (ses, metin, görsel) gelen bilgileri tek bir tutarlı tarifte birleştirmektir. Bu birleştirme şunları yönetmelidir:

Anlaşma pekiştirme. Transkript "iki yemek kaşığı soya sosu ekleyin" derken, ekrandaki metin "2 yemek kaşığı soya sosu" gösteriyorsa ve görsel akışta koyu bir sıvı dökülüyorsa, üç kaynak da aynı şeyi ifade eder ve sistemin güveni yüksektir.

Çelişki çözümü. Transkript "bir su bardağı şeker" derken, ekrandaki metin "3/4 su bardağı şeker" diyorsa, sistem hangi kaynağa güveneceğini belirlemelidir. Genel olarak, kesin ölçümler için ekrandaki metin önceliklendirilir çünkü içerik üreticileri genellikle metin katmanlarını düzeltme veya açıklama olarak ekler.

Boşluk doldurma. Anlatıcı "tadı tuza göre ayarlayın" derken miktar belirtmiyorsa, sistem, görsel tahmin ile birlikte, yemek türü için tipik baharat miktarları hakkında veritabanı bilgilerini kullanarak makul değerler çıkarabilir.

Zamansal hizalama. Modlar arası bilgi eşleştirmek, zamansal hizalama gerektirir. 2:34 zaman damgasındaki bir malzeme referansı, 2:30 ile 2:40 arasında görünür olan ekrandaki metinle ve aynı zaman dilimindeki görsel malzeme tanıma ile eşleştirilmelidir. Dinamik zaman bozulması ve dikkat tabanlı hizalama mekanizmaları, konuşma, metin ve görsel olaylar arasındaki belirsiz senkronizasyonu yönetir.

Tarif Yapılandırması için Büyük Dil Modelleri

Son zamanlarda büyük dil modellerindeki (LLM'ler) ilerlemeler, tarif yapılandırması için güçlü bir yeni yaklaşım sunmuştur. NER, bağımlılık ayrıştırması ve birleştirme için ayrı modeller inşa etmek yerine, bir LLM, birleşik transkripti ve OCR çıktısını işleyebilir ve tek bir geçişte yapılandırılmış bir tarif üretebilir.

Model, transkripti, OCR metnini ve görsel gözlemlerin tanımlarını içeren bir istem alır ve belirli bir formatta yapılandırılmış bir tarif çıkarması için talimatlar alır. LLM'ler, tipik malzeme miktarları, yaygın malzeme kombinasyonları ve standart hazırlama teknikleri hakkında geniş dünya bilgisini kodladıkları için bu görevde başarılıdırlar.

Bu yaklaşımın birkaç avantajı vardır:

  • Belirsizlikleri doğal olarak yönetir ve dünya bilgisinden faydalanır
  • Ortak referansları çözer (örneğin, "sos"un üç cümle önce bahsedilen sosu ifade ettiğini anlar)
  • Pişirme bilgisine dayalı olarak belirtilmemiş adımları çıkarabilir
  • Malzeme adlarını veritabanı sorgulamasına uygun standart formlara normalize eder

Ana sınırlama, LLM çıktılarının doğrulanması gerekliliğidir. Modelin makul ancak yanlış bilgi üretmesi olan halüsinasyonları önlemek için kaynak modlar ve besin veritabanı kısıtları ile çapraz kontrol yapılmalıdır.

Aşama 5: Besin Veritabanı Eşleştirme ve Hesaplama

Son aşama, yapılandırılmış tarifi tam bir besin analizine dönüştürmektir. Bu, her çıkarılan malzemeyi kapsamlı bir besin veritabanındaki bir girişle eşleştirmeyi ve porsiyon başına besin değerlerini hesaplamayı gerektirir.

Eşleştirme Zorluğu

Yemek videolarından çıkarılan malzeme isimleri, genellikle veritabanı girişleriyle tam olarak eşleşmez. Bir video "bir avuç bebek ıspanak" derken, veritabanında "ıspanak, çiğ" olarak gram cinsinden ölçülen bir giriş bulunabilir. Eşleştirme sistemi şunları yönetmelidir:

  • Eşanlamlı çözümü: "kişniş" ve "koriander yaprakları" aynı malzemedir
  • Hazırlama durumu eşleştirmesi: "kızarmış bademler," "çiğ bademler" ile farklı besin profillerine sahiptir
  • Marka ve çeşit normalizasyonu: "Barilla penne," "makarna, penne, kuru" ile marka spesifik ayarlamalarla eşleşir
  • Gündelikten teknik terime çeviri: "bir parça tereyağı," "tereyağı, tuzlu, 113g" olarak eşleşir
  • Birim dönüşümü: "bir su bardağı un," malzeme spesifik yoğunluk değerleri kullanılarak gram cinsine dönüştürülmelidir; çünkü bir su bardağı un yaklaşık 120g, bir su bardağı şeker ise yaklaşık 200g ağırlığındadır

Levenshtein mesafesi ve TF-IDF kosinüs benzerliği gibi bulanık dize eşleştirme algoritmaları temel eşleştirme sağlar. Daha gelişmiş yaklaşımlar, hem çıkarılan malzeme metni hem de veritabanı girişlerini vektör temsillerine kodlamak için Sentence-BERT (Reimers ve Gurevych, 2019) gibi modeller kullanarak, en yakın eşleşmeyi seçer.

Besin Veritabanları ve Kapsamları

Besin hesaplamaları için birkaç büyük besin veritabanı temel oluşturur:

Veritabanı Kapsam Bakımını Yapan Ana Güç
USDA FoodData Central 370.000+ gıda ABD Tarım Bakanlığı Kapsamlı besin profilleri
Open Food Facts 3.000.000+ ürün Topluluk katkıcıları Küresel paketlenmiş gıda kapsamı
COFID (McCance ve Widdowson'un) 3.000+ gıda İngiltere Gıda Standartları Ajansı İngiltere'ye özgü gıda bileşimleri
Avustralya Gıda Bileşim Veritabanı 2.500+ gıda Avustralya Yeni Zelanda Gıda Standartları Bölgesel gıda kapsamı

Kapsamlı bir tarif çıkarım sistemi, birden fazla veritabanını sorgular ve girişler farklı olduğunda güvenilirlik ağırlıklı ortalama uygular. Standart veritabanlarında bulunmayan gıdalar için sistem, gıdayı bileşen malzemelerine ayırarak ve bunların bireysel katkılarını toplayarak besin içeriğini tahmin edebilir.

Pişirme Dönüşümlerini Yönetme

Doğru besin hesaplamasını yaklaşık olanından ayıran kritik bir nüans, pişirme dönüşümlerini hesaba katmaktır. Yemek pişirildiğinde, besin içeriği değişir:

  • Su kaybı: Et, pişirme sırasında ağırlığının %20 ila %35'ini kaybeder ve pişirilmiş gıdanın gramı başına besinleri yoğunlaştırır
  • Yağ emilimi: Kızartılmış gıdalar, pişirme yağını emer ve bu, çiğ malzeme profilinin bir parçası değildir
  • Besin bozulması: Isı hassasiyeti olan vitaminler, pişirme sırasında bozulur
  • Nişasta jelatinleşmesi: Pişirme, nişastalı gıdaların glisemik indeksini değiştirir
  • Yağ eritme: Yağlı etler pişirildiğinde yağ dışarı çıkar ve tüketilen porsiyonun kalori içeriğini azaltır

USDA, farklı pişirme yöntemleri için yaygın besinler üzerinde tutma faktörleri sağlar. Bu faktörlerin çiğ malzeme besin değerlerine uygulanması, nihai pişirilmiş yemeğin daha doğru bir tahminini sağlar.

Nutrola'nın besin motoru, bu pişirme dönüşüm modellerini entegre eder ve video analiz sürecinde tanımlanan pişirme yöntemlerine dayanarak çiğ malzeme veritabanı değerlerini ayarlar. Sistem, tavuğun kızartılmak yerine ızgarada pişirildiğini tespit ettiğinde, doğru nem kaybı ve yağ tutma faktörlerini uygulayarak bitmiş yemeğin kalori tahminini üretir.

Nutrola Bu Süreci Nasıl Uygular?

Nutrola, bu çok aşamalı teknik süreci pratik bir kullanıcı deneyimine dönüştürür. Bir kullanıcı bir yemek videosu paylaştığında veya bir tarif videosunun bağlantısını yapıştırdığında, Nutrola'nın arka ucu yukarıda açıklanan çıkarım sürecinden videoyu işler ve tam besin verileri ile yapılandırılmış bir tarif döner.

Pratik uygulama, doğruluk, hız ve kullanıcı deneyimi arasında denge kuran birkaç mühendislik kararı içerir:

Seçici kare örnekleme. Her kareyi işlemekte yerine, Nutrola'nın sistemi, önemli görsel değişikliklerin meydana geldiği ana kareleri tanımlar; yeni malzemelerin görünmesi, pişirme eylemlerinin değişmesi veya ekrandaki metinlerin güncellenmesi gibi. Bu, ilgili görsel bilgiyi yakalarken hesaplama maliyetini %80 ila %90 oranında azaltır.

Güvenilirlik puanlama. Her çıkarılan öğe, modlar arası anlaşma üzerinden elde edilen bir güvenilirlik puanı taşır. Ses, metin ve görsel tanıma ile doğrulanan malzemeler yüksek güven puanı alır. Sadece bir modla tespit edilen malzemeler, kullanıcı doğrulaması için işaretlenir.

Kullanıcı düzeltme döngüsü. Sistem, bir malzeme veya miktar hakkında belirsiz olduğunda, en iyi tahminini kullanıcıya sunar ve düzeltme seçeneği verir. Bu düzeltmeler, zamanla modelin doğruluğunu artırarak insan geri bildirimine dayalı bir öğrenme sürecine katkıda bulunur.

Veritabanı destekli doğrulama. Çıkarılan tarifler, besin olasılığı kısıtlamalarına karşı doğrulanır. Eğer sistem, bir yemek türü için mantıksız yüksek veya düşük kalori sayısına yol açacak bir miktar çıkarırsa, bu çıkarım gözden geçirilmek üzere işaretlenir.

Bu yaklaşım, bir yemek videosunu izleme deneyimini, kullanıcıların günlük takvimlerine doğrudan entegre olan eyleme geçirilebilir besin verilerine dönüştürür. Kullanıcılar, her bir malzeme için manuel arama yapmak ve porsiyonları tahmin etmek yerine, doğrudan video içeriğinden türetilmiş tam bir besin analizi alır.

Araştırma Sınırı: Sırada Ne Var?

Çok modlu tarif çıkarma alanı hızla ilerliyor. Birkaç araştırma yönü, doğruluğu ve yetenekleri daha da geliştirme vaadi taşıyor.

Uçtan Uca Çok Modlu Modeller

Mevcut süreçler, her modun ayrı ayrı işlenip daha sonra birleştirilmesini sağlar. Ortaya çıkan çok modlu mimariler, video, ses ve metni aynı anda tek bir modelde işler. Google'ın Gemini'si ve benzeri çok modlu temel modeller, videoyu doğrudan alabilir ve açık ara temsil olmadan modlar arasında akıl yürütebilir. Bu modeller, daha basit süreçler ve daha iyi çapraz mod akıl yürütme vaat ediyor, ancak önemli hesaplama kaynakları gerektiriyor.

Prosedürel Anlayış

Mevcut sistemler, düz bir malzeme ve adım listesi çıkarır. Gelecekteki sistemler, bir tarifin grafik yapısını yakalayan daha zengin prosedürel temsiller oluşturacak: hangi adımların diğerlerine bağlı olduğu, hangi malzemelerin hangi aşamada kullanıldığı ve ara sonuçların nasıl birleştirildiği. Bu prosedürel anlayış, malzemelerin her adımda nasıl dönüştüğünü takip ederek daha doğru besin hesaplamalarına olanak tanır.

Kişiselleştirilmiş Besin Tahmini

Tarif çıkarım sistemleri daha fazla veri işledikçe, bireysel içerik üretici kalıplarını öğrenebilirler. Aynı içerik üreticisinden 100 video analiz eden bir sistem, bu içerik üreticisi "bir damla zeytinyağı" dediğinde genellikle yaklaşık bir yemek kaşığı kullandığını öğrenir. Bu kişiselleştirilmiş kalibrasyon, miktar tahminini önemli ölçüde iyileştirir.

Kültürel ve Bölgesel Gıda Bilgisi

Tarif çıkarımını küresel mutfakların tam çeşitliliğine genişletmek, derin kültürel gıda bilgisi gerektirir. Etiyopya mutfağındaki "bir tabak injera ile wot"un belirli oranlarla sunulması gerektiğini bilmek veya Vietnam mutfağındaki "bir kaseden pho"nun tipik malzeme oranlarına sahip olduğunu bilmek, sistemin açıkça belirtilmemiş miktarları tahmin etmesine olanak tanır.

Sıkça Sorulan Sorular

Yemek videolarından yapay zeka ile tarif çıkarma, metin tariflerini manuel olarak okumaya göre ne kadar doğrudur?

Mevcut çok modlu çıkarım süreçleri, malzeme tanımlamasında %85 ila %92 doğruluk ve miktar çıkarımında %75 ila %85 doğruluk elde ediyor. Hata kaynağı, içerik üreticilerinin açıkça belirtilmiş ölçümler vermediği durumlarda miktar tahminidir. Karşılaştırma yapmak gerekirse, insan izleyiciler tarafından manuel transkripsiyon yaklaşık %90 ila %95 doğruluk sağlarken, yapay zeka çıkarımı bu görev için insan seviyesine yaklaşmaktadır. Nutrola'nın uygulaması, düşük güvenilirlikteki çıkarımlar için bir kullanıcı doğrulama adımı içerir; bu da pratikte etkili doğruluğu %95'in üzerine çıkarır.

Bir yemek videosunda açıkça belirtilmiş malzeme miktarları olmadığında ne olur?

Miktarlar açıkça sesli veya ekrandaki metinle belirtilmediğinde, sistem bir tahmin yöntemleri hiyerarşisine başvurur. Öncelikle, video karelerinden derinlik tahmini ve referans nesne ölçeklendirmesi kullanarak görsel miktar tahmini yapmaya çalışır. İkinci olarak, yemek türü için tipik miktarlar hakkında bilgi veritabanına başvurur. Üçüncü olarak, aynı yemek türündeki daha önce çıkarılmış tariflerden istatistiksel ortalamalar kullanır. Elde edilen tahmin, daha düşük bir güven puanı ile işaretlenir ve Nutrola, miktarın açıkça belirtilmediği notuyla kullanıcıya sunar.

Yapay zeka, İngilizce dışındaki dillerdeki yemek videolarından tarif çıkarabilir mi?

Evet. Modern ASR modelleri olan Whisper, 915 dilde transkripsiyon desteği sunar ve OCR sistemleri, Latin, CJK, Kiril, Arap ve Devanagari dahil olmak üzere birden fazla yazıyı yönetir. NLP ayrıştırma katmanı, birden fazla dilde çalışabilir; ancak doğruluk genellikle en fazla eğitim verisine sahip dillerde daha yüksektir. Whisper, ayrıca, İngilizceye doğrudan çeviri yaparak, aşağıdaki süreçlerin İngilizce olarak çalışmasına olanak tanır. Nutrola, 30'dan fazla dildeki videolardan tarif çıkarımını destekler.

Sistem, içerik üreticisinin çekim sırasında değişiklikler veya hatalar yaptığı tarifleri nasıl yönetir?

Videonun zamansal doğası, bu senaryoda aslında yardımcı olur. Bir içerik üreticisi "Tereyağı kullanacaktım ama sadece zeytinyağım var" dediğinde, sistemin NLP katmanı düzeltmeyi tanır ve nihai tarifte zeytinyağını kullanır. Benzer şekilde, bir içerik üreticisi bir malzeme ekleyip "aslında bu çok fazla, biraz çıkarayım" dediğinde, sistem düzeltmeyi takip eder. Tüm transkripti işleyen dikkat tabanlı modeller, revizyonlarla ilişkili konuşma kalıplarını tanıyarak bu tür kendiliğinden düzeltmeleri belirleyebilir.

Video tariflerinden çıkarım ile web sayfasından tarif çıkarımı arasındaki fark nedir?

Web tarif çıkarımı esas olarak yapılandırılmış veri ayrıştırmasına dayanır. Çoğu tarif web sitesi, makine tarafından okunabilir malzeme listeleri, miktarlar ve talimatlar sağlayan schema.org Tarif işaretlemesi kullanır. Video tarif çıkarımı, bilginin ses, görsel ve metin modları arasında dağılmış ve yapılandırılmamış olması nedeniyle temelde daha zordur. Ancak, video çıkarımının, metin tariflerinde bulunmayan hazırlama detaylarını ve görsel miktar ipuçlarını yakalama avantajı vardır. Birçok içerik üreticisi, anlatımlarında yazılı tariflerde asla yer almayan ipuçları, değişiklikler ve bağlamsal bilgiler paylaşır.

Pişirme yöntemi tespiti, çıkarılan tariflerin besin doğruluğunu nasıl etkiler?

Pişirme yöntemi tespiti, besin doğruluğunu önemli ölçüde etkiler. Bir tavuk göğsünü yağda kızartmak, aynı göğsü ızgarada pişirmeye kıyasla yaklaşık 60 ila 100 kalori ekler. Sebzeleri kaynatmak, C vitamini içeriğini %30 ila %50 oranında azaltabilir. Yapay zeka süreci, pişirme yöntemlerini (ızgara, kızartma, fırınlama, buharda pişirme, çiğ hazırlama) tanımlamak için eylem tanıma modellerini kullanır ve buna göre USDA besin tutma faktörlerini uygular. Bu pişirme yöntemi bilincine dayalı hesaplama, genellikle yalnızca çiğ malzeme değerlerine göre yapılan hesaplamalara kıyasla kalori tahmin doğruluğunu %10 ila %15 oranında artırır.

Sonuç

Bir yemek videosundan tarif çıkarmak, yapay zekanın daha geniş bir meydan okumasının bir mikrokozmosudur: yapılandırılmamış, çok modlu, gerçek dünya bilgilerini anlamak. Gürültülü mutfaklarda çalışan konuşma tanıma, çeşitli malzemeleri tanıyabilen bilgisayarla görme, karmaşık arka planlarda stilize metinleri okuyabilen OCR ve tüm bunları tutarlı bir besin resmi haline getiren NLP gerektirir.

Bu makalede açıklanan süreç, Whisper tabanlı transkripsiyondan CLIP destekli görsel tanımaya ve LLM tabanlı tarif yapılandırmasına kadar, mevcut en iyi uygulamaları temsil eder. Her bir bileşen, CNN'ler ve RNN'ler üzerindeki temel çalışmalardan, NLP ve bilgisayarla görmeyi tek bir mimari paradigmada birleştiren dönüştürücü devrimine kadar yılların makine öğrenimi araştırmalarına dayanır.

Nutrola'nın bu sürecin uygulanması, bu araştırma ilerlemelerini günlük kullanıma taşır. Kullanıcıların zaten izlediği yemek videolarından otomatik olarak tarif çıkarmak, bir tarif keşfetmek ile onun besin etkisini anlama arasındaki boşluğu ortadan kaldırır. Sonuç, kullanıcıların manuel veri girişi gerektirmeden pasif video tüketimini aktif besin farkındalığına dönüştüren bir besin takip deneyimidir.

Çok modlu yapay zeka modelleri geliştikçe, tarif çıkarımının doğruluğu ve hızı da artacaktır. Telefonunuzu herhangi bir yemek içeriğine doğrultup anında tam bir besin analizi alabilme vizyonu artık bir araştırma hedefi değil. Bu, çalışan bir teknoloji ve temel bilimdeki her ilerleme ile daha da iyi hale geliyor.

Beslenme takibinizi dönüştürmeye hazır mısınız?

Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!