AI'nin Fotoğraflardan Porsiyon Boyutlarını Tahmin Etmesi: Teknik Derinlemesine İnceleme
AI'nin tek bir fotoğraftan gıda porsiyon boyutlarını tahmin etmek için derinlik tahmini, referans nesneler ve hacim modellemesi nasıl kullandığını detaylı bir şekilde inceleyin.
AI destekli kalori takibinin en büyük zorluklarından biri, tabağınızdaki gıdanın ne olduğunu tanımlamak değil, ne kadar gıda olduğunu belirlemektir. Bir porsiyon makarna, 200 kalori ya da 800 kalori olabilir; bu tamamen porsiyona bağlıdır. Doğru tahmini yapmak, faydalı bir beslenme takip aracını sıradan bir uygulamadan ayıran unsurdur.
Bu makalede, AI sistemlerinin fotoğraflardan porsiyon boyutlarını nasıl tahmin ettiğine dair derin bir teknik inceleme yapılacak. Derinlik tahmini, referans nesne ölçeklendirmesi, hacim modellemesi ve araştırmacıların ve mühendislerin bu tahminleri daha doğru hale getirmek için karşılaştığı zorluklar ele alınacak.
Porsiyon Tahmininin Gıda Tanımaktan Daha Zor Olmasının Nedenleri
Gıda tanıma esasen bir sınıflandırma problemidir. Sistem, sınırlı bir gıda kategorisi setinden seçim yapmalıdır. Buna karşın, porsiyon tahmini bir regresyon problemidir. Sistem, yalnızca görsel bilgilere dayanarak sürekli bir değeri (gram veya mililitre) tahmin etmelidir.
Bunu özellikle zorlaştıran birkaç faktör vardır:
- 2D'den 3D'ye geçiş: Bir fotoğraf, üç boyutlu gerçeği iki boyutlu bir görüntüye indirger. Derinlik bilgisi kaybolur, bu da ince bir gıda yayılımı ile kalın bir yığın arasında ayrım yapmayı zorlaştırır.
- Değişken yoğunluk: Bir fincan yeşil yapraklı sebze ile bir fincan granola aynı hacme sahip olabilir, ancak ağırlıkları ve kalori içerikleri tamamen farklıdır. Sistem hem hacmi hem de yoğunluğu tahmin etmelidir.
- Perspektif bozulması: Bir fotoğrafın çekildiği açı, gıda maddelerinin ne kadar büyük göründüğünü etkiler. Doğrudan yukarıdan çekilen bir tabak, 45 derece açıyla çekilen aynı tabaktan farklı görünür.
- Belirsiz ölçeklendirme: Çerçevede bilinen bir referans nesne olmadan, nesnelerin mutlak boyutunu belirlemek imkansızdır. Küçük bir kurabiyenin yakın çekimi, daha uzaktan çekilmiş büyük bir pizzanın fotoğrafıyla aynı görünebilir.
Tek Bir Görüntüden Derinlik Tahmini
Fotoğraflardan porsiyon tahminini mümkün kılan en önemli atılımlardan biri, tek gözlü derinlik tahmini, yani derinlik bilgisini tek bir görüntüden çıkarabilme yeteneğidir; stereo kameralar veya özel donanım gerektirmez.
Tek Gözlü Derinlik Tahmininin Çalışma Prensibi
İnsan görsel sistemi, derinliği birçok ipucundan çıkarır: nesne örtüşmesi (yakın nesneler uzak olanları gizler), göreceli boyut (küçük nesneler genellikle daha uzaktadır), doku gradyanları (dokular daha büyük mesafelerde daha ince görünür) ve atmosferik perspektif (uzaktaki nesneler daha bulanık görünür).
Derin öğrenme modelleri, derinlik haritaları ile eşleştirilmiş büyük görüntü veri setlerinden bu ipuçlarını öğrenebilir. Gıda fotoğraflarına uygulandığında, bu modeller, bir gıda maddesinin hangi kısımlarının kameraya daha yakın, hangilerinin daha uzakta olduğunu tahmin edebilir ve böylece düz bir görüntüden gıdanın üç boyutlu şeklini yeniden oluşturabilir.
Derinlik Haritaları ve Gıda Hacmi
Bir derinlik haritası, görüntüdeki her piksele bir mesafe değeri atar. Gıda tahmini için bu, sistemin bir çorba kasesinin ortasının bir derinlikte, kenarının ise başka bir derinlikte olduğunu belirlemesine olanak tanır. Bu derinlikler arasındaki fark, gıdanın tespit edilen sınırlarıyla birleştirildiğinde, sistemin hacmi tahmin etmesine olanak tanır.
Modern akıllı telefon kameraları, LiDAR sensörleri ile (son iPhone Pro ve iPad Pro modellerinde mevcut) renkli görüntü ile birlikte gerçek derinlik verisi yakalayabilir ve bu da yalnızca algoritmik tahminle elde edilen derinlik bilgilerinden çok daha doğru sonuçlar sağlar. Gıda takip uygulamaları, bu donanımı mevcut olduğunda kullanabilir ve derinlik sensörü olmayan cihazlarda tek gözlü tahmine dönebilir.
Referans Nesne Ölçeklendirmesi
Bilinen bir referans noktası olmadan, bir fotoğraftaki nesnelerin mutlak boyutu belirsizdir. Referans nesne ölçeklendirmesi, bilinen boyutlara sahip nesneleri kullanarak tüm görüntü için bir boyut ölçeği oluşturma sorununu çözer.
Yaygın Referans Nesneleri
| Referans Nesne | Bilinen Boyut | Doğruluk Avantajı |
|---|---|---|
| Standart yemek tabağı | 25-27 cm çap | Yemeğin genel ölçeğini belirler |
| Çatal veya kaşık | ~19 cm uzunluk | Yakın çekimlerde bile ölçek sağlar |
| Kredi kartı | 8.56 x 5.4 cm | Kesin ve evrensel olarak standartlaştırılmış |
| Akıllı telefon | Modeline göre değişir ama bilinir | Algoritmik olarak tespit edilebilir ve ölçülebilir |
| El | Değişir ama demografik verilere göre tahmin edilebilir | Başka bir referans yoksa yaklaşık ölçeklendirme sağlar |
Otomatik Referans Tespiti
Kullanıcıların gıdalarının yanına bir referans kartı yerleştirmesini gerektirmek yerine (bu, kullanımda zorluk yaratır ve kullanıcıları caydırır), modern sistemler yaygın referans nesnelerini otomatik olarak tespit etmeye çalışır. Tabaklar, kaseler, yemek aletleri ve masalar, gıda fotoğraflarında sıkça görünür ve sistem bunları tanıyabilirse boyut referansı olarak kullanılabilir.
Nutrola'nın porsiyon tahmin sistemi, ölçeği belirlemek için çerçevede tabakları, kaseleri ve yemek aletlerini otomatik olarak arar. Bu nesneler tespit edildiğinde, sistem, gıda maddelerinin boyutunu kalibre etmek için tipik boyutlarını kullanır. Hiçbir referans nesne bulunmadığında, sistem, tipik gıda porsiyonları hakkında öğrenilmiş önceliklere dayanır ve kullanıcıdan onay almayı isteyebilir.
Tabak Tabanlı Kalibrasyon
Özellikle etkili bir yaklaşım, tabak tabanlı kalibrasyondur. Çoğu ülkede standart yemek tabakları dar bir boyut aralığında (25-27 cm çapında) yer alır. Görüntüde bir tabağın elips şeklini tespit ederek ve standart bir boyut varsayarak, sistem, tabaktaki her şey için güvenilir bir ölçek oluşturabilir.
Bu yaklaşım iyi çalışır çünkü tabaklar, yemek fotoğraflarında neredeyse her zaman mevcuttur, elips şekli kameranın açısına bakılmaksızın kolayca tespit edilebilir ve elipsin perspektif bozulması, kameranın açısı hakkında bilgi kodlar, bu da gıdanın perspektif etkilerini düzeltmeye yardımcı olur.
Hacim Tahmin Teknikleri
Sistem gıdayı tanımladıktan, derinliği tahmin ettikten ve ölçeği belirledikten sonra, bu bilgileri birleştirerek her gıda maddesinin hacmini tahmin etmelidir.
Geometrik Primitifler
Bir yaklaşım, gıda maddelerini basit geometrik şekillerin kombinasyonları olarak yaklaşık olarak tanımlamaktır:
- Silindirler: İçecekler, üst üste yığılmış pankekler veya katmanlı pastalar gibi yüksek gıdalar için
- Yarım küreler: Pirinç topları, püre yığınları veya dondurma porsiyonları gibi yuvarlak gıdalar için
- Dikdörtgen prizmalar: Dilimlenmiş ekmek, peynir blokları veya barlar için
- Küçültülmüş koniler: Çorba veya tahıl kaseleri için (kase şekli hacmi tanımlamaya yardımcı olur)
- Düzensiz çokgenler: Tavuk butları veya bütün meyveler gibi karmaşık şekillere sahip gıdalar için
Sistem, tespit edilen gıda bölgesine bir veya daha fazla bu primitif şekli uydurur ve hacmi, uydurulan şekiller ve belirlenen ölçekten hesaplar.
Voxel Tabanlı Yeniden Yapılandırma
Daha sofistike bir yaklaşım, gıda maddesinin küçük küplerden (voxel) oluşan üç boyutlu bir ızgara olarak modellenmesini içeren voxel tabanlı yeniden yapılandırmadır. Her voxel, derinlik haritası ve segmentasyon maskesine dayanarak ya gıda içeriyor ya da boş olarak sınıflandırılır. Toplam hacim, gıda içeren tüm voxel'lerin toplamıdır.
Bu yöntem, düzensiz şekilleri geometrik primitiflerden daha iyi yönetir, ancak daha fazla hesaplama kaynağı gerektirir. Özellikle basit şekillere uymayan gıdalar için, örneğin yırtılmış bir ekmek parçası veya düzensiz dilimlenmiş bir meyve için yararlıdır.
Sinirsel Hacim Tahmini
En son yaklaşım, açık bir geometrik modelleme aşamasını tamamen atlar. Bunun yerine, bir sinir ağı, görüntüden doğrudan gıda hacmini tahmin etmek için uçtan uca eğitilir. Bu modeller, büyük gıda görüntü veri setlerinden gıda geometrisinin örtük temsillerini öğrenir.
Bu yaklaşım, hacimle ilişkili ince görsel ipuçlarını yakalayabildiği için umut verici sonuçlar göstermiştir; örneğin, bir sıvının yüzeyinin nasıl ışık yansıttığı veya bir gıda yığınının oluşturduğu gölge deseni gibi. Ayrıca, derinlik tahmini, segmentasyon ve geometrik uyumun ayrı adımlar olarak gerçekleştirildiğinde oluşabilecek hata birikimini de önler.
Hacimden Ağırlığa, Ağırlıktan Kaloriye
Hacmi tahmin etmek son adım değildir. Kalorileri hesaplamak için sistem, hacmi ağırlığa (gıda yoğunluğunu kullanarak) ve ağırlığı kalorilere (besin bileşimi verilerini kullanarak) dönüştürmelidir.
Gıda Yoğunluğu Veritabanları
Farklı gıdaların yoğunlukları oldukça farklıdır. Bir fincan yağ yaklaşık 220 gram, bir fincan un yaklaşık 120 gram ve bir fincan patlamış mısır yaklaşık 8 gramdır. Hacim tahminlerini ağırlık tahminlerine dönüştürmek için doğru yoğunluk verileri gereklidir.
Üretim sistemleri, gıda maddelerini yoğunluklarına göre eşleyen veritabanları tutar ve bu veriler, hazırlama yöntemindeki (pişirilmiş vs. çiğ, doğranmış vs. bütün) ve yaygın servis stillerindeki varyasyonları dikkate alır.
| Gıda Maddesi | Yoğunluk (g/mL) | 1 Fincan Ağırlığı (g) | Fincan Başına Kalori |
|---|---|---|---|
| Su | 1.00 | 237 | 0 |
| Tam süt | 1.03 | 244 | 149 |
| Pişirilmiş beyaz pirinç | 0.74 | 175 | 205 |
| Çiğ ıspanak | 0.13 | 30 | 7 |
| Fıstık ezmesi | 1.09 | 258 | 1517 |
| Zeytinyağı | 0.92 | 218 | 1909 |
Besin Bileşimi
Sistem, gram cinsinden bir ağırlık tahminine sahip olduktan sonra, kapsamlı bir gıda veritabanından gram başına besin bileşimini kontrol eder. Bu veritabanları genellikle USDA FoodData Central gibi otoriter kaynaklardan elde edilir ve gıda üreticileri ile bölgesel beslenme veritabanlarından ek verilerle desteklenir.
Nutrola'nın veritabanı, markalı ürünler, restoran menü öğeleri ve tam makro ve mikro besin profillerine sahip genel gıda maddeleri dahil olmak üzere 1.3 milyondan fazla gıda maddesini kapsamaktadır. Bu kapsamlı kapsama, bir gıda maddesi ve porsiyonu tanımlandığında, besin hesaplamasının hassas olmasını sağlar.
Doğruluk Zorlukları ve Nasıl Aşılacakları
Bu tekniklerin karmaşıklığına rağmen, fotoğraflardan porsiyon tahmini hala mükemmel bir bilim değildir. Hata kaynaklarını anlamak, gerçekçi beklentiler belirlemeye yardımcı olur ve alandaki sürekli iyileştirmeleri vurgular.
Bilinen Hata Kaynakları
Kamera açısı değişkenliği: Aynı porsiyon, fotoğrafın yukarıdan, 45 derece açıdan veya masa seviyesinden çekilip çekilmediğine bağlı olarak farklı görünür. Yukarıdan çekilen fotoğraflar genellikle en doğru tahminleri verir çünkü perspektif bozulmasını en aza indirir, ancak birçok kullanıcı doğal olarak telefonunu bir açıyla tutar.
Gizli gıda: Soslar, peynir veya diğer malzemelerin altında gizli olan gıda, görsel olarak doğrudan ölçülemez. Sistem, görünür tabak türü ve tipik hazırlama yöntemine dayanarak gizli kısmı tahmin etmelidir.
Düzensiz kaplar: Standart dışı kaseler, fincanlar ve kaplar, tabak tabanlı ölçeklendirmeyi daha az güvenilir hale getirir. Büyük bir kasede küçük bir porsiyon, gıda alanı benzer görünse bile, küçük bir kasede büyük bir porsiyondan farklı görünür.
Bireysel hazırlama farklılıkları: İki kişi "bir kase yulaf ezmesi" yaparken, kullanılan yulaf ve su miktarları büyük farklılıklar gösterebilir; bu da aynı görünür hacmi ama farklı kalori içeriklerini sonuçlandırır.
Doğruluğu Artırma Stratejileri
Çok açılı çekim: Bazı sistemler, kullanıcıların birden fazla açıdan fotoğraf çekmesini ister. Bu, stereo yeniden yapılandırma ve daha doğru hacim tahmini sağlar. Bu, doğruluğu önemli ölçüde artırır, ancak kayıt sürecine zorluk ekler.
Kullanıcı geri bildirim döngüleri: Kullanıcılar gıdalarını tartıp tahmin edilen porsiyonu onayladıklarında veya düzelttiklerinde, bu, modeli zamanla geliştiren eğitim verisi oluşturur. Nutrola, kullanıcıların zaman zaman porsiyonları mutfak tartısıyla doğrulamalarını teşvik eder, böylece hem AI hem de kullanıcının porsiyon farkındalığı kalibre edilir.
Bağlamsal öncelikler: Sistem, tahminleri iyileştirmek için bağlamsal bilgileri kullanabilir. Eğer bir kullanıcı belirli bir restoran zincirindeyse, sistem bilinen porsiyon boyutlarını kullanabilir. Eğer bir kullanıcı düzenli olarak belirli bir kahvaltıyı kaydediyorsa, sistem onların tipik porsiyonunu öğrenebilir.
Güven bilgilendirmeli tahminler: Gelişmiş sistemler, tek bir sayı sunmak yerine bir güven aralığı sağlar. Eğer sistem porsiyon hakkında belirsizse, tahmini bir aralık olarak sunabilir (örneğin, 300 ile 450 kalori arasında) ve kullanıcıdan ek bilgi sağlamasını isteyebilir.
Mevcut Doğruluk Ölçümleri
Uluslararası Görüntü Analizi ve İşleme Konferansı'ndan gelen araştırmalar, en son gıda hacmi tahmin sistemlerinin ortalama mutlak yüzdelik hatalarının %15 ile %25 arasında olduğunu göstermiştir. Karşılaştırma açısından, fotoğraflardan porsiyon tahmin eden eğitimli diyetisyenlerin hata oranlarının %10 ile %15 arasında olduğu, eğitim almamış bireylerin ise ortalama %30 ile %50 arasında hata yaptığı gösterilmiştir.
Bu, AI porsiyon tahmininin, çoğu insanın kendi başına yapabileceğinden çok daha iyi olduğunu ve eğitimli profesyonellerin doğruluğuna yaklaşmakta olduğunu göstermektedir. Hız ve kullanım kolaylığı avantajıyla birleştirildiğinde, bu, AI destekli takibin çoğu kullanıcı için manuel kayıttan önemli bir iyileşme sağladığı anlamına gelir.
Kullanıcı Kalibrasyonunun Rolü
AI porsiyon tahmininin yeterince takdir edilmeyen bir yönü, zamanla kullanıcı kalibrasyonunun rolüdür. Bir kullanıcı, yemeklerini kaydettikçe ve ara sıra düzeltmeler sağladıkça, sistem onların tipik porsiyon boyutları ve gıda tercihleri hakkında bir profil oluşturur.
Düzenli kullanıcılar için bu, sistemin giderek daha doğru hale gelmesi anlamına gelir. Eğer genellikle ortalamadan daha büyük porsiyonlar alıyorsanız, sistem pirinç tahminlerinizi yukarı doğru ayarlamayı öğrenir. Eğer genellikle standart tariften daha az yağ kullanıyorsanız, sistem bunu hesaba katabilir.
Nutrola, bu kişiselleştirmeyi, uygulamayı daha uzun süre kullandıkça giderek daha özelleştirilmiş porsiyon tahminleri sağlamak için kullanır. Yeni kullanıcılar, popülasyon düzeyindeki ortalamalardan yararlanırken, deneyimli kullanıcılar kendi alışkanlıklarına göre kalibre edilmiş kişiselleştirilmiş tahminler alır.
Daha Doğru Porsiyon Tahminleri İçin Pratik İpuçları
AI çoğu ağır yükü üstlense de, kullanıcılar birkaç basit yönergeyi takip ederek doğruluğu artırabilir:
- Mümkünse yukarıdan fotoğraf çekin. Yukarıdan çekilen fotoğraflar, gıda yüzey alanı hakkında en fazla bilgi sağlar ve perspektif bozulmasını en aza indirir.
- Tüm tabağı çerçeveye dahil edin. Tabanın kenarı, ölçek için kritik bir referans nesnesidir.
- Aşırı yakın çekimlerden kaçının. Sistem boyutu değerlendirmek için bağlama ihtiyaç duyar. Sadece gıdayı gösteren bir fotoğraf, herhangi bir çevresel nesne olmadan ölçek referansı sunmaz.
- Karıştırmadan önce fotoğraf çekin. Görünür ayrı malzemelere sahip bir salata, karıştırılmış bir salatadan daha kolay analiz edilir.
- İyi aydınlatma kullanın. Gölgeler ve düşük ışık, gıda sınırlarını ve derinlik ipuçlarını gizleyebilir.
- Ara sıra onaylayın veya düzeltin. Haftada bir mutfak tartısı kullanarak AI tahminini doğrulamak, hem sistemi hem de kendi sezginizi kalibre etmeye yardımcı olur.
SSS
AI porsiyon tahmini, bir gıda tartısıyla karşılaştırıldığında ne kadar doğrudur?
Bir gıda tartısı 1 ila 2 gram içinde doğruluk sağlar; bu, herhangi bir görsel tahmin yönteminden çok daha hassastır. Fotoğraflardan AI porsiyon tahmini genellikle gerçek ağırlığın %15 ile %25'i arasında doğruluk sağlar. Ancak, AI tahmininin sağladığı kullanım kolaylığı (2 saniye sürerken, tartı ile 30 saniye veya daha fazla sürer) daha fazla insanın tutarlı bir şekilde takip etmesini sağlar; bu da çoğu zaman uzun vadeli sonuçlar için mükemmel doğruluktan daha önemli olabilir.
Kamera açısı, porsiyon tahmini doğruluğunu etkiler mi?
Evet, önemli ölçüde. Yukarıdan çekilen fotoğraflar (tabak üzerine doğrudan bakarak) en iyi doğruluğu sağlar çünkü gıdanın tam yüzey alanını gösterir ve perspektif bozulmasını en aza indirir. 45 derece açıyla çekilen fotoğraflar en yaygın olanlardır ve yine de iyi tahminler üretir. Çok düşük açılar (masa seviyesine yakın) en az doğru olanlardır çünkü gıdanın çoğu tabak kenarı tarafından gizlenir.
AI, sıvılar (çorbalar ve smoothieler) için porsiyonları tahmin edebilir mi?
Sıvılar, hacimlerinin kapları tarafından belirlendiği için benzersiz bir zorluk sunar. AI sistemleri, sıvı porsiyonlarını kap türünü ve doluluk seviyesini tanıyarak tahmin eder. Bir kase çorba, kenarına kadar dolu olduğunda, yarısına kadar dolu olduğundan farklı bir hacme sahiptir. Standart bir şekle sahip kaplar olduğunda doğruluk genellikle iyidir, ancak alışılmadık kaplarla daha az güvenilir hale gelir.
AI neden bazen porsiyonumu abartıyor veya az tahmin ediyor?
Abartılı tahminlerin yaygın nedenleri arasında, görünüşte daha büyük görünen yoğun tabaklama, önemli kalori eklemeyen görsel hacim ekleyen süslemeler ve sistemin daha fazla gıda olduğunu varsaymasına neden olan büyük tabakların kullanımı yer alır. Az tahmin etmenin yaygın nedenleri arasında, diğer gıdaların altında gizli olan gıda, küçük görünen yoğun kalori zengini gıdalar ve alışılmadık servis stilleri bulunur. Tahminler yanlış olduğunda geri bildirim sağlamak, sistemin gelişmesine yardımcı olur.
Doğru porsiyon takibi için LiDAR sensörüne sahip bir telefona ihtiyacım var mı?
Hayır. LiDAR ile donatılmış telefonlar daha doğru derinlik bilgisi sağlayabilirken, modern AI modelleri standart bir kamera görüntüsünden de oldukça iyi derinlik tahmini yapabilir. LiDAR ile donatılmış ve standart telefonlar arasındaki doğruluk farkı, yazılım tabanlı derinlik tahmininin gelişmesiyle daralmıştır. Nutrola, herhangi bir modern akıllı telefonda doğru bir şekilde çalışır.
Sistem, üst üste veya katmanlı gıdalarla nasıl başa çıkıyor?
Pankekler veya katmanlı sandviçler gibi görünür şekilde üst üste yerleştirilmiş gıdalar için sistem, katmanları sayabilir ve yan profilden kalınlık tahmini yapabilir. Gizli katmanlara sahip gıdalar (örneğin lazanya veya burrito) için sistem, görünür dış yapı ve tabak türüne dayanarak tipik iç yapıyı tahmin eden öğrenilmiş bileşim modellerine dayanır.
Beslenme takibinizi dönüştürmeye hazır mısınız?
Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!