Araştırma Laboratuvarından Telefonunuza: Modern Gıda Tanımanın Arkasındaki Bilgisayarla Görme Teknolojisi

Öğle yemeğinizi tanımlayan yapay zeka, bir araştırma makalesi olarak başladı. İşte akademik bilgisayarla görme atılımlarından cebinizdeki gıda tanıma teknolojisine uzanan yolculuk.

Medically reviewed by Dr. Emily Torres, Registered Dietitian Nutritionist (RDN)

Akşam yemeğinizin fotoğrafını çekip anında kalori dağılımını görmek mümkün hale geldi. Ancak bu teknoloji, bir anda ortaya çıkmadı. Yıllar süren akademik araştırmaların, sayısız yayımlanan makalenin ve bilgisayarla görme ile derin öğrenmedeki sürekli atılımların bir ürünüdür. Üniversite laboratuvarlarında niş bir araştırma problemi olarak başlayan bu süreç, milyonlarca insanın her gün düşünmeden kullandığı bir özellik haline geldi.

Bu makale, gıda tanıma yapay zekasının köklerini temel bilgisayarla görme araştırmalarından başlayarak, telefonunuzda çalışan gerçek zamanlı gıda tanımaya kadar olan yolculuğunu takip ediyor. Bu süreçte, önemli makalelere, benchmark veri setlerine, sürekli zorluklara ve laboratuvar sonuçlarını güvenilir bir tüketici ürününe dönüştürmek için gereken mühendisliğe göz atacağız.

Her Şeyi Değiştiren Kıvılcım: ImageNet ve Derin Öğrenme Devrimi

Gıda tanımanın bugünkü işleyişini anlamak için, gıda ile ilgisi olmayan bir yarışmayla başlamak gerekiyor.

ImageNet Büyük Ölçekli Görsel Tanıma Yarışması

2009 yılında, Stanford Üniversitesi'nden Fei-Fei Li ve ekibi, 20.000'den fazla kategoride 14 milyonun üzerinde görüntü içeren ImageNet veri setini yayımladı. İlgili ImageNet Büyük Ölçekli Görsel Tanıma Yarışması (ILSVRC), araştırmacılardan 1.000 nesne kategorisine (uçaklardan zebralara kadar) görüntüleri sınıflandırabilen sistemler geliştirmelerini istedi. Birkaç yıl boyunca, en iyi sistemler, el yapımı özellikler ve geleneksel makine öğrenimi teknikleri kullanarak, en iyi-5 hata oranlarını %25 ile %28 arasında elde etti.

Sonra 2012 yılı geldi.

Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton, AlexNet adını verdikleri derin bir konvolüsyonel sinir ağı sundular. Bu model, %15.3'lük bir en iyi-5 hata oranı elde ederek, ikinci sıradaki katılımcıyı 10 puandan fazla farkla geride bıraktı. Bu, kısmi bir iyileşme değildi. Derin öğrenmenin bilgisayarla görmede baskın yaklaşım olarak ortaya çıktığını gösteren bir paradigma değişikliğiydi.

"ImageNet Sınıflandırması Derin Konvolüsyonel Sinir Ağları ile" (Krizhevsky ve ark., 2012) başlıklı makale, bilgisayar biliminde en çok alıntı yapılan çalışmalardan biridir. Etkisi, ImageNet yarışmasının ötesine geçti. Gıda tanıma da dahil olmak üzere bilgisayarla görmenin her alt alanındaki araştırmacılar, derin konvolüsyonel sinir ağlarının kendi özel problemlerine nasıl uygulanabileceğini hemen keşfetmeye başladılar.

Neden ImageNet 2012 Gıda İçin Önemliydi

AlexNet'ten önce, gıda tanıma sistemleri, renk histogramları, Yerel İkili Desenler (LBP) gibi doku tanımlayıcıları ve SIFT (Ölçek Değişmez Özellik Dönüşümü) gibi algoritmalar kullanarak çıkarılan şekil tabanlı özelliklere dayanıyordu. Bu yaklaşımlar genelleme konusunda zorluk yaşıyordu. Renk ve doku özellikleri kullanarak pizza tanımak için eğitilmiş bir sistem, alışılmadık bir malzeme veya farklı bir aydınlatma ile karşılaştığında başarısız oluyordu.

Derin CNN'ler, durumu köklü bir şekilde değiştirdi. Araştırmacıların hangi görsel özelliklerin önemli olduğunu manuel olarak tanımlamasını gerektirmeden, ağ doğrudan verilerden ayırt edici özellikleri öğreniyordu. Bu, yeterince eğitim görüntüsü verildiğinde, bir CNN'nin gıdayı geniş bir koşul yelpazesinde tanımayı öğrenebileceği anlamına geliyordu; aydınlatma, açı, tabaklama ve hazırlama gibi değişkenlikleri ele alabiliyordu.

İyileştirmelerin Zinciri: 2013'ten 2020'ye

AlexNet'ten sonraki yıllar, her biri doğruluğu artıran ve dağıtımı daha pratik hale getiren mimari yeniliklerin hızlı bir sıralamasını üretti:

Yıl Mimari Ana Katkı ImageNet En İyi-5 Hata
2012 AlexNet Derin CNN'lerin ölçekli kullanımını kanıtladı %15.3
2014 VGGNet Derinliğin (16-19 katman) doğruluğu artırdığını gösterdi %7.3
2014 GoogLeNet (Inception) Çok ölçekli özellik çıkarımı ile verimli hesaplama %6.7
2015 ResNet 152 katmanlı ağları mümkün kılan kalıntı bağlantıları %3.6
2017 SENet Kanal dikkat mekanizmaları %2.3
2019 EfficientNet Optimal doğruluk/verimlilik dengesi için bileşik ölçekleme %2.0
2020 Vision Transformer (ViT) Görüntü parçalarına uygulanan kendine dikkat %1.8

Bu mimarilerin her biri, gıda tanıma araştırmacıları tarafından hızla benimsenerek gıda spesifik modellerin omurgası olarak kullanıldı.

Food-101 Veri Seti: Araştırmacılara Ortak Bir Referans Sağlamak

ImageNet üzerinde eğitilen genel amaçlı görüntü sınıflandırıcılar, bir pizzayı bir arabadan ayırt edebilse de, pizza margherita ile pizza bianca'yı ayırt etmek çok daha ince bir görsel ayrım gerektirir. Gıda tanıma araştırma topluluğunun kendi büyük ölçekli veri setine ihtiyacı vardı.

Bossard ve Arkadaşları ve Food-101'in Doğuşu

2014 yılında, ETH Zürih'ten Lukas Bossard, Matthieu Guillaumin ve Luc Van Gool, "Food-101 -- Ayrıştırıcı Bileşenleri Rastgele Ormanlarla Madencilik" başlıklı makalelerini Avrupa Bilgisayarla Görme Konferansı'nda (ECCV) yayımladılar. Food-101 veri setini tanıttılar: 101 gıda kategorisini kapsayan 101.000 görüntü, her kategori için 1.000 görüntü. Görüntüler, kontrollü laboratuvar ortamlarından ziyade gerçek dünya kaynaklarından (Foodspotting, sosyal bir gıda paylaşım platformu) toplanmıştı; bu da gerçek gıda fotoğraflarının gürültüsünü, varyasyonunu ve kusurlarını içeriyordu.

Food-101, araştırmacıların yaklaşımlarını doğrudan karşılaştırmalarına olanak tanıyan ortak bir referans belirledi. Orijinal makale, el yapımı özelliklerle rastgele orman yaklaşımı kullanarak %50.76'lık bir en iyi-1 doğruluk elde etti. Bir yıl içinde, derin öğrenme yaklaşımları %70'in üzerine çıkmaya başladı. 2018 yılına gelindiğinde, Inception ve ResNet gibi mimariler üzerine inşa edilen modeller, Food-101'de %90'ın üzerinde en iyi-1 doğruluk elde ediyordu.

Diğer Önemli Gıda Veri Setleri

Food-101 en yaygın kullanılan benchmark olsa da, araştırma topluluğu alanı ileriye taşıyan birkaç başka veri seti üretti:

UEC-Food100 ve UEC-Food256 (2012, 2014): Japonya'daki Elektro-İletişim Üniversitesi tarafından geliştirilen bu veri setleri, Japon mutfağına odaklandı ve çoklu gıda tespiti için sınırlayıcı kutu anotasyonları tanıttı. UEC-Food256, 256 kategoriyi kapsayarak çoklu Asya mutfaklarını genişletti.

VIREO Food-172 (2016): Hong Kong Şehir Üniversitesi tarafından oluşturulan bu veri seti, 172 Çin gıda kategorisini içeriyor ve malzeme anotasyonları ile birlikte, malzeme düzeyinde tanıma araştırmalarına olanak tanıyor.

Nutrition5k (2021): Google Araştırma tarafından geliştirilen bu veri seti, gıda görüntülerini kalorimetri kullanarak elde edilen hassas besin ölçümleri ile eşleştirdi. 5.006 gerçekçi yemek tabağı ve laboratuvar onaylı kalori sayımları ile Nutrition5k, porsiyon tahmin sistemleri için bir gerçek veri seti sağladı.

Food2K (2021): 2.000 gıda kategorisi ve bir milyondan fazla görüntü içeren büyük ölçekli bir benchmark, gıda tanımayı genel nesne tanıma ölçeğine taşımak için tasarlandı.

MAFood-121 (2019): Çoklu özellikli gıda tanımaya odaklanan bu veri seti, gıda kategorisinin yanı sıra mutfak türü ve hazırlama yöntemini de içeriyor; bu da sadece bir gıdanın ne olduğunu değil, nasıl hazırlandığını anlamak için gerçek dünya ihtiyacını yansıtıyor.

Bu veri setlerinin mevcut olması çok önemliydi. Makine öğreniminde, eğitim verisinin kalitesi ve ölçeği genellikle model mimarisinden daha fazla önem taşır. Her yeni veri seti, modellerin öğrenebileceği gıda, mutfak ve görsel koşulların yelpazesini genişletti.

Neden Gıda, "Normal" Nesne Tespitinden Daha Zordur

Gıda tanıma üzerine çalışan araştırmacılar, gıdanın genel nesne tespitinde ortaya çıkmayan benzersiz zorluklar sunduğunu hızla keşfettiler. Bu zorlukları anlamak, güvenilir bir şekilde araba, köpek ve bina tanıyan bir sistemin bir tabak gıda ile neden zorlandığını açıklamaktadır.

Sınıf İçi Varyasyon Problemi

Bir golden retriever, otururken, koşarken veya uyurken aynı golden retriever'dır. Ancak bir salata neredeyse her şey gibi görünebilir. Yunan salatası, Sezar salatası, Waldorf salatası ve lahana-kinoa salatası "salata" etiketine sahip olmasına rağmen, görsel olarak neredeyse hiçbir ortak noktaları yoktur. Bu sınıf içi varyasyon, gıda kategorileri için aşırı düzeydedir ve çoğu nesne tanıma görevinde bulduğunuzdan çok daha fazladır.

Tersine, sınıflar arası benzerlik de yüksektir. Bir kase domates çorbası ve bir kase kırmızı köri, yukarıdan bakıldığında neredeyse aynı görünebilir. Kızartılmış pilav ve pilav, görsel özellikleri paylaşır. Bir protein barı ve bir brownie, bir fotoğrafta ayırt edilemez olabilir. Gıda kategorileri arasındaki görsel sınırlar, araba ve kamyonlar arasındaki sınırların bulanık olduğu bir şekilde sıklıkla belirsizdir.

Gıdanın Değişken Doğası

Bilgisayarla görme sistemlerinin tanımak için eğitildiği çoğu nesne, tutarlı geometrik yapıya sahiptir. Bir sandalyenin ayakları, oturak ve sırtlığı vardır. Gıda ise değişken, amorf ve görsel sunumunda öngörülemezdir. Bir porsiyon patates püresi tutarlı bir şekle sahip değildir. Makarna sonsuz sayıda konfigürasyonda servis edilebilir. Hatta aynı tarif, iki farklı kişi tarafından hazırlandığında önemli ölçüde farklı görünebilir.

Bu değişkenlik, şekil tabanlı özelliklerin, katı nesne tespitinde güçlü olmasına rağmen, gıda tanımada göreceli olarak az katkı sağlaması anlamına gelir. Modeller, renk, doku ve bağlamsal ipuçlarına daha fazla güvenmek zorundadır.

Örtme ve Karışık Yemekler

Tipik bir yemek fotoğrafında, gıdalar birbiriyle örtüşür ve birbirini gizler. Sos, eti kaplar. Peynir, sebzelerin üzerine erir. Pirinç, bir güveç altında kalır. Bu örtme desenleri sadece yaygın değil; normdur. Bir gıda tanıma sistemi, kısmi görünürlüğe karşı oldukça dayanıklı olmalıdır; bu, örneğin, bir sokak sahnesinde yaya tespit etmekten çok daha zorlu bir gereklilik.

Karışık yemekler daha da zor bir problem sunar. Bir burrito, malzemelerini bir tortilla içine sararak görünmez hale getirir. Bir smoothie, meyveleri ve diğer malzemeleri homojen bir sıvı haline getirir. Bir güveç, bir görsel kütle haline getirilmiş birden fazla malzemeyi bir araya getirir. Bu tür gıdalar için tanıma, bireysel bileşenleri tanımlamak yerine bütünsel görünüme ve öğrenilmiş ilişkilere dayanmak zorundadır.

Aydınlatma ve Çevresel Varyasyon

Gıda fotoğrafları, son derece değişken koşullarda çekilir. Restoran aydınlatması, parlak floresan ışıktan loş mum ışığına kadar değişir. Ev mutfakları tutarsız renk sıcaklığına sahiptir. Flaşlı fotoğrafçılık, gıdanın görünür rengini değiştirir. Dışarıda güneşli bir günde çekilen fotoğraflar, loş bir ofiste çekilen fotoğraflarla hiçbir şekilde benzerlik göstermez. Bu görüntüleme koşullarındaki değişkenlik, renk tabanlı özellikleri önemli ölçüde etkiler ve renk, gıda tanıma için en güçlü ipuçlarından biri olduğundan, bu büyük bir zorluk yaratır.

Porsiyon Tahmini Problemi: Araştırmanın Gerçekten Zorlaştığı Yer

Bir tabaktaki gıdanın ne olduğunu tanımlamak, sorunun yalnızca yarısıdır. Beslenme takibi için yararlı olabilmesi için bir sistemin, her gıda için ne kadar bulunduğunu da tahmin etmesi gerekir. Bu, porsiyon tahmini problemidir ve gıda bilgisayarı araştırmalarının en aktif ve zorlu alanlarından biri olmaya devam etmektedir.

Neden Porsiyon Tahmini Temelde Zordur

Tek bir 2D fotoğraf, derinlik bilgisini yok sayar. Kamera ile tabak arasındaki mesafeyi, tabağın boyutunu veya bir gıda yığınının yüksekliğini bilmeden, piksel ölçümlerinden gıdanın gerçek fiziksel hacmini geri kazanmak imkansızdır. Bu, mevcut yapay zekanın bir sınırlaması değildir. Bu, projeksiyon geometrisinin matematiksel bir gerçeğidir. Kameraya yakın küçük bir kase ile uzakta büyük bir kase, aynı görüntüyü üretir.

Araştırmacılar, bu sınırlamayı aşmak için birkaç yaklaşım keşfettiler:

Referans nesne yöntemleri: Bazı sistemler, kullanıcının çerçevede bilinen bir referans nesne (bir madeni para, bir kredi kartı, belirli bir tabak) eklemesini ister. Bilinen nesnenin piksel boyutlarını gerçek dünya boyutlarıyla karşılaştırarak, sistem ölçeği tahmin edebilir. Purdue Üniversitesi'nde geliştirilen TADA (Üç Boyutlu Otomatik Diyet Değerlendirmesi) sistemi bu amaçla bir fiducial işaretçi (bir dama tahtası deseni) kullandı. Doğru olsa da, bu yaklaşım günlük tüketici kullanımı için pratik hale getirmeyen bir sürtünme ekler.

Monoküler görüntülerden derinlik tahmini: Sinir ağları, tipik sahneler hakkında öğrenilmiş öncelikleri kullanarak tek görüntülerden derinlik haritaları tahmin edebilir. Pittsburgh Üniversitesi ve Georgia Tech'teki grupların araştırmaları, gıda görüntüleri için monoküler derinlik tahminini uygulayarak, kontrollü koşullarda gerçek değerlerin %15 ila %25'ine kadar hacim tahminleri elde etti.

Çoklu görünüm yeniden yapılandırması: Bazı araştırma sistemleri, kullanıcıların gıdayı birden fazla açıdan çekmesini ister, bu da 3D yeniden yapılandırmaya olanak tanır. Daha doğru olsa da, bu da yine sürtünme ekler. Fang ve ark. (2019) tarafından yapılan araştırmalar, iki görünümün bile hacim tahmini doğruluğunu önemli ölçüde artırabileceğini göstermiştir.

Öğrenilmiş porsiyon öncelikleri: Kesin fiziksel hacmi geri kazanmak yerine, bazı sistemler her gıda kategorisi için tipik porsiyon boyutlarının istatistiksel dağılımlarını öğrenir. Sistem, pişirilmiş beyaz pirincin medyan porsiyonunun yaklaşık 158 gram olduğunu biliyorsa, bu önceliği gıda görüntüsündeki gıdanın göreceli boyutu hakkında görsel ipuçlarıyla birleştirerek makul bir tahmin üretebilir.

Ana Porsiyon Tahmini Makaleleri

Porsiyon tahmininde durumu ileriye taşıyan birkaç makale bulunmaktadır:

  • Meyers ve ark. (2015), "Im2Calories: Otomatik Mobil Görsel Gıda Günlüğüne Doğru," Google Araştırma'dan, gıda görüntülerinden kalori içeriğini doğrudan tahmin etmek için bir CNN kullanmayı önerdi.
  • Fang ve ark. (2019), "Öğrenilmiş Enerji Dağılım Haritalarına Dayalı Sonuç Olarak Görüntü Tabanlı Otomatik Gıda Enerji Tahmin Tekniği," piksel başına kalori yoğunluğunu tahmin eden enerji dağılım haritalarını tanıttı.
  • Thames ve ark. (2021), "Nutrition5k: Genel Gıda için Otomatik Beslenme Anlayışına Doğru," kalorimetri ile doğrulanmış besin gerçekliği ile ilk büyük ölçekli veri setini sağladı ve porsiyon tahmin sistemlerinin daha titiz değerlendirilmesine olanak tanıdı.
  • Lu ve ark. (2020), gıda segmentasyonu ile derinlik tahminini birleştirmenin, yaygın gıda kategorileri için ortalama mutlak hata oranını %20'nin altında elde ettiğini gösterdi.

Araştırma Doğruluğu ile Gerçek Dünya Performansı Arasındaki Fark

Gıda tanıma yapay zekasında en önemli ve en az tartışılan konulardan biri, benchmark performansı ile gerçek dünya performansı arasındaki farktır. Bu farkı anlamak, gıda tanıma teknolojisinin neler yapabileceği ve neler yapamayacağı konusunda gerçekçi beklentiler belirlemek için kritik öneme sahiptir.

Benchmark Koşulları ve Gerçeklik

Araştırma makaleleri genellikle, eğitim verileriyle aynı dağıtımdan alınan düzenlenmiş test setleri üzerindeki doğruluğu rapor eder. Food-101'de %93'lük bir doğruluk etkileyici görünse de, bu, modelin eğitim görüntüleriyle aynı kaynaktan ve benzer koşullardan gelen görüntülerde test edildiği anlamına gelir. Gerçek dünyada dağıtım kayması nedeniyle doğruluk birkaç nedenden dolayı düşer:

Dağıtım kayması: Kullanıcılar, eğitim verilerinde temsil edilenlerden farklı kameralar, aydınlatmalar, açı ve kompozisyonlarla fotoğraflar çeker. Bir model, çoğunlukla gıda bloglarından alınan yukarıdan çekilmiş fotoğraflarla eğitildiyse, kullanıcının loş bir restoranda telefon flaşıyla çektiği eğik bir fotoğrafta performansı düşecektir.

Uzun kuyruklu gıdalar: Benchmark veri setleri sınırlı bir kategori setini kapsar. Food-101, 101 kategoriye sahiptir; Food2K, 2.000. Ancak gerçek bir küresel gıda tanıma sistemi, on binlerce yemeği ele almalıdır. Nadir veya kültürel olarak özel gıdalar üzerindeki performans genellikle rapor edilen ortalamalardan çok daha düşüktür.

Bileşik yemekler: Çoğu benchmark, tek gıda sınıflandırmasını değerlendirir. Gerçek yemekler, genellikle tek bir tabakta birden fazla gıda içerir; bu da tespit, segmentasyon ve sınıflandırmayı aynı anda gerektirir. Çoklu gıda doğruluğu, tek gıda doğruluğundan sürekli olarak daha düşüktür.

Porsiyon tahmini hata birikimi: Gıda tanımadaki küçük hatalar, porsiyon tahmini ile bir araya geldiğinde birikir. Sistem, kinoa ile kuskusu (görsel olarak olası bir karışıklık) karıştırırsa, yanlış besin yoğunluğunu hacim tahminine uygular ve hem makro besin dağılımında hem de kalori sayımında hatalara yol açar.

Farkı Nicelendirmek

Yayımlanan araştırmalar, aşağıdaki yaklaşık performans aralıklarını önermektedir:

Görev Benchmark Doğruluğu Gerçek Dünya Doğruluğu
Tek gıda sınıflandırması (en iyi-1) %88-93 %70-82
Tek gıda sınıflandırması (en iyi-5) %96-99 %88-94
Çoklu gıda tespiti (her bir öğe için) %75-85 %60-75
Porsiyon tahmini (gerçek değerin %20'si içinde) %65-75 %45-60
Uçtan uca kalori tahmini (gerçek değerin %20'si içinde) %55-65 %35-50

Bu rakamlar, önemli bir gerçeği vurgular: Gıda tanıma yapay zekası iyi ve daha iyi hale geliyor, ancak henüz dikkatli ölçümün yerini alacak seviyede değil. Bu, bilinen bir hata payını kabul ederken, gıda kaydını önemli ölçüde azaltan bir araçtır.

Önemli Atılımların Zaman Çizelgesi

Aşağıdaki zaman çizelgesi, genel bilgisayarla görme araştırmalarından telefonunuzdaki gıda tanıma teknolojisine giden yolculuktaki önemli kilometre taşlarını özetlemektedir:

2009 -- ImageNet veri seti yayımlandı. Fei-Fei Li ve ekibi, derin öğrenme devrimini besleyecek büyük ölçekli benchmark sağlayan ImageNet veri setini yayımladı.

2012 -- AlexNet ILSVRC'yi kazandı. Krizhevsky, Sutskever ve Hinton, derin konvolüsyonel sinir ağlarının görüntü sınıflandırmasında geleneksel yaklaşımları önemli ölçüde geride bıraktığını gösterdi. Derin öğrenme dönemi başladı.

2012 -- UEC-Food100 yayımlandı. Japon mutfağına odaklanan ilk büyük ölçekli gıda görüntü veri setlerinden biri, gıda tanımayı ayrı bir araştırma problemi olarak belirledi.

2014 -- Food-101 veri seti yayımlandı. Bossard ve arkadaşları, gıda tanıma araştırmaları için standart değerlendirme veri seti haline gelecek benchmark'ı yayımladı.

2014 -- GoogLeNet ve VGGNet. İki etkili mimari, daha derin ve daha karmaşık ağ tasarımlarının sınıflandırma doğruluğunu önemli ölçüde artırdığını gösterdi. Her ikisi de gıda tanıma araştırmacıları tarafından hızla benimsendi.

2015 -- ResNet tanıtıldı. He ve arkadaşları, 100'den fazla katmanlı ağları mümkün kılan kalıntı bağlantılarını tanıttı. ResNet, önümüzdeki birkaç yıl boyunca gıda tanıma sistemlerinde en yaygın kullanılan omurga haline geldi.

2015 -- Im2Calories makalesi yayımlandı. Google Araştırma, gıda görüntülerinden uçtan uca kalori tahminini göstererek, doğrudan görüntüden beslenme akışının uygulanabilir bir araştırma yönü olarak ortaya çıktığını gösterdi.

2016 -- Gerçek zamanlı nesne tespiti olgunlaştı. YOLO (Redmon ve ark., 2016) ve SSD (Liu ve ark., 2016), bir tabaktaki birden fazla gıda maddesini bir saniye içinde tespit etmeyi mümkün kıldı.

2017 -- Transfer öğrenme standart uygulama haline geldi. Araştırma topluluğu, ortak bir metodolojiye yöneldi: ImageNet üzerinde ön eğitim, gıda veri setlerinde ince ayar. Bu yaklaşım, Food-101 doğruluğunu %88'in üzerine çıkardı.

2019 -- EfficientNet yayımlandı. Tan ve Le, bileşik ölçekleme tanıtarak, önceki modellerden daha doğru ve verimli olan modeller üretti. Bu, yüksek doğrulukta gıda tanımanın mobil donanımda bulut çıkarımı olmadan mümkün hale gelmesini sağladı.

2020 -- Vision Transformers (ViT) yayımlandı. Dosovitskiy ve arkadaşları, doğal dil işleme için geliştirilen transformer mimarilerinin, görüntü sınıflandırmasında CNN'leri eşleşebileceğini veya aşabileceğini gösterdi. Bu, gıda tanıma araştırmaları için yeni yollar açtı.

2021 -- Nutrition5k veri seti yayımlandı. Google Araştırma, kalorimetri ile doğrulanmış besin gerçekliği ile bir veri seti yayımladı ve uçtan uca beslenme tahmininin değerlendirilmesi için ilk titiz benchmark'ı sağladı.

2022-2024 -- Temel modeller ortaya çıkıyor. CLIP (Radford ve ark., 2021) gibi büyük ön eğitimli görsel-dil modelleri, sıfırdan veya az sayıda örnekle gıda tanıma yeteneği sağlıyor; bu da sistemlerin, daha önce açıkça eğitilmedikleri gıda kategorilerini tanımlamalarına olanak tanıyor.

2025-2026 -- Cihaz içi çıkarım standart hale geliyor. Model sıkıştırma, kuantizasyon ve mobil sinir işleme birimleri (NPU'lar) alanındaki ilerlemeler, gıda tanıma modellerinin tamamen cihazda çalışmasına olanak tanıyarak, bulut işleme ile ilgili gecikme ve gizlilik endişelerini ortadan kaldırıyor.

Nutrola, Araştırma ile Uygulama Arasındaki Farkı Nasıl Kapatıyor?

Yukarıda tanımlanan akademik araştırmalar gerekli olsa da, gerçek insanlar için gerçek koşullarda güvenilir bir gıda tanıma sistemi oluşturmak için yeterli değildir. Food-101'de %93 doğrulukla bir makale yayımlamak ile kullanıcıların günlük beslenme takibinde güvendiği bir ürün göndermek arasındaki fark büyüktür. İşte burada mühendislik, veri stratejisi ve kullanıcı merkezli tasarım, model mimarisi kadar önemli hale gelir.

Gerçek Kullanıcı Veri Dağılımları Üzerinde Eğitim

Akademik veri setleri, gıda bloglarından, sosyal medyadan ve kontrollü fotoğraf çekimlerinden derlenmiştir. Gerçek kullanıcı fotoğrafları daha karmaşıktır: kısmen yenilmiş yemekler, dağınık arka planlar, kötü aydınlatma, alışılmadık açılar, çerçevede birden fazla tabak. Nutrola, modellerini, kullanıcıların gerçekten çektiği kusurlu, gerçek dünya görüntülerini de içeren, gerçek kullanım kalıplarını yansıtan veri dağılımları üzerinde eğitmektedir. Bu, dağıtım kayması farkının önemli bir kısmını kapatır.

Sürekli Öğrenme ve Geri Bildirim Döngüleri

Bir kez eğitilen ve dağıtılan statik bir model, kullanıcı davranışları ve gıda trendleri değiştikçe kötüleşir. Nutrola, kullanıcı düzeltmelerini ve geri bildirimlerini içeren sürekli öğrenme hatları uygular. Bir kullanıcı yanlış tanımlamayı düzelttiğinde, bu sinyal (gizlilik korumaları ile) toplanır ve hataların en yaygın olduğu belirli gıda ve koşullar üzerindeki model performansını artırmak için kullanılır.

Birden Fazla İpucu Birleştirme

Nutrola, yalnızca görsel sınıflandırmaya dayanmak yerine, doğruluğu artırmak için görüntü tabanlı tanımayı bağlamsal sinyallerle birleştirir. Günün saati, coğrafi bölge, son yemek geçmişi ve kullanıcı tercihleri, görsel olarak benzer gıdaları ayırt etmeye yardımcı olan öncelikler olarak hizmet eder. Kuzey Amerika'da kahvaltıda çekilen kırmızı sıvı içeren bir kase, domates suyu olma olasılığı daha yüksektir; bu bağlam, sistemin daha iyi tahminler yapmasına olanak tanır.

Güvenilirlik İletişimini Dürüstçe Yapmak

En önemli tasarım kararlarından biri, belirsizliği nasıl ileteceğidir. Model kendine güvendiğinde, Nutrola tanımlamayı doğrudan sunar. Güven düşük olduğunda, sistem birden fazla seçenek sunar ve kullanıcının onayını ister. Bu etkileşim modeli, teknolojinin doğasında var olan sınırlamaları dikkate alırken, manuel kayda göre sürtünmeyi azaltır. Mükemmel olma iddiasında bulunmak yerine, sistem yardım gerektiğinde şeffaf bir şekilde iletişim kurar.

Sadece Sınıflandırma Doğruluğu Değil, Beslenme Doğruluğu için Optimize Etmek

Akademik benchmark'lar, sınıflandırma doğruluğunu ölçer: model gıdayı doğru bir şekilde tanımladı mı? Ancak beslenme takibi için ilgili ölçüt, beslenme doğruluğudur: tahmin edilen kalori ve makro besin içeriği gerçek değerlere ne kadar yakın? Nutrola, bu aşağı akış ölçütü için optimize edilir. Görsel olarak benzer iki gıda arasında (beyaz pirinç ile yasemin pirinci) bir karışıklık, çok farklı besin profillerine sahip iki görsel olarak benzer gıda arasındaki karışıklıktan (normal bir muffin ile protein muffin) çok daha az önemlidir. Sistem, beslenme tahminleri üzerinde en büyük etkiye sahip hataları minimize etmek için ayarlanmıştır.

Araştırma Sınırı: Sırada Ne Var?

Gıda tanıma araştırmaları gelişmeye devam ediyor. Laboratuvar doğruluğu ile gerçek dünya performansı arasındaki farkı daha da kapatabilecek birkaç aktif araştırma yönü bulunmaktadır:

Malzeme düzeyinde tanıma: Tabak düzeyinde sınıflandırmadan bireysel malzemelerin tanınmasına geçiş. Bu, bileşik gıdalar için daha doğru beslenme tahmini sağlar ve diyet kısıtlamalarının kontrolüne (örneğin alerjen tespiti) destek olur.

Tek görüntüden 3D gıda yeniden yapılandırması: Sinir ışını alanları (NeRF'ler) ve monoküler 3D yeniden yapılandırmadaki ilerlemeler, tek bir fotoğraftan oldukça doğru bir 3D modelin yeniden yapılandırılmasının mümkün olacağını göstermektedir; bu da porsiyon tahminini önemli ölçüde iyileştirir.

Kişiselleştirilmiş gıda modelleri: Bireysel kullanıcıların tipik yemeklerine, tercih ettikleri restoranlara ve pişirme stillerine uyum sağlayan modellerin eğitilmesi. Her hafta aynı kahvaltıyı yediğinizi bilen bir model, kişiselleştirme yoluyla neredeyse mükemmel doğruluk elde edebilir.

Çok modlu akıl yürütme: Görsel tanımayı metin (menü açıklamaları, tarif isimleri) ve ses (yemeklerin sesli açıklamaları) ile birleştirerek daha sağlam gıda anlama sistemleri oluşturmak.

Gıda için federated learning: Ham verileri merkezileştirmeden, birçok kullanıcının cihazları arasında gıda tanıma modellerini eğitmek; bu, gizliliği korurken çeşitli gerçek dünya eğitim verilerinden faydalanmayı sağlar.

Sıkça Sorulan Sorular

AI gıda tanıma, bir insan diyetisyenine kıyasla ne kadar doğru?

İyi koşullarda fotoğraflanan yaygın gıdalar için, AI gıda tanıma, bir insan diyetisyeni ile eşleşen veya onu aşan hızda çalışır ve karşılaştırılabilir tanımlama doğruluğu elde eder. Kayıtlı bir diyetisyen, genellikle bir fotoğraftan gıda maddesini %85 ile %95 arasında bir doğrulukla tanımlayabilir. Mevcut AI sistemleri, iyi temsil edilen gıda kategorileri için benzer oranlar elde eder. Ancak diyetisyenler, nadir veya belirsiz gıdalar, kültürel olarak özel yemekler ve porsiyon tahmini konusunda hala AI'dan daha iyi sonuçlar verir. AI'nın pratik avantajı hız ve erişilebilirliktir: 7/24 anında bir tahmin sağlar, oysa diyetisyen danışmanlıkları sınırlı ve pahalıdır.

Food-101 veri seti nedir ve neden önemlidir?

Food-101, 2014 yılında ETH Zürih'teki araştırmacılar tarafından yayımlanan 101 gıda kategorisini kapsayan 101.000 görüntüden oluşan bir benchmark veri setidir. Önemlidir çünkü gıda tanıma modellerini değerlendirmek için ilk yaygın olarak benimsenen standartı sağlamıştır. Food-101'den önce, araştırmacılar sistemlerini özel veya küçük ölçekli veri setlerinde test ediyordu; bu da sonuçları karşılaştırmayı imkansız hale getiriyordu. Food-101, yeniden üretilebilir araştırmayı mümkün kıldı ve gıda sınıflandırma doğruluğundaki hızlı ilerlemeyi sağladı; 2014'te yaklaşık %50'den 2020'de %93'ün üzerine çıktı.

Gıda, diğer nesnelerden neden daha zor tanınır?

Gıda, genel nesne tanımada nadir olan birkaç zorluğu barındırır: aynı gıda kategorisi içindeki aşırı görsel varyasyon (örneğin "salata" olarak adlandırılan tüm şeyler), farklı gıda kategorileri arasındaki yüksek görsel benzerlik (domates çorbası ile kırmızı köri), deformasyon ve amorf şekiller, soslar ve malzemelerden kaynaklanan sık örtme, ve kültürler arasında hazırlama stillerindeki geniş varyasyon. Ayrıca, gıda hem tanımlanmalı hem de nicelendirilmelidir (porsiyon tahmini), bu da çoğu nesne tanıma görevinde gerekmeyen bir boyut ekler.

Transfer öğrenme gıda tanıma konusunda nasıl yardımcı olur?

Transfer öğrenme, genellikle ImageNet üzerinde önceden eğitilmiş bir sinir ağını alıp daha küçük bir gıda spesifik veri setinde ince ayar yapmayı içerir. Bu, ImageNet'ten öğrenilen düşük seviyeli görsel özelliklerin (kenarlar, dokular, renkler, şekiller) genel olarak faydalı olması ve gıda görüntülerine iyi bir şekilde aktarılması nedeniyle işe yarar. Sadece daha yüksek seviyeli, gıda spesifik özelliklerin sıfırdan öğrenilmesi gerekir. Transfer öğrenme, gıda spesifik eğitim verilerine duyulan ihtiyacı önemli ölçüde azaltır ve genellikle sıfırdan eğitim yapmaya kıyasla %10 ila %20 puanlık bir doğruluk artışı sağlar.

AI, tek bir fotoğraftan porsiyon boyutlarını tahmin edebilir mi?

AI, tek bir fotoğraftan porsiyon boyutlarını tahmin edebilir, ancak anlamlı bir belirsizlikle. Derinlik bilgisi olmadan, 2D bir fotoğraf gıdanın hacmini kesin olarak belirleyemez. Modern sistemler, öğrenilmiş porsiyon önceliklerini (tipik porsiyon boyutlarının istatistiksel bilgisi), göreceli boyut ipuçlarını (gıdayı tabak veya diğer nesnelerle karşılaştırarak) ve monoküler derinlik tahminini birleştirerek tahminler üretir; bu tahminler genellikle gerçek porsiyon boyutunun %15 ila %30'u içinde olur. Bu, günlük takip için yeterince doğru olsa da, klinik diyet değerlendirmesi için yeterince hassas değildir.

Gıda sınıflandırması ile gıda tespiti arasındaki fark nedir?

Gıda sınıflandırması, bir görüntüye tek bir etiket atar (bu görüntü pizza içeriyor). Gıda tespiti, bir görüntüdeki birden fazla gıda maddesini tanımlar ve her bir öğenin etrafında sınırlayıcı kutular çizer ve bunları bağımsız olarak sınıflandırır (bu görüntüde sol üstte pizza, sağ altta salata ve üstte bir ekmek çubuğu var). Tespit, daha zor bir görevdir ancak gerçek yemek fotoğrafları genellikle birden fazla gıda maddesi içerdiğinden gereklidir.

Nutrola bu araştırmayı nasıl kullanıyor?

Nutrola, bu makalede tanımlanan akademik gıda tanıma araştırmalarının tamamından faydalanarak, en son mimarileri, çeşitli gerçek dünya verileri üzerinde eğitim almayı ve yalnızca sınıflandırma doğruluğu değil, beslenme doğruluğu için optimize etmeyi birleştirir. Sistem, görsel tanımayı bağlamsal sinyaller ve kullanıcı geri bildirimleri ile birleştirerek, herhangi bir araştırma makalesinin tek başına başardığı doğruluğu aşan bir sonuç sunar. Nutrola, gerçek dünya gıda tanıma performansı ve bu sistemlerin ölçeklenmesiyle ilgili zorluklar üzerine bulgular yayımlayarak araştırma topluluğuna da katkıda bulunur.

Gıda tanıma AI'sı asla %100 doğru olacak mı?

Mükemmel doğruluk, birkaç nedenle olası değildir. Bazı gıdalar gerçekten görsel olarak ayırt edilemez (örneğin beyaz şeker ve tuz). 2D görüntülerden porsiyon tahmini yapmanın temel matematiksel sınırlamaları vardır. Ve küresel mutfakların çeşitliliği, her zaman sınırlı eğitim verilerine sahip uzun kuyruklu gıdaların bulunmasına neden olur. Ancak, önemli olan soru, teknolojinin mükemmel olup olmadığı değil, faydalı olup olmadığıdır. Mevcut doğruluk seviyelerinde, AI gıda tanıma, manuel girişe göre gıda kaydını %70 ila %80 oranında azaltmaktadır ve her model ve eğitim verisi nesli ile doğruluk artmaya devam etmektedir.

Sonuç

Telefonunuzdaki gıda tanıma AI'ı, on yılı aşkın bir araştırma yolculuğunun ürünüdür. Bu yolculuk, 2012 ImageNet yarışmasındaki bir görüntü sınıflandırma atılımıyla başladı, Food-101 gibi gıda spesifik veri setleri aracılığıyla odaklandı, gıdanın görsel alanındaki benzersiz zorluklarla yüzleşti ve akademik benchmarklar ile gerçek dünya performansı arasındaki farkı yavaş yavaş kapattı.

Bu yolculuk henüz sona ermedi. Porsiyon tahmini, açık bir araştırma problemi olmaya devam ediyor. Uzun kuyruklu gıda kategorilerinin daha iyi kapsanması gerekiyor. Gerçek dünya doğruluğu, benchmark doğruluğunun anlamlı bir marjını geride bırakmaya devam ediyor. Ancak yön belirgin: her yıl daha iyi modeller, daha zengin eğitim verileri ve zorlu problemlere daha sofistike yaklaşımlar getiriyor.

Nutrola, bu araştırmanın ve insanların yediklerini anlamak için ihtiyaçlarının kesişim noktasında yer alıyor. Akademik araştırmaların en son gelişmelerine yakın kalarak ve gerçek dünya performansına sürekli odaklanarak, zahmetsiz ve doğru beslenme takibinin herkes için bir gerçeklik haline gelmesi için çalışıyoruz.

Beslenme takibinizi dönüştürmeye hazır mısınız?

Nutrola ile sağlık yolculuklarını dönüştürmüş binlerce kişiye katılın!