dc.description.ozet | Teknoloji ve sağlık hizmetlerindeki gelişmeler belirli bir hastalıkla ilgili farklı veri türlerinin elde edilmesine olanak sağlamıştır. RadyoGenomiks kelime olarak tıbbi görüntü verilerinden elde edilen özellikler için kullanılan “Radyomiks” ve genetik verilerden elde edilen özellikleri tanımlamada kullanılan “Genomiks” terimlerinin birleştirilmesi ile türetilmiştir. RadyoGenomiks aynı hastaların tıbbi görüntü ve genetik verilerinin birlikte değerlendirilmesi ile hastalığın kapsamlı olarak incelenmesini konu alan güncel bir konudur. Farklı türlerdeki veri kaynaklarının entegrasyonu kişiselleştirilmiş tıp, erken teşhis, tanı ve hastalığın prognozu gibi konularda umut vadetmektedir. Makine öğrenimi yöntemleri, büyük miktarda veriyi hızlı bir şekilde işleme kapasiteleri sayesinde RadyoGenomiks çalışmalarda yaygın olarak tercih edilmektedir.
Bu tez çalışmasında klinik karar verme süreçlerindeki etkilerini değerlendirmek amacıyla Radyomiks ve Genomiks olmak üzere iki farklı veri kaynağı incelenmiştir. Açık erişimli bir veri tabanından küçük hücreli olmayan akciğer kanserine sahip hastaların görüntü ve genetik verileri elde edilmiştir. Görüntü verisi olarak bilgisayarlı tomografi görüntülerine, genetik veri olarak RNA-dizileme yöntemi ile elde edilmiş gen ifade verilerine ulaşılmıştır. Görüntü verilerinden tümörün renk yoğunluğunu özetleyen histogram tabanlı 20 özellik ve tümörün şekli hakkında bilgi veren 12 özellik olmak üzere toplamda 32 adet özellik elde edilmiştir. Görüntü verileri geniş bir aralıkta değer alabildiği için değişkenlerin z skoru elde edilerek standartlaştırma işlemi uygulanmıştır. Gen ifade verileri veri tabanında ön işleme adımlarından biri olan normalizasyon işlemi uygulanmış şekilde elde edilmiştir. Eksik değer içeren genler dışlanmış ve toplamda 5268 gen çalışmaya dahil edilmiştir. Gen ifade verilerine logaritmik dönüşüm uygulanarak ön işleme adımları tamamlanmıştır.
Hastalığın alt türlerinin (adenokarsinom ve skuamöz hücreli karsinom) tahmin edilmesi için sadece görüntü değişkenleri (Radyomiks), sadece genetik değişkenleri (Genomiks) ve görüntü ile genetik değişkenlerin birlikte kullanılması (RadyoGenomiks) üzerine odaklanılmıştır. Çalışmanın örneklemini hem görüntü hem de genetik verisi olan ve hastalık alt türü tanımlanmış 58 hasta oluşturmaktadır. Sonuçların genellenebilirliği açısından tek bir veri setine bağlı kalmak yerine bu veri setinin özellikleri kullanılarak bir benzetim çalışması yapılmıştır. Benzetim çalışması R programlama dili kullanılarak gerçekleştirilmiştir. Sayısal değişkenlerin ve iki durumlu sınıf değişkeninin eş zamanlı olarak üretilmesine olanak sağlayan bir fonksiyon kullanılmıştır. Gerçek veri setinin değişken sayısı, gözlem sayısı, sınıf oranı, veri setinin korelasyon matrisi, sayısal değişkenlerin ortalama ve varyans vektörleri fonksiyonun girdileri olarak tanımlanmıştır.
Bu çalışmanın ana amacı Radyomiks, Genomiks ve RadyoGenomiks veri setlerinin hastalık alt türünün sınıflanması üzerindeki performansını incelemektir. Buna ek olarak, bazı araştırma sorularına da cevap aranmak istenmiştir. Bu amaçla ilk olarak sınıf dengesizliği konusu ele alınmıştır. Veride hastalık alt türü adenokarsinom olan 42 (%72,4), skuamoz hücreli karsinom olan 16 (%27,6) hasta vardır. Veri üretiminde ilk olarak verinin orijinal sınıf oranları dikkate alınmış ve oluşturulan senaryolar dengesiz sınıf dağılımı olarak ifade edilmiştir. Ardından veriler sınıf oranları eşit olacak şekilde (p=0,50) dengeli sınıf dağılımına sahip olarak üretilmiştir.
İkinci olarak ele alınan senaryo değişken seçimi üzerinedir. Değişken seçiminin sınıflama performası üzerine etkisinin incelenmesi için üç senaryo oluşturulmuştur. Birinci senaryoda değişken seçimi yapılmadan tüm görüntü ve genetik özellikler analize dahil edilmiştir. İkinci senaryoda ROC eğrisi altında kalan alan (ROC-AUC) değeri 0,60’ın üzerinde olan değişkenler seçilmiştir. Üçüncü senaryoda Recursive Feature Elimination (RFE) yöntemi kullanılarak değişken seçimi yapılmıştır. Bu yöntem Random Forest tabanlı bir değişken seçim yöntemidir. AUC yaklaşımından farklı olarak değişkenleri tek başına değerlendirmek yerine kurulan makine öğrenmesi modeli sayesinde değişkenlerin birlikte etkilerini de dikkate alarak değişken seçimini gerçekleştirir.
Çalışmada farklı sınıflama yöntemlerinin performansları karşılaştırılmak istenmiş ve sık kullanılan birkaç yöntem seçilmiştir. Bu yöntemler aşağıda açıklanmıştır:
LASSO ve Ridge regresyon yöntemlerinin cezalandırma parametrelerini birlikte kullanan Elastic Net yöntemi seçilen ilk sınıflama yöntemidir. Bu yöntemin değişken sayısının gözlem sayısının çok üzerinde olduğu ve açıklayıcı değişkenler arasında yüksek düzeyde ilişkilerin bulunduğu durumlarda kullanılması önerilmektedir.
Karar ağacı tabanlı iki sınıflama algoritması, Random Forest ve XGBoost, çalışmaya dahil edilen yöntemlerdendir. Bu iki yöntem arasındaki temel fark, karar ağaçların kullanımı ile ilgilidir. Random Forest yöntemi bagging algoritmasını kullanarak birden fazla karar ağacını birleştirerek tahminleri iyileştirmeyi amaçlayan bir yöntemdir. XGBoost ise her yeni ağacın önceki ağaçların hatalarını düzeltmeye odaklandığı bir yaklaşıma sahiptir.
Son olarak Support Vector Machines (SVM) algoritması sınıfları ayıran bir hiper düzlemin belirlenmesine dayanır. Bu amaçla sınıflar arasındaki mesafeyi arttırmayı amaçlar. Bu amaçla çekirdek fonksiyonuie verilerin daha yüksek boyutlu bir hiper düzleme dönüştürülmesine izin verir. Bu çalışmada doğrusal, radyal tabalı ve polinom olmak üzere üç farklı çekirdek fonksiyonu dikkate alınarak çalışmaya dahil edilmiştir.
Veri seti rastgele %70 eğitim, %30 test seti olarak ikiye ayrılmıştır. Değişken seçimi ve sınıflama yöntemleri eğitim setine uygulanmıştır. Elde edilen sınıflama modellerinin performansları test seti üzerinden değerlendirilmiştir.
Duyarlılık, seçicilik, pozitif kestirim değeri, negatif kestirim değeri, dengeli doğruluk oranı, F1 ölçüsü ve Matthews korelasyon katsayısı performans değerlendirmesinde temel ölçüler olarak ele alınmıştır.
Hazırlanan kodların kullanışlılığının test edilmesi için gerçek veri seti üzerinde bir uygulama yapıldıktan sonra benzetim çalışmasına geçilmiştir. Veri setinin üretiminden (dengesiz ya da dengeli sınıf dağılımı senaryosu altında) başlayarak sınıflama modellerinin performanslarının elde edilmesine kadar yapılan işlemler bir döngü olarak değerlendirilmiştir. Benzetim çalışması hesaplama gücü yüksek, bulut tabanlı bir sanal makine üzerinden gerçekleştirilmiştir. Tek bir iterasyonun tamamlanması yaklaşık olarak bir saat sürmüştür. Benzetim çalışmasında iterasyon sayısı 250 olarak alınmıştır. Çalışmanın başından itibaren farklı iterasyon sayıları (3, 5, 25, 50 gibi) için denemeler yapılmıştır. Bu denemelerde her farklı iterasyon sayısı için kodlar baştan çalıştırılmıştır. Son iterasyon sayısı (250) üzerinden sonuçlar sunulmuş ve tartışılmış olmakla birlikte öncesinde farklı iterasyon sayıları için elde edilen sonuçlar da raporlanmıştır. Çalışma bulgularının elde edilmesi aşamasında her senaryo için her bir iterasyonda performans ölçüleri hesaplanmış ve 250 iterasyonun ortalaması alınmıştır. Çalışmanın adımları akış diyagramı ile özetlenmiştir.
Akış diyagramında gösterilen işlemler ilk olarak örnek olması açısından gerçek veri seti üzerinde uygulanmıştır. Veri seti eğitim seti (70%) ve test seti (30%) olarak ikiye ayrılmıştır. Eğitim seti kullanılarak özellik seçimi yaklaşımları değerlendirilmilştir. Buna göre değişken seçimi yapılmadığı durumda Radyomiks ve Genomiks özelliklerin hepsi (sırasıyla 32 ve 5268 özellik) kullanılmıştır. Değişken seçimi ROC eğrisi altında kalan alan yaklaşımı ile yapıldığında 11 Radyomiks, 1905 Genomiks özellik kalmıştır. Özyinelemeli nitelik seçimi sonucunda ise 15 Radyomiks, 1000 Genomiks özellik seçilmiştir. Özellik seçim yöntemleri sonrasında sınıflandırma algoritmaları uygulanmıştır. Modeller yalnızca Radyomiks, yalnızca Genomiks ve her ikisinin bir kombinasyonu (RadyoGenomiks) kullanılarak oluşturulmuştur.
Gerçek veri setine ilişkin test seti performansları değerlendirildiğinde özellik seçimi yapılmadan duyarlılık değerleri 0,538 ile 1 arasında değer almıştır. Özellik seçimi AUC yaklaşımı kullanılarak gerçekleştirildiğinde, duyarlılık değerleri 0,692 ile 1 arasında ve özellik seçimi için RFE yöntemi kullanıldığında 0,615 ile 1 arasında değişmiştir. Sonuçlar, sınıflanma algoritmalarının çoğunluk sınıfını tercih etme eğiliminde olduğunu ve bunun düşük seçicilik değerlerine yol açtığını göstermektedir. Buna bağlı olarak negatif kestirim değeri ve Matthews korelasyon katsayısının hesaplanamadığı sonuçlarla da karşılaşılmıştır. En yüksek Matthews korelasyon katsayısı değerlerine sahip modeller şunlardır: çzellik seçimi yapılmadığında Random Forest Genomiks ve XGBoost RadyoGenomiks, özellik seçimi AUC yaklaşımı kullanılarak yapıldığında Elastic Net Genomiks ve RadyoGenomiks, özellik seçimi RFE ile yapıldığında SVM-doğrusal RadyoGenomiks ve SVM-polinom Genomiks. Bu sonuçlar tek bir veri kümesine dayandığından genelleştirmek mümkün değildir. Çeşitli senaryolarda sonuçları kapsamlı bir şekilde değerlendirmek için benzetim çalışması yapılmıştır.
Benzetim çalışması sonuçlarına göre dengesiz sınıf dağılımı senaryosunda kullanılan makine öğrenmesi yöntemlerinin duyarlılık ortalamaları 0,819 ile 0,979 arasında değişirken dengeli sınıf dağılımı senaryosunda 0,529 ile 0,691 arasında değişmiştir. Dengesiz sınıf dağılımı senaryosunda özellik seçimi yapılmadığında duyarlılık ortalamaları 0,834 ile 0,979 arasında, özellik seçimi AUC yaklaşımı kullanılarak yapıldığında 0,819 ile 0,975 arasında ve özellik seçimi RFE ile yapıldığında 0,824 ile 0,974 arasında değerler almıştır. Dengeli sınıf senaryosunda ise özellik seçimi yapılmadığında duyarlılık ortalamaları 0,529 ile 0,691 arasında, AUC yaklaşımı kullanıldığında 0,556 ile 0,686 arasında, RFE yaklaşımı kullanıldığında 0,546 ile 0,663 arasında değişmiştir. Dengesiz sınıf dağılımı senaryosunda SVM yönteminin üç farklı çekirdek fonksiyonu için elde edilen sınıflama modellerinde Radyomiks modellerinin sonuçları dikkat çekicidir. Diğer yöntemlerden ve kendi Genomiks ve RadyoGenomiks modellerinden daha yüksek duyarlılık ortalamaları sergilemişlerdir. Dengeli sınıf dağılımı senaryosunda ise tüm sınıflama yöntemleri için Radyomiks modellerin ortalama duyarlılık değerleri, karşılık gelen Genomiks ve RadyoGenomiks modellerinden daha düşüktür. SVM-doğrusal yöntemin Genomiks ve RadyoGenomiks modelleri bu senaryoda en yüksek duyarlılık ortalamalarını sergilemekte ve bu yöntemi Elastic Net algoritması takip etmektedir.
Seçicilik ortalamaları dengesiz senaryoda 0,041 ile 0,319, dengeli senaryoda ise 0,501 ile 0,686 aralığında değerler almıştır. Dengesiz sınıf dağılımında ortalamalar, özellik seçimi yapılmadan 0,041 ile 0,277 arasında, AUC yaklaşımı kullanıldığında 0,061 ile 0,319 arasında ve RFE uygulandığında 0,062 ile 0,313 arasında değişmiştir. Dengeli sınıf dağılımı senaryosunda ise seçicilik ortalamalarının özellik seçimi yapılmadan 0,501 ile 0,667 arasında, AUC'ye dayalı özellik seçimiyle 0,520 ile 0,686 arasında ve RFE kullanılarak 0,508 ile 0,653 arasında değerler aldığı görülmüştür. Elastic Net yönteminin RadyoGenomiks modelleri, özellik seçimi AUC yaklaşımı ile yapıldığında hem dengeli hem de dengesiz sınıf dağılımı senaryolarında en yüksek seçicilik ortalamalarına sahiptir.
Dengesiz senaryoda pozitif kestirim değeri ortalamaları 0,732 ile 0,785 arasında değişirken dengeli senaryoda 0,542 ile 0,709 arasında değişim göstermiştir. Dengesiz sınıf oranı senaryosunda pozitif kestirim değeri ortalamaları özellik seçimi yapılmadan 0,732 ile 0,777 arasında, AUC yaklaşımı kullanıldığında 0,734 ile 0,785 arasında, RFE kullanıldığında 0,732 ile 0,781 arasında değer almıştır. Dengeli sınıf dağılımı senaryosunda ortalamalar özellik seçimi olmadan 0,542 ile 0,709 arasında, AUC'ye dayalı özellik seçimiyle 0,561 ile 0,698 arasında, RFE kullanılarak özellik seçimiyle 0,542 ile 0,673 arasında değişim göstermiştir. SVM-doğrusal ve Elastic Net yöntemlerinin Genomiks ve RadyoGenomiks modelleri, her iki sınıf oranı senaryosunda da pozitif kestirim değeri açısından öne çıkmaktadır.
Negatif kestirim değeri ortalamaları dengesiz sınıf oranı senaryosunda 0,346 ile 0,600 arasında, dengeli senaryoda ise 0,523 ile 0,708 arasında değişmiştir. Dengesiz senaryoda negatif kestirim değeri ortalamaları özellik seçimi olmaksızın 0,361 ile 0,600 arasında, AUC yaklaşımıyla 0,369 ile 0,598 arasında ve RFE ile 0,346 ile 0,563 arasında değer almıştır. Dengeli sınıf oranı senaryosunda ortalamalar özellik seçimi yapılmadan 0,523 ile 0,708 arasında, AUC ile 0,536 ile 0,696 arasında ve RFE ile 0,534 ile 0,673 arasında değişim göstermiştir. Dengesiz senaryoda SVM-doğrusal Genomiks modeli hem özellik seçimi olmaksızın hem de AUC yaklaşımına dayalı özellik seçimiyle en yüksek negatif kestirim değeri ortalamalarına sahiptir. Dengeli senaryoda ise SVM-doğrusal Genomiks ve RadyoGenomiks modelleri, özellik seçimi yapılmadan ve AUC tabanlı özellik seçimiyle en yüksek negatif kestirim değeri ortalamalarını göstermektedir.
Dengeli doğruluk oranı açısından dengesiz sınıf dağılımı senaryosunda ortalamalar 0,508 ile 0,607 arasında, dengeli sınıf dağılımı senaryosunda ise 0,522 ile 0,680 arasında değişmiştir. Dengesiz sınıf dağılımı senaryosunda ortalamalar, özellik seçimi olmaksızın 0,510 ile 0,591 arasında, AUC yaklaşımı kullanıldığında 0,511 ile 0,607 arasında ve RFE yaklaşımı kullanıldığında 0,508 ile 0,599 arasında değerler almıştır. Dengeli sınıf dağılımı senaryosunda ise özellik seçimi olmaksızın 0,522 ile 0,677 arasında, AUC yaklaşımı kullanıldığında 0,539 ile 0,680 arasında, RFE uygulandığında 0,527 ile 0,654 arasında gözlemlenmiştir. SVM-doğrusal RadyoGenomiks modelleri, hem dengesiz hem de dengeli sınıf dağılımı senaryolarında AUC tabanlı özellik seçimi kullanıldığında en yüksek dengeli doğruluk oranı ortalamalarına sahiptir. Elastic Net yöntemi, dengeli doğruluk oranı açısından SVM-doğrusal yöntemine yakın bir performans sergilemiştir.
F1 ölçüsü ortalamaları dengesiz senaryoda 0,776 ile 0,839 arasında değişirken dengeli senaryoda 0,536 ile 0,686 arasında değişmiştir. Dengesiz sınıf dağılımı senaryosunda, özellik seçimi yapılmadığında F1 ölçüsü ortalamaları 0,783 ile 0,839 arasında, AUC yaklaşımı kullanıldığında 0,776 ile 0,839 arasında, RFE kullanıldığında 0,780 ile 0,836 arasında değerler almıştır. Dengeli sınıf dağılımı senaryosunda ortalamalar özellik seçimi yapılmadığında 0,548 ile 0,686 arasında, AUC yaklaşımı kullanıldığında 0,551 ile 0,680 arasında, RFE kullanıldığında 0,536 ile 0,653 arasında değişmiştir. Her iki sınıf oranı senaryosunda da en yüksek F1 ölçüsü ortalamaları özellik seçimi yapılmayan SVM-doğrusal yönteminin Genomiks ve RadyoGenomiks modellerine aittir.
Matthews korelasyon katsayısı ortalamaları dengesiz senaryoda 0,046 ile 0,312 arasında değişirken dengeli senaryoda 0,053 ile 0,387 arasında değişim göstermiştir. Dengesiz senaryoda, özellik seçimi yapılmadığında Matthews korelasyon katsayısı ortalamaları 0,063-0,296 aralığında, AUC yaklaşımı kullanıldığında 0,070-0,312 aralığında ve RFE kullanıldığında 0,046-0,290 aralığında bulunmuştur. Dengeli senaryoda Matthews korelasyon katsayısı ortalamaları özellik seçimi yapılmadığında 0,053 ile 0,387 arasında, AUC yaklaşımı yapıldığında 0,095 ile 0,376 arasında ve RFE kullanıldığında 0,064 ile 0,329 arasında değişim göstermiştir. Dengesiz senaryoda, en yüksek üç ortalama değer AUC tabanlı özellik seçimi yaklaşımı altında elde edilmiştir. Bu modeller sırasıyla SVM-doğrusal Genomiks, SVM-doğrusal RadyoGenomiks ve Elastic Net RadyoGenomiks modelleridir. Dengeli senaryoda en yüksek ortalamalar SVM-doğrusal RadyoGenomiks ve özellik seçimi olmadan elde edilen Genomiks modellere aittir. En yüksek Matthews korelasyon katsayısı değerlerinin 0,40'a yakın olduğu göz önüne alındığında, bu ölçü açısından en iyi modellerin sınırlı performansa sahip olduğu düşünülmektedir.
Sonuçlara göre genetik verilerin mevcut görüntüleme verilerine dahil edilmesinin sınıflama performansını arttırdığı görülmüştür. Bununla birlikte, genetik verilerin hali hazırda var olması durumunda görüntüleme verilerinin eklenmesi karar vermeye destek olması açısından fayda sağlamamıştır. Bu durum görüntüleme yönteminin özelliklerinden, görüntü kalitesinden ya da hastalık alt türünün belirlenmesinde genetik veri kadar açıklayıcı olmamasından kaynaklanabilir. Dengesiz sınıf dağılımına sahip senaryolarda sınıflama yöntemleri çoğunluk sınıfı yönünde tahminlerde bulunduğu için bu senaryoların duyarlılık ve F1 ölçüsü ortalamaları dengeli sınıf dağılımına sahip senaryolara göre daha yüksek değerler almıştır. Dengeli sınıf dağılımına sahip senaryoların ise seçicilik ve dengeli doğruluk oranı ortalamaları dengesiz sınıf dağılımı senaryolarına göre daha yüksek değerler içeren bir aralıkta bulunmuştur. Bu çalışmada kullanılan özellik seçimi yaklaşımları (özellik seçimi yapılmadan, AUC tabanlı özellik seçimi ve RFE) sonuçlarda önemli farklılığa neden olmamıştır. Çeşitli senaryolarda SVM-doğrusal ve Elastic Net yöntemleri diğer algoritmalara kıyasla daha yüksek performans göstermiştir.
Gerçek veri setinde çok sayıda değişken olması nedeniyle veri üretim süreci uzun zaman almıştır. Çeşitli senaryolar dahil edilerek, önemli miktarda hesaplama kaynağı ve zaman gerektiren bir benzetim çalışması yürütülmüştür. Benzetim çalışmasının yüksek performanslı bulut tabanlı sanal bir makinede gerçekleştirilmesi sürecin süresini önemli ölçüde kısaltmıştır. Bu tezin kısıtlılıkları arasında tek bir gerçek veri setinin, az sayıda gözlemin, sınırlı özellik seçimi ve sınıflama yönteminin kullanılması gösterilebilir. Bu kısıtlılıklarla birlikte, bu çalışma RadyoGenomiks alanında farklı veri kaynaklarının ayrı ve birlikte kullanılmasının sınıflama performansı üzerindeki etkilerini değerlendiren ilk benzetim çalışmasıdır.
Alanyazında bulunan RadyoGenomiks çalışmaları çalışma tasarımı, değişken seçimi, sınıflama algoritmaları ve performans ölçülerinin seçiminde metodolojik farklılıklar içermektedir. Bu tezin amaçlarından biri RadyoGenomiks alanı ile ilgilenen araştırmacılara yardımcı olacak bir kılavuz oluşturmak ve bu alandaki bilgiye katkıda bulunmaktır. Bu doğrultuda kullanılan kodlar açık erişimli bir web sayfası aracılığıyla erişilebilir hale getirilmiştir. | tr_TR |