Yeni arama için tıklayınız.
 

Tez

Ahmet Kocatürk

İkili Kümeleme Algoritmalarının Görsel Ve Sayısal Açıdan Karşılaştırılması

Vısual And Numerıcal Comparıson Of Bıclusterıng Algorıthms

Türkçe

Yüksek Lisans

Gazi Üniversitesi

Fen Bilimleri Enstitüsü İstatistik Anabilim Dalı

Doç. Dr. Bülent ALTUNKAYNAK

2018

İkili kümeleme, Gen açıklama verisi, Değerlendirme ölçüleri

 

Gen açıklama verilerinde benzer ifade yapılarına göre gen gruplarını belirlemek oldukça önemlidir. Bu veriler için yapılacak kümeleme analizlerinde son zamanlarda popüler olan ikili kümeleme yöntemleri kullanılmaktadır. İkili kümeleme yöntemlerinde farklı gen açıklama veri yapıları için çok sayıda algoritma önerilmiştir. Araştırmanın amacına göre elde edilecek ikili kümelerin etkinliğini ölçmek için bu algoritmaların performanslarına bakılması gerekir. Bu çalışmada en yaygın olarak kullanılan CC, Bimax, Plaid, Spectral, Quest ve Xmotif algoritmalarının performansları görsel ve sayısal olarak karşılaştırılmıştır. Bu algoritmaların görsel karşılaştırmasında ikili kümelerin ısı grafiklerine bakılmıştır. Sayısal karşılaştırılmasında ise varyans ölçüsü (VAR), ortalama karesel artık skoru (MSR), uygunluk indeksi (UI), ölçeklenen ortalama karesel artık skoru (SMSR), Chia ve Karuturi ikili küme skoru (CKSB), ortalama korelasyon ölçüsü (ACV), alt matris korelasyon ölçüsü (SCS), ortalama Spearman korelasyon değeri (ASR), Spearman ikili küme ölçüsü (SBM) ve sanal hata (VE) ikili küme değerlendirme ölçüleri hesaplanmıştır. Değerlendirme ölçüleri hesaplaması R fonksiyonları ile oluşturulmuş ve analizler bu kodlara uygulanarak gerçekleşmiştir. Farklı veri yapılarında karşılaştırma yapmak için yapay ve gerçek veriler kullanılmıştır. Yapay veri seti uygulamasında dört farklı senaryo ile ikili kümeler oluşturulmuştur. Bunlar ikili kümeler arasında örtüşme ve aykırı değerlerin olup olmadığı durumlardır. Gerçek veri seti uygulamasında ise maya verisi, lenf hücrelerinin gen ifadesini içeren insan verisi ve protein-protein etkileşim skorlarını içeren fare verisi kullanılmıştır. Yapılan analizler sonucunda hangi algoritmanın hangi veri setinde daha anlamlı ikili kümeler elde ettiği belirlenmiştir.

 

It is very important to identify gene groups according to similar expressions in gene expression data. Biclustering methods, which are popular recently, are used in the clustering analysis for this data. Numerous algorithms have been proposed for different gene expression data structures in biclustering methods. The performance of these algorithms needs to be examined in order to measure the effectiveness of the biclusters obtained for the purpose of the study. In this study, the performances of the most commonly used CC, Bimax, Plaid, Spectral, Quest and Xmotif algorithms are visually and numerically compared. In the visual comparison of these algorithms, the heatmaps of biclusters are looked at. In numerical comparison, variance measure (VAR), mean squared residual score (MSR), fitness index (UI), scaled mean squared residual score (SMSR), Chia and Karuturi bicluster score (CKSB), average correlation measure (SPS), Spearman correlation coefficient (ASR), Spearman bicluster measure (SBM), and virtual error (VE) bicluster evaluation measures were calculated. Calculation of evaluation measures was made with R functions and analyzes were applied to these codes. Artificial and real data are used to compare different data structures. In the application of artificial data set, biclusters were formed with four different scenarios. These are cases where there is overlap between the biclusters and whether there are outliers. In the real data set, yeast, human data containing the gene expression of lymphoma cells and mouse data containing proteinprotein interaction scores were used. As a result of the analysis, it was determined which algorithm obtained more meaningful biclusters in which data set.