Kanser Hastalığı Teşhisinde Mikroarray Deneyi ve Veri Madenciliği Teknikleri Kullanımı AD SOYAD 2011-12-30 Özet Bu makalede biyolojik açıdan DNA,RNA,Protein ilişkisinden bahsedilmiş, fenotip ile genotip tanımları verilerek, farkları anlatılmıştır. Mikroarray kullanılarak , bir kanser araştırmasının nasıl yapılabileceğinden bahsedilmiş ve mikroarray deneyinin adımları sıralanmıştır. Mikroarray deneylerindeki ön işleme ve veri analizi adımları verildikten sonra veri analizi sırasında kullanılan, veri madenciliği genel tekniklerinden kısaca bahsedilmiştir. En son olarakta , kanser hastalığı teshişinde mikroarray ve veri madenciliği teknikleri kullanan makalelerden örnekler verilmiştir. 1 Giriş 1.1 DNA, RNA, Protein Sentezi, Genotip, Fenotip 1953 yılında Watson ve Crick ilk kez bir DNA modelini ortaya koyarak , yaşamın moleküler sırrını açıklamışlardır. Hücrede protein, lipid, karbonhidrat gibi makromoleküllerin yanında genetik bilginin taşındığı nükleik asitlerde vardır. Nükleik asitler RNA(ribonükleikasit) ve DNA(deoksiribonükleikasit) olarak ikiye ayrılır. RNA hücre içerisinde sitoplazmada, DNA ise hücre çekirdeğinde yoğun olmakla birlikte plastidlerde ve mitokondride az miktarda bulunur. [8] Kimyasal olarak DNA, nükleotit olarak adlandırılan basit birimlerden oluşan iki uzun polimerden oluşur. Bu polimerlerin omurgaları, ester bağları ile birbirine bağlanmış şeker ve fosfat gruplarından meydana gelir. Bu iki iplik birbirlerine ters yönde uzanırlar. Her bir şeker grubuna baz olarak adlandırılan dört tip molekülden (adenin, timin, guanin, sitozin) biri bağlıdır. 1 Bakınız figure 1 DNA’nın omurgası boyunca bu bazların oluşturduğu dizi, genetik bilgiyi kodlar. Protein sentezi sırasında bu bilgi, genetik kod aracılığıyla okununca proteinlerin amino asit dizisini belirler. Bu süreç sırasında DNA’daki bilgi, RNA’ya kopyalanır. Bu işleme transkripsiyon denir. Başka bir deyişle, transkripsiyon 1 http://tr.wikipedia.org/wiki/Deoksiribon%C3%BCkleik_asit 1 Figure 1: DNA RNA Mesajcı RNA (mRNA) Ribozomal RNA (rRNA) Taşıyıcı RNA (tRNA) Görevi DNA’daki bilgiyi protein sentez yeri olan ribozomlara taşır Ribozomun en önemli kısımlarını oluşturur Protein sentezinde kullanılmak üzere kullanılacak aminoasitlerin taşınmasında gereklidir Table 1: RNA Tipleri ve Görevleri DNA’dan RNA’ya genetik bilginin aktarımıdır. DNA’da bulunan genetik bilginin , bir mesajcı RNA aracılığıyla bir protein veya peptit dizisine çevirisinin ilk aşaması transkripsiyondur. RNA ,mesajcı RNA ,ribozomal RNA , taşıyıcı RNA olmak üzere üç tiptir. Bakınız Tablo 1 Ayrıca çeşitli RNA tipleri genlerin ne derece aktif olduğunu düzenlemeye yarar. 1.1.1 Fenotip genotip Eğer bir canlı türünün bireyleri arasında basit bir gözlem yaparsak , çok büyük bir çeşitlilik olduğunu açıkça görürüz. Örnek olarak insan bireylerinin göz rengi, boy uzunluğu, saç rengi ve deri rengi bakımından farklılıkları vardır. Ama bilindiği gibi tüm insanlar tek bir türdendir. Bir türe ait bu bireysel farklılıklar, kuşaklar arasında tekrarlanırken söz konusu tür kendi özellikleri ile kalmaktadır. Tür içi ve türler arası bireysel farklılıklar, türün kromozomlarını oluşturan DNA dizilerindeki farklılıkların sonucudur. Bir organizmanın gelişimini yapısını ve işlevlerini saptayan çoğu kez genlerdir. Öyleyse DNA da şifrelenmiş genetik bilgi, tür ve bireysel çeşitlilikten sorumludur. Her organizmanın sahip olduğu kalıtsal maddenin doğası ile bu madde tarafından ifade edilen fiziksel özelliği ayırdetmemiz gerekir. Bir bireyin bir nesilden diğerine aktarılan özelliklerine soyaçekimsel özellikler denir. Bugün biliyoruz ki bu özellikler gen denilen DNA 2 Figure 2: DNA, RNA, Protein bölgelerinin kontrolündedir. Bir organizmanıngenetik yapısına genotip, kalıtsal bir özelliğin fizik olarak görünümüne ise fenotip denir. Genler , özel fenotipik bir karakterin gelişmesi için gizli güçlerdir. Genin bu potansiyeli yalnız öteki genlerle ve onların ürünleri ile yaptığı etkileşimlerle değil, aynı zamanda çevresel faktörlerede bağlıdır. Örneğin bir kişinin boy uzunluğu birçok genle denetlenirken bunların ifadesi iç ve dış çevresel etmenlerle önemli derecede etkilenir. Bu etmenler arasında , dış çevresel etmenler olarak beslenme ile iç etmen olarak ise ergenlik çağındaki hormanlardan bahsedebiliriz. [3] Figure 3: Fenotip Bu konuda iyi bir başlangıç için bakınız [9]. 1.2 Mikroarray Deneyleri Mikroarray’ler başlangıçta gen tanımlarını mRNA miktarlarından yararlanarak ölçmekte kullanılmışlardır. Daha sonra Single Nucleotide Polymorphhisms (SNPs) genotiplemesinde kullanılmışlardır. Yakın zamanda ise hastalıklarla ilgili genlerde (tümör) yeniden düzenlemede kullanılmaktadırlar. Her ne kadar mikroarray’lerin daha başka kullanım alanlarıda olsa, klinik araştırmalarda en çok kullanılma alanları bunlardır. Mikroarray’ler ile ilgili daha fazla bilgi için bakınız [11, 5, 1] Mikroarray deneyindeki adımlar figure 4 üzerinde daha iyi bir şekilde görülebilir [5]. Buna göre 1. Biyolojik Soru 2. Deney Tasarımı 3 Özel Adım Metastas yapan tümör genleri farklı mıdır? Kanser hastalarından alınan tümörler Mikroarray ile genlerin çıkarılması Kümeleme ile farklı genler olup olmadığının araştırılması Çıkan sonuçlar üzerinden yorum yapılması Genel Adım Biyolojik Soru Deney Tasarımı Mikroarray deneyi Veri analizi Biyolojik doğrulama ve yorumlama Table 2: Mikroarray Deneyi Kanser Araştırması 3. Mikroarray deneyi 4. Veri analizi 5. Biyolojik doğrulama ve yorumlama yapılır. Veri analizi adımları sırasında,genellikle istatiksel algoritmalar, makine öğrenmesi ve veri madenciliği algoritmaları kullanılmaktadır. Mikroarray deneyini kanser araştırması için uygularsak tablo 2 adımları takip edebiliriz. Figure 4: Mikroarray Deneyi 1.3 Veri Analizi Mikroarray deneyi sonucunda figure 6’ya benzeyen bir resim elde edilir. Veri analizi yapılması için bu resmin ön işlemeden (pre processing) geçmesi gerekmektedir. 4 Genel olarak görüntü işleme, arka plan düzeltme, normalleştirme, özetleme gibi adımlar sonucunda; mikroarray resim verisi, üzerinde çalışılabilecek sayısal değerlere dönüştürülür. Elde edilen bu sayısal verinin üstünde yapılan çalışmada çeşitli matematiksel algoritmalar kullanılır. Yapılan bu işlemler genellikle 3 parçadan oluşur. 1. Sınıf Keşfetme - Demetleme (Class Discovery - Clustering - Unsupervised Learning) 2. Sınıf Kestirimi - Sınıflandırma (Class Prediction - Classification - Supervised Learning) 3. Sınıf Karşılaştırma - ( Class Comparison - Differential Expression ) Bunlardan ilk ikisi olan demetleme ve sınıflandırmada veri madenciliği teknikleri çokça kullanılır. Figure 5: Veri Analizi 1.3.1 Kümeleme - Clustering Demetleme işlemi veri setini benzerliklerine göre demetlere ayırma olarak kullanılır. Diğer bir deyişle verinin kendi içindeki karakteristiklerinden yararlanarak, veri içindeki benzerlikleri bulma ve benzer verileri demetler içinde gruplama işlemidir. Genel olarak, tüm verilere ait bilgileri saklamak yerine sadece demeti ifade eden özet bilgi saklanır. Bu özet bilgi: kütle merkezi , demetin çapı gibi bilgilerdir. Birbirine benzeyen verilerde daha iyi sonuç verir. Demetleme, gözetimsiz öğrenme (unsupervised learning) olarakta adlandırılmaktadır. [10] Demetleme işlemi bioinformatikte genel olarak birbirine benzeyen gen kümelerini bulmak için kullanılır. 5 1.3.2 Sınıflandırma Sınıflandırma , veri setinin özelliklerinin kullanılarak ayrık hedef değişkenlerinin tahmin edilmesi veya öngörülmesidir. Sınıflandırma, gözetimli öğrenme (supervised learning) olarakta adlandırılmaktadır. Bunun nedeni öğrenme kümesindeki sınıfların sayısının ve hangi nesnenin hangi sınıfa bağlı olduğunun biliniyor olmasıdır. [10] Kanser teshişinde daha önce eğitilmiş bir sınıflandırıcı kullanılabilir. Bu sınıflandırıcı eğitilirken, daha önceden verilmiş hasta genler ve belki diğer bazı özellikler (sigara içme, akrabalarda benzer hastalık olup olmaması) kullanılır. Buna göre bu sınıflandırıcı, hastalığın teshişine doktora yardımcı olması için: ”Bu hastada metastas olma ihtimalı azdır veya bu hastada metastas olma ihtimali yüksektir.” şeklinde sonuç verir. 2 İlgili Çalışmalar Bair and Tibshirani 88 hastadan alınan 2308 gen üzerinde çalışmıştır. Bu veri seti 63 eğitim seti ve 25 test seti olarak bölünmüştür. Gözetimli bir sınıflandırma algoritması olan, en yakın büzülmüş ağırlık merkezi algoritması (nearest shrunken centroid) kullanılmıştır. Bu algoritma ile aynı veri seti üzerinde, daha önce kullanılan istatiksel metodlar ve yapay sinir ağlarına göre daha başarılı sonuçlar elde etmişlerdir. MammaPrintTM Kanser araştırmaları konusunda en başarılı ürün örneklerinden biri olarak MammaPrint TM gösterilebilir. MammaPrint çalışmalarına , Amerika’da Meme kanseri olan kadınlarda yaptıkları araştırma ile başlamışlardır.[13, 12] Arkasından bu çalışmalarını bir tanı aracına çevirmişlerdir. [6] En son olarak Avrupa’da farklı hastalar üzerinde bu çalışma test edilmiştir. [4] Bu ürün kadınlarda Meme Kanserinin metestaz yapma olasılığı üstünde duran bir çalışmadır. Bulunan tümörün vücudun farklı bölgelerinde metestaz yapması olasıdır. Kemoterapi veya hormonal terapi ile bu metestaz olasılığının düşürüldüğü bilinmektedir. Ama genel olarak hastalara özel bir tedavi yoktur[13]. İlk çalışmada [13], asıl hastalağı meme kanseri olan 98 hastadan örnekler alınmıştır. Bunların 34 tanesi 5 yıl içinde uzak metastas göstermişken, 44 tanesi, 5 yıl boyunca hastalık emerasi göstermemiştir. 18 tanesi BRCA1 germline mutasyonuna sahipken , 2 tanesi BRCA2 taşıyıcısıdır. Bu tümörlerden 25000 gen çıkarılmıştır. Bu 25000 genden 5000 tanesi seçilmiştir. Seçim kriteri, ilgili genin en az beş tane hastada görülmesidir. En az beşten fazla tümörde gözlemlendiğinden dolayı, seçilen bu 5000 gen, istatiksel olarak önemli bulunmuştur. Bu 5000 gen gözetimsiz hiyerarşik demetleme algoritmasına sokulmuştur. 5000 tane geni taşıyıp taşımadıklarına göre farklı demetlere ayrılmışlardır. Bu işlem sonucunda, 98 tane tümör 2 farklı gruba (A demeti, 62 ve B demeti, 36 tümör olmak üzere) bölünmüştür. Bu gruplardan birinde metastaz daha fazla görülürken, diğerinde hastalık normal ilerleme göstermektedir. Bu bilgi kullanılarak 231 gen’in hastalık sonucu ile diğerlerine göre daha fazla ilgili olduğu bulunmuştur. 6 Bu 231 gen kullanılarak gözetimli bir sınıflandırıcı eğitilmiştir. Sınıflandırıcı algoritması olarak istatiksel test (pearson coefficient) kullanılmıştır. Bu sınıflandırıcı’yı onaylamak (validation) için, eğitici setinde olmayan , farklı 19 hasta seçilmiştir. Bu hastaların 7 tanesinde, 5 yıl boyunca metastaz görülmemiştir. Diğer 12 tanesinde ise metastaz görülmüştür. Sınıflandırıcı onay veri setinde, sadece 2 tane yanlış yapmıştır. Yani 19 hastadan 17 tanesi için doğru teshiş vermiştir. Daha sonra elde edilen sınıflandırıcı, 295 yeni hastada test edilmiştir. [12] Bu 295 hastadan 180 tanesinde , kötü tahmin ( metastaz ihtimali yüksek) , 115 tanesi iyi tahmin ( metastaz ihtimali düşük ) vermiştir. Bakınız figure 6 üzerinde 2 Metastaz ihtimali daha fazla olan hastaların, metastaz ihtimali daha az olanlara göre gen farklılıkları , seçici 231 gen için, görülebilmektedir. Diğer Çalışmalar Huang veri madenciliğinde önemli olan, anlaşılabilir sınıflandırma yöntemlerinden, kural çıkarmayı (rule induction) mikroarray verisi üzerinde denemiştir. Bir özellik seçme (feature selection) algoritması ile önemli genleri ayırdıktan sonra, genel kural çıkarma algoritması (generalized rule induction) ile daha anlaşılabilir kanser tanımlayıcı kuralları çıkarmıştır. 2 farklı lösemi veri seti üzerinde, önerdiği yöntemi denemiştir. Önerdiği yöntem, önemli genleri ve ilgili kuralları bulma açısında başarılı bir yöntem olarak görülmektedir. Yakın zamanda Wang and Simon ve Wang and Gotoh tarafından, yapılan bir araştırma; kanser sınıflandırması için binlerce gen kullanmak yerine, bunların arasından seçilen az sayıda gen ile sınıflandırma yapmayı önermişlerdir. Bu iki çalışma birbirinin devamı niteliğindedir. Uygun seçilmiş genler ile sınıflandırma yapmaktadırlar. Birinci çalışma [14] : 5 veri seti üstünde, bu fikrin denenmesidir. Rough set ve kural çıkarma yöntemi ile, diğer bir çok veri madenciliği yöntemini (Destek Vektör Makineleri ,Karar Agaçları . . . ) karşılaştırmışlardır. Diğer çalışmalarında [15], kullanılan veriseti sayısını artırmış ve kendilerine ait başka bir algoritma önermişlerdir. Bu çalışma [15] ; 11 kanser mikroarray veri seti üzerinde yapılmıştır. Kanser tahmini için tek gen ile çalışan algoritmaların da kullanılabileceğini göstermişlerdir. Bir çok veri setinde, çok kullanılan diğer algoritmalara benzer sonuçlar bulmuşlardır. Kendi algoritmaları ile , karşılaştırdıkları veri madenciliği metodları arasında • k-en yakın komşu - k-nearest neighbor • Destek Vektör Makineleri - Support Vector Machine • Karar Agaçları - Decision Tree • Rastgale Orman - Random Forest bulunmaktadır. 2 figure 6 van de Vijver et al. makalesinden alınmıştır. 7 Figure 6: Mikroarray Örnek 8 3 Sonuç Günümüzde kanser teşhisi konusunda mikroarray teknolojisinin kullanımı ve veri madenciliği teknikleri kullanımı hızla artmaktadır. Bu çalışmalar gün geçtikçe olgunlaşarak, doğruluk derecelerini ve hassasiyetlerini artırmaktadır. Bundan dolayı, gelecekte doktorların teshiş sırasında yararlanabilecekleri araçlar haline gelmeleri beklenmektedir. References [1] M.M. Babu. An introduction to microarray data analysis. Computational Genomics: Theory and Application, 2004. [2] Eric Bair and Robert Tibshirani. Machine learning methods applied to dna microarray data can improve the diagnosis of cancer. SIGKDD Explorations, 5(2):48–55, 2003. [3] Ali Nihat Bozcuk. Genetik. Palme Yayınları, 2000. [4] Marc Buyse, Sherene Loi, Laura van’t Veer, Giuseppe Viale, Mauro Delorenzi, Annuska M. Glas, Mahasti Saghatchian d’Assignies, Jonas Bergh, Rosette Lidereau, Paul Ellis, Adrian Harris, Jan Bogaerts, Patrick Therasse, Arno Floore, Mohamed Amakrane, Fanny Piette, Emiel Rutgers, Christos Sotiriou, Fatima Cardoso, Martine J. Piccart, and On behalf of the TRANSBIG Consortium. Validation and clinical utility of a 70-gene prognostic signature for women with node-negative breast cancer. Journal of the National Cancer Institute, 98(17):1183–1192, 2006. doi: 10.1093/jnci/djj329. URL http://jnci.oxfordjournals.org/content/ 98/17/1183.abstract. [5] Greg Gibson. Microarray analysis. PLoS Biol, 1(1):e15, 10 2003. doi: 10.1371/journal.pbio.0000015. URL http://dx.doi.org/10.1371% 2Fjournal.pbio.0000015. [6] A. Glas, A. Floore, L. Delahaye, A. Witteveen, R. Pover, N. Bakx, J. LahtiDomenici, T. Bruinsma, M. Warmoes, R. Bernards, et al. Converting a breast cancer microarray signature into a high-throughput diagnostic test. BMC genomics, 7(1):278, 2006. [7] Liang-Tsung Huang. An integrated method for cancer classification and rule extraction from microarray data. J Biomed Sci, 16:25, 2009. [8] İlhami Kiziroğlu. Genel Biyoloji. Desen Yayınları Ankara, 1998. [9] L. Kari, R. Kitto, and G. Gloor. A computer scientist’s guide to molecular biology. Soft Computing - A Fusion of Foundations, Methodologies and Applications, 5:95–101, 2001. ISSN 1432-7643. URL http://dx.doi.org/ 10.1007/s005000000076. 10.1007/s005000000076. [10] Suat Özdemir. Veri Madenciliği Ders Notları. Gazi Universitesi, 2011. [11] J. Quackenbush et al. Computational analysis of microarray data. Nature Reviews Genetics, 2(6):418–427, 2001. 9 [12] Marc J. van de Vijver, Yudong D. He, Laura J. van ’t Veer, Hongyue Dai, Augustinus A.M. Hart, Dorien W. Voskuil, George J. Schreiber, Johannes L. Peterse, Chris Roberts, Matthew J. Marton, Mark Parrish, Douwe Atsma, Anke Witteveen, Annuska Glas, Leonie Delahaye, Tony van der Velde, Harry Bartelink, Sjoerd Rodenhuis, Emiel T. Rutgers, Stephen H. Friend, and Rene Bernards. A gene-expression signature as a predictor of survival in breast cancer. New England Journal of Medicine, 347(25):1999–2009, 2002. [13] Laura J. van ’t Veer, Hongyue Dai, Marc J. van de Vijver, Yudong D. He, Augustinus A. M. Hart, Mao Mao, Hans L. Peterse, Karin van der Kooy, Matthew J. Marton, Anke T. Witteveen, George J. Schreiber, Ron M. Kerkhoven, Chris Roberts, Peter S. Linsley, Rene Bernards, and Stephen H. Friend. Gene expression profiling predicts clinical outcome of breast cancer. Nature, 415(6871):530–536, January 2002. ISSN 0028-0836. URL http: //dx.doi.org/10.1038/415530a. [14] X. Wang and O. Gotoh. Accurate molecular classification of cancer using simple rules. BMC medical genomics, 2(1):64, 2009. [15] X. Wang and R. Simon. Microarray-based cancer prediction using single genes. BMC bioinformatics, 12(1):391, 2011. 10