2.1. Veri Madenciliği Yöntemleri

advertisement
Tıpta Bir Veri Madenciliği Uygulaması: Türk Popülasyonunda Organ Nakilleri için
CPRA Hesaplama
Hüsnü ERTEN1, Nursal ARICI1, Nilnur EYERCİ2, Ahmet YEŞİLYURT3
Gazi Üniversitesi, Bilgisayar Mühendisliği Bölümü, Ankara
Kafkas Üniversitesi, Tıbbi Biyoloji ABD, Kars
Dışkapı Yıldırım Beyazıt Eğitim Araştırma Hastanesi Doku Tiplendirme ve Genetik Tanı Merkezi, Ankara
1
2
3
husnu.erten@gmail.com, nursal@gazi.edu.tr, helezon2003@gmail.com, dryesilyurt@hotmail.com
Özet: Araştırmada, Türk toplumundan elde edilen doku tipi bilgileri ile bu topluma ait allel ve haplotip frekansları
hesaplanmıştır. Haplotip frekans hesabı, Arlequin programının EM Algoritması ile çalıştırılmasıyla elde edilmiştir. Bulunan
frekans değerleri kullanılarak Türk toplumu için Calculated Panel Reactive Antibody (CPRA) değeri hesaplaması yapan bir
uygulama geliştirilmiştir. CPRA değeri organ nakli bekleyen bir hasta için, bulunduğu popülasyondaki uygun olmayan
donörlerin yüzdesini ifade eder. Ülkemizde ve tüm dünyada organ nakli yapılacak hastalar için uygun donör araştırılırken,
Panel Reactive Antibody (PRA) testlerinden faydalanılır. Allel ve haplotip frekansları toplumdan topluma farklılık
gösterdiğinden ve ülkemize özgü hazırlanmış bir PRA paneli bulunmadığından, ülkemizdeki PRA yüzdeleri tam olarak
gerçeği yansıtmamaktadır. Topluma özgü frekans değerleri ile yapılan CPRA hesaplaması ile yeni bir panele ihtiyaç
duyulmadan, daha gerçekçi değerler elde edilecektir. Bu uygulamanın daha önce ülkemiz için hazırlanan bir örneği
bulunmadığından organ nakli alanındaki bu açığı kapatabileceği düşünülmektedir. Ayrıca Türk toplumu için hesaplanmış olan
allel ve haplotip frekansları dikkate alınarak, Türk toplumu için daha uygun PRA tarama ve tanımlama test panelleri
geliştirilmesine imkân sağlayabilecektir.
Anahtar Sözcükler: Veri Madenciliği, EM Algoritması, Organ Nakli, CPRA, HLA, Haplotip Frekansı, Türk Popülasyonu
A Data Mining Application in Medicine: CPRA Calculation for Organ Transplantations in Turkish Population
Abstract: In this paper, allel and haplotype frequencies has been calculated by attaining tissue type information from Turkish
population. Haplotype frequency calculation has been attained by executing Arlequin programme with EM Algorithm. An
application which calculates Calculated Panel Reactive Antibody (CPRA) for Turkish population has been developed by using
attained frequency values. CPRA value refers to the percentage of unsuitable donors in this population for patients waiting
organ. In our country suitable donor for patients is determined by Panel Reactive Antibody (PRA). As allel and haplotype
frequencies are different for each population and there isn’t any prepared PRA panel which is peculiar to our country, the PRA
percents in our country don’t reflect the realitiy. By using CPRA calculation with peculiar frequency values for the population,
more realistic values will be attained without the need for a new panel. It has been thought that it will close the deficit in organ
transplantation as there hasn’t been any such application for our country. Furthermore, it will give the opportunity to develope
more appropriate PRA screening and defining test panels for Turkish population by taking the allel and haplotype frequencies
for Turkish population into consideration.
Keywords: Data Mining, EM Algorithm, Organ Transplantation, CPRA, HLA, Haplotype Frequency, Turkish Population
1.
Giriş
Araştırmanın amacı Human Leukocyte Antigen (HLA)
antikor pozitifliği olan bir organ nakli hastası için Türk
toplumundaki
muhtemel
uygun
donör
oranının
hesaplanmasını sağlayan uygulama geliştirmektir. Bu
uygulama ile doku tiplendirme laboratuvarından elde edilen
HLA doku tipi bilgileri kullanılarak HLA antikoru pozitif
hastalarda CPRA değeri hesaplanmaktadır.
Organ nakli bekleyen bir hastanın, insan lökosit antijenlerine
karşı, antikor oluşturup oluşturmadığı ve ne kadar
pozitifliğinin olduğu Panel Reaktif Antikor (PRA) yöntemi
ile belirlenmektedir. PRA, paneldeki donör hücrelerinin
pozitiflik yüzdesi olarak ifade edilir. Panel, kullanılan
yönteme bağlı olarak 20 ile 60 donör hücresinin test
edilmesiyle oluşmaktadır [1]. Şuan kullanılmakta olan
yöntemler ile ancak panel içerisindeki antijenlerin oranına
göre bir PRA pozitiflik değeri tespit edilebilmektedir. Bu
nedenle panel içerisindeki antijen oranlarının toplumun
antijen oranları ile uygun olmadığı durumlarda gerçekçi bir
PRA değeri elde edilememiş olur.
Günümüzde rutin çalışmalarda ülkemiz için özel olarak
hazırlanmış PRA paneli olmadığından, Türk toplumuna yakın
olduğu düşünülen Avrupa toplumu için hazırlanan paneller
kullanılmaktadır. Bu durumda hasta organ bekleme listesine
alındığında tam anlamıyla doğru PRA pozitifliği
yansıtmadığından bu durum donör seçiminde yanlış
yorumlara yol açmaktadır. Özellikle donöre spesifik
antikorların araştırılmasında kullanılan crossmatch testlerinin
yapılamadığı kalp nakli gibi kritik organ nakillerinde PRA
yüzde oranı çok daha önemli bir rol oynamaktadır.
Araştırmada, Türk toplumundaki allel ve haplotip frekansları
hesaplanmış ve bu frekans değerleri kullanılarak Calculated
PRA (CPRA) değeri hesaplaması yapan uygulama
geliştirilmiştir. Her geçen gün artan organ nakil sayıları göz
önünde bulundurulduğunda, bu uygulama sayesinde, organ
nakli bekleme listesindeki pozitif HLA antikoru bulunan
hastalar için popülasyondaki uygun donör oranı
belirlenebilecektir. Böylece hem klinisyenlerin hem de doku
tiplendirme laboratuvarlarının bu uygulamayı kullanarak
organ nakillerinde hastanın PRA yüzdesi hakkında daha
doğru ve daha kolay yorum yapabilecekleri düşünülmektedir.
Çalışmanın ikinci bölümünde araştırmada kullanılan veri
madenciliği yöntemleri tanıtılacak, üçüncü bölümünde
araştırmanın yapıldığı tıp alanı ile ilgili genel bilgiler
verilecek, dördüncü bölümde uygulama anlatılacak ve beşinci
bölümde ise sonuç ve öneriler tartışılacaktır.
2.
Veri Madenciliği
gerekmektedir. Hastane Bilgi sistemlerinden veya diğer tıbbi
veri toplayan sistemlerden alınan veriler üzerinde yapılan veri
madenciliği çalışmaları, hem uzmanlara hem hastane
yönetimine hem de hastaların daha kaliteli bir hizmet
almalarına yardımcı olmaktadır [6].
Ülkemizde de tıp alanında yapılan birçok veri madenciliği
çalışması vardır. Ancak alan çok geniş olduğundan sağlık
sektöründe yapılması gereken daha pek çok araştırmaya
ihtiyaç bulunmaktadır. Bu araştırmanın konusu olan CPRA
hakkında
da
Türkiye’de
yapılmış
bir
çalışma
bulunmamaktadır. Araştırmanın tıp alanındaki bu eksiği
gidererek
yeni
çalışmaların
da
önünü
açacağı
düşünülmektedir.
2.1. Veri Madenciliği Yöntemleri
Ham verinin bilgiye dönüşümünü sağlayan veri madenciliği
modelleri, tahmin edici (predictive) ve tanımlayıcı
(descriptive) modeller olarak iki ana başlık altında toplanır.
Günümüz teknolojisinin gelişmesine bağlı olarak, elektronik
ortamda depolanan veri miktarı da hızla artmaktadır. Ancak
depolanan verilerin hızla artması, veriler arasındaki ilişkilerin
pratik olarak analizini zorlaştırmaktadır. Bu zorluktan dolayı,
büyük miktardaki veriler arasından, gelecek ile ilgili tahmin
yapabilmeyi
sağlayabilecek
bağıntıların
bulunması,
analizlerin yapılması ve karar verme süreçlerinde
bilgisayarların kullanılması ihtiyacı ve fikri doğmuştur.
Bunun sonucunda, çeşitli matematiksel ve istatistiksel
hesaplamalara dayanan algoritmalar geliştirilmiş ve “Veri
Madenciliği” kavramı doğmuştur [2].
Veri Madenciliği, verilerin içerisindeki gizli kalmış
desenlerin,
ilişkilerin,
değişimlerin,
düzensizliklerin,
kuralların ve istatistiksel olarak önemli olan yapıların yarı
otomatik olarak keşfedilmesi işlemidir. Başka bir deyişle,
veri madenciliğinin amacı ham veriyi anlamlı, etkin ve yararlı
olan bilgiye dönüştürmektir [3].
Veri madenciliğini de içeren Veri Tabanlarında Bilgi Keşfi
Süreci, birbirini takip eden şu adımlardan oluşur: verilerin
temizlenmesi, bütünleştirilmesi, seçilmesi, dönüştürülmesi,
veri madenciliği tekniklerinin uygulanması, modelin
değerlendirilmesi ve ulaşılan bilginin sunumu [4].
Büyük miktarlarda verinin üretildiği hemen hemen her alanda
veri madenciliği yöntemleri ile bu verilerden yeni bilgiler
elde edilmeye çalışılmaktadır. Yine de genellemek gerekirse
veri madenciliği; pazarlama, finans, bankacılık, sigortacılık,
telekomünikasyon, endüstri, meteoroloji, uzay bilimleri,
kimya, biyoloji, ilaç sektörü, genetik ve tıp gibi alanlarında
kullanılmaktadır.
Sağlık sektörü bilginin içerik ve yapısal anlamda en hızlı
değiştiği alanlardandır [5]. Hastane bilgi sistemleri sayesinde
düzenli olarak tutulan veriler, her geçen gün hızla
artmaktadır. Bu nedenle, tıp alanındaki mevcut veriler
oldukça fazladır ve bu veriler hayati öneme sahiptir. Sağlık
hizmetlerinin en hızlı, en doğru, en yüksek kalitede ve
ihtiyaca cevap verecek şekilde sunulabilmesi için sağlık
çalışanlarının en doğru ve güncel bilgiye en hızlı şekilde
ulaşması ve bu bilgiyi doğru bir şekilde kullanabilmesi
Şekil 1. Veri madenciliği yöntemleri
Tahmin edici modeller sonuçları bilinen verilerden hareket
ederek bir model geliştirilmesi ve bu modelden
yararlanılarak, sonucu bilinmeyen veriler için sonuç
tahminini amaçlamaktadır [7]. Tahmin edici modeller
sınıflandırma ve regresyon yöntemleri olarak iki alt gruba
ayrılır.
Tanımlayıcı modellerin amacı, karar vermeye rehberlik
etmede kullanılabilecek mevcut verinin tanınması,
keşfedilmesi ve içerdiği örüntülerin tanımlanmasıdır.
Tanımlayıcı modeller, kümeleme ve birliktelik analizi olarak
iki alt bölüme ayrılır.
Araştırmada kümeleme yöntemlerinden model tabanlı bir
yöntem olan EM (Expectation Maximization) Algoritması
kullanılmıştır.
2.2. Beklenti Maksimizasyonu (Expectation
Maximization EM) Algoritması
EM (Expectation Maximization) Algoritması bir objenin
hangi kümeye ait olduğunu belirlemede kesin mesafe
ölçütlerini kullanmak yerine tahminsel ölçütleri kullanmayı
tercih eder. Karma olabilirlik yaklaşımı ile yapılan
kümelemede karma dağılım modelindeki parametreleri
tahmin etmek için genellikle EM algoritması kullanılır. EM
algoritması verinin tamamlanmamış veri olması durumunda
en çok olabilirlik kestirimi için genel bir istatistiksel
yöntemdir [8]. Bu nedenle EM algoritması son yıllarda birçok
araştırmada kullanılan popüler bir yaklaşım olmuştur.
Maksimum benzerlik prensibine dayanan Beklenti
Maksimizasyonu (BM) algoritması ilk olarak Dempster,
Laird ve Rubin tarafından 1977 yılında ortaya konulmuştur.
EM algoritması, tam olmayan veri problemlerini çözmek için
maksimum olasılık tahminlerini yapan tekrarlı bir
algoritmadır [9]. EM Algoritmasının her tekrarı iki adımda
gerçekleşir. Bu adımlar, bekleneni bulma (E-Adımı) ve
maksimizasyon (M-Adımı) olarak adlandırılır.


E-adımında gözlenen verilerin parametrelerine ait
kestirimler kullanılarak, bilinmeyen (kayıp) veri ile
ilgili en iyi olasılıklar tahmin edilir.
M-Adımında ise tahmin edilen kayıp veri yerine
konulup bütün veri üzerinden maksimum olabilirlik
hesaplanarak parametrelerin yeni kestirimleri elde
edilir [4].
Bu adımlar belirli bir epsilon kriteri sağlanana ya da
maksimum iterasyon sayısına ulaşılana kadar ardışık olarak
gerçekleştirilir.
Şekil 2 Gauss dağılımında iki küme örneği
EM algoritması, küme ortalamasına dayalı olarak en benzer
bulduğu bir nesneyi bu kümeye atamasından dolayı, k-means
algoritmasının bir uzantısı olarak görülebilir. Ancak EM
algoritması her bir nesnenin her bir kümeye olan üyeliğini bir
olasılık değerine göre belirler. Diğer bir değişle kümeler arası
kesin bir sınır yoktur. Bu nedenle, ağırlık ölçümüne dayalı
hesaplamalar yapılır.
EM algoritması karışım modeli parametrelerinin başlangıç
değerlerine tahmini değerler vererek başlar (topluca
parametre vektörü olarak da anılır).
Nesneler, parametre vektörü tarafından üretilen karışım
yoğunluğuna karşı yeniden skorlanır. Yeni skorlanan nesneler
daha sonra parametre tahminlerini güncellemek için
kullanılır. Her nesneye, nitelik değerleri belli olan bir kümeye
üye olarak verilecek bir olasılık atanır [4].
3.
Araştırmanın Yapıldığı Tıp Alanı ile İlgili Genel
Bilgiler
Son dönemdeki pek çok organ yetmezliğinin tek tedavi şekli,
transplantasyondur. Vücutta görevini yapamayacak kadar
hasta ve hatta bedene zararlı hale gelen bir organın yerine
canlı bir vericiden veya kadavradan alınan sağlam ve aynı
görevi üstlenecek bir organın nakledilmesi işlemine "Organ
Nakli"
veya
"Organ
Transplantasyonu"
denir.
Transplantasyon işlem zincirinin en önemli halkalarından
biri, transplantasyon immünolojisidir. Bu aşama organ alıcısı
ile vericisi arasında doku uyumunun olup olmadığının ortaya
konduğu en kritik aşamadır [10].
Transplantasyon işleminde karşılaşılan ilk engel alıcı ve
verici arasındaki yapısal (antijenik özelliklerindeki)
farklılıktır. Alıcı için yabancı olan vericinin yapısal
antijenleri alıcının bağışıklık sistemini uyararak immün
cevabı başlatır ve antijenlere karşı antikor üretilir. Bunun
sonucunda nakledilen organda istenmeyen hasarlar ortaya
çıkar. Bu tip reaksiyonların gelişmemesi ve azaltılması için
transplantasyon öncesi alıcı ve vericinin genetik benzerliği iyi
belirlenmeli, yorumlanmalı ve bu kriterler doğrultusunda en
uygun vericinin seçimi yapılmalıdır.
Transplantasyonda, ileri derecede polimorfik olan HLA
antijenleri nakledilen organın ve hastanın sağ kalmasında
önemli bir engel teşkil etmektedir. HLA’nın bu özelliği
nedeniyle alıcı ve verici arasında genetik benzerlik ihtimali
çok azdır. Genel olarak alıcı ve verici arasında uyumsuz
antijen (mismatch) sayısı arttıkça nakledilen organın yaşam
süresi azalmaktadır ve hasta daha yoğun immünsüpresif
tedaviye ve komplikasyonlarına maruz kalmaktadır, bu
nedenle donör ile alıcının HLA antijenlerinin belirlenmesi
büyük önem taşımaktadır [11].
HLA, İngilizce “Human Leukocyte Antigen” kelimelerinin
kısaltılmış halidir. Çok sayıda ve çeşitte HLA antijen çifti
bulunur (en çok bilinenleri A, B, C, DR, DQ ve DP'dir).
Anne-babadan bu antijenlerin her birinden birer tane alınır
(ve çocuklara her çiftten birer tanesini kalıtsal olarak
aktarılır).
HLA’ları kodlayan gen bölgesi insanda 6. kromozom
üzerinde bulunur. İnsan genomundaki en polimorfik gen
bölgesidir. Moleküler testler doku tipi antijenlerini kodlayan
bu genlerin belirlenmesini sağlar.
Gen frekansının nasıl hesaplandığını bir örnek ile verelim:
Eşbaskın M ve N kan grubu için bir popülasyonda
Genotip
MM
MN
NN
Sayı
16
18
20
sayıları elde edilmiş olsun. M ve N geninin frekansları:
F(M)= (2*16+1*18) / (2*54) = 0,463
F(N)= (2*20+1*18) / (2*54) = 0,537
Şekil 3 HLA kompleksinin insanın 6. kromozomunun kısa kolu
üzerinde yeri ve kompleks içindeki genlerin pozisyonları [11]
F(M) + F(N) = 0,463 + 0,537 = 1
olarak bulunur.
Her insan, 6 tane sınıf I MHC alleli (her ebeveynden birer
HLA-A, B ve C alleli) ve en az 6 tane de sınıf II MHC alleli
(her ebeveynden birer HLA-DR, DQ ve DP alleli) ve bunların
bazı kombinasyonlarını taşır. MHC genleri yüksek derecede
polimorfiktir [10]. Bu nedenle, tek yumurta ikizleri hariç, her
birey diğer bireyin immün sistemine yabancı olabilecek bazı
MHC proteinlerini eksprese eder. MHC moleküllerinin tümü
red hedefi olabilir. Ancak, HLA-DP sınırlı polimorfizme
sahiptir ve muhtemelen daha az düzeyde önem taşır [12].
Anti-HLA antikorları kişinin, yabancı HLA antijenlerine
immün yanıt olarak gelişebilmektedir. Sınıf I anti-HLA
antikorları HLA-A,B,C’ye karşı, Sınıf II antikorları ise HLADR,DP ve DQ’ya karşı gelişen antikorlardır. Anti-HLA
antikorlarının oluşumu kişiye göre değişebilir. Anti-HLA
antikorları
kan
transfüzyonu,
gebelik
ve
organ
transplantasyonu gibi nedenler ile oluşabilir [11, 1].
3.1. Popülasyon Genetiği
Popülasyon genetiği, popülasyonun genetik özelliklerini ve
bu özellikleri belirleyen etmenleri inceleyen bilim dalıdır
[13]. Popülasyon genetiğinin temelleri Sewall Wright, J.B.S.
Haldane ve Ronald Fisher tarafından atılmıştır [14].
Popülasyon genetiği, toplumlarda genlerin dağılımını ve bu
gen frekanslarının nasıl korunduğu ya da değiştiğini inceler.
Örneğin, A Rh(+) kan grubuna sahip bir kişiye kan ihtiyacı
olduğunda toplumun yüzde kaçının kan verebileceği sorusu
popülasyon genetiğinin ilgi alanına girer.
Popülasyon genetiği araştırmalarını şu dört temel evrimsel
mekanizmayı esas alarak yapar: doğal seçilim, genetik
sürüklenme, mutasyon ve gen akışı [13].
Gen
frekanslarının
hesaplanmasında
gen
havuzu
kavramından yararlanılır. Gen havuzu, her bireyin iki genle
(gametle) katkıda bulunduğu genler topluluğunu ifade eder.
Bu durumda homozigot birey gen havuzunda aynı çeşit iki
genle heterozigot birey ise farklı çeşit iki genle katkıda
bulunur.
3.2. Hardy - Weinberg Kuralı
Gen frekansı ilk defa 1908 yılında İngiliz matematikçi G.
Hardy ve Alman Doktor W. Weinberg’in birbirinden
bağımsız olarak yaptıkları çalışmalar sonucunda ortaya
konmuştur. Hardy-Weinberg analizleri sonucunda Mendel’in
3:1 monohbrit oranın aksine, kararlı bir popülasyonda baskın
ve çekinik allellerin frekansının (bir önceki nesillerdeki
değerler nasıl olursa olsun) değişmeden kalacağını, şimdiki
ve gelecek gen frekanslarının geçmiş frekanslarla aynı
olacağını buldular.
Hardy-Weinberg kuralına göre popülasyondaki baskın ve
çekinik genlerin frekans toplamları 1’e eşittir. Bir karakter
geninin baskın A ve çekinik a allelleri olduğu varsayılırsa ve
A gen frekansı p, a gen frekansı da q ise p+q =1 olmalıdır.
Hardy-Weinberg kuralına göre dengedeki bir popülasyonda
genotip dağılımı da şu şekilde olmalıdır. AA homozigot
baskın genotipi, aa homozigot çekinik genotipi ve Aa
hetorozigot genotipini göstermek üzere (p+q)2
= 12
binomiyal açılımından:
p2 + 2pq + q2 = 1 olduğu gibi f(AA) + f(Aa+Aa) + f(aa) = 1
olur.
Hardy-Weinberg denklemi kararlı (kapalı) bir popülasyonda
geçerlidir. Böyle bir popülasyon çok ideal ya da tümüyle
teoriktir. Dengenin geçerli olması için gerekli koşullar:
-
Eğer eşlemeler rastgele ise,
Allel frekansları erkek ve dişilerde aynı ise,
Yaşayabilirlik ve üretkenlik eşitse, yani seleksiyon
yoksa,
Mutasyon yoksa,
Göç olmuyorsa,
Popülasyon yeteri kadar büyük, bu nedenle gen
frekansı kuşaktan kuşağa şans eseri değişmiyorsa
Denklemdeki gen frekansı ve dolayısıyla denklem sabit kalır.
3.3. Haplotip Frekansı
HLA Haplotipi: 6. kromozom üzerinde bulunan, birbirine
yakın lokuslardaki allel kompleksleridir. Anne ya da
babadan kalıtılırlar [15]. Tek bir ebeveynden geçtiği için tek
kromozom üzerinde bulunan majör doku uyumluluk
kompleks (MHC) yani HLA allellerinin tümüdür.
Haplotip frekansı birçok yöntemle hesaplanabilir. En doğru
yöntem gen dizilimine bakılarak yapılan yöntemdir. Ancak
bu yöntem ekstra ekipmanlar gerektirir ve yüksek
maliyetlidir. Haplotip frekansı, bütün genotiplerin eşit
şekilde üretken olduğu aile datalarından da hesaplanabilir
fakat bu yöntem de ihtiyaç duyulan data miktarını en az %
50 oranında artırır. Haplotip frekansı popülasyon datasından
da tahmin edilebilir. Bunun için en sık kullanılan iki yöntem
maksimum olasılık tahmini (maximum likelihood
estimation) ve karekök metodu (square root method)dur [16].
Popülasyon datasından yapılan frekans hesabı sadece
tahmindir, kesin olarak doğru olduğu söylenemez. Ancak en
iyi olabilirlik tahminidir. Çünkü HLA verilerinin dizilimi
bilinmemektedir. Eldeki verilerden yola çıkarak HLA
dizilimi hakkında bir çıkarım yapılır.
Çalışmada bu yöntemlerden maksimum olasılık tahmini
(maximum likelihood estimation) kullanılacaktır. Çünkü
maksimum olasılık tahmini literatürde en doğru tahmin
sağlayan yöntem olarak kullanılmaktadır. Maksimum
olasılık tahmini tercih edildiğinde analitik çözüm, genetik
algoritmalar ve EM algoritması mümkün metotlar olarak
karşımıza çıkmaktadır. Burada da EM algoritması tercih
edilecektir.
4.
Uygulama
Araştırmada kimlik bilgilerinden arındırılmış olarak temin
edilen HLA doku tipi bilgileri kullanılmıştır. Gen frekansının
daha doğru olarak hesaplanabilmesi için birbirleri ile
akrabalık ilişkisi bulunmayan sağlıklı kişiler araştırmaya
dâhil edilmiştir. Araştırmada sekansa spesifik oligonukleotid
yöntemi ile belirlenen HLA-A, B, C, DQ, DR doku tipi
bilgileri 4 basamak olarak alınmış ancak verilerin %50’ye
yakınının 3.ve 4. basamak bilgileri tanımlanmadığından 2
basamak tiplendirme değerleri kullanılmıştır.
Allel frekansı hesaplanması ve haplotip frekans tahmininde
literatürde de kullanılan Arlequin 3.5.1.3 uygulamasının
script olarak çalıştırılabilen arlecore versiyonu kullanılmıştır.
Ön işlemlerden geçirilen veriler 2’li, 3’lü, 4’lü ve 5’li
haplotip kombinasyonlarda arlequin proje dosya formatına
dönüştürülmüştür. Arlecore programının hangi yöntemi,
hangi parametrelerle kullanacağının belirtildiği ayar dosyası,
EM algoritması kullanılması için başlangıç durumu 50,
epsilon 1*10-5 ve maksimum iterasyon 1000 değeri ile
konfigüre edilmiştir. Oluşturulan proje dosyalarının her biri
ve ayar dosyası ile birlikte, arlecore programına parametre
olarak gönderilerek çalıştırılmıştır. Oluşturulan haplotip
kombinasyonlarının frekans tahminleri bulunmuştur. Son
olarak 5’li haplotip proje dosyası, ayar dosyası allel
frekansını da hesaplaması için değiştirilmiş ve allel
frekansları da hesaplatılmıştır. CPRA hesaplamasında
kullanılmak üzere, elde edilen haplotip frekansları tek
dosyada birleştirilmiştir.
Tablo 1 ve 2’de her lokus için en yüksek frekans değerine
sahip 10 allel ve frekansları verilmiştir.
3.4. Panel Reaktif Antikorlar (PRA)
Panel reaktif antikorlar (PRA) olarak ifade edilen yaklaşım,
hastada HLA antijenlerine özgü antikorların olup olmadığını
saptamak için yapılır [17]. Kan transfüzyonu yapılan, daha
önce organ nakli olmuş ve gebe kişiler HLA antikorları
açısından kontrol edilmelidirler. Antikor varsa antikorun tipi
ve hangi HLA antijenine karşı olduğu bilinmelidir. Organ
nakline aday hastaların serumunda HLA antijenlerine karşı
antikor varlığının tespiti için tarama ve tanımlama testleri
yapılır. % PRA, hasta serumunda test edilen HLA
antijenlerine karşı ne kadar anti-HLA antikoru pozitifliği
bulunduğunu gösterir. [11].
PRA bir hastanın doku veya organ nakli olamayacağı HLA
antijenlerini belirler. Bu nedenle hasta seçiminde HLA doku
tipleri uyumundan sonra ikinci sırada PRA gelir. PRA oranı
yüksek hasta cross-match negatif bir organ bulunduğunda,
PRA düşük ve uyumlu bir hastadan daha öncelikli bir hal alır.
Bunun nedeni PRA pozitifliği olan hastanın tekrar crossmatch negatif bir organ bulma şansının düşük olmasıdır.
PRA’nın bir diğer önemi de hastayı muhtemel bir organ
naklinde sanal cross-match imkanı tanıyarak nakil için hazır
tutmasıdır [1].
Tablo 1. HLA-A, B, C Allel Frekansları
HLA-A
S.NO
HLA-B
HLA-C
Tür
Frekans
Tür
Frekans
Tür
Frekans
1
HLA-A*02
0,228261
HLA-B*35
0,192935
HLA-C*04
0,203804
2
HLA-A*24
0,152174
HLA-B*51
0,149457
HLA-C*12
0,173913
3
HLA-A*01
0,119565
HLA-B*44
0,07337
HLA-C*07
0,13587
4
HLA-A*03
0,108696
HLA-B*38
0,0625
HLA-C*06
0,084239
5
HLA-A*11
0,078804
HLA-B*18
0,048913
HLA-C*15
0,081522
6
HLA-A*26
0,070652
HLA-B*52
0,048913
HLA-C*16
0,070652
7
HLA-A*32
0,057065
HLA-B*07
0,035326
HLA-C*03
0,054348
8
HLA-A*68
0,040761
HLA-B*50
0,035326
HLA-C*14
0,048913
9
HLA-A*23
0,038043
HLA-B*49
0,032609
HLA-C*01
0,040761
10
HLA-A*30
0,038043
HLA-B*55
0,032609
HLA-C*02
0,038043
Tablo 2. HLA-DQ, DR Allel Frekansları
HLA-DQ
S.NO
HLA-DR
Tür
Frekans
Tür
Frekans
1
HLA-DQ*03
0,434783
HLA-DR*04
0,206522
2
HLA-DQ*05
0,203804
HLA-DR*11
0,195652
3
HLA-DQ*06
0,192935
HLA-DR*15
0,11413
4
HLA-DQ*02
0,13587
HLA-DR*13
0,100543
5
HLA-DQ*04
0,029891
HLA-DR*07
0,07337
6
HLA-DQ*13
0,002717
HLA-DR*03
0,070652
7
HLA-DR*01
0,059783
8
HLA-DR*14
0,048913
9
HLA-DR*10
0,043478
10
HLA-DR*16
0,040761
Tablo 3’te HLA-A, B, C, DQ, DR için en yüksek frekans
değerine sahip 10 adet 5 lokus haplotip frekansı verilmiştir.
∑pi ilgilenilen kabul edilemeyecek allellerin gen frekans
toplamını ifade etmektedir. Haplotipin gen dizilimine
bakılarak belirlenmesi zor ve maliyetli olduğundan, haplotip
tahmin yöntemleri ile elde edilen veriler kullanılarak da bu
olasılık hesaplanabilir.
Akraba olmayan sağlıklı kişilerin 5 lokusa ait HLA verileri
kullanılarak yapılan HLA allel ve haplotip frekans değerleri
ile hastanın serumunda bulunan HLA-A, -B, -C, -DQ ve -DR
antikorları için;
S1: 1 lokus haplotip frekans toplamı (A, B, C, DQ, DR)
S2: 2 lokus haplotip frekans toplamı (AB, AC, ADQ, ADR,
BC, BDQ, BDR, CDQ, CDR, DQDR)
Tablo 3. Beş Lokus Haplotip Frekansları
5 LOKUS HAPLOTİP FREKANSLARI
S.NO Frekans
PRA yöntemi, antikorların paneldeki antijenlerle eşleşmesi
prensibine dayandığından eğer hastanın HLA antikor türleri
bilinirse toplumun allel frekansları kullanılarak PRA değeri
teorik olarak hesaplanabilir. Hastanın antikorlarından dolayı
organ kabul edemeyeceği antijenler ilgi alanına alınarak,
kabul edilemeyecek antijen allellerin frekansı 1- (1-p)2 ile
hesaplanabilir. Kişinin taşıyacağı birden çok antikor
olacağından birden fazla antijen alleli için CPRA = 1- (1∑pi)2 formülüyle hesaplanır [18].
HLA-A
HLA-B
HLA-C
HLA-DQ
HLA-DR
1
0,027174
HLA-A*24
HLA-B*35
HLA-C*04
HLA-DQ*03
HLA-DR*11
2
0,024457
HLA-A*02
HLA-B*35
HLA-C*04
HLA-DQ*03
HLA-DR*04
3
0,019022
HLA-A*24
HLA-B*18
HLA-C*12
HLA-DQ*03
HLA-DR*11
4
0,013587
HLA-A*01
HLA-B*35
HLA-C*04
HLA-DQ*06
HLA-DR*13
5
0,013587
HLA-A*01
HLA-B*52
HLA-C*12
HLA-DQ*06
HLA-DR*15
6
0,013587
HLA-A*02
HLA-B*38
HLA-C*12
HLA-DQ*06
HLA-DR*13
7
0,01087
HLA-A*02
HLA-B*50
HLA-C*06
HLA-DQ*02
HLA-DR*07
8
0,01087
HLA-A*02
HLA-B*51
HLA-C*16
HLA-DQ*03
HLA-DR*11
9
0,01087
HLA-A*03
HLA-B*44
HLA-C*16
HLA-DQ*03
HLA-DR*04
10
0,01087
HLA-A*11
HLA-B*51
HLA-C*15
HLA-DQ*03
HLA-DR*11
4.1. CPRA’nın Hesaplanması:
CPRA hesabı popülasyon genetiğinde Hardy-Weinberg kuralı
olarak bilinen formül kullanılarak yapılmaktadır. Zachary,
frekans tahmini yaparken tüm allelleri, ilgilendiği alleller
(A+) ve diğerleri (A-) olarak iki duruma indirgemiştir.
İlgilendiği allellin frekansı p ve diğerlerinin toplam frekansı
(1-p) olmak üzere fenotip frekansı:
Fenotip
A+
A-
Frekans
p2+2p(1-p)
(1-p)2
olarak gösterilir. F(A+) = p2+2p(1-p) ya da F(A+) = 1- (1p)2 şeklinde yazılabilir [16].
S3: 3 lokus haplotip frekans toplamı (ABC, ABDQ, ABDR,
ACDQ, ACDR, ADQDR, BCDQ, BCDR, BDQDR,
CDQDR)
S4: 4 lokus haplotip frekans toplamı (ABCDQ, ABCDR,
ABDQDR, ACDQDR, BCDQDR)
S5: 5 lokus haplotip frekans toplamı (ABCDQDR)
olmak üzere CPRA = 1- (1 – (S1 - S2 + S3 - S4 + S5))2
formüllü ile bulunur [18].
CPRA hesaplama uygulamasında, kullanıcı tarafından seçilen
kabul edilemez antijenler ile oluşabilecek tüm haplotip
kombinasyonları
bulunup
frekans
tablosundan
bu
haplotiplerin frekans değerleri ile S1, S2, S3, S4, S5
toplamlarının formülde yerine konulmasıyla CPRA değeri
hesaplanmıştır. CPRA değeri toplumun % kaçının hasta için
uygun donör olmadığını ifade eder. O hasta için, CPRA
değerini 1’den çıkartarak, toplumdaki uygun donör oranı
bulunmuş olur.
[3] Akgöbek, Ö., Çakır, F., “Veri Madenciliğinde Bir Uzman
Sistem Tasarımı,” XI. Akademik Bilişim Konferansı,
Şanlıurfa, (2008).
[4] Han, J., Kamber, M., Data Mining Concepts and
Techniques (Second Edition), Morgan Kaufmann
Publisher, USA, pp. 2-7, 70-71, 398-401, (2006).
[5] Koyuncugil, A. S., Özgülbaş, N., “Veri Madenciliği: Tıp
ve Sağlık Hizmetlerinde Kullanımı ve Uygulamaları”.
Bilişim Teknolojileri Dergisi, 2 (2): 21-32, (2009).
[6] Kaya, E., Bulun, M., Arslan, A. “Tıpta Veri Ambarları
Oluşturma ve Veri Madenciliği Uygulamaları”, Akademik
Bilişim 2003, Adana, (2003).
[7] Seven, M. F., “Veri tabanlarından Bilgi Keşfi: Veri
Madenciliği ve Bir Sağlık Uygulaması,” Yayımlanmamış
Yüksek Lisans Tezi, İstanbul Üniversitesi, İstanbul, (2009).
Şekil 4. CPRA Hesaplama Uygulaması
Şekil 4’te CPRA hesaplama uygulamasının ekran görüntüsü
verilmiştir.
5.
Sonuç ve Öneriler
Uygulamaya 350 sağlıklı bireyle başlanmış ancak birbiri ile
akrabalık ilişkisi olan kişiler çalışmadan çıkarılmıştır. Yine
veriler arasında 13 yabancı uyruklu bireye rastlanmış olup bu
kişiler de çalışma dışı bırakılmıştır. Sonuçta 184 sağlıklı
bireyin 5 lokusa ait verileri kullanılmıştır. Kullanılan verilerin
populasyonun tümünü değerlendirmek açısından yeterli
olmaması
nedeniyle
bazı
haplotip
örneklerine
ulaşılamamıştır. Veri havuzunun büyütülmesi ile bu durumun
önüne geçilebilecektir.
Kullanılan veriler Ankara ilindeki doku tiplendirme ruhsatı
olan bir sağlık merkezinden elde edilmiştir. Farklı
merkezlerden elde edilecek veriler ile tüm Türkiye için
yapılacak genelleme daha doğru olacaktır. Doku tiplendirme
verileri kemik iliği bankaları gibi yüksek oranda doku
tiplendirme yapan kuruluşların verileri ile birleştirildiğinde
organ nakli yapılacak hastalara uygun donör seçiminin
sağlanmasında, araştırılan popülasyon hakkında daha doğru
tahminler yapılabilecektir. Ayrıca Türk toplumu için
hesaplanmış olan allel ve haplotip frekansları dikkate alınarak
daha sonraki çalışmalarda Türk toplumu için daha uygun
tarama ve tanımlama test panelleri geliştirilmesine imkân
sağlayacaktır.
6.
Kaynaklar
[1] Eyerci, N. “Anti-Hla Antikorlarının Tespitinde Multipar
Gebelerden
Alınan
Serumların
Kullanılması,”
Yayımlanmamış Yüksek Lisans Tezi, Atatürk Üniversitesi,
Erzurum, (2005).
[2] Can, M. B., Eren, Ç., Koru, M., Özkan, Ö., Rzayeva, Z.,
“Veri Kümelerinden Bilgi Keşfi: Veri Madenciliği”, Başkent
Üniversitesi Tıp Fakültesi XIV. Öğrenci Sempozyumu,
Ankara, (2012).
[8] Servi, T., “Çok Değişkenli Karma Dağılım Modeline
Dayalı Kümeleme Analizi,” Yayımlanmamış Doktora Tezi,
Çukurova Üniversitesi, Adana, (2009).
[9] Sezgin, E., Çelik, Y., “Veri Madenciliğinde Kayıp
Veriler için Kullanılan Yöntemlerin Karşılaştırılması,”
Akademik Bilişim Konferansı, Antalya, (2013).
[10] Male, D., Brostoff, J., Roth, D. B., Roitt, I., İmir, T.,
İmmünoloji, Palme Yayıncılık, Ankara, (2008).
[11]
Aşkın, S., “Böbrek Nakli Bekleme Listesindeki
Hastalarda Lenfositotoksisite Yöntemi ile Anti-HLA Antikor
Tanımlanması” Yayımlanmamış Yüksek Lisans Tezi,
Atatürk Üniversitesi, Erzurum, (2010).
[12] Abbas, A.K., Lichtman, A.H., (Edit: Camcıoğlu, Y.,
Deniz, G.), Temel İmmünoloji, İstanbul Medikal
Yayıncılık, İstanbul (2007).
[13] Hallibuton, R. Introduction to Population Genetics,
Pearson Education International, USA (2004).
[14] Ewens, W. J., Mathematical Population Genetics,
Springer, Philadelphia (2000).
[15] Excoffier, L., Slatkin, M., “Maximum-Likelihood
Estimation of Molecular Haplotype Frequencies in a Diploid
Population”, Molecular Biology and Evolution, 12: 921–
927, (1995).
[16] Zachary, A. A., Steinberg, A. G., “Statistical Analysis
and Applications of HLA Population Data,” Manual of
Clinical Laboratory Immunology, ASM Press, Washington,
DC, pp. 1132-1140, (1997).
[17] Kılıçaslan Ayna, T., Şentürk Çiftçi, H., Gürtekin, M.,
“Tek Antijen Boncuk Çalışması ile Donöre Özgü
Antikorların Saptanması”, Türkiye Klinikleri Journal of
Nephrology, 6 (1): 17-21, (2011).
[18]İnternet:http://transplantpro.org/wpcontent/uploads/CPRA_frequencies.pdf.
01.12.2014].
[Erişim
Tarihi:
Download