Uygulama

advertisement
Uygulama 2
Đnsan Genomu
Her hücremiz aynı genetik bilgiyi (informasyonu) içermektedir. Ancak, deri hücreleri
böbrek, ciğer, kan, beyin hücrelerinden farklıdır. Bu farklılıklar genlerin farklı hücrelerde
farklı farklı ifade edilmelerinden kaynaklanmaktadır. Gen ifadesi; DNA’daki mesajın
RNA’ya kopyalanması ve RNA’daki nükleotid dizisinden amino asit dizisine geçiştir
(transkripsiyon ve translasyon, transcription and translation) denebilir. DNA’nın bir ipliğinde
bulunan gen ile ilgili transkripsiyon olayının başlaması için burulup, kıvrılarak (coiling)
paketlenmiş olan uzun DNA molekülünün bir parçasındaki kıvrılmalar bozulup (uncoiling),
çift sarmal kısmen açılmaktadır. Böylece, geni içeren DNA parçası kendini ortaya
sermektedir. Proteinlerin işlevlerindeki üç boyutlu yapılanmaların önemi gibi DNA Topolojisi
ve Geometrisi de önemli işlevlere sahiptir. Bunlardan birisi DNA ifade yerleridir. Bu derste
DNA Topolojisi ve Geometrisi üzerinde durulmayacaktır.
Verilerin başlıca üç ölçme platformundan geldiği söylenebilir. Bunlar: mikrodizinler
(microarrays, mikrodüzenler), gen ifadesinin seri çözümlemesi (serial analysis of gene
expression, SAGE) ve proteomik kütle spektrometresi (proteomic mass spectrometry) dir.
Bunlarla ilgili biyolojik deneyler; deney tasarımı (experimental design), ölçme ve veri ön
işlemesi (measurement and preprocessing) ile sonraki veri işlenmelerinden (postprocessing)
oluşmaktadır. Başka bir ifade ile deneyler; nelerin ölçüleceğine karar verdikten sonra doğru
ölçümler alıp bunları matrislerde toplamak ve bilgi çıkarmak amacıyla matrisleri işlemektir
denebilir. Mikroarray ve SAGE ölçümleri mRNA düzeyinde olmaktadır. Mikroarray’ler bir
tek örnekte ve aynı anda binlerce genin ifade düzeylerinin ölçülmesine imkân vermektedir.
Bilgi için aşağıdaki kaynaklara başvurabilirsiniz.
MICROARRAY TEKNOLOJĐSĐ (DOÇ. DR. HATĐCE MERGEN)
(HTTP:// YUNUS.H ACE TTEPE .EDU. TR/ ~M ERGEN)
Mikroarray Teknolojisi(Ozlen Konu, PhD,Bilkent Üniversitesi,Moleküler Biyoloji ve
Genetik Bölümü)
Genetikten Genombilime Geçişte Transkriptom Analizleri(Doç,Dr.Hilâl Özdağ)
Real Time PCR Tutorial
Microarray Teknolojisi(K.Đpekdal)
DNA microarrays(Wikipedia)
Protein microarrays(Wikipedia)
Đnsan Genom Projesi
Kaynaklar:
Begüm Akman, Taner Tuncer; Yaşamın Şifresi: Đnsan Genom Projesi; ODTÜ Yayıncılık,
2007
Vikipedi, özgür ansiklopedi
Đnsan Genom Projesi “tüm çağların en özel günü” ifadesi ile 26 Haziran 2000 tarihinde
ABD Başkanı Bill Clinton, Đngiltere Başbakanı Tony Blair ve özel şirketleri temsilen Celera
Genomics yetkilileri, projenin ilk ayağını tamamladıklarını dünyaya ilân etiler. Proje
sonuçları 2001 yılında açıklanmış olsa da eksikler ancak 2003 yılında bitirilebildi. Geçen süre
içinde yeni bilgiler ortaya çıktıkça insan genomu sürekli güncellendi, son olarak insan
genomunun 36.2 inci kurumu ve sürümü NCBI tarafından yapıldı. Teknik nedenlerle dizisi
belirlenemeyen 302 boşluk bulunan bu son sürümün gen kodlayan bölgelerin yaklaşık
%99’unu kapsadığına inanılıyor. Bu proje sayesinde ilaç ve kimya sanayii uzmanlarına,
Alzheimer’den vereme, kalp hastalıklarından astıma kadar her türlü hastalığı tedavi olanağı
sağlayacak. Proje sayesinde tıp biliminin ciddi biçimde değişikliğe uğrayacağı, ayrıca
uluslararası iş dünyasının bundan önemli kazanç sağlayacağı belirtiliyor. Proje, kanserden
depresyona ve hatta yaşlılığa kadar tüm hastalıkların teşhis ve tedavisinde devrim yaratacak.
Projenin sunacağı yenilikler, etik tartışmaları da beraberinde getirdi. Çünkü bu
projenin, öjenik çalışmaların önünü açağı ve bu amaç doğrultusunda yapılacak deneysel
girişimlere de hız kazandıracağı belirtiliyor. Projeye karşı çıkanlar bu projenin, doğanın doğal
düzenini tehlikeye atacağını ve insanın, istihdamdan sigortaya kadar günlük yaşamın her
alanında “genetik ayırımcılığa” yol açacağını ileri sürmekte. Muhalifler özellikle öjenizm
faktörünün altını çizerken, bu projeyle insanların, diğer canlı türlerinin genleriyle beraber
yapılacak deneysel çalışmaların sınırlarını büyük ölçüde genişleteceğini, bu yüzden de sonu
belirsiz bir biyolojik ve ekolojik felâkete götüreceğini öne sürüyorlar.
Đnsan Genom Projesi kapsamında Etik, Yasal ve Sosyal konular için ayrılan bütçe
toplam bütçenin yüzde beşini (yaklaşık 60 milyon $) kapsamaktaydı. Bu konuya önem
verilmesindeki neden genetik bilgiye dayanarak yapılabilecek olası ayrımcılık ve istismarın
genetik araştırmaların boyutu geliştikçe ve genetik testlerin maliyeti düştükçe daha da artacağı
kaygısıdır. ELSI’de süregelen birçok proje ELSI’nin muhtemel etkilerini kapsarken bazıları
literatür, konferanslar, seminerler ve basın aracılığıyla eğitimi amaçlar. Bu kapsamda hedef
kitle olan doktorlar, eğitimciler, öğrenciler, din adamları ve hukukçular için çeşitli eğitici
materyaller de sağlanmaktadır. Bütün bu çabalar Đnsan Genom Projesi’nin insanlara ve
uzmanlara en uygun şekilde aktarılması ve uygulama alanlarında hataların en aza indirilmesi
ya da engellenmesi içindir.
4 Eylül 2007'de, Craig Venter kendi DNA dizisinin tümünü yayınlamıştır. Bu, bir
insanın 6 milyar harflik genomunun yayınlandığı ilk seferdir.
Tarihçe:
1954 DNA'nın keşfi
1977 DNA dizilenmesi yöntemleri (Sanger ve Maxam-Gilbert)
1976 Đlk genetik şirketi
1981-82 Đlk transgenik fare Gen bankası detaları oluşturuldu.
1983 Đlk genetik hastalık haritalandı.(Huntington hastalığı)
1985 Polimeraz zincir reaksiyonu'nun keşfi (Saiki, Mullis)
1986 Pozisyonel klonlama. Đlk insan genetik haritası (RFLP)
1990 Đnsan genom projesi başladı.ELSI oluşturuldu, Etik, Legal, Sosyal program BAC’ların
keşfi (Bacteral artificial chromosome)
1991 Gen fragmanlar expressed sequence tag (EST) Kistik fibroz geninin klonlanması
1992 Đnsan genomunun 2’nci nesil haritası, dataların serbest bırakılması
1994 Đlk genetik olarak değiştirilmiş besin domates Ayrıntılı insan gen haritası
1995 Đş yerlerinde genetik ayrımcılığın yasaklanması Đnsan genomunun fiziksel haritası
tamamlandı
1996 Fare genetik haritası 280.000 EST Đnsan DNA dizilenmesi başladı
1997 E.coli genomu dizilendi
1998 Celera genomics firması 3 yıl içinde projenin tamamlanacağını duyurdu.Mycobacterium
tuberculosis dizilendi
1999 22.kromozom dizilenmesi tamamlandı
2000 Genomik bilgiye serbest ulaşım (Bill Clinton, Tony Blair) Meyve sineği genomu
dizilendi
2l. kromozom Dizi sonuçları açıklandı
2001 Uluslararası sonuçlarını aynı anda açıkladı.
2003 Eksiklikler giderilerek her iki grup da taslaklarını tamamladı.
2005 Đnsan Genom Projesi için her iki grubun da çalışmaları devam ediyor.
NCBI (National Center for Biotechnology Information, Ulusal Biyoteknoloji Enformasyon Merkezi)
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NT_077402.1&from=1&to=167280&view=fasta
>ref|NT_077402.1|Hs1_77451:1-167280 Homo sapiens chromosome 1 genomic
contig, reference assembly
TAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAAC
CCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCAACCCTAACCCTAACCCTAACCCTAACCCTAA
CCCTAACCCCTAACCCTAACCCTAACCCTAACCCTAACCTAACCCTAACCCTAACCCTAACCCTAACCCT
AACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAAACCCTAAACCCTAACCCTAACCCTAACCCTA
ACCCTAACCCCAACCCCAACCCCAACCCCAACCCCAACCCCAACCCTAACCCCTAACCCTAACCCTAACC
CTACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCTAACCCCTAACCCTAACCCTAACCCTA
ACCCTAACCCTAACCCTAACCCCTAACCCTAACCCTAACCCTAACCCTCGCGGTACCCTCAGCCGGCCCG
CCCGCCCGGGTCTGACCTGAGGAGAACTGTGCTCCGCCTTCAGAGTACCACCGAAATCTGTGCAGAGGAC
AACGCAGCTCCGCCCTCGCGGTGCTCTCCGGGTCTGTGCTGAGGAGAACGCAACTCCGCCGGCGCAGGCG
CAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGACACATGCTAGCGCGTCGGGGTGGAGGCGTGGCGCAGG
CGCAGAGAGGCGCGCCGCGCCGGCGCAGGCGCAGAGACACATGCTACCGCGTCCAGGGGTGGAGGCGTGG
CGCAGGCGCAGAGAGGCGCACCGCGCCGGCGCAGGCGCAGAGACACATGCTAGCGCGTCCAGGGGTGGAG
GCGTGGCGCAGGCGCAGAGACGCAAGCCTACGGGCGGGGGTTGGGGGGGCGTGTGTTGCAGGAGCAAAGT
CGCACGGCGCCGGGCTGGGGCGGGGGGAGGGTGGCGCCGTGCACGCGCAGAAACTCACGTCACGGTGGCG
CGGCGCAGAGACGGGTAGAACCTCAGTAATCCGAAAAGCCGGGATCGACCGCCCCTTGCTTGCAGCCGGG
CACTACAGGACCCGCTTGCTCACGGTGCTGTGCCAGGGCGCCCCCTGCTGGCGACTAGGGCAACTGCAGG
GCTCTCTTGCTTAGAGTGGTGGCCAGCGCCCCCTGCTGGCGCCGGGGCACTGCAGGGCCCTCTTGCTTAC
TGTATAGTGGTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTG
GCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTA
TAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAA
AGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAG
CAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAG
CCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATG
ATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATG
TAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCT
TTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCC
ACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAA
CTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTA
GAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCA
TAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTG
CTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGT
CTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCA
GGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGA
TTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAG
AGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCG
GCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCC
AGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGA
GGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTG
GAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGC
GGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCA
GCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGG
CTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGG
TCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGC
TGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACG
AAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCA
CCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCC
ATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACAT
TTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTG
CCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA
TCCTGCTACAAAGGTGAAACCCAGGAGAGTGTGGAGTCCAGAGTGTTGCCAGGACCCAGGCACAGGCATT
AGTGCCCGTTGGAGAAAACAGGGGAATCCCGAAGAAATGGTGGGTCCTGGCCATCCGTGAGATCTTCCCA
GGGCAGCTCCCCTCTGTGGAATCCAATCTGTCTTCCATCCTGCGTGGCCGAGGGCCAGGCTTCTCACTGG
GCCTCTGCAGGAGGCTGCCATTTGTCCTGCCCACCTTCTTAGAAGCGAGACGGAGCAGACCCATCTGCTA
CTGCCCTTTCTATAATAACTAAAGTTAGCTGCCCTGGACTATTCACCCCCTAGTCTCAATTTAAGAAGAT
CCCCATGGCCACAGGGCCCCTGCCTGGGGGCTTGTCACCTCCCCCACCTTCTTCCTGAGTCATTCCTGCA
GCCTTGCTCCCTAACCTGCCCCACAGCCTTGCCTGGATTTCTATCTCCCTGGCTTGGTGCCAGTTCCTCC
AAGTCGATGGCACCTCCCTCCCTCTCAACCACTTGAGCAAACTCCAAGACATCTTCTACCCCAACACCAG
CAATTGTGCCAAGGGCCATTAGGCTCTCAGCATGACTATTTTTAGAGACCCCGTGTCTGTCACTGAAACC
TTTTTTGTGGGAGACTATTCCTCCCATCTGCAACAGCTGCCCCTGCTGACTGCCCTTCTCTCCTCCCTCT
CATCCCAGAGAAACAGGTCAGCTGGGAGCTTCTGCCCCCACTGCCTAGGGACCAACAGGGGCAGGAGGCA
GTCACTGACCCCGAGACGTTTGCATCCTGCACAGCTAGAGATCCTTTATTAAAAGCACACTGTTGGTTTC
TGCTCAGTTCTTTATTGATTGGTGTGCCGTTTTCTCTGGAAGCCTCTTAAGAACACAGTGGCGCAGGCTG
GGTGGAGCCGTCCCCCCATGGAGCACAGGCAGACAGAAGTCCCCGCCCCAGCTGTGTGGCCTCAAGCCAG
CCTTCCGCTCCTTGAAGCTGGTCTCCACACAGTGCTGGTTCCGTCACCCCCTCCCAAGGAAGTAGGTCTG
AGCAGCTTGTCCTGGCTGTGTCCATGTCAGAGCAACGGCCCAAGTCTGGGTCTGGGGGGGAAGGTGTCAT
GGAGCCCCCTACGATTCCCAGTCGTCCTCGTCCTCCTCTGCCTGTGGCTGCTGCGGTGGCGGCAGAGGAG
GGATGGAGTCTGACACGCGGGCAAAGGCTCCTCCGGGCCCCTCACCAGCCCCAGGTCCTTTCCCAGAGAT
GCCTGGAGGGAAAAGGCTGAGTGAGGGTGGTTGGTGGGAAACCCTGGTTCCCCCAGCCCCCGGAGACTTA
AATACAGGAAGAAAAAGGCAGGACAGAATTACAAGGTGCTGGCCCAGGGCGGGCAGCGGCCCTGCCTCCT
ACCCTTGCGCCTCATGACCAGCTTGTTGAAGAGATCCGACATCAAGTGCCCACCTTGGCTCGTGGCTCTC
ACTGCAACGGGAAAGCCACAGACTGGGGTGAAGAGTTCAGTCACATGCGACCGGTGACTCCCTGTCCCCA
CCCCCATGACACTCCCCAGCCCTCCAAGGCCACTGTGTTTCCCAGTTAGCTCAGAGCCTCAGTCGATCCC
TGACCCAGCACCGGGCACTGATGAGACAGCGGCTGTTTGAGGAGCCACCTCCCAGCCACCTCGGGGCCAG
GGCCAGGGTGTGCAGCACCACTGTACAATGGGGAAACTGGCCCAGAGAGGTGAGGCAGCTTGCCTGGGGT
CACAGAGCAAGGCAAAAGCAGCGCTGGGTACAAGCTCAAAACCATAGTGCCCAGGGCACTGCCGCTGCAG
GCGCAGGCATCGCATCACACCAGTGTCTGCGTTCACAGCAGGCATCATCAGTAGCCTCCAGAGGCCTCAG
GTCCAGTCTCTAAAAATATCTCAGGAGGCTGCAGTGGCTGACCATTGCCTTGGACCGCTCTTGGCAGTCG
AAGAAGATTCTCCTGTCAGTTTGAGCTGGGTGAGCTTAGAGAGGAAAGCTCCACTATGGCTCCCAAACCA
GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCC
CTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCACCCGGTGGACTCAGGGCTGG
AGGGGAGGAGGCGATCTTGCCCAAGGCCCTCCGACTGCAAGCTCCAGGGCCCGCTCACCTTGCTCCTGCT
CCTTCTGCTGCTGCTTCTCCAGCTTTCGCTCCTTCATGCTGCGCAGCTTGGCCTTGCCGATGCCCCCAGC
TTGGCGGATGGACTCTAGCAGAGTGGCCAGCCACCGGAGGGGTCAACCACTTCCCTGGGAGCTCCCTGGA
CTGGAGCCGGGAGGTGGGGAACAGGGCAAGGAGGAAAGGCTGCTCAGGCAGGGCTGGGGAAGCTTACTGT
GTCCAAGAGCCTGCTGGGAGGGAAGTCACCTCCCCTCAAACGAGGAGCCCTGCGCTGGGGAGGCCGGACC
TTTGGAGACTGTGTGTGGGGGCCTGGGCACTGACTTCTGCAACCACCTGAGCGCGGGCATCCTGTGTGCA
GATACTCCCTGCTTCCTCTCTAGCCCCCACCCTGCAGAGCTGGACCCCTGAGCTAGCCATGCTCTGACAG
TCTCAGTTGCACACACGAGCCAGCAGAGGGGTTTTGTGCCACTTCTGGATGCTAGGGTTACACTGGGAGA
CACAGCAGTGAAGCTGAAATGAAAAATGTGTTGCTGTAGTTTGTTATTAGACCCCTTCTTTCCATTGGTT
TAATTAGGAATGGGGAACCCAGAGCCTCACTTGTTCAGGCTCCCTCTGCCCTAGAAGTGAGAAGTCCAGA
GCTCTACAGTTTGAAAACCACTATTTTATGAACCAAGTAGAACAAGATATTTGAAATGGAAACTATTCAA
AAAATTGAGAATTTCTGACCACTTAACAAACCCACAGAAAATCCACCCGAGTGCACTGAGCACGCCAGAA
ATCAGGTGGCCTCAAAGAGCTGCTCCCACCTGAAGGAGACGCGCTGCTGCTGCTGTCGTCCTGCCTGGCG
CCTTGGCCTACAGGGGCCGCGGTTGAGGGTGGGAGTGGGGGTGCACTGGCCAGCACCTCAGGAGCTGGGG
GTGGTGGTGGGGGCGGTGGGGGTGGTGTTAGTACCCCATCTTGTAGGTCTGAAACACAAAGTGTGGGGTG
TCTAGGGAAGAAGGTGTGTGACCAGGGAGGTCCCCGGCCCAGCTCCCATCCCAGAACCCAGCTCACCTAC
CTTGAGAGGCTCGGCTACCTCAGTGTGGAAGGTGGGCAGTTCTGGAATGGTGCCAGGGGCAGAGGGGGCA
ATGCCGGGGCCCAGGTCGGCAATGTACATGAGGTCGTTGGCAATGCCGGGCAGGTCAGGCAGGTAGGATG
GAACATCAATCTCAGGCACCTGGCCCAGGTCTGGCACATAGAAGTAGTTCTCTGGGACCTGCAAGATTAG
GCAGGGACATGTGAGAGGTGACAGGGACCTGCAGGGGCAGCCAACAAGACCTTGTGTGCACCTCCCATGG
GTGGAATAAGGGGCCCAACAGCCTTGACTGGAGAGGAGCTCTGGCAAGGCCCTGGGCCACTGCACCTGTC
TCCACCTCTGTCCCACCCCTCCCACCTGCTGTTCCAGCTGCTCTCTCTTGCTGATGGACAAGGGGGCATC
AAACAGCTTCTCCTCTGTCTCTGCCCCCAGCATCACATGGGTCTTTGTTACAGCACCAGCCAGGGGGTCC
AGGAAGACATACTTCTTCTACCTACAGAGGCGACATGGGGGTCAGGCAAGCTGACACCCGCTGTCCTGAG
CCCATGTTCCTCTCCCACATCATCAGGGGCACAGCGTGCACTGTGGGGTCCCAGGCCTCCCGAGCCGAGC
CACCCGTCACCCCCTGGCTCCTGGCCTATGTGCTGTACCTGTGTCTGATGCCCTGGGTCCCCACTAAGCC
AGGCCGGGCCTCCCGCCCACACCCCTCGGCCCTGCCCTCTGGCCATACAGGTTCTCGGTGGTGTTGAAGA
GCAGCAAGGAGCTGACAGAGCTGATGTTGCTGGGAAGACCCCCAAGTCCCTCTTCTGCATCGTCCTCGGG
CTCCGGCTTGGTGCTCACGCACACAGGAAAGTCCTTCAGCTTCTCCTGAGAGGGCCAGGATGGCCAAGGG
ATGGTGAATATTTGGTGCTGGGCCTAATCAGCTGCCATCCCATCCCAGTCAGCCTCCTCTGGGGGACAGA
ACCCTATGGTGGCCCCGGCTCCTCCCCAGTATCCAGTCCTCCTGGTGTGTGACAGGCTATATGCGCGGCC
AGCAGACCTGCAGGGCCCGCTCGTCCAGGGGGCGGTGCTTGCTCTGGATCCTGTGGCGGGGGCGTCTCTG
CAGGCCAGGGTCCTGGGCGCCCGTGAAGATGGAGCCATATTCCTGCAGGCGCCCTGGAGCAGGGTACTTG
GCACTGGAGAACACCTGTGGACACAGGGACAAGTCTGAGGGGGCCCCAAGAGGCTCAGAGGGCTAGGATT
GCTTGGCAGGAGAGGGTGGAGTTGGAAGCCTGGGCGAGAAGAAAGCTCAAGGTACAGGTGGGCAGCAGGG
CAGAGACTGGGCAGCCTCAGAGGCACGGGGAAATGGAGGGACTGCCCAGTAGCCTCAGGACACAGGGGTA
TGGGGACTACCTTGATGGCCTTCTTGCTGCCCTTGATCTTCTCAATCTTGGCCTGGGCCAAGGAGACCTT
CTCTCCAATGGCCTGCACCTGGCTCCGGCTCTGCTCTACCTGCTGGGAGATCCTGCCATGGAGAAGATCA
CAGAGGCTGGGCTGCTCCCCACCCTCTGCACACCTCCTGCTTCTAACAGCAGAGCTGCCAGGCCAGGCCC
TCAGGCAAGGGCTCTGAAGTCAGGGTCACCTACTTGCCAGGGCCGATCTTGGTGCCATCCAGGGGGCCTC
TACAAGGATAATCTGACCTGCAGGGTCGAGGAGTTGACGGTGCTGAGTTCCCTGCACTCTCAGTAGGGAC
AGGCCCTATGCTGCCACCTGTACATGCTATCTGAAGGACAGCCTCCAGGGCACACAGAGGATGGTATTTA
CACATGCACACATGGCTACTGATGGGGCAAGCACTTCACAACCCCTCATGATCACGTGCAGCAGACAATG
TGGCCTCTGCAGAGGGGGAACGGAGACCGGAGGCTGAGACTGGCAAGGCTGGACCTGAGTGTCGTCACCT
AAATTCAGACGGGGAACTGCCCCTGCACATACTGAACGGCTCACTGAGCAAACCCCGAGTCCCGACCACC
GCCTCAGTGTGGTCTAGCTCCTCACCTGCTTCCATCCTCCCTGGTGCGGGGTGGGCCCAGTGATATCAGC
TGCCTGCTGTTCCCCAGATGTGCCAAGTGCATTCTTGTGTGCTTGCATCTCATGGAACGCCATTTCCCCA
GACATCCCTGTGGCTGGCTCCTGATGCCCGAGGCCCAAGTGTCTGATGCTTTAAGGCACATCACCCCACT
CATGCTTTTCCATGTTCTTTGGCCGCAGCAAGGCCGCTCTCACTGCAAAGTTAACTCTGATGCGTGTGTA
ACACAACATCCTCCTCCCAGTCGCCCCTGTAGCTCCCCTACCTCCAAGAGCCCAGCCCTTGCCCACAGGG
CCACACTCCACGTGCAGAGCAGCCTCAGCACTCACCGGGCACGAGCGAGCCTGTGTGGTGCGCAGGGATG
AGAAGGCAGAGGCGCGACTGGGGTTCATGAGGAAGGGCAGGAGGAGGGTGTGGGATGGTGGAGGGGTTTG
AGAAGGCAGAGGCGCGACTGGGGTTCATGAGGAAAGGGAGGGGGAGGATGTGGGATGGTGGAGGGGCTGC
AGACTCTGGGCTAGGGAAAGCTGGGATGTCTCTAAAGGTTGGAATGAATGGCCTAGAATCCGACCCAATA
AGCCAAAGCCACTTCCACCAACGTTAGAAGGCCTTGGCCCCCAGAGAGCCAATTTCACAATCCAGAAGTC
CCCGTGCCCTAAAGGGTCTGCCCTGATTACTCCTGGCTCCTTGTGTGCAGGGGGCTCAGGCATGGCAGGG
CTGGGAGTACCAGCAGGCACTCAAGCGGCTTAAGTGTTCCATGACAGACTGGTATGAAGGTGGCCACAAT
TCAGAAAGAAAAAAGAAGAGCACCATCTCCTTCCAGTGAGGAAGCGGGACCACCACCCAGCGTGTGCTCC
ATCTTTTCTGGCTGGGGAGAGGCCTTCATCTGCTGTAAAGGGTCCTCCAGCACAAGCTGTCTTAATTGAC
CCTAGTTCCCAGGGCAGCCTCGTTCTGCCTTGGGTGCTGACACGACCTTCGGTAGGTGCATAAGCTCTGC
ATTCGAGGTCCACAGGGGCAGTGGGAGGGAACTGAGACTGGGGAGGGACAAAGGCTGCTCTGTCCTGGTG
CTCCCACAAAGGAGAAGGGCTGATCACTCAAAGTTGCGAACACCAAGCTCAACAATGAGCCCTGGAAAAT
TTCTGGAATGGATTATTAAACAGAGAGTCTGTAAGCACTTAGAAAAGGCCGCGGTGAGTCCCAGGGGCCA
GCACTGCTCGAAATGTACAGCATTTCTCTTTGTAACAGGATTATTAGCCTGCTGTGCCCGGGGAAAACAT
GCAGCACAGTGCATCTCGAGTCAGCAGGATTTTGACGGCTTCTAACAAAATCTTGTAGACAAGATGGAGC
TATGGGGGTTGGAGGAGAGAACATATAGGAAAAATCAGAGCCAAATGAACCACAGCCCCAAAGGGCACAG
TTGAACAATGGACTGATTCCAGCCTTGCACGGAGGGATCTGGCAGAGTCCATCCAGTTCATTCAACACCT
GGTTAGAAAACTGGGGCCAGCACACAGGGGAAGGGTAAGCTGGTTTCATGATCGAATCAAGGCTCAGACA
ATTTTTAAAGGCCAGAGGGTAGACTGCAATCACCAAGATGAAATTTACAAGGAACAAATGTGAAGCCCAA
CATTTAGGTTTTAAAAATCAAGCGTATAAATACAGAAGGTGGAGGGAACTTGCTTTAGACACAGTTCAGG
TGAAGAAAGACCTGGAAACTTCTGTTAACTATAAGCTCAGTAGGGGCTAAAAGCATGTTAATCGGCATAA
AAAGGCAATGAGATCTTAGGGCACACAGCTCCCCGCCCCTCTTCTGCCCTTCATCCTTCTTTCAATCAGC
AGGGACCGTGCACTCTCTTGGAGCCACCACAGAAAACAGAGGTGCATCCAGCACCACAGAAAACAGAGCC
ACCACAGAAAACAGAGGGTGACTGTCATCCCCTCCAGTCTCTGCACACTCCCAGCTGCAGCAGAGCAGGA
GGAGAGAGCACAGCCTGCAATGCTAATTTGCCAGGAGCTCACCTGCCTGCGTCACTGGGCACAGACGCCA
...
http://www.ncbi.nlm.nih.gov/entrez/viewer.fcgi?val=NT_022327.14&from=1&to=1
254071&view=fasta
>ref|NT_022327.14|Hs2_22483:1-1254071 Homo sapiens chromosome 2 genomic
contig, reference assembly
CGTATCCCACACACCACACCCACACACCACACCCACACACACCCACACCCACACCCACACACACCACACC
CACACACCACACCCACACCCACACACCACACCCACACCACACCCACACACCACACACCACACCCACACCC
ACACACACCACACCCACACACCACACCCACACACACCCTAACCCTAACCCCTAACCCCTAACCCTAACCC
TACCCGAACCCTAACCCTAACCCTAACCCCTAACCCTAACCCCTAACCCTAACCCTAACCGTAACCCTAA
CCCTTTACCCTAACCCGAACCCCTAACCCCTAACCCCTAACCCTTAACCCTAACCCTTAACCCTGACCCT
GACCCTGACCGTGACCCTGACCCTAACCCGAACCCGAACCCGAACCCCGAACCCCGAACCCCGAACCCCA
ACCCCAACCCCAACCCCAACCCTAACCCCTCACCCTCACCCTCGACCCCCGACCCCCGACCCCCGACCCC
CACCCCGAACCCGACCCCGACCCCGACCCAAACCCTAACCCTAAAACCCTAACCCTAGCCCTAGCCCTAG
CCCTAGCCCTAACCCCTAACCCCTAACCCTAAGCCGAAGCCTAACTCGTGTCTGACTTTGAGTATTCAGT
GCTGCAAACAGGAAGTATTTTATTCACCGTCGATGCGGCCCCGAGGGGTCCCAAAGCGAGGCAGTGCCCC
CAAACTCTGTCCTGAGGAGAATGCTGCTTCGCCTTTACGGTGTCCACCGGGTGTGTGCTCAGCAAAACGC
AGCTCCGCCTTCGCGGTGCCCGTGGCCCACCCGCCCGGGTCTGTGGTGAAGAGAACGCAGCTCCTAGTCG
CAAAGGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGC
GCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGC
GCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGC
ACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCAGAGAGGCGCACCGCGCCCGCG
CAGGCGCAGAGAGGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACACA
GGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACACAGGCGCACCGCGC
CCGCGCAGGCGCACACAGGCGCACCGCGCCCGCGCAGGCGCACAGAGGGTCGCTGGGCAGGGGTTGGGGG
TCGTACTGCAGGTGCACAGCTGCATAAGCGCACAGTCGCAAGCCGCCAGGCGCGGAGCGTGGGGGTGGCG
GGGTGCAGGCGCAGAGACGGACGTCCCCGGGGGCGCGGCACAGAGACAGGTGGAACCTCAATAATCCGAA
AAGCCGGGCTCGGGAACCCCCTGCTTGCAACCGGGCACTACAGGATCCGCTTGCCCACGGTGCTCTGCCA
GTGCGCCCCTTGCTGGCCACTAGGGCAACTGCAGGGCTATCTTGCTTACAGTGGTGTCCAGCGCCCTCTG
CTGGCGTCGGAGCATTGCAGGGCTCTCTTGCTCGCAGTGTAGTGGCGGCACGCCGCCTGCTGGCAGCTAG
GGACATTGCAGAGCCCTCTTGCTCACAGTGTAGTGGCAGCACGCCCGCCTCCTGGCAGCTAGGGACAGTG
CCAGGCCCTCTTGCTCCAAGTGTAGTGGCAGCTGGCTCCCCCGCTGGCAGCTGGGGACACTGACGGGCCC
TCTTGCTTGCAGTATAGTCGTCGCACGCCTTCTGGCCGCTGGCGGCAGTACAGGATCCTCTTGCTCACAG
TGTAGGGCCCTCTTGCTCCCGGTGTGACGGCTGGCGTCCCCTACTGGCCGCCTCCTGCACCAATTAAAGT
CGGAGCACCGGTTACGCCCCATCACTTCTGTAAATTCAAACTGAAACGGAGCTATTAGTGGGGAGAGCTG
ATGTCCCAGTTCTTGTTTAACTTGGAAGAAAGATTTTCACCAAGAGGCAGTACAAAGATGACAGATAACT
TCATTGAAAAGAAATACAGTGTAAACACCTTACTGTAGAAAAATAGGGAGGACAGGGCTGATCGTGCATG
AAAACAGCCTAAGAGTCTTGTGCAGGGAAGTTACTCTAACTGTAACTTACAACAACTTAGTAGATTATAC
TTTTGTAAACAGAAGTGAAGCATTTATCTTTTTTCTTGCTTGATTATTTACATAATCAAGCAAAATCTAA
CAAAACAATAATATTTTAACAATAATATTTTTAAAACAATAATAGTCTTACTTTGATTATGATCAAAAAT
GATGGTTACTACAGAGAGAATTTTTATGTTTCAATGGAAAAGTATAACATGGCCAGGCATGGTTGCACAT
GCCTATAATTACAGCACTTTGGGAGGCCAGGAGTTCAACATCAGCCTGGGCAACATGGTGAAACCACGTC
TCTACCAAAAATACAAAAATTAGATGGGCATGGTGGCATGTGCCTGTAGTCCCAGGTAATCAGGAGGCTG
AGGAGGGAGGATCGTTTGCACCCGGGAAGTAGAGGTTGCAGTGAGCTGAGATTGCACCTTTGCACTCCAG
CCTAGGCGACAGAGCCAGATCCTGTCTCAAAAAAAATTTTTTTAAAGGAAAACTACAGCCATTGTGGGTT
ATCAGATTCTAGTCTTGTTTCTTGTTTCTGGGCTATTTTTACCTCTTTGTAAACTGCATCCTGCCATCTG
ATGAATTTTGTCCCACAATGATACTTGGGGAACAAGAAGCCAATTATTGTCTCTCCTACTAATGTATCTA
TTGTCAGTTAATTTGAAGGTCTCCAACCCTGGAACAAAGTTAGAAGAGGAAGGTTCTGCTCCCCAAAATG
CATAACCAAATTGTGGTACATTCATGTAATGGAACACTATTTAGCCATAGAAACGAACAAGCTATCAACT
CACACAAAGACATGAGTGAATCTTGCATGCACATTGCTAAGTGGAAGAAGACAGTCTGAGGAGGATACAC
ACAGTGTGACCTCATTTAATGAGACACTGGAGAAGGCAAACTACACAGATGGGAAGCCATTGGCTCCATG
GGGTGGGGGTTTGAAGCATTCCATATGATACTTTAATAGTGGGATATCTGCCACAATGCATTTGTCAAAA
TATGCAGAATTTTACAGCCATATGGTTAGAGCAAACTCTATTCAAATTAAATAAAATTACTCAGGATGTG
GAGTATCCCAGGACAGAATACATCATGTGAAAAAGCATTTATGCTACAAATTACTATGGTAATTATGCTA
CAAATTTATGGTACCATAAATTACCATAGTAATTTGTAGCATAAATTTGTACTATGGTACAAATTACATG
GGAGAGTGAAGGTGGGTTAAAACATTCATATTAAAGAACTTCCACTCAGATTGCAAGAAAAGAGAGAGGA
ATGGAGATGGTAGCACAAGTCCCTACAATAAAAGTAGATGTTTTGAGATCAGTTCTATTTGTTCTGACAA
AAATTAAAGACAGAAACCAAAGTTTAGCCTGAGGCAACAATTAGTTGGGGAATAAGCCAGAGGCATATAT
GGCATAGACACATTTAAACATTTCTCTCATATTAATACAAATACTAAAATGACATATCAATTGATTCCAA
ATAAAACAAATATTTAAAACATTTAATGAATAAACACTGGGGTCTACAGTAGTAGTTAAAGGAGATCTCA
CAAACAGGTTTGGTTTTTGAAGGTTAGAAATGATGGTCTAGAGAATTCATTTCATTCCAGAGACAGAAAG
AGGAATATCTTGGGTTCCTTCAGGAATACATCTGGCTTTGCCTCATCTTTGTGTGTTTGAACTATGCATA
CGGCAGAAGAAAACATGGGGGTTTCAGAGTTTTTTTTTTTTTTGAGACAGAGTCTTGCTCTGTTGCCCAG
GCTGGAGTGCCGTGGTGTTATCTCGCCTCACTGCAACCTCTGCCTTCTGGGTTCACACCATTCTCCTGCC
TCAGCCTCCGGAGTAGCTGGGACTACAGGTGCACCACACCTGGCTACTTTTTCTGTATTTTTTAGTAGAG
ATGGGGTTTCACCATGTTAGCCAGAATGGTCTAGTTCTCCTGACCTTATGATCCAACCGCCTCAGCCGCC
AAGAATGATGGGATTACAGGGGTGAACCACCACGCCCGGCTAAGGATTTCACAGATTTAAGGTGCTAAAA
TCACTGGGTTCTCTAAGAAGCCTGGGATTCTTCTGCTGGAAAAATAAGTTTGTTGAGAAAAATGAGTTGG
AGGAGGTTGTTATTGAAGTGAAGCAGAATTGTTTTTACTAATCTGCTTATTACCCACTCTGAAGTGTGGA
AACAAATTTTTCATGCACAAGGTCATCTTACTGTTACTGGAATGCAGTGGAAAGAGAACAGATTAGTTTT
TCTCTCTCAGAACACAACCACTAGAAACGTCCTATGTCAGATGAGATATTGCCCAGTTATTTTCAAAAGA
CTGAAAAATCCTGGATGTAAATGTTTGCTGCAAAATAAATACATGCTAGAAACAGAAGCATCTGGGTCAC
AGCTATATTAGAGCTACCTGTGTTCCCCTGTTACTGAGATTAAAACAAAAATGTCCAATAAAAATCATTC
ACAGTGTGGGAGAGGGGAAGTTGAAGGATGGAAAGGCCAGGCATAAAAAGATTTCAGAATTTCAGTCCAT
AAGGAAGTTGCTTTGTGCATTGTCTGTTGCTGTGTGCAAGGTGAAGGCTGGGGCAAGAAAACGTGCAGTA
ACAAGGGCTCCTTTGTCCATCTCACCTCTCTAGATACCAAGTTTCAGACATGTTGCATTTTAATTGAAAA
GTTGATATAACTTTTTTTAAAAGAATACTTGCAGTGCTTGAAGTGTAAAAAGCTGCTGTGACAAAAAAAA
AAGCAGGGAAAGGGATTTTTTTTAAAAAAGCAAACAGCAACAATAAAAAACCCACAAACAACAAATAACA
AACAAAAAAACAGAGGAAGAAGTCGAAACACCCTGGGCTGAGACTATTTCCAGGAAGGGGCTACGAAAGG
CAGTTGGAAATTCCATTTTCTTTGCAACTGTGGGTTTTCTGGCCTGCTTCCTTTCTAAAGTATATTACTT
TCTTTTTGGTTCATGAAGTTATCCCTTTGTGTCTTCTGGAACAGCTATGTATTTTCTTTATCTATCATCT
AGCTACCTGCCTATCATCTATCTGTCTTTTCTGCCTTTTGCTATCAAAAGCTTGGGTCAAGCAGGATAGA
ATTCCAGTGTATGTTCACTCTACCATTTAAAACAAGAGCTCTTGTAGGCATTCTTCATCACATCACAAAC
CTGAGCTTTCTAAAACAGGGTGTGGCAAACTACCATGCATGGGCCATGTCTGACACAGTCTGCATTTGTA
AGTAAAGTTGTATTGGGACAAAGCCACATAGATGTGTTATATAACATCTCTGGCTACTTTCATAGTACAA
TGGAAGAGCTGAGTCATTGAGACAGAGACCACATGGCTTGGAAAACTTAAAATATTTAACATTTTGCCCT
TTGCAGAAAATACTTGCTAACTCTTGTTTTAAAAGATCTTTGTTTAGAATGCTACCTGTTGCCTTCTGGG
TAGAATCACAACTATATACCACAATAGACACAACTTGAACCCTGCTTCTATATCCAGCCTCATCTATTAT
TTCCTCTCCTTCTTATTTTCCTTCTGGCCGTGCTGATGGATTGTCAGCTTCCCAGATGTGCGAGAATCTC
TCCTCCCTTCCCCACATTCTCATGCTCTCCCTCTGCCTCTGGAGAACTACCTGCCCCATCTCTCATGATA
AATCCTTTCTTCATTCTTTATGTTGCAGCCCCTTTGCTCCTTCCTTAAGGATGTCTATCTGGCTCTATTT
TGGGTGACATGCTCCTTCTGCATCTCCCAGAGCCAGCCTGTGTGTGTCAGCTACAGCATTTCTTTGCATC
TCTGTGTCATATATCACCAAATCTGCCTAAGCTTGAGTGAGTCACTGCATGACAACTTCAGACTCCAACA
GCATTGTCCGCACTAACCACGAGGCTTAGACATTTGTCCAGTATGCTCAGGGTTGTGGGGTGGTAGCAGT
AACCAGCTGGTGAGCATCATCTCCTACATTAGAATGAAATCTGTAGATCTCTGCCATTCATAAGTATTTG
GAGTTTAACATTAGCATAAAGATTTTCCTTAAAATAAGAACAAATGGCTTGAGTCAGCTTTTGGAACATA
GGATATTTCCACTGGTTCATTTCTGTGTTCAGTATTCCCACATGAATCTAAACACGACTCGACTCTTAGT
AGCTGTGTGACCCTGGGAAAGTCACTCAATCGCCCTCAGCTAAATTATGTGTGTGAGTAATGAGAAGAGA
GTTGTTGTTTGTATTTAGTGAATAATAACAAACAAAAGGCATTTAGTTTTCTGGAACCTGATATGTAGTA
GTTCCTCATGAAATACTAGCTCTGTTGATAAAACTAGACTGAAAGGAGCTTTCAAAGTCAACAACAACAT
CATGCAGTGAAGGATGTAGATGAGAAGCTGCTGCTGCAGCCTGGAGCTCCTGGAGGCCCGTTTTGTCCAT
GATTTAGCAGGAATGCATTACCTTTCCATCAAGAGATGCTGCCCACAGAAACCAAGGCCATTCTTTGAAG
ACAAACATGTTTTAATAGCATTTACATTATATAATAGTGTAATATAATTATTAATAATGTAAAATTATTT
AGATTATTATGTTATGACTTTTGTACAGACCTTTACACCTAGGTATTCTGAAGTTGGTGGTCTGTGAGTG
GCATCGAGTGATGACTGACACACTCTGACCTGGGGTAGAACAACACGTCTCCCTGCAGTTTGCTGAATTT
TAGGGCGTCACCACCTGTTTTCAAGAGTGTGTTTTTCTATCCTCCCGAGTTTTGCCCACCTAAGCAATGG
TTTTGCTGTAATAAAGAATTACACTATTTACCAAAATGTTCCTTTGGAGAATAAAGTTTTCTTAAACTAT
CAGGACCATAGCTAATGTCAGTGGCGCCAAGGATCAGAAGGTAAAAAGGCCTTTTTTTGGGGGGGCCAAG
AGAAAAAAAATCACCACATTTCAAACTGTCTCATGCTAGTCACCGGAAAATTAGAAATGAACACACTCCC
TCCCAGCCCAGTCACAGCTACTAAATAACAAAGATCTCCTGCAGGTGCCTGCAGGTGCTCCTTTGTGCGC
CTGGGGTTGCTGGCTGGCACTGGGCAGCAGGCAGCAGAGCTGGTCCCACACAGGCACATTGAACAGCCTG
GATCTTGGCCTGGCGCTGGCTGGGAAGCTATTTGATGTCAGGCTCAATGTGGACTTCTGAATTGAAAGGA
GAGTATGGGTCACCCAGCCCCACTTACTCATTTTACAAAGAATGAAAATGGGGCTCTATGCCAGACGTGA
GAGTACACATTGTAAGGCTGTGCAAGCTCGCTGCACTTGTATCCACTCAGCACACACTTACTGAGTGCCG
AGTGTCTCCAGCATGAGAGGGGCTCTAGTTCCCGGGGTCCCACCCTCCACAGAGGATGGCAGCACTTTGA
GGGACAGAGGTGCAAAGAGCAAGTTGGGGGCCCTTCTGCTGGAGAGGTGGCTGGGGAGGGTCCTTAGAGG
AAGTGACACCTGAGCTCTTCTCTGAAGGGTGAAGCTGAATTACTTGAACCTTTGGGCGAAGGGGTGTCTA
GGAAAGTGGAGCCTGTGAGTCAAAAGCAAAATGACTTGTCCAGAGAAGTGTGACAAGTTCCATATTCTTT
CTATGCCAAACTTGAATAGGAATCACCAAAGGAAAGAGCAGGATCCTGGAGCCAGGGCCTTGGATTTCAC
CCGCTGGCAATGGGAATGTTCACTGGGAATTTTGGGGGGCAAAACGTGAAAGTGTTTTCTCTTAGCTCCA
ATTCTCTCTGTCTCTCTGTCTCTTCCTGTCCCTCTCTCTCTCCCTTATCTTTAATTTTTCTATTATTCTA
AGAAAACACAGATGTCTCAGATGTGGGGATTAGCAGCCTGCCTCTTTCTGGATGACTTCAGGGGAGCACT
TTGGCCTCTGTAAGCTTATTTACAATAATTCATGAATCTTGCAAAAAAAAGTCATGGTAGCAGAGGTTAG
AAAATCTCCTAGTATTTCTTCTGATACTTTGAATTTATGATTAATATATTTAGTCTTCATCTTCTGAAAA
GTTACCAGTTGCACAGTGAGGACCATAAAGGGAGTCTGTTTCGGTGGTTTCTGGCTGCAACAGTCAGTGG
TTTTGCAGCAATAGCATTGCATGTGGGTTTTAGGCTGATGATGCTCAACAGTGGACAATCCTTTTCACCT
GCCTTGGCTGCACTGCCCACCCTTCCATACAGTGCGGGGTCACAGCTGAATTCCCCAAGATACCTTGCAG
GATGTCGGCTTCTGAACTTTCAGGTGTCTTCCAGGTGAAGGCTTGGTCTCATAGCCTTTGTGGCTTCCTC
CAGGTAACACTTGGTTTTTTGACCTAACCCTGGTATTTGTGTGGCACACGTGTGAATGTGTGAATGTGCT
CCCTGTGGCAGTGCTGAGGAAGGGCTCAGTCATCACAGATGCGAAAAGGCAGTGTGCTCTTTTCCAACAT
CTCCAGTCTTGTATTATTTTTACCCATCAGCCCATTTAAAAAAGAAACACAAAAAGCCTCCTGTTAGAAT
TAAATCCCCTCTGAAGATAATGGGTATTTTTAAAATCTTTAATTTTGTTTATAGTCACATTTGCTCCCAG
TGCCTGCCAGGATCCACTAGAGGGCAGAGACACCCGTGTGTATTTGGCTGGGTCTCACTCCTGAGAGAGG
AGACCTTCCTCTGGACCAGGTACCAAGACAGACCCTAATTGGAAAATGTTGTCTTCTAAGGAAAGATGCA
GCACCCACTAGAAAGGAAAACACCAGAAAGTTTTAAAAAGGAAAAACCAAGGGAAGCCGAGGAGCTTCTT
GATAGGGGACACAGCAGAGGCCACCCAGCTGGGGTGAATCTCCACAGTTCCCCAACGGGACGGCGGGTGG
GAGCCCCAAGTCACTGGCCCCTGCAGCATGGGGGCAGCTGCTGAGTGGTAATCAAAACAGACACCCTGCC
CTCCCGCAGCCAAACTCCAGTGCCAGGCCCAGCGGCAGCAAATAAGAAAACCTCGGTTTCTCTACCTGCA
TCAGCTACACGGTGCTCACACACGGGAGGCATCAGCCAGTTTTCTCAATTAAAGAGGTAGAAACAAAATG
TGTCTTCACTACTTTTTGAATTTACCATGTTATCTAAAGTTTTAATTTAATTGAATGAATAAACTCCCTA
TGCATCTGGACACATGCAGGAAAATTCACAAACATTTCAAACCAAAACAGAGTATTTTGCCAAAAGATAA
TTTCTTTGATACGTGAATGTCACTTTTTTCTATCTTTTAGTGATTTCAGTGTAATGAAATTGGGAAGTCT
GTGCCTCTAAAAGACTTTTTTAAGAGCATGGTATTTCTCCATTTTGAAAAAAATAGTTGGCAAAATATCT
TCTACTGTAGGTAGAAGTTAATTGGCTGAGAGTAATAAACAGAAGATTAAAAAACGACCTTTATCCCTGC
TATTCTGTCAAGGGCTACAGTGAATTACACACCCCGGCATGGGTTTGCACGCCACGTGCTGGAAGCCAGC
AGTCATGCAGGCCATGCTCTCCCACACTTAGAAAAAAAGCCCATGAGAAAGAGTTCCGTCAAGTTCACAC
AGAATCACCTCCAGCAAGACCTGGAAAAAGCTCAGTTCCACAAAATACCTGTGTCCAAATACTTTGAGTG
CACAGCTCTGGCATCAGGTTCCTCTGAGGACAGGCTCTGAGATGGATTTCTGGATGGAAGCTGCTGCCGG
AGGAGACAATGCCACTGCAGATGGCTCATGCTGCTCCCATGCTGCAGGGGCCAGTAACTTGGGGCTCCCA
CCCGCCGTCCTGTTGGGGAACTGCGGAGATTCACCCCAGCTGGGTGGACTCTGCTGTGTCCCCTGTCAAG
AAGCTCCTCGGCTTCCCTTGGTTTTTCCTTTTTGAAACACTCTGGTGTTTTCCTCTCTGGTGGGGGCTGC
ATCTCACCTTAGAAGACAACATTTTCCAATTAGGGGCTGTCTTGGTAGCTGGTCCAGAGGAAGGTCTCCT
CTCTCGGGAGTGAGGCCTGGCCAAGTAACTCCAGCCAGAACTCTCACTGAGTGGAGCTGGATCTGCCCTG
TTCTCCTCCCATCCTCGTGCTGACTGTGAAAATCCATCCGTGCCCTATGCAAAGTCCTGCATCTTGGACT
GTAAAATGGCAAAAGCCAAATTTAAAACAGATGGTTATATTGACTCTATGAGGAAAAGAAAGTTCTAAGG
TAGACAATTGGTAAGCAAACAATTATGTGTAACTTGTTAGAACACTAGGGTGTAGTTTATTCGTCTCACT
GATTATTTTCTGTTTAACAGGCTGGCTAAGAGCCAGAGGGAGAGAAGGCTGGCTGGGAATTGAGAGGCAT
GAGGTCACCTCAGTCCCAACATTTCCATGTAAACGATGATGCAAGGTGGGCTGATGGCAGGAGTCCCTGG
AAATTCTCACAATCTCAGCTCTTAACTTCTGTAAAATATTATGTCATTTAGGATCTCTTTAACAAATAAC
GTTTTTTCTAATTTCAAAAGTGTATATTCTCTTTGGAGGATCTTTGGTAAATATAAAATGAGTTATAAGA
GAGAGAAAAATTATTCACAATTTTATCACTCAAATTTTGATAATTATATTCCTGCATTTTTAATGAAATG
TAGAAATTTTAGATTATACTATACATAAAATGTTGTTTCTGTTTTTTCATCCAATATTAGATAATAAACG
TTTTACGTGGCATAAACTATATATGTAAATCAGCTATTTCCAAACCTGGATGCTTGATTTAACCCTCCTT
ATACCGTTAGCCATTTAAATGATTTCTCCTTTATCCTATGAATAACACTTCCACCAGTTATTATTCTTAT
ATATAGCTCATTCAATCACGCATAATCTTGTTGAACATTTACTTACAATTTAATTGCATACTACCTGAGT
GGATTGTGGTTATATGTTTATATGCTTATTCCAAATATAGTGCTAAGATTAGCATTAGAGACAGGAAAAT
ATTCACAGGTTTTGAAACCAGAAGGAGCCAAACACAAATCCACGATCCAGCTCTGCATACTCTCACCCAG
CCTTAGTTTTCTTACACAGAGAATGAAGACAATACTATTTGCCTTGTGGCATCTCTGTGAAGTTAAAGGA
GACATCGATTGTACACACAGCACTGCATGGGCGGCGGGAGGCTGGGCCCCTACCAGCTCTAAGGACAATC
ACCATTGGATGCTCCACGATCCTACTCTCAGGAGGCTCGTATGCCATATGCCATGTGAGTGTCACTTACC
CGGTGAACACATACTTGTTTATTATAAATTACTCCCGTGCTGTTTTCTTTGTTTTACATGTTCACAAATC
TGTTTAAAAAGGTACAATTATGAAATTAAAAGTTAACTAAAGGGGGATGTTTTAATTATCTCTGAAATTT
AAACCCCCAAATCCAGGTAATAAAGCAAGGAAATGTCTTACAGCCCAACACTTGCCATCAATACTTTTTC
GATGTTAGTGGGCAGGGGAGGGTAGTGAAAGTGAAGGAATCAGAGCTCTGATGGGTGCACATTGTCTTCC
CTACAAATCCATTTCTTGTCCAGCTTTCCTTCCTCTTTGGGGCTGCTCTATCCTTTTCTGCACATTTGAA
CTCCTCCGCTGTGGGCCATTCTCATTTGCTTTACTTCCTAGTCTGAATTCCATGGGAACTGCATTTAAGA
GGAGAGGGGAACCACTTTGGGACTGGAGGAAGTTCACCTTATGCCATATGCCTGCCTCCTTCCTCTACAG
TGAACGGTCTCTGGTGTCCCTGGGTGTTCAGTTTCTTTCCACTCATGCGTTACTGACTGTTCAGGTGGCA
AATGGCCCATGACCTTTATGGTACTTAAGGGAAAATAATTAAAAGCTGTGTTTCTTTTTTAGTTAACTTT
TATTTTAGGTTTGGGGGTACATGGGTGGGTTTGTTATACGGGTAAACACGTGCCACAGGAGTTTGTTGTA
...
Yukarıdaki dizilimler nasıl elde edilmiştir? Bunu tüm incelikleri
ile anlatmak kolay olmasa gerek.
Hele anlamak. Üstelik bir istatistikçi
için! Biz, olguyu basitleştirerek kendi istatistik dilimizde ele almaya
çalışalım.
30 baz’dan oluşan (30 bp uzunluğunda) bir dizi göz önüne alalım.
Başka bir ifade ile A,G,C,T harflerinden yan yana dizilmiş 30 harflik bir
metin göz önüne alalım. Bu dizinin tümünü gözlemleyemediğimizi (aynı anda
metnin tümünü göz önüne serip okuyamadığımızı) düşünelim. Örneğin, 5 bazlık
dizi parçaları (fragment’ler) gözlenebilir (göz önüne serilip okunabilir)
olsun. Ancak, 30 baz’lık metni arka arkaya dizilmiş 6 tane 5 bazlık parçaya
bölüp de ele almak mümkün olamasın. Ayrıca 10 bazlık dizi parçaları olan
fragmentler de 30 bazlık metnin içinden rasgele yerlerden kopup gelmiş
olsun. Đki fragment birbirinden ayrık olabildiği gibi arakesitleri de
olabilir. Örneğin bir fragment hemen metnin başındaki parça, diğeri metnin
üçüncü harfinden sonraki parça ise 3 bazlık bir arakesitleri (çakışan
yerleri) var olacaktır. Fragmentler aşağıdaki şekilde gösterildiği gibi
hizalanabilsin. Hizalanmış fragmentlerin birleşimi bir kontig (contig)
oluştursun. Aşağıda 10 fragmet ve 3 kontig görülmektedir. Kontigler metnin
yeniden
ortaya
çıkarılmasında
kullanılacaklardır.
Ancak,
kontiglerin
yerleri ve yönleri belli değildir.
fragment
kontig
(contig)
metin
Yukarıdaki kontigler ile birlikte, kontiglerin altına çizilen metin
aldatıcı bir gösterimdir. Bunu aşağıdaki örnekle açıklamaya çalışalım.
Aşağıda 5 tane 10 bazlık fragment vardır. Bu fragmentlerin oluşturduğu
konticleri belirleyip bir metin oluşturmaya çalışalım.
CACACCACAC
TATCCCACAC
CCCACACACC
CCACACACCA
CACCACACCC
Bu fragmentler ortak kısımları alt alta getirilerek sütunlarda aynı harfler
olacak şekilde hizalanmaya (çakıştırılmaya, yapboz gibi) çalışılsın.
Aşağıda üç tane farklı hizalanmış durum ele alınmaktadır. Başkaları da
olabilir.
1.
CACACCACAC
TATCCCACAC
CCCACACACC
CCACACACCA
CACCACACCC
TATCCCACACACCACACACCACACCC
bir tane kontic
Fragmentlerin
bulunduğu
satırların
aşağıdaki gibi de yazılabilir.
yeri
değiştirilerek
bu
hizalama
TATCCCACAC
CCCACACACC
CACACCACAC
CCACACACCA
CACCACACCC
TATCCCACACACCACACACCACACCC
CACCACACCC
CCACACACCA
CACACCACAC
CCCACACACC
TATCCCACAC
TATCCCACACACCACACACCACACCC
2.
CACACCACAC
TATCCCACAC
CCCACACACC
CCACACACCA
CACCACACCC
CCACACACCACACCC
TATCCCACACACC
iki tane kontic
Fragmentlerin bulunduğu satırların yeri değiştirilerek bu hizalama
aşağıdaki gibi de yazılabilir.
CACCACACCC
CACACCACAC
CCCACACACC
CCACACACCA
TATCCCACAC
CCACACACCACACCC
TATCCCACACACC
3.
CACCACACCC
CCACACACCA
CACACCACAC
CACACCACACACCACACCC
CCCACACACC
TATCCCACAC
TATCCCACACACC
iki tane kontig
Çok farklı hizalamalar olabileceği gibi kontiglerin de sıralanışı
belli değil. Yukarıdaki hizalamalardan aşağıdaki dizilimler çıkabilir.
...TATCCCACACACCACACACCACACCC...
...CCACACACCACACCC...TATCCCACACACC...
...TATCCCACACACC...CCACACACCACACCC...
... CACACCACACACCACACCC... TATCCCACACACC...
... TATCCCACACACC... CACACCACACACCACACCC...
Metnin içinde yan yana olan CACCC harfleri sadece bir yerde ve
kırmızı renkli olsunlar ve fragmentlerde de bu harfler kırmızı renkli
görünsün.
CACACCACAC
TATCCCACAC
CCCACACACC
CCACACACCA
CACCACACCC
Đlk önce renkli harflerin bulunduğu fragmentleri,
CCACACACCA
CACCACACCC
CACACCACAC
CACACCACACCCCACACACCA
olarak hizalayıp, diğerleri ele alınabilir.
CCACACACCA
CACCACACCC
CACACCACAC
CCCACACACC
TATCCCACAC
TATCCCACACACCACACCCCACACACCA
kontic
Ortaya çıkan dizilim:
...TATCCCACACACCACACCCCACACACCA...
dır.
Fragmentler aşağdaki metinden 10 harflik dizi parçalarıdır. Fragmentlerin
sol uçlarındaki harfler metinden rasgele seçilen 10.,3.,6.,21. ve 12.
harflerdir.
Metin:
CGTATCCCACACACCACACCCACACACCAC
Rasgele seçilen fragmentler:
CACACCACAC
TATCCCACAC
CCCACACACC
CCACACACCA
CACCACACCC
Hizalama sonucundaki metin:
...TATCCCACACACCACACCCCACACACCA...
Rasgele olarak başka 5 fragment seçildiğinde hizalama başka bir
dizilimle
sonuçlanabilir.
Neler
ile
karşılaşılabilir,
sorusunun
içeriğindeki olasılık hesaplarını yapmak oldukça zordur. Metin (genom)
üzerinde tek olan ve yerleri bilinen CACCC gibi markır (marker) veya çapa
(anchor) denen kısımlar olabilir. Bu çapalar, yani markır’lar bazı
fragmentlerin
birbirine
demirlenmesini
ve
kontiglerin
sıralanmasını
sağlamaktadır. Markır’lar dizilemede en önemli yol gösterici işaretlerdir.
fragment
kontig
(contig)
metin
markır
(marker)
Dizileme işlemlerinde fragmentler aynı uzunlukta kesilememektedir. Fragment
uzunlukları rasgele olmaktadır. Kesme işleminde restriksiyon enzimleri (restriction enzyme)
kulanılmaktadır. Restriksiyon (ayırma) enzimlerinin hepsi DNA’yı şekerin 3’ karbonu ile
fosfat arasında kesmektedir. Restriksiyon enzimleri tarafından üretilen fragmentler 5’ fosfat
ve 3’ hidroksil uçlarına sahiptir. Bir restriksiyon enzimi, DNA dizisinde restriksiyon sitesi
denen kendine özel baz çiftlerini bulup fosfodiester bağıntısını hidrolize ederek DNA yı yarıp
kesmektedir.
EcoR1 enzimi
...GAATTC...
...CTTAAG...
...G
....CTTAA
AATTC...
G...
Bazı enzimler ve özellikleri (P.J.Russel, (2002) iGenetics, sayfa 166).
Enzyme with 6-bp
Recognition Sequences
Enzyme
Name
Pronunciation
BamHI
“bam-H-one”
BgIII
“bagel-two”
Organism in
Which Enzym Is
Found
Bacillus
amyloliquefaciens
H
Bacillus globigi
Recognition
Sequence and
Position of Cut
5′G ↓ GATC C 3′
3′C CTAG↑ G 5′
A↓ GATCT
T CTAG↑ A
EcoRI
“echo-R-one”
E.coli RY13
G ↓ AATTC
C TTAA↑ G
HaeII
HindIII
PstI
SalI
SmaI
Enzyme with 4-bp
Recognition Sequences
HaeIII
HhaI
HpaII
Sau3A
Enzyme with 8-bp
Recognition Sequences
NotI
Enzyme with Recognition
Sequences That Are Not
Symmetrical
BstXI
“hay-two”
“hind-D-three”
“P-S-T-one”
“sal-one”
“sma-one”
“hay-three”
“ha-ha-one”
“hepa-two”
“sow-three-A”
“not-one”
“b-s-t-x-one”
Haemophilus
aegyptius
Haemophilus
influenzae Rd
RGCGC ↓Y
Y↑ CGCGR
↓
A AGCTT
T TCGA↑ A
↓
Providencia
stuartii
C TGCA G
Streptomyces
albus
G TCGAC
Serratia
marcescens
CCC GGG
G↑ ACGTC
↓
C AGCT↑ G
↓
GGG↑ CCC
↓
Haemophilus
egyptius
GG CC
Haemophilus
hemolyticus
G CG C
Haemophilus
parainfluenzae
CC↑ GG
↓
C↑ GCG
↓
C CGG
G GC↑ C
Staphylococcus
aureus 3A
↓
Nocardia
otitidis-caviarum
↓
Bacillus
stearothermophilus
GATC
CTAG↑
GC GGCCGC
CG CCGG↑ CG
↓
CC AN N N N N NTGG
G G T N↑ N N N N N A C C
Fragment uzunluğu belli bir olasılık dağılımına sahip bir rasgele değişken olarak ele
alınabilir. Dizileme konusunu ilerideki derslerde ele alacağız. Şimdi, dizilemeye başlamadan
önce yapılması gereken bazı olasılık hesaplamalarına değinmeye çalışalım. Örneğin, belli bir
dizilemede:
* kontigler tarafından kapsanan genom (metin) yüzdesi nedir?
* oluşabilecek kontig sayısının beklenen değeri nedir?
* kontiglerin ortalama uzunluğu nedir?
gibi soruların cevaplanması gerekebilir. Bu sorulara geçmeden önce kısa bir hatırlatma
yapalım.
Hatırlatma: Sürekli düzgün dağılıma sahip X ∼ U (0,100) rasgele değişkeninin dağılım
fonksiyonunun grafiği,
1.5
1
0.5
0
-0.5
-20
0
20
40
60
80
100
120
ve
1
, y = 1, 2, 3,...,100
100
olasılık fonksiyonu ile 1,2,3,...,100 değerleri üzerinde kesikli düzgün dağılıma sahip Y rasgele
değişkeninin dağılım fonksiyonunun grafiği,
fY ( y ) =
1.5
1
0.5
0
-0.5
-20
0
20
40
60
80
100
120
olmak üzere, t ∈ R için FX (t ) ≈ FY (t ) yani P ( X ≤ t ) = P (Y ≤ t ) dır. Aşağıda yapılacak olan
olasılık hesapların bazılarında kesikli düzgün dağılım yerine sürekli düzgün dağılım
kullanılacaktır.
G tane bazdan oluşan bir dizi (metin, genom), fragment uzunluğu L olan N tane
fragment kullanılarak dizilenmeye çalışıldığında
NL
a=
G
sayısına, örtü (coverage) sayısı denir.
Genom uzunluğu büyük olsun. Fragmentlerin metinden rasgele alındığını
varsayalım. Fragmentin sol ucundaki noktayı (0,G-L) aralığındaki düzgün dağılımdan gelen
bir rasgele değişken olarak düşünebiliriz. Fragment uzunluğu, genom uzunluğuna göre çok
küçük ise U(0,G-L) düzgün dağılımı yerine U(0,G) düzgün dağılımında olasılık hesabı
yapabiliriz. Bir fragmentin sol ucunun h uzunluklu bir aralığın içine, örneğin (t , t + h)
aralığının içine düşmesi olasılığı h/G kadardır. Rasgele seçilen N tane fragment’ten, sol uçları
h
) olmak üzere,
G
sol uçları h uzunluklu aralığın içine düşen fragment sayısının beklenen değeri E (Y ) = Nh / G
dir. N sayısı büyük ve h küçük olduğunda Y rasgele değişkeni yaklaşık olarak, λ = Nh / G
parametreli Poisson dağılımına sahiptir. Aralığın uzunluğu h=L olsun. N tane fragment’ten
sol uçları L uzunluklu bir aralığın içinde olanların sayısı yaklaşık olarak λ = NL / G = a
parametreli Poisson dağılımına sahiptir. Şimdi, metin üzerinde bir t ( t ∈ ( L, G ) ) noktası göz
böyle bir aralığın içinde olanların sayısı Y rasgele değişkeni olsun. Y ∼ b( N ,
önüne alalım. Bu noktanın sol yanında L uzunluklu (t − L, t ) aralığını ele alalım. Sol ucu bu
aralın içinde bulunan en az bir fragmentin olması (bizim noktamızı içeren en az bir
fragment’tin bulunması) olasılığı,
P (Y > 0) = 1 − P (Y = 0) = 1 − e− a
dır.
Metin üzerinde seçilen her hangi bir t noktasının, rasgele alınan N tane
fragment’ten en az biri tarafından kapsanması (örtülmesi) olasılığı p = 1 − e− a olup, bu
olasılık bu noktanın okunması olasılığı olarak düşünülebilir. Metindeki en az bir fragment
tarafından örtülen (okunan) kısmın oranı’nın beklenen değeri, bir noktanın okunma olasılığı
olan p = 1 − e− a değerine eşittir. G=100000, L=500, N=300 için
a=
NL 300 × 500
=
= 1, 5
G
100000
olup,
p = 1 − e − a = 1 − e −1.5 = 0.77687 ≈ %78
NL
sayısına bağlı olarak, metinde kontigler (en az bir fragment)
G
tarafından kapsanan kısmın oranı’nın beklenen değeri bazı a değerleri için aşağıdaki gibidir.
dır. Örtü sayısı olan a =
a :
2
1-exp(- a ): 0.86466
4
0.98168
6
0.99752
8
0.99966
10
0.99995
12
0.99999
14
1
Görüldüğü gibi a değerini 8 ‘den daha büyük tutmak büyük bir olasılık artışı
sağlamamaktadır.
Başka bir soruya cevap aramaya çalışalım. G=100000, L=500, N=1000 durumunda
oluşabilecek kontig sayısının beklenen değeri nedir?
Her kontig bir tek “en sağ fragment’te” sahiptir. Kontiglerin sayısı “en sağ
fragment” sayısı kadardır. “En sağ fragment” sayısı bir rasgele değişkendir. Bir fragmentin
“en sağ fragment” olması olasılığı nedir? Belli bir fragmentin “en sağ fragment” olması için
onun üzerinde hiçbir fragmentin sol uç noktası bulunmamalıdır. Bunun olasılığı e− a dır. “En
sağ fragment” sayısının beklenen değeri N e− a dır.
Kontiglerin sayısının beklenen değeri = Ne − a =Ne
−
NL
G
dır. G=100000, L=500 için a değerine bağlı olarak kontiglerin sayısının beklenen değeri
aşağıdaki gibi olmaktadır.
NL
a= G
Ne
−
NL
G
: 0.5
: 60.7
0.75
70.8
1
73.6
1.5
66.9
2
54.1
3
29.9
4
14.7
5
6
6.7
3.0
7
1.3
Kontiglerin sayıları gibi boyları (uzunlukları) da bir rasgele değişkendir.
Kontiglerin boy ortalaması nedir?
a:
2
e −1
: 1597.3
Kontiglerin boy ortalaması= L ×
a
4
6
8
33536
186250
10
a
6699.8
1101300
Download