Çizge VERİ MADENCİLİĞİ Farklı Demetleme Yöntemleri Veri kümesi D={x1,x2,...,xK} Veri kümesi ağırlıklı, yönsüz, bağlı bir çizge ile temsil edilir: G(V,E) V={xi} veri kümesindeki nesnelerden oluşan düğümler kümesi xi ve xj düğümleri arasındaki ağırlık Yrd. Doç. Dr. Şule Gündüz Öğüdücü www.cs.itu.edu.tr/~gunduz/courses/verimaden/ E={wij} 0.1 0.6 0.8 S={V,N,W,C} V : veri kümesindeki nesnelerden oluşan düğümler kümesi N ⊆ V×V W: N kümesinin elemanları için simetrik benzerlik matrisi P: Demetleme kriteri Çizge Bölme: P demetleme kriterini enbüyütecek şekilde V kümesini k demede bölmek (C={C1,...,Ck}). Her demet bir altçizge Gi(Vi,Ei) k UV i 0.8 3 Ci demedinin çapı: diam(Ci) 3 4 Çizge Kesmesi: Demetleri biribirine bağlayan ayrıtların ağırlıklarının toplamı cut (G1 , G2 ) = tek bağ, tam bağ ya da ortalama G1 0.1 0.8 Ci demedinde bulunan en uzak iki nesne arasındaki 1 0.8 5 3 5 0.8 cut(G1,G2) = 0.3 6 4 0.2 ∑w ij xi ∈G1 , x j ∈G2 G2 0.8 0.6 2 uzaklık Ci demedinden bulunan tüm nesneler arasındaki uzaklıkların ortalaması www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0.7 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ d=1-s 6 4 0.2 Çizge Kesmesi Tanımlar: uzaklık d, benzerlik s 0.8 1. Aynı grup içindeki ağırlıkları enbüyütme 2. Farklı gruplar arasındaki ağırlıkları enküçültme Çizge Tabanlı Demetleme için Tanımlar Ci ve Cj demetleri arasındaki uzaklık: d(Ci,Cj) 5 0.8 0.6 0.8 Problem: Çizge tabanlı demetleme yöntemleri için P demetleme kriteri nedir? 0.1 1 2 Ei = {{u, v} ∈ E ∧ u, v ∈ Vi } 2 Demetlemenin sağlaması gereken koşullar: Aynı demetlerdeki nesnelerin birbirine daha çok banzemesi 2. Farklı demetlerdeki nesneler birbirine daha az benzemesi Aynı koşullar çizge tabanlı demetlemeye uygulanırsa =V www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0.2 3 1. i =1 0.7 Çizge Tabanlı Demetleme Problemi 6 4 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Çizge Tabanlı Demetleme 0.8 0.8 2 1 5 1 0.8 0.7 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 6 1 Çizge Kesmesi Kriteri Çizge Tabanlı Demetleme Kriteri Kriter: En küçük kesme (Minimum-cut) Demet içindeki ağırlıkların enbüyük, demetler arasındaki ağırlıkların enküçük olması (min-max cut) Demetler arasındaki ağırlıkları en küçültüyor min cut (G1,G2) k Optimal kesme minimize∑ Enküçük kesme m =1 vi , v j ∈Gm Demetler daha dengeli Problemin optimal çözümü NP karmaşık Problem: sezgisel yöntemler Sadece demetlerearsı ağırlıkları enküçültüyor Demet içi ağırlıkları göz önüne almıyor 7 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Matris Yapısı Yaklaşım: Bir matrisin özdeğerleri ve özvektörleri yapısı hakkında bilgi verir ağırlığı a1n ⎤ ⎡ x1 ⎤ ⎡ x1 ⎤ M ⎥⎥ ⎢⎢ M ⎥⎥ = λ ⎢⎢ M ⎥⎥ ⎢⎣ x n ⎦⎥ a nn ⎦⎥ ⎣⎢ x n ⎦⎥ ⎡ a11 K ⎢ M ⎢ ⎣⎢ a n1 K 0.1 0.8 9 0.2 3 0.1 0.8 0.8 0.6 2 0.8 3 6 4 0.2 0.8 0.7 x6 0.1 0 x2 0.8 0 0.8 0 0 0 x3 0.6 0.8 0 0.2 0 0 x4 0 0 0.2 0 0.8 0.7 x5 0.1 0 0 0.8 0 0.8 x6 0 0 0 0.7 0.8 0 10 L=D-A 5 1 0.8 0.6 0.8 x1 x2 x3 x4 x5 x6 x1 1.5 -0.8 -0.6 0 -0.1 0 x2 -0.8 1.6 -0.8 0 0 0 x3 -0.6 -0.8 1.6 -0.2 0 0 x4 0 0 -0.2 1.7 -0.8 -0.7 x2 x3 x4 x5 x6 1.5 0 0 0 0 0 x2 0 1.6 0 0 0 0 x5 -0.1 0 0 -0.8 1.7 -0.8 x3 0 0 1.6 0 0 0 x6 0 0 0 -0.7 -0.8 1.5 x4 0 0 0 1.7 0 0 2 0.8 x5 0 0 0 0 1.7 0 x6 0 0 0 0 0 1.5 11 6 4 0.7 3 0.2 Özellikleri: www.cs.itu.edu.tr/~gunduz/courses/verimaden/ x5 0 x1 x1 0.8 x4 0.6 Laplacian matrisi (L) n×n simetrik matris j 5 x3 0.8 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ ayrıtların ağırlıklarının toplamı 0.1 x2 0 Matris Yapısı Derece matrisi (D) n×n diagonal matris D ( i , i ) = ∑ w ij x düğümünden diğer düğümlere olan i 1 x1 x1 Simetrik matris Matris Yapısı 6 4 0.7 Λ = {λ1 , λ2 ,..., λn } 0.8 Özellikleri: www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0.8 0.6 0.8 Bir matrisin izgesi incelenir. İzge (Spectrum ): Çizgenin öz değerlerinin büyüklüklerine göre sıralanmış özvektörü 5 1 2 İzgesel Çizge Kuramı Benzerlik matrisi (W) n×n matris (n: düğüm sayısı) W=[wij]: xi ve xj düğümleri arasındaki ayrıtın Çizge düğümlerin ikili benzerliklerinden oluşan W simetrik matrisi ile temsil edilir Lineer cebir yöntemleri kullanılır 8 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ İzgesel Demetleme cut (Gm , G \ Gm ) ∑ wij Özdeğerler pozitif gerçel sayılar Özvektörler gerçel ve dikey Özdeğerler ve özvektörler çizge yapısı hakkında bilgi veriyor. www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 12 2 Optimal Enküçük Kesme Bulma (Hall’70, Fiedler’73) İzgesel Çizge Demetleme İki altçizgeye (G1,G2) bölünen çizge bir vektörle temsil edilir. ⎧+ 1 if xi ∈ G1 pi = ⎨ ⎩ − 1 if xi ∈ G2 Mat. Theory and Appl., Vol. 11, No. 3, pp. 430 - 452, 1990. Bölmenin kesmesini enküçültmek için f(p) fonksiyonunu enküçültecek p vektörü bulunur: f ( p) = ∑w (p i , j∈V ij i Önişleme Ayrıştırma − p j ) 2 = pT L p Laplacian matrisi Rayleigh Kuramına göre: A. Pothen, H.D. Simon and K. Paul Liou. Partitioning Sparse Matrices with Eigenvectors of Graphs, SIAM J. f(p)’nin enküçük değeri L matrisinin ikinci enküçük özdeğeri ile elde edilir. vektörüdür. 13 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Önişleme Çizgenin L Laplacian matrisini oluşturma 1.5 -0.8 -0.6 0 -0.1 0 x2 -0.8 1.6 -0.8 0 0 0 x3 -0.6 -0.8 1.6 -0.2 0 0 x4 0 0 -0.2 1.7 -0.8 -0.7 x5 -0.1 0 0 -0.8 1.7 -0.8 0 -0.7 0 0 -0.8 1.5 0.0 0.4 -0.4 -0.6 -0.3 -0.3 -0.9 0.2 0.4 -0.4 0.0 0.3 0.3 0.3 0.4 -0.4 0.6. 6 0.1 0.1 0.6 0.4 0.4 0.4 -0.5 -0.5 -0.6 2.5 0.4 0.4 -0.2 -0.3 -0.3 -0.2 2.6 0.4 0.4 -0.2 0.7 0.7 0.9 Ayrıştırma L matrisinin özdeğerlerinin X ve özvektörlerinin Λ bulunması Düğümlerin λ2 özvektörü ile temsil edilmesi Λ= 2.1 2.3 x1 -0.4 x2 -0.4 x3 -0.4 x4 0.4 x5 0.4 x6 0.4 X= Gruplama 2. 15 Yinelemeli ikiye demetleme (L. Hagen, A.B. Kahng, New spectral methods for ratio cut partitioning and clustering, IEEE Trans. Comput. Aided Des. 11,1992) Yinelemeli olarak ikiye demetleme algoritmasını hiyerarşıik olarak uygulanması Daha fazla sayıda özvektörü kullanarak demetleme (J. Shi and J. Malik. Normalized cuts and image segmentation. IEEE Trans. on Pattern Analysis and Machine Intelligence, 22(8):888-905, 2000.= x1 -0.4 Orta noktadan x2 -0.4 x3 -0.4 Demet A: Eksi noktalar Demet B: Artı noktalar x4 0.4 x5 0.4 x1 0.2 x4 -0.4 x6 0.4 x2 0.2 x5 -0.7 x3 0.2 x6 -0.7 G1 G2 16 K-Yönlü İzgesel Demetleme Biz çizge k adet altçizgeye bölünmek isteniyor. İki yaklaşım Ortalamadan ya da orta noktadan bölünür www.cs.itu.edu.tr/~gunduz/courses/verimaden/ K-Yönlü İzgesel Demetleme Tek boyutlu vektörde bulunan elemanlar sıralanır Vektör ikiye bölünür Bölme noktası nasıl belirlenir? Demetler nasıl belirlenir? www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 14 Spectral Bi-partitioning Algoritması x1 x6 Yeni boyutlardan yararlanarak nesnelerin iki veya daha fazla demede ayrılması www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Spectral Bi-partitioning Algoritması 1. Matrisin özvektörlerinin ve özdeğerlerinin bulunması Veri kümesindeki her nesnenin bir veya daha çok özvektörü kullanılarak daha küçük bir boyuta taşınması Gruplama p için optimal çözüm Fiedler vektörü olarak bilinen λ2 veri kümesinin matris olarak temsil edilmesi Çizgeler arasındaki optimal kesmeyi yaklaşık olarak bulabilir (Shi & Malik, 2002). Veri içindeki grupları belirgin hale getirir (M. Brand and K. Huang. A unifying theorem for spectral embedding and clustering, Proceedings of the Ninth International Workshop on Artificial Intelligence and Statistics, January 2003.) Benzer nesneler arasındaki ilişki kuvvetleniyor, daha az benzer nesneler arasındaki ilişki zayıflıyor. Özvektörleri kullanarak veriyi daha az boyutlu bir uzaya taşır www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 17 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 18 3 K-Özvektör Demetleme Örnek 2 k özvektör kullanarak demetleme yapılıyor (A. Ng, M. Jordan, and Y. Weiss. On spectral clustering: Analysis and an algorithm, In Advances in Neural 1 0 -2 -1.5 -1 -0.5 3. 0.6 0.4 0.2 En büyük iki özdeğer kullanılarak veri kk-means algoritması kullanılarak demetlenebiliyor 19 Bir kesme Bir kesme -0.7075 -0.707 -0.7065 0 -0.706 -0.2 -0.6 -0.8 için genişlik için iletkenlik φ (S ) = c(S) şu şekilde tanımlanmıştır 21 20 ∑ xi ∈S , x j ∈S wij min{| S |, | S |} ∑ xi ∈S , x j ∈S wij min{c( S ), c ( S )} c( S ) = c( S , V ) = ∑ x ∈S ∑ x ∈V wij i j Bir demedin genişliği (iletkenliği) demet içindeki kesmelerin genişliklerinin (iletkenliklerinin) en küçüğü Demetlemenin genişliği (iletkenliği) demetlerin genişliklerinin (iletkenliklerinin) en küçüğü Genişliğin (iletkenliğin) büyük olması iyi bir demetleme olduğunu gösteriyor www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Çizge Tabanlı Demetleme Yöntemi (Kannan’00) 22 Evrimsel Algoritma Tabanlı Çizge Demetleme Çizgeyi demetlemek için iki kriter beraber kullanılıyor: Her demedin iletkenliği (genişliği) en az α değerinde olmalı Demetler arası ayrıtların ağırlıklarının toplamının bütün ayrıtların ağırlıklarının toplamına oranı ε değerinden büyük olmamalı Çizge demetleme problemi NP-karmaşık bir problem olduğundan doğa esinli algoritmalar kullanılarak problem çözülebilir (Ş.Uyar and Ş.Oguducu, A New Graph-Based Evolutionary Approach to Sequence Clustering, The Fourth International Conference on Machine Learning and Applications, 2005) Amaç: Problemin çözümü NP-karmaşık olduğu için yaklaşık bir çözüm önerilyor. www.cs.itu.edu.tr/~gunduz/courses/verimaden/ -0.708 -0.4 ψ (S ) = -0.7085 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ the 41st Annual Symposium on the Foundation of Computer Science, 2000.) -0.709 Çizge Tabanlı Demetleme Yöntemi (Kannan’00) En küçük kesme bulunarak demetlenirse altçizgeler arasındaki nesneler dengeli dağılmayabilir. Demetlerin kalitesi önemli (Ravi Kannan and Santosh Vempala and Adrian Vetta, 2 0.8 On Clusterings: Good, Bad, and Spectral, Proceedings of 1.5 -2 Ayrıştırma: A' matrisinin özvektörleri bulunur. Veri kümesi en büyük k özdeğer ile temsil edilir Demetleme: k-means algoritması kullanılarak n×k boyutundaki veri k demede ayrılır. www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 1 -1.5 Çizge Tabanlı Demetleme Yöntemi (Kannan’00) 0.5 -1 Önişleme: ölçeklendirilmiş ağırlık matrisi oluşturulur www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0 -0.5 A' = D −1 / 2 AD −1 / 2 2. ⇒ k-means algoritmasının performansı bu durumda çok düşük 0.5 Information Processing Systems 14: Proceedings of the 2001.) 1. Veri kümesi iki spiral şeklinde gruptan oluşuyor 1.5 23 Aynı demetteki nesneler arasındaki ayrıtların ağırlıklarının toplamının, demetler arasındaki ayrıtların ağırlıklarının toplamına oranını enbüyütmek Demet sayısını adaptif olarak belirlemek. www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 24 4 Evrimsel Algoritma Tabanlı Çizge Demetleme Demetleme Değerlendirme İki objektif fonksiyonu: Min-max cut Silhoutte index 25 Demetleme Değerlendirme Farklı demetleme teknikleri En iyi demetleme algoritmasını seçmek zor Verinin istatistiksel özelliğine, önişleme tekniklerine, nitelik sayısına bağlı olarak algoritmaların avantajları ve dezavantajları var Aynı veri kümesi üzerinde farklı algoritmalar farklı demetleme sonuçları üretebilir. Hangi demetlemenin daha iyi olduğuna karar vermek gerekiyor Veri Kümesi y Bir Veri Kümesi için Farklı Demetlemeler 1 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0 DBSCAN 0.2 0.1 0.1 0 0.2 0.4 0.6 0.8 0 1 0 K-means uygulama alanını iyi incelemek gerekiyor demetleme sonucunu iyi anlamak gerekiyor 1 0.9 0.9 0.8 0.8 0.7 0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0 27 0.2 0.1 0 0.2 0.4 0.6 0.8 1 0 0 0.4 0.6 0.8 1 x 28 Nesneler rasgele dağılmış Her demetleme algoritması veri kümesi üzerinde demetleme yapar Hopkins istatistiği: Veri kümesi içinde demetler bulunup bulunmadığını test etmek için kullanılır Veri uzayında rasgele dağılmış p nokta üretilir Veri kümesinden örnekleme ile p nokta seçilir Her iki küme için veri kümesinden en yakın nesnler seçilir. Hopkins istatistiği Hatalı veriler için örüntü bulunmaması Farklı demetleme algoritmalarını karşılaştırma Farklı demetlemeleri karşılaştırma Farklı demetleri karşılaştırma ui yapay olarak üretilmiş noktalara olan uzaklık, wi veri kümesinden seçilmiş olan noktalara olan uzaklık p H= ∑w i =1 p 29 i p ∑u + ∑ w i =1 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0.2 Veri kümesi içinde gruplar olmayabilir. Doğruluk, kesinlik, duyarlılık Demetleme yöntemlerinde değerlendirilmesi gerekenler: 1 Veri Kümesi Demetlemeye Uygun mu? Gözetimli öğrenme için kullanılan yöntemler: 0.8 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Demetleme Değerlendirme 0.6 Max x 0.4 x 1 0.1 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 0.2 x y 26 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ y www.cs.itu.edu.tr/~gunduz/courses/verimaden/ y Hangi demetleme algoritması kullanılmalı? Farklı bir demetleme uygulanmalı mı? Farklı demetleme yöntemleri kullanılarak sonuç nasıl iyileştirilir? i i =1 i www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 30 5 Harici Değerlendirme Demetleme Değerlendirme Ölçütleri Üç yaklaşım: Harici Gösterge:Veri kümesi için öngörülen bir yapıya dayanarak değerlendirme Dahili Gösterge: Ek bir bilgi kullanmadan veri kümesinden elde edilen bilgiye dayanarak değerlendirme Göreceli Değerlendirme: Aynı algoritmanın farklı parametrelerini kullanarak elde edilen demetleme sonuçlarını değerlendirme İki kriter: Sıkılık: Her demette bulunan nesneler birbirine mümkün olduğunca yakın olmalı Uzaklık: Demetler birbirinden mümkün olduğunca uzak olmalı Demetleme algoritması kullanılarak elde edilen demetleme C={C1,...,Ck} Veri içinden bulunan gruplar P={P1,...,Pm} Demetleme sonucundan elde edilen dağılım SS: Eğer iki nesne C için aynı demette ve P için aynı Tek bağ Tam bağ Demet merkezleri arasındaki uzaklık 31 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ grupta ise (a) SD: Eğer iki nesne C için aynı demette ancak P için farklı gruplarda ise (b) DS: Eğer iki nesne C için farklı demette ancak P için aynı grupta ise (c) DS: Eğer iki nesne C için farklı demette ancak P için aynı grupta ise (d) Harici Değerlendirme Ölçütleri Rand Statistics: Jaccard katsayısı: R= Harici Değerlendirme Ölçütleri a+d a+b+c+d J= Entropi: Her demette sınıfların nasıl dağıldığı ei = − a a+b+c e = k ∑ i=1 Folkes ve Mallows göstergesi: FM = 32 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ a a ⋅ a+b a+c m ∑ p j=1 ij log 2 p m: sınıf sayısı k: demet sayısı pij= nij/ni ni: i demedindeki nesne sayısı nij: i demedinde j sınfından nesne sayısı n: toplam nesne sayısı ij ni ei n Saflık: Bir demette ne kadar tek sınıftan örnek bulunduğu pi = max pij j k purity = ∑ i =1 33 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Dahili Değerlendirme Ölçütleri Sadece veri kümesi özellikleri kullanılarak yapılan değerlendirme Hataların karelerinin toplamı (SSE) İki farklı demetlemeyi ya da iki demedi karşılaştırmak için iyi bir yöntem Demet sayısını tahmin etmek için de kullanılabilir. Silhouette Göstergesi: xi nesnesi Cj demedinde 9 8 4 7 6 SSE 2 0 5 4 -2 Ortalama uzaklığa göre xi nesnesine en yakın demet Ch xi nesnesi için silhouette göstergesi s ( xi ) = 10 6 34 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Dahili Değerlendirme Ölçütleri ni pi n d ( xi , Ch ) − d ( xi , C j ) max(d ( xi , Ch ), d ( xi , C j )) -1 ≤ s(vi) ≤ 1 1’e yakın olursa xi doğru demette Demetleme için silhouette göstergesi: |Vj| Sj = 2 1 -6 0 5 10 15 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 2 5 10 15 20 25 GS = 30 K 35 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ i i =1 | Vj | k 3 -4 ∑ s( x ) ∑S j =1 k j 36 6 Göreceli Değerlendirme Göreceli Değerlendirme Ölçütleri Palg seçilen demetleme algoritmasının parametreleri Palg’deki parametrelerin farklı değerleri ile elde edilen demetlemeler Ci, i=1,...,nc arasında veriye en çok uyanı seçme İki durum: Demet sayısı nc Palg’deki parametereler arasında değil: Γ = (1 / M )∑ Palg’deki parametrelerin değerleri geniş bir aralıkta değiştirilerek demetleme algoritması çalıştırılır. nc << N (nesne sayısı) sabit kaldığı en geniş aralık seçilir. Paramettre değerleri olarak bu aralığın orta noktası seçilir. Bu yöntemle demet sayısı da belirlenmiş olur. 37 x∈ci,y∈cj x,y∈C 38 www.cs.itu.edu.tr/~gunduz/courses/verimaden/ Demetlerin standard sapmalarının karakökü (RMSSTD) Semi-partial R-squared (SPR) R-Squared (RS) İki demet arası uzaklık (CD) Örtüşen demetleme için U=[uij] matrisi: xi nesnesinin cj demedine dahil olma olasılığı Bölme katsayısı: PC = www.cs.itu.edu.tr/~gunduz/courses/verimaden/ d(ci,cj)=min d(x,y) diam(C)=max d(x,y) Örtüşen Demetleri Değerlendirme Hiyerarşik demetleme için 4 gösterge Dunn göstergesi: ⎧⎪ ⎫⎪ d (ci , c j ) Dnc = min ⎨ min ⎬ i =1,..., nc ⎪ j = i +1,..., nc max k =1,..., nc diam (ck ) ⎪ ⎩ ⎭ çalıştırılır. Her nc için q’nun en büyük değeri seçilir ve nc’nin fonksiyonu olarak çizilir. Bu çizim kullanılarak nc değeri belirlenir. Hiyerarşik Demetleme için Gösterge ∑ P(i, j ) ⋅ Q(i, j) i =1 j = i +1 ncmin ve ncmax arasında değişen farklı demet sayıları için algoritma çalıştırılır. nc’nin her farklı değeri için algoritma diğer parametreleri değiştirerek r defa www.cs.itu.edu.tr/~gunduz/courses/verimaden/ N= veri kümesindeki nesne sayısı M=N(N-1)/2 P: yakınlık matrisi Q: (i,j) elemanı xi ve xj nesnelerinin bulundukları demetler arasındaki uzaklık olan matris N En iyi demetleme, demetleme göstergesi q kullanarak seçilir. Hubert istatistiği: N −1 Demet sayısı nc Palg’deki parametereler arasında: Birbiri ile örtüşmeyen demetler için tanımlanmış göstergeler: 39 1 N N nc ∑∑ u i =1 j =1 2 ij [1/nc,1] arasında değişir. www.cs.itu.edu.tr/~gunduz/courses/verimaden/ 40 7