Yayılma (Değişkenlik) Ölçüleri

advertisement
Yayılma (Değişkenlik) Ölçüleri
•Bir veri setini tanımak yada iki farklı veri setini
birbirinden ayırt etmek için her zaman yalnızca yer
ölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan ve
genellikle aritmetik ortalama etrafındaki değişimi
dikkate alarak hesaplanan istatistiklere yayılma
(değişkenlik) ölçüleri adı verilir.
1
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnek
doğrultusunda oluşturulan histogramlardır. Her iki örnek ortalaması
yaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütleden
alındığı söylenebilir mi?
1200
Frekans
400
300
1000
800
200
600
400
100
200
12
33
3,
33
9,
3
,3
3
,3
3
,3
3
X
10
95
81
0
67
3
3,
12
3
X
3
9,
10
3
,3
95
3
,3
81
3
,3
67
0
2
• Dağılımları birbirinden ayırt etmede kullanılan yayılım
ölçüleri aritmetik ortalama etrafındaki değişimleri
dikkate alan tanımlayıcı istatistiklerdir.
• Bir veri setinde aritmetik ortalamalardan her bir
gözlemin farkı alınıp bu değerlerin tümü
toplandığında sonucun 0 olduğu görülür.
3
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için;
n
x
4  8  9  13  16
x

 10
n
5
i 1
i
  x  x   4  10   8  10   9  10 
n
i 1
i
 13  10   16  10   0
• Bu örnekten görüleceği üzere gözlemlerin aritmetik
ortalamadan uzaklığı alıp toplandığında 0 elde
edildiğinden dolayı bu problem mutlaka değer
kullanarak veya karesel uzaklık alınarak ortadan
kaldırılır.
4
7) Range (Değişim Aralığı)
• Veri setindeki yayılımı ifade etmede kullanılan en basit
ölçü, değişim aralığıdır. Genel olarak az sayıda veri için
kullanılır.
• En büyük gözlem değeri ile en küçük gözlem değeri
arasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçük
veya büyük olmasından etkilendiği için bir başka
ifadeyle örnekte yer alan sadece iki veri kullanılarak
hesaplanmasından dolayı tüm veri setinin değişkenliğini
açıklamak için yetersiz kalmaktadır.
5
Değişim Aralığı
Örnek:
Aralık, veri seti içindeki en büyük değerle en küçük değer arasındaki
uzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdaki
şekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$
arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasında
gösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır;
B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedinin
fiyat aralığının A ya göre daha çok değişkenlik gösterdiğini
söyleyebiliriz.
B hissesinin aralığı
A hissesinin aralığı
10
20
30
32
36
40
50
58
60
Ücret ($)
6
Kartiller Arası Fark
• Diğer değişkenlik 3. ve 1. kartiller arasındaki farka
dikkat çeker. Çeyrek aralık olarak adlandırılan bu
fark, Q3-Q1, bize veri setinin yarısını içeren genişliği
verir.
7
8) Ortalama Mutlak
Sapma(OMS)
• Veri setindeki her bir gözlem değerinin aritmetik ortalamadan
farklarının mutlak değerlerinin toplamının örnek hacmine
bölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0
olacağından bu problemi ortadan kaldırmak
için mutlak değer
n
ifadesi kullanılır.
xi  x

Basit veriler için:
OMS  i 1
n
k
Gruplanmış veriler için:
OMS 
f
i 1
xi  x
i
k
f
i 1
k
Sınıflanmış veriler için :
OMS 
f
i 1
i
i
mi  x
8
k
f
i
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için ortalama mutlak sapma değerini
hesaplayınız.
30,41,53,61,68,79,82,88,90,98
n
x
30  41  ....  98
x

 69
n
10
i 1
i
 x x
n
OMS 
i 1
i
30  69  41  69  ...  98  69

10
n
145

 14,5
10
9
Sınıflanmış Veriler İçin Ortalama
Mutlak Sapma Örneği
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
fi
5
7
14
9
8
4
3
50
mi
153,5
160,5
167,5
174,5
181,5
188,5
195,5
Ifi(mi- x )I
92,4
80,36
62,72
22,68
76,17
66,08
70,56
470,96
k
k
x
 mi f i
i 1
k
 fi
i 1
 171,98 kg.
OMS 
 fi mi  x
i 1
k
 fi
470,96

 9.42
50
10
Yayılma Ölçülerinin Gerekliliği
Ölçümler
Ortalama
x dan
Uzaklıklar
Örnek 1
1,2,3,4,5
Örnek 2
2,3,3,3,4
1  2  3  4  5 15

5
5
3
x
2  3  3  3  4 15

5
5
3
x
1-3, 2-3, 3-3, 4-3, 5-3 2-3, 3-3, 3-3, 3-3, 4-3
veya
veya
-2, -1, 0, 1, 2
-1, 0, 0, 0, 1
İki veri seti için uzaklıklar
a) Örnek 1
b) Örnek 2
11
9) Varyans
Ortalama mutlak sapmada kullanılan mutlak değerli
ifadeler ile işlem yapmanın zor hatta bazı durumlarda
imkansız olması sebebiyle yeni değişkenlik ölçüsüne
ihtiyaç bulunmaktadır.
•
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadan
farkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetik
ortalamadan farklarının karelerinin toplamının örnek
hacminin bir eksiğine bölünmesinden elde edilen
yayılım ölçüsüne örnek varyansı adı verilir.
12
Basit veriler İçin:
Anakütle Varyansı:
m : Anakütle Ortalaması
 x  m 
2
 
2
i
N
N : Anakütle Hacmi
 x  x 
n
Örnek Varyansı :
s 
2
s2 
n 1

i 1
s2 
f i ( xi  x ) 2
k
f
k
Sınıflanmış veriler için :
i
i 1
k
Gruplanmış veriler için:
2

i 1
i 1
i
1
f i (mi  x ) 2
k
f
i 1
i
1
13
 x  x 
n
2
i
i 1
ifadesi istatistikte bir çok formülde kullanılır ve
kareler toplamı olarak adlandırılır.
• Matematiksel olarak hesaplama kolaylığı sağlaması
açısından formüllerde kareler toplamının açılımı olan
aşağıdaki eşitlik kullanılabilir.

x 

2
n
 x  x    x
n
i 1
2
i
n
i 1
2
i
i
i 1
n
14

 x

2
n
n
Basit Veriler İçin:
x
i
i 1
s 
2
i 1
2
n 1
n

fx

2
k
k
fx
i
i
Gruplanmış Veriler İçin:
s 
2
i
i
i
k
f
i
i 1
2
i
 f 1
k
i 1
i


  f i mi 

f m2   i
k
k

i
Sınıflanmış Veriler İçin :
s 
i
i
2
k
f
i 1
2
k
f
i 1
i
i
1
15
Örnek: Bir gömlek fabrikasının satış mağazasında bir gün içinde
satılan gömleklerin bedenlerine göre satış adetleri aşağıda verilmiştir.
Buna göre veri seti için varyans değerlerini hesaplayınız.
Gömlek
bedeni
Satış adedi
xi.fi
x2i.fi
0
5
0
0
1
12
12
12
2
35
70
140
3
14
42
126
4
8
32
128
5
6
30
150
186
556
toplam
s2 
802
 k

  fi xi 
k
2
 i

f
x

ii
k
i
 fi
i 1
k
 fi  1
i 1

186 
556 
80
79
2
 1,56
Sınıflanmış Veriler İçin Varyans
Örneği
Sınıflar
150-157’den az
157-164’den az
164-171’den az
171-178’den az
178-185’den az
185-192’den az
192-199’dan az
Toplam
fi
5
7
14
9
8
4
3
50
mi
153,5
160,5
167,5
174,5
181,5
188,5
195,5
fi(mi- x )2
1707,552
922,5328
280,9856
57,1536
725,0432
1091,642
1659,571
6444,48
k
k
x
 mi f i
i 1
k
 fi
i 1
 171,98 kg. s
2

2
f
(
m

x
)
i i
i 1
k
 fi  1
6444,48

 131,52
50  1
17
10) Standart Sapma
• Varyans hesaplanırken kullanılan verilerin kareleri
alındığından
verilerin
ölçü
biriminin
karesi
varyansında ölçü birimi mevcut ölçü birimini karesi
olur.
• Örnek: kg2, cm2 gibi.
• Bu nitelendirme veriler açısından bir anlam
taşımayacağından
varyans
yerine
ortalama
etrafındaki değişimin bir ölçüsü olarak onun pozitif
karekökü olan standart sapma kullanılır.
18
Basit Veriler İçin:

Populasyon Standart Sapması:

 x  m 
2
i
N
: Populasyon Standart Sapması N : Populasyon Hacmi
 x  x 
n
Örnek Standart Sapması :
s
s
i
i 1
n 1
k
Gruplanmış Veriler İçin:
2

i 1
f i ( xi  x ) 2
k
f
i 1
k
Sınıflanmış Veriler İçin :
s

i 1
i
1
f i (mi  x ) 2
k
f
i 1
i
1
19
Örnek: İstatistik I dersini alan 10 öğrencinin vize
notları aşağıdaki gibi sıralanmıştır. Buna göre vize
notları için varyans ve standart sapmayı hesaplayınız.
n
30,41,53,61,68,79,82,88,90,98
 x  x 
n
s 
2
i 1
2
i
i 1
i
n

30  41  ....  98
 69
10
30  69  41  69  ...  98  69

2
2
n 1
4538

 504,22
9
s  504,22
2
x
x
→
2
9
s  s  504,22  22,45
2
İstatistik I vizesinden alınan notların ortalama etrafında yaklaşık
olarak 22 puan değiştiği görülmektedir.
20
Aynı soru kareler ortalamasının açılımı kullanılarak
çözüldüğünde aynı sonuçları verecektir.
30,41,53,61,68,79,82,88,90,98
2
x
x
30
41
53
61
68
79
82
88
90
900
1681
2809
3721
4624
6241
6724
7744
8100

 x

2
n
n
s 
2
x
i 1
2
i
i 1
n 1
n

690
52148 
2

10
9
s  504,22
2
s  s  504,22  22,45
2
 x  690  x  52148
n
i 1
n
i
i 1
2
i
21
CHEBYSHEV TEOREMİ
Herhangi bir veri setinde, verilerin ortalamanın K standart
sapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyük
pozitif sayıdır.
K=2 ve K=3 için;
•Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagında
bulunur.
•Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağında
bulunur.
22
• Örnek: X değişkeni bir sınıftaki İstatistik I dersinin
başarı notlarını göstermek üzere, örnek ortalamasının
60 varyansının 100 olduğu bilindiğine göre, verilerin
¾ ‘ü hagi aralıkta değişir?
1 3
1 2 
4
k
 x 2s 
k 2
 60 2.10 
 40,80 
23
Standart Sapmanın Yorumlanması
- Chebyshev teoreminden, frekans dağılımının şekline
bakılmaksızın, ölçümlerin herhangi bir örneğine uygulanan
kural:
a- Ölçümlerden hiçbirinin x s yada ( x s, x s) aralığına
düşmemesi mümkündür.





b- Ölçümlerin en az ¾’ü ( x  2s , x  2s) aralığına düşer.ortalamanın


c- Ölçümlerin en az 8/9’u ( x  3s , x  3s) aralığına düşer.d- Genellikle, ölçümlerin en az (1-1/k2)’ı ( x  ks , x  ks) aralığına
düşer. (k>1)


24
- Simekrik dağılışlarda standart sapmanın yorumu:
a- Ölçümlerin yaklaşık %68’i
x s yada ( x s, x s) aralığına düşer.- ortalamanın 1
standart sapması için
b- Ölçümlerin yaklaşık %95’i ( x  2s , x  2s) aralığına
düşer.- ortalamanın 2 standart sapması için
c- Temelde, tüm ölçümler ( x  3s , x  3s) aralığına düşer.
-ortalamanın 3 standart sapması için







25
Ampirik Kural
26
Ampirik Kural
27
Ampirik Kural
28
• Örnek veri seti:
• 50 şirketin AR-GE için harcanan gelirlerinin
yüzdeleri burada tekrar verilmiştir:
13.5
9.5
8.2
6.5
8.4
8.1
6.9
7.5
10.5
13.5
7.2
7.1
9.0
9.9
8.2
13.2
9.2
6.9
9.6
7.7
9.7
7.5
7.2
5.9
6.6
11.1
8.8
5.2
10.6
8.2
11.3
5.6
10.1
8.0
8.5
11.7
7.1
7.7
9.4
6.0
8.0
7.4
10.5
7.8
7.9
6.5
6.9
6.5
6.8
9.5
29
Örnek: Aralıkları içinde kalan bu ölçümlerin
kesrini(fraction) hesaplayınız
Çözüm: İlk aralık
• = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47)
50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1
standart sapması içerisinde olduğunu ortaya koyar.
Aralık,
= (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45)
50 ölçümün 47’sini ya da %94’ünü içerir.
ortalama etrafında 3 standart sapma aralığı,
= (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43)
tüm ölçümleri içerir.
30
11) z Skoru
Verilen bir gözlem değerinin ortalamanın kaç standart
sapma uzağında olduğunu ölçer.
Örneklem
x
x
z= s
Anakütle
x
µ
z=

2 ondalık basamağa yuvarlanır.
31
z- skorunun Yorumlanması
Bir veri ortalamadan küçük olursa z-skoru değeri
negatif olur.
Olağan Veriler
: z skoru –2 ve 2 s.s arasında
Olağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s
32
33
• Örnek: 200 çelik işçisinin yıllık gelirleri incelenmiş
ve ortalaması = 24.000$ ve standart sapması s=
2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olan
Joe Smith’in z-skoru kaçtır?
18.000$
22.000$ 24.000$
Joe
Smith’in
geliri
30.000$
34

z= x s x =
22.000$  24.000$
2.000$
=-1.0 bulunur. Burada ki -1.0 ın
anlamı Joe Smith’in yıllık geliri ortalamanın 1 standart
sapma altındadır.
z-skorunun sayısal değeri göreli durumlar için ölçümü
yansıtmaktadır. Bir x değeri için bulunan en büyük
pozitif z-skoru değeri, bu x değerinin diğer bütün
ölçümlerden daha büyük olduğunu gösterir ve mutlak
değerce en büyük negatif z-skoru değeri de bu ölçümün
diğer tüm ölçümlerden daha küçük olduğunu gösterir.
Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşit
veya ortalamaya çok yakındır.
35
12) Değişkenlik(Varyasyon)
Katsayısı
• İki veya daha fazla populasyon üzerinde aynı
şans değişkenleri için yapılan araştırmalarda
değişkenliklerin karşılaştırılması için kullanılan
bir ölçüdür.
• Standart sapmayı ortalamanın bir yüzdesi
olarak ifade eden ve iki veya daha fazla
populasyondaki varyasyonu (değişkenliği)
karşılaştırmada
kullanılan
ölçüye
varyasyon(değişkenlik) katsayısı denir.
Varyasyon
Katsayısı:
s
C  *100
X
V
• Örnek: İstanbul’da ve Ankara’da yaşayan
ailelerin aylık gelirlerinin değişkenliklerinin
karşılaştırılması
36
Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan bir
araştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standart
sapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerini
kapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hisse
senedinin fiyatındaki değişkenlik daha fazladır ifade ediniz.
x
s
A
8
2
B
5
1
C
15
3
sA
2
CVA 
*100  *100  25  %25
XA
8
sB
1
CVB 
*100  *100  20  %20
XB
5
CVC
sC
3

*100  *100  20  %20
XC
15
Üç
hisse
senedinin
kapanış
fiyatlarının
değişkenlikleri
karşılaştırıldığında en büyük standart sapma değeri C hisse senedinde
olmasına rağmen en büyük varyasyon katsayısına sahip olduğundan en
fazla değişkenliğin A hisse senedinde olduğu görülür.
37
Tanımlamalar
 Simetrik Veriler
Eğer veri simetrik ise verinin histogramının sağ tarafı
ve sol tarafı eşit büyüklüktedir

Çarpık Veriler
Eğer veri çarpık ise (simetrik değilse), verinin
histogramın bir kısmı diğer kısmın büyüktür veya
küçüktür.
38
Çarpıklık
39
Çarpıklık (Asimetri) Ölçüleri
• Anakütleleri
birbirinden ayırmak için her zaman
yalnızca yer ve yayılım ölçüleri yeterli olmayabilir.
Aşağıda iki farklı anakütleden alınmış örnekler için
oluşturulan histogramlar verilmiştir.
40
13) Asimetri Ölçüleri
PEARSON ÇARPIKLIK ÖLÇÜSÜ
x  mod
Sk p 
s
veya
3( X  med )
Sk p 
s
SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
SkP = 0
ise dağılış simetrik
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
(Q3  Q2 )  (Q2  Q1 )
Skb 
Q3  Q1
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0
ise dağılış simetrik
41
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığı
et miktarının dağılımından elde edilen bazı tanımlayıcı istatistikler
verilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıp
yorumlayınız.
Aritmetik Ort.
Mod
Medyan
Q1
Q2
s2
46,6
45,4
46,2
41,5
51,9
54,46
3( X  med ) 3(46,6  46,2)
Sk p 

 0,16  0
s
54,46
x  mod 46,6  45,4
Sk p 

 0,16  0
s
54,46
Sağa Çarpık ,
Pozitif Asimetri
Sağa Çarpık,
Pozitif Asimetri
(Q3  Q2 )  (Q2  Q1 ) (51,9  46,2)  (46,2  41,5)
Skb 

Q3  Q1
51,9  41,5
1

 0,10  0
10,4
Sağa Çarpık ,
Pozitif Asimetri
42
Simetrik Dağılım
A.O = Med = Mod
İki modlu simetrik dağılım
Sağa çarpık dağılım Sola çarpık dağılım
A.O > Med > Mod
A.O < Med < Mod
Modu olmayan dağılım Tekdüzen dağılım
43
14) Sapan Gözlemler
Sapan gözlem, diğer bütün gözlemlerden uzakta
bulunan gözlemdir.
 Sapan gözlem ortalama üzerinde önemli bir etkiye
sahip olabilir.
 Sapan gözlem standart sapma üzerinde önemli bir
etkiye sahip olabilir.
 Sapan gözlem dağılımın gerçek histogramının ölçeği
üzerinde önemli bir etkiye sahip olabilir.
44
15) 5 Sayı Özeti
 5 sayı özeti, bir veri setinde minimum değer,
1.Kartil,
2.Kartil(medyan),
3.Kartil’i
ve
maksimum değeri içerir.
 Kutu grafiği(veya kutu ve bıyık grafiği) bir veri
seti için, sınırları maksimum ve minimum değer
olmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve
3.Kartil’i bulunduran kutu şeklindeki grafiktir.
45
Kutu Grafiği
46
Kutu grafiği hazırlama
• Q1:Kutunun sol kenarı
• Q3:Kutunu sağ kenarı
• Q2:Kutunun ortasındaki çizgi
• Sapan hariç min.: Sol bıyık
• Sapan hariç max.: Sağ bıyık
• Sapan değer kontrolu
Q1 – 1.5(Q3 – Q1)
Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler
* ile gösterilir.
47
• Örnek:
Yazlık ürünler satan bir mağazada
haftalık satılan t-shirt sayıları
yandaki tabloda verilmiştir.
Verilen tablodan beş sayı özetini
bulunuz ve kutu grafiğini çiziniz.
27
22
20
17
18
18
22
21
29
20
32
17
30
19
28
25
20
31
22
23
21
28
22
24
18
18
32
25
18
44
17
• Çözüm:
Öncelikle veriler yandaki gibi
sıralanırsa;
Q1=(31+1)/4=8.sıraya karşılık
gelen veri olur.
Q1=18
Q3=3(31+1)/4=24. sıraya karşılık
gelen veri olur.
Q3=28
Minimum değer=17,
Maksimum değer=44 ve
Medyan(Q2)=22 olur.
Sapan değerleri kontrol etmek için;
Q1-1,5(Q3-Q1)=18-1,5(28-18)=3
Q3+1,5(Q3-Q1)=28+1,5(28-18)=43
bulunur. Bu durumda elimizdeki
44 değeri sapan değerdir ve * ile
gösterilir..
17
20
25
17
20
25
17
21
27
18
21
28
18
22
28
18
22
29
18
22
30
18
22
31
19
23
32
20
24
32
44
45
* 44 sapan değer
40
35
30
25
Medyan(Q2)=22
20
Kutu Grafiği
Figure
2-16
51
Kutu Grafiği
Figure 2-17
52
16) Basıklık Ölçüsü
Aşağıdaki A ve B dağılımlarının ortalamaları, değişkenlik
ölçülerinin aynı olmasından dolayı ve hatta ikisinin de
simetrik olmalarından dolayı bu iki dağılışı ayırt etmek için
Basıklık Ölçüsü kullanılır.
A
B
mA = mB
53
Herhangi bir olasılık fonksiyonunun şekli ile ilgili
parametrelerden bir tanesi de
basıklık ölçüsüdür.
Basıklık Ölçüsü ortalamaya göre dördüncü momentten
gidilerek hesaplanır ve 4 olarak gösterilir.
m4
4  4

n
Basit Seri İçin
m4 
4


x

m
 i
i 1
n
4 = 3 ise Seri Normal
4 < 3 ise Seri Basık
4 < 3 ise Seri Sivri Ya da Yüksek
54
Download