BÖLÜM 1 GİRİŞ: İSTATİSTİĞİN MÜHENDİSLİKTEKİ ÖNEMİ 1.1.AMAÇ Doğa bilimlerinde karşılaştığımız problemlerin birçoğunda olaydaki değişkenlerin değerleri bilindiğinde probleme kesin ve tek bir çözüm bulunabilir. Örneğin bir cismin kütlesi ve cismi etkileyen kuvvet bilindiğinde cismin ivmesini hesaplayabiliriz, bir borunun kesit alanı ile borudaki akışkanın ortalama hızı biliniyorsa boru kesitinden birim zamanda geçen akışkanın hacmini bulabiliriz. Bu gibi olaylarda yasalara deterministik (gerekirci) anlamda bilinmektedir. Buna karşılık öyle olaylar vardır ki bunlarda sonucu önceden kesin olarak bilmek mümkün değildir, işte bu tür olaylara istatistiki (stokastik) rasgele olaylar denir. Basit bir örnek olarak bir zar atışında zarın hangi yüzünün görüneceğini önceden kestiremeyiz. Belirsizliklerin etkilediği problemlere inşaat mühendisliğinde bir örnek olarak bir barajın projelendirilmesinde kullanılacak taşkın debisinin belirlenmesini ele alalım.Proje taşkını olarak “100 yıllık taşkın” diye adlandırılan taşkının seçildiğini kabul edelim. Bu noktada çeşitli sorular akla gelir: 1. “100 yıllık taşkın” nasıl tanımlanabilir? Bu her 100 yılda bir kere görülen bir taşkın mıdır? 2. Barajın ömrünün 50 yıl olduğu kabul edilirse bu süre içinde böyle bir taşkının görülmesi olasılığı nedir? 3. Elimizde 20 yıl süreli taşkın kayıtları varsa akarsuyun 100 yıllık taşkın debisini nasıl hesaplayabiliriz. Bu ve buna benzer soruların cevaplarını verebilmek için olasılık teorisi ve istatistiki bilimlerine başvurmak gerekir. İstatistik için gözlem yapmak gerekir. İstatistiki bilgileri kullanmak için bir takım verilere ihtiyaç vardır. Bu verileri örneklerle tamlayalım. 1.2. Bazı Örnekler: Aynı beton karışımından aynı koşullar altında hazırlanmış 30 betonarme kirişin yükleme deneyinde ilk çatlağın meydana geldiği yükler (kg) aşağıdaki değerler olarak ölçülmüştür: 635 810 1045 890 520 800 710 760 860 990 660 730 790 570 810 740 940 860 840 595 930 840 790 740 810 685 780 610 850 1080 Aynı koşullar altında ölçülen değerlerin birbirinden farklı olması incelenen olayda bir belirsizlik bulunduğunu göstermektedir. Belirsizlik içeren verileri ne şekilde düzenleyip ifade etmeliyiz ki değerlendirmeleri ve yorumlanmaları kolay olsun? İlk adım olarak gözlem sonuçlarını basamaklı bir diyagram halinde gösterelim(şekil 1,1) 12 350 10 300 250 8 200 6 150 4 100 Çatlma yükü(kg) Şekil 1.1 1100 1000 900 0 800 0 700 50 600 2 500 Gözlem sayısı . HİSTOGR Bu diyagram (histogram) bize çeşitli aralıklarda kalan gözlem sayılarını verir. Örneğin 30 deneyden 3’ünde gözlenen çatlama yükü 900-1000 kg aralığında kalmıştır. Histogram bize gözlem sonuçlarının dağılımı hakkında (tablolanmış değerlere göre) daha derli toplu ve kolay işlenir bir bilgi verir. Düşey eksende gözlem sayısı yerine toplam gözlem sayısına bölünmüş değerleri (toplamın yüzdesi olarak frekansları) işaretlersek frekans histogramını elde ederiz (şekil 1.2) 10 8/30 4 3/30 4/30 3/30 900 800 700 600 500 0 2/30 1100 6 2 350 300 250 200 150 100 50 0 10/30 8 1000 Gözlem sayısı 12 Çatlma yükü(kg) Şekil 1.2 Frekans histogramı bize örneğin gözlemlerin %10’unda çatlama yükünün 900-1000 kg aralığında kaldığını gösterir. Başka bir deyişle bu deneylerde çatlama yükünün 900-1000 kg aralığında bir değer alması olayının frekansı 0.10’dur. Başka bir gösterim şeklinde belli bir değerin altında kalan çatlama yüklerinin frekanslarını işaretleyebiliriz. Bunun için frekans histogramındaki değerleri ardışık olarak birbirine eklemek gerekir. Böylelikle eklenik ferkans dağılımını elde etmiş oluruz (Şekil 1.3). Eklenik frekans dağılımından örneğin çatlama yükünün 900 kg’ın altında kalması olayının frekansını 0.83olarak okuyabiliriz. Yani deneylerin %83’ünde ölçülen çatlama yükü 900 kg dan küçük olmuştur.(Geriye kalan %17’sinde 900kg dan büyük yükler ölçülmüştür). Deneylerin yarısında (%50) çatlama yükünün 800 kg küçük kaldığı, diğer yarısında ise 800 kg aştığı görülmektedir. Bu sonuca bakarak bu deneylerde ölçülen çatlama yükü için ortalama bir değer olarak 800 kg almayı Eklenik Frekans F düşünebiliriz. 1.0 0.8 0.6 Eklenik Frekans Dağılımı 0.4 0.2 500 600 700 800 900 1000 1100 Çatlama Yükü (kg) Bu diyagramları çizerken 100 kg’lık aralıklarla çalıştık. Daha geniş ya da daha dar aralıklarla çalışırsak ne olurdu. Aralıklar daraldıkça frekans histogramının daha düzensiz bir görünüm aldığı, bazı aralıklara düşen gözlem sayısının çok azaldığı (veya hiç gözlem düşmediği), buna karşılık aralıklar genişledikçe eldeki bilginin büyük bir kısmının kullanılmadığı görülmektedir (Şekil 1.4). Gözlem sonuçlarını iyi bir şekilde özetleyerek ifade edebilmek için seçilmelidir. sınıf aralığı sayısı uygun şekilde 0.8 1.6 1.4 Frekans f 0.6 1.2 1 0.4 0.8 0.6 0.2 0.4 0.2 0 0 500 700 900 Çatlama Yükü (kg) 1100 Frekans f 0.266 35 30 25 20 15 10 5 0 0.1995 0.133 0.0665 0 500 700 900 1100 Çatlama Yükü (kg) Şekil1.4 Gözlem sonuçlarını tek bir değerle ifade etmek istersek bu değeri ne şekilde hesaplayabiliriz? Akla gelen bir yol, gözlemlerin %50’sinin küçük (büyük) olduğu değeri kullanmaktır (medyan).Tablodaki 30 değer büyüklük sırasına dizilirse ortada kalan iki değer 790 ve 800, bunların ortalaması 795 kg olur. (Ya da eklenik frekans dağılımından 0.50’ye karşılık 800 kg okunur). Başka bir düşünüş de aritmetik ortalamayı hesaplamaktır: x= 1 N N ∑x i =1 i (1.1) Bu örnekte x=789 kg bulunur ki yukarıdaki değerlere yakındır. Öyleyse bu deneylerde ölçülen çatlama yükleri için ortalama bir değer olarak 789 (ya da 800) kg alabiliriz. Ölçülen değerlerin bu ortalama çevresindeki dağılımı malzemenin hazırlanmasında ve deneylerde gözden kaçan rastgele farklılıklara ve hatalara bağlanabilir. Ortalamayı bu şekilde hesapladıktan sonra deney sonuçlarını ortlama çevresinde dağılımın büyüklüğünü tek bir sayıyla ne şekilde gösterebiliriz? Bazı ölçüm sonuçları ortalamadan büyük, bazıları küçük olacağına göre bunların ortalamadan farkları da bazen pozitif, bazen negatif değerler alacak ve dolayısıyla toplamları sıfıra yakın olacaktır. Bu bakımdan bu farkların karelerini toplamak ve bunların ortalamasını almak daha anlamlı olur. Böylece dağılımın büyüklüğünün bir ölçüsü olarak varyansı tanımlamış oluruz: Var[ X ] = 1 N − N ∑ (x i =1 i − x) 2 (1.2) Örnekte Var[X]=1392 bulunur. Varyans ölçülen büyüklüğün karesi boyutunda olduğundan,(kg2) fiziksel anlamı olan bir büyüklük olarak bunun karekökünü kullanmak uygun olacaktır: s x = Var[ X ] = 1 N _ 2 N ∑ (x i =1 i − x) (1.3) Örnekte sx=139 kg sx’e standart sapma diyoruz. Standart sapma büyüdükçe ölçüm sonuçlarının ortalama çevresindeki dağılımı da büyür. Dikkat edilirse, bütün gözlem sonuçlarının aynı miktarda artmasının (veya azalmasının) ortalamayı da aynı miktarda değiştireceği, fakat standart sapmayı etkilemeyeceği görülür. _ Başka bir deney serisinde ortalamanın y =750, standart sapmanın sy=135 bulunduğunu kabul edelim. Hangi seride ölçümlerin dağılımı daha fazladır? Ortalamalar farklı olduğu için doğrudan doğruya standart sapmaları karşılaştırmak anlamlı olmaz. Karşılaştırmada boyutsuz bir büyüklük kullanmak uygun olur. Değişim (varyasyon) katsayısı, standart sapmanın ortalamaya oranı olarak tanımlanır: _ C vx = s x / x (1.4) ilk örnekte Cvx=139/789=0.175, ikinci örnekte Cvy=135/750=0.180 bulunur. Buna göre ikinci seride çatlama yüklerinin biraz daha fazla değişken olduğu görülüyor. Gözlenmiş değerlerin ortalaması ve varyansından sonra önemli diğer bir büyüklük de gözlemlerin ortalama etrafında dağılımlarının çarpıklığını ölçen bir büyüklüktür. Dağılımın tam simetrik olması halinde ortalamadan belli bir miktarda büyük olan her gözleme aynı miktarda küçük olan diğer bir gözlem karşı geleceği için 3 _ ⎞ ⎛ x x − ⎟ = 0 olacağından çarpıklığı ölçmek için bu toplam kullanılabilir. Toplamı ⎜ ∑ i ⎠ i =1 ⎝ N boyutsuz hale getirmek için standart sapmanın kübü ile bölmek uygun olur. Böylece çarpıklık katsayısı tanımlanır: 3 _ ⎛ ⎞ x x − ⎜ i ⎟ /N N ⎝ ⎠ Csx = ∑ 3 sx i =1 (1.5) Çarpıklık katsayısının 0 olması dağılımın simetrik, pozitif olması sağa, negatif olması sola doğru çarpık, yani bu yönlere doğru uzanan bir kuyruğu olduğunu gösterir. İncelediğimiz örnek için Csx=0.057 bulunur. Bu değerin 0’a çok yakın olması dağılımın oldukça simetrik olduğunu ifade eder (histogram da bunu göstermektedir). _ Sonuç olarak, deneylerde ölçülen 30 değerin taşıdığı bilgiler x =789, sx=139 ve Csx=0.057 olmak üzere üç sayıyla büyük ölçüde ifade edilebilmiş olmaktadır. Aynı yöntem, ölçüm sayısının çok daha fazla (örneğin 30 yerine 300) olması halinde de uygulanabilirdi. Bu durumda gözlem değerlerinin taşıdığı bilginin ekonomik bir şekilde ifade edilişi daha da belirgin olarak ortaya çıkmaktadır.