Varyans, bir veri setinin nasıl dağıldığının ölçüsüdür. Düşük varyans, verilerinle uyumlu olduğunun bir göstergesi olduğundan istatistiksel modeller oluştururken kullanışlıdır. Varyansı hesaplamak zor olabilir ama formülü bir kez kavradığında cevabını bulmak için sadece doğru sayıları yerine koyman gerekecek.
Bir Örneklemin Varyansını Hesaplamak
- Örneklem veri setini yaz. Çoğu durumda, istatistikçiler yalnızca bir örneklemi ya da çalıştıkları ana kitlenin bir alt kümesini temin edebilirler. Örneğin, bir istatistikçi "Almanya'daki her arabanın maliyeti" ana kitlesini analiz etmek yerine, birkaç bin arabanın rastgele bir örneklem maliyetini bulabilir. İstatistikçi bu örneklemi Alman araba maliyetleri hakkında iyi bir tahminde bulunmak için kullanabilir ancak bu örneklem muhtemelen gerçek rakamlarla tam olarak eşleşmeyecektir.
- Örnek: Bir kafeteryada her gün satılan kek sayısının analizini yaparken, rastgele altı gün seçiyorsun ve şu sonuçları elde ediyorsun: 38, 37, 36, 28, 18, 14, 12, 11, 10.7, 9.9. Bu bir ana kitle değil örneklemdir çünkü kafeteryanın açık olduğu her gün için veriye sahip değilsin.
- Bir ana kitledeki bütün veri noktalarına sahipsen bunun yerine aşağıdaki yönteme geç.
- Örneklemin varyans formülünü yaz. Bir veri setinin varyansı sana, veri noktalarının ne kadar dağılım gösterdiğini söyler. Varyans sıfıra ne kadar yakınsa veri noktaları o kadar yakın kümelenmiştir. Örneklem veri setleriyle çalışırken varyansı hesaplamak için aşağıdaki formülü kullan:[1]
- = ∑[( - x̅)]/(n - 1)
- varyanstır. Varyans, daima kare biriminde ölçülür.
- veri setindeki bir terimi ifade eder.
- "Toplam" anlamına gelen ∑, her bir değerini hesaplamanı ve ardından bu değerleri birbiriyle toplamanı söyler.
- x̅ örneklemin ortalamasıdır.
- n veri noktalarının sayısıdır.
- Örneklemin ortalamasını hesapla. X̅ veya "x-üzeri çizgi" sembolü, bir örneklemin ortalamasını ifade eder.[2] Örneklemin ortalamasını herhangi bir ortalamayı hesapladığın gibi hesapla: Tüm veri noktalarını birbiriyle topla ve ardından veri noktalarının sayısına böl.
- Örnek: Öncelikle veri noktalarını birbiriyle topla: 17 + 15 + 23 + 7 + 9 + 13 = 84. Daha sonra cevabını veri noktalarının sayısına böl, bu durumda altı: 84 ÷ 6 = 14.
Örneklemin ortalaması= x̅ = 14. - Ortalamayı verinin "orta noktası" olarak düşünebilirsin. Eğer veri ortalama etrafında kümelenirse varyans düşüktür. Eğer veri ortalamadan uzağa dağılırsa varyans yüksektir.
- Örnek: Öncelikle veri noktalarını birbiriyle topla: 17 + 15 + 23 + 7 + 9 + 13 = 84. Daha sonra cevabını veri noktalarının sayısına böl, bu durumda altı: 84 ÷ 6 = 14.
- Her veri noktasından ortalamayı çıkar. Şimdi - x̅’yi hesaplama zamanı, burada veri setindeki her bir sayıyı ifade eder. Her cevap sana sayının ortalamadan sapmasını ya da daha açık ifadeyle ortalamadan ne kadar uzakta olduğunu söyler.[3]
- Örnek:
- x̅ = 17 - 14 = 3
- x̅ = 15 - 14 = 1
- x̅ = 23 - 14 = 9
- x̅ = 7 - 14 = -7
- x̅ = 9 - 14 = -5
- x̅ = 13 - 14 = -1 - Cevaplarının toplamı sıfır olması gerektiğinden işlemini kontrol etmen basittir. Bu, ortalamanın tanımından kaynaklanır çünkü negatif cevaplar (ortalamadan daha küçük sayılara olan mesafe) pozitif cevapları (ortalamadan daha büyük sayılara olan mesafe) tamamen sıfırlar.
- Örnek:
- Her bir sonucun karesini al. Yukarıda belirtildiği gibi, mevcut sapmalarının listesi ( - x̅) toplamı sıfırdır. Bu, "ortalama sapma"nın da her zaman sıfır olacağı anlamına gelir, bu yüzden verilerin nasıl dağıldığına dair bize herhangi bir şey söylemez. Bu problemi çözmek için her bir sapmanın karesini bul. Bu işlem sapmaların hepsini pozitif sayılar yapar, dolayısıyla negatif ve pozitif değerler artık sıfırlanmaz.[4]
- Örnek:
( - x̅)
- x̅)
92 = 81
(-7)2 = 49
(-5)2 = 25
(-1)2 = 1 - Artık örneklemindeki her bir veri noktası için bir değere ( - x̅) sahipsin.
- Örnek:
- Kare değerlerinin toplamını bul. Şimdi sıra formülün tüm payını hesaplamaya geldi: ∑[( - x̅)]. Büyük sigma ∑, her bir değerini sonraki terimle toplamanı ifade eder. Örnekleminde her bir değeri için ( - x̅)’yi zaten hesaplamıştın, dolayısıyla tek yapman gereken sonuçları birbiriyle toplamaktır.
- Örnek: 9 + 1 + 81 + 49 + 25 + 1 = 166.
- n - 1'e böl, n veri noktalarının sayısıdır. Eskiden istatistikçiler örneklemin varyansını hesaplarken yalnızca n'ye bölerdi. Bu sana, buradaki örneklemin varyansıyla tam uyumlu olan kare sapmanın ortalama değerini verir. Ancak unutma, bir örneklem daha büyük bir ana kitlenin yalnızca tahminidir. Başka bir rastgele örneklem alsaydın ve aynı hesaplamayı yapsaydın farklı bir sonuç elde ederdin. Görünen o ki, n yerine n - 1'e bölmek sana, gerçekten ilgilendiğin, daha büyük ana kitlenin varyansının daha iyi bir tahminini verir. Bu düzeltme o kadar yaygındır ki artık bir örneklem varyansının tanımı olarak kabul edilmektedir.[5]
- Örnek: Örneklemde altı veri noktası bulunmaktadır, dolayısıyla n = 6.
Örneklemin varyansı = 33.2
- Örnek: Örneklemde altı veri noktası bulunmaktadır, dolayısıyla n = 6.
- Varyans ve standart sapmayı öğren. Formülde bir üs bulunduğundan varyansın orijinal verinin karesi biriminde ölçüldüğünü unutma. Bu, sezgisel olarak anlamayı zorlaştırabilir. Bunun yerine genellikle standart sapmayı kullanmak yararlıdır. Standart sapma, varyansın karekökü olarak tanımlandığı için çaban boşa gitmedi. İşte bu yüzden bir örneklemin varyansı ve bir örneklemin standart sapması şeklinde yazılır.
- Örneğin, yukarıdaki örneklemin standart sapması = s = √33.2 = 5.76.
Yöntem2
Bir Ana Kitlenin Varyansını Hesaplamak
- Bir ana kitle veri seti ile başla. "Ana kitle" terimi, konuyla ilgili gözlemlerin toplam setini ifade eder. Örneğin, İzmir’de oturanların yaşını inceliyorsan ana kitlen İzmir’de oturan her bir bireyin yaşını içerecektir. Normalde bunun gibi büyük bir veri seti için bir tablo oluştururdun ama burada daha küçük bir örnek veri seti var:
- Örnek: Bir akvaryum odasında tam altı balık tankı bulunmaktadır. Bu altı tank aşağıdaki balık sayılarını içermektedir:
- Örnek: Bir akvaryum odasında tam altı balık tankı bulunmaktadır. Bu altı tank aşağıdaki balık sayılarını içermektedir:
- Ana kitlenin varyans formülünü yaz. Bir ana kitle, ihtiyacın olan tüm verileri içerdiğinden bu formül sana ana kitlenin kesin varyansını verir. Bu varyansı örneklem varyansından (yalnızca bir tahmin olan) ayırt etmek için istatistikçiler farklı değişkenler kullanırlar:[6]
- σ = (∑( - μ))/n
- σ = ana kitlenin varyansıdır. Bu küçük sigmanın karesidir. Varyans, kare birimlerinde ölçülür.
- veri setindeki bir terimi ifade eder.
- ∑ içindeki terimler her bir değeri için hesaplanır ve ardından toplanır.
- μ ana kitlenin ortalamasıdır.
- n ana kitledeki veri noktalarının sayısıdır.
- Ana kitlenin ortalamasını bul. Bir ana kitleyi analiz ederken, μ ("mü") sembolü aritmetik ortalamayı temsil eder. Ortalamayı bulmak için tüm veri noktalarını topla ve ardından veri noktalarının sayısına böl.
- Ortalama kelimesinin matematikte birçok tanımı olduğu için bu kelimeyi kullanırken dikkatli ol.
- Örnek: ortalama = μ = = 10.5
- Her bir veri noktasından ortalamayı çıkar. Ortalamaya yakın veri noktaları sıfıra yakın bir farka yol açacaktır. Her bir veri noktası için çıkarma işlemini tekrarla, böylelikle verinin nasıl dağılım gösterdiğine dair bir fikir edinmeye başlayabilirsin.
- Örnek:
- μ = 5 - 10.5 = -5.5
- μ = 5 - 10.5 = -5.5
- μ = 8 - 10.5 = -2.5
- μ = 12 - 10.5 = 1.5
- μ = 15 - 10.5 = 4.5
- μ = 18 - 10.5 = 7.5
- Örnek:
- Her bir cevabın karesini al. Şu anda, son adımdaki sayılarından bazıları negatif bazıları pozitif olacaktır. Verilerini bir sayı doğrusunda gösterirsen bu iki kategori ortalamanın solundaki sayıları ve ortalamanın sağındaki sayıları temsil eder. Bu iki grup birbirini sıfırlayacağından varyansı hesaplamak işe yaramaz. Bunun yerine her bir sayının karesini al böylece bütün sayılar pozitif olur.
- Örnek: 1’den 6’ya kadar i nin her bir değeri için ( - μ):
(-5.5) = 30.25
(-5.5) = 30.25
(-2.5) = 6.25
(1.5) = 2.25
(4.5) = 20.25
(7.5) = 56.25
- Örnek: 1’den 6’ya kadar i nin her bir değeri için ( - μ):
- Sonuçlarının ortalamasını bul. Artık her bir veri noktası için bu veri noktasının ortalamadan ne kadar uzak olduğuna dair (dolaylı olarak) bir değerin var. Bu değerleri birbiriyle toplayarak ve ardından değerlerin sayısına bölerek ortalamasını al.
- Example:
Ana kitlenin varyansı = 24.25
- Example:
- Bunu formülle tekrar ilişkilendir. Eğer bunun, bu yöntemin başındaki formülle nasıl uyumlu olduğundan emin değilsen tüm problemi elle yazmayı dene:
- Ortalamadan farkını bulduktan ve karesini aldıktan sonra ( - μ)’ye kadar olan ( - μ), ( - μ) vb. değeri elde edersin, burada setin son veri noktasıdır.
- Bu değerlerin ortalamasını bulmak için değerleri toplarsın ve n’ye bölersin: ( ( - μ) + ( - μ) + ... + ( - μ) ) / n
- Payı sigma gösterimiyle yazdıktan sonra varyans için (∑( - μ))/n formülünü elde edersin.
İpuçları
- Varyansı yorumlamak zor olduğundan bu değer genellikle standart sapmanın hesaplanması için bir başlangıç noktası olarak hesaplanır.
- Örneklemleri analiz ederken paydada "n" yerine "n-1" kullanmaya Bessel düzeltmesi adı verilir. Örneklem, tüm ana kitlenin sadece bir tahminidir ve örneklemin ortalaması bu tahmine uyacak eğilimdedir. Bu düzeltme bu eğilimi ortadan kaldırır.[7] Bu, n-1 veri noktasını listeledikten sonra, en sondaki n ninci noktanın zaten kısıtlanmış olması ile ilgilidir çünkü sadece belirli değerler varyans formülünde kullanılan örneklem ortalamasıyla (x̅) sonuçlanacaktır.
Hiç yorum yok:
Yorum Gönder
ders,plan,proje,performans,ödev