Varyans

bilgipedi.com.tr sitesinden
Aynı ortalamaya ancak farklı varyanslara sahip iki popülasyondan alınan örneklemler. Kırmızı popülasyonun ortalaması 100 ve varyansı 100 (SD=10) iken mavi popülasyonun ortalaması 100 ve varyansı 2500'dür (SD=50).

Olasılık teorisi ve istatistikte varyans, rastgele bir değişkenin popülasyon ortalamasından veya örnek ortalamasından karesel sapma beklentisidir. Varyans bir dağılım ölçüsüdür, yani bir dizi sayının ortalama değerlerinden ne kadar uzağa yayıldığının bir ölçüsüdür. Varyans istatistikte merkezi bir role sahiptir; varyansın kullanıldığı bazı fikirler arasında tanımlayıcı istatistikler, istatistiksel çıkarım, hipotez testi, uyum iyiliği ve Monte Carlo örneklemesi yer alır. Varyans, verilerin istatistiksel analizinin yaygın olduğu bilimlerde önemli bir araçtır. Varyans, standart sapmanın karesi, bir dağılımın ikinci merkezi momenti ve rastgele değişkenin kendisiyle olan kovaryansıdır ve genellikle şu şekilde gösterilir , , , veya .

Bir dağılım ölçüsü olarak varyansın bir avantajı, beklenen mutlak sapma gibi diğer dağılım ölçülerine kıyasla cebirsel manipülasyona daha uygun olmasıdır; örneğin, ilişkisiz rastgele değişkenlerin toplamının varyansı, varyanslarının toplamına eşittir. Pratik uygulamalar için varyansın bir dezavantajı, standart sapmanın aksine, birimlerinin rastgele değişkenden farklı olmasıdır, bu nedenle hesaplama bittikten sonra standart sapma daha yaygın olarak bir dağılım ölçüsü olarak rapor edilir.

Her ikisi de "varyans" olarak adlandırılan iki farklı kavram vardır. Biri, yukarıda tartışıldığı gibi, teorik bir olasılık dağılımının parçasıdır ve bir denklemle tanımlanır. Diğer varyans ise bir dizi gözlemin bir özelliğidir. Varyans gözlemlerden hesaplandığında, bu gözlemler tipik olarak gerçek bir dünya sisteminden ölçülür. Sistemin tüm olası gözlemleri mevcutsa, hesaplanan varyansa popülasyon varyansı denir. Ancak normalde sadece bir alt küme mevcuttur ve bundan hesaplanan varyansa örneklem varyansı denir. Bir örneklemden hesaplanan varyans, tüm popülasyon varyansının bir tahmini olarak kabul edilir. Aşağıdaki bölümde tartışıldığı gibi, popülasyon varyansının bir tahminini hesaplamanın birden fazla yolu vardır.

Bu iki varyans türü birbiriyle yakından ilişkilidir. Nasıl olduğunu görmek için, teorik bir olasılık dağılımının varsayımsal gözlemlerin bir üreticisi olarak kullanılabileceğini düşünün. Bir dağılım kullanılarak sonsuz sayıda gözlem üretilirse, bu sonsuz kümeden hesaplanan örneklem varyansı, dağılımın varyans denklemi kullanılarak hesaplanan değerle eşleşecektir.

Bir reel sayı halinde olan rassal değişkenin varyansı o rassal değişkenin ikinci merkezsel momenti ve aynı zamanda ikinci kümülantı olur. Eğer varyans değeri var ise, ortalama değeri de vardır. Ama bunun aksi doğru değildir.

Tanım

Rastgele bir değişkenin varyansı 'nin ortalamasından karesel sapmanın beklenen değeridir. , :

Bu tanım, kesikli, sürekli, her ikisi de olmayan veya karışık süreçler tarafından üretilen rastgele değişkenleri kapsar. Varyans, rastgele bir değişkenin kendisiyle olan kovaryansı olarak da düşünülebilir:

Varyans aynı zamanda bir olasılık dağılımının ikinci kümülantına eşdeğerdir. . Varyans tipik olarak şu şekilde belirlenir ya da bazen veya veya sembolik olarak ya da basitçe ("sigma kare" olarak telaffuz edilir). Varyans ifadesi aşağıdaki şekilde genişletilebilir:

Başka bir deyişle, X'in varyansı X'in karesinin ortalamasından X'in ortalamasının karesinin çıkarılmasına eşittir. Bu denklem kayan noktalı aritmetik kullanan hesaplamalar için kullanılmamalıdır, çünkü denklemin iki bileşeni büyüklük olarak birbirine benziyorsa feci iptallerden muzdariptir. Sayısal olarak kararlı diğer alternatifler için varyans hesaplama algoritmaları bölümüne bakınız.

Ayrık rastgele değişken

Eğer rastgele değişken üreteci olasılık kütle fonksiyonu ile ayrıktır , sonra

nerede beklenen değerdir. Yani,

(Böyle bir ayrık ağırlıklı varyans, toplamı 1 olmayan ağırlıklarla belirtildiğinde, ağırlıkların toplamına bölünür).

Bir koleksiyonun varyansı eşit olasılıklı değerler şu şekilde yazılabilir

nerede ortalama değerdir. Yani,

Bir kümenin varyansı Eşit olasılıklı değerler, doğrudan ortalamaya atıfta bulunmaksızın, noktaların birbirlerine olan tüm çift yönlü karesel uzaklıklarının karesel sapmaları cinsinden eşdeğer olarak ifade edilebilir:

Kesinlikle sürekli rastgele değişken

Eğer rastgele değişken bir olasılık yoğunluk fonksiyonuna sahiptir ve karşılık gelen kümülatif dağılım fonksiyonu ise, o zaman

ya da eşdeğer olarak,

nerede 'nin beklenen değeridir. tarafından verilen

Bu formüllerde, aşağıdakilere göre integraller ve sırasıyla Lebesgue ve Lebesgue-Stieltjes integralleridir.

Eğer fonksiyon her sonlu aralıkta Riemann ile bütünleştirilebilir sonra

burada integral bir uygun olmayan Riemann integralidir.

Örnekler

Üstel dağılım

Parametresi λ olan üstel dağılım, olasılık yoğunluk fonksiyonu aşağıdaki şekilde verilen sürekli bir dağılımdır

aralığında [0, ∞). Ortalamasının şu şekilde olduğu gösterilebilir

Parçalarla integral alarak ve daha önce hesaplanmış olan beklenen değeri kullanarak, şu sonuca ulaşırız:

Böylece, X'in varyansı şu şekilde verilir

Adil zar

Altı yüzlü adil bir zar, her biri 1/6 eşit olasılığa sahip 1'den 6'ya kadar sonuçları olan ayrık bir rastgele değişken X olarak modellenebilir. X'in beklenen değeri Bu nedenle, X'in varyansı

N yüzlü bir zarın X sonucunun varyansı için genel formül şöyledir

Yaygın olarak kullanılan olasılık dağılımları

Aşağıdaki tabloda yaygın olarak kullanılan bazı olasılık dağılımları için varyans listelenmektedir.

Olasılık dağılımının adı Olasılık dağılım fonksiyonu Ortalama Varyans
Binom dağılımı
Geometrik dağılım
Normal dağılım
Tekdüze dağılım (sürekli)
Üstel dağılım
Poisson dağılımı

Özellikler

Temel özellikler

Varyans negatif değildir çünkü kareler pozitif veya sıfırdır:

Bir sabitin varyansı sıfırdır.

Tersine, bir rastgele değişkenin varyansı 0 ise, o zaman neredeyse kesinlikle bir sabittir. Yani, her zaman aynı değere sahiptir:

Varyans, bir konum parametresindeki değişikliklere göre değişmezdir. Yani, değişkenin tüm değerlerine bir sabit eklenirse, varyans değişmez:

Tüm değerler bir sabit ile ölçeklendirilirse, varyans bu sabitin karesi ile ölçeklendirilir:

İki rastgele değişkenin toplamının varyansı şu şekilde verilir

nerede kovaryans değeridir.

Doğrusal kombinasyonlar

Genel olarak, toplamı için rastgele değişkenler varyans olur:

genel Bienaymé özdeşliğine de bakınız.

Bu sonuçlar doğrusal bir kombinasyonun varyansını şu şekilde verir:

Eğer rastgele değişkenler öyle ki

o zaman ilişkisiz oldukları söylenir. Daha önce verilen ifadeden, eğer rassal değişkenler ilişkisiz ise, toplamlarının varyansı varyanslarının toplamına eşittir veya sembolik olarak ifade edilir:

Bağımsız rastgele değişkenler her zaman ilişkisiz olduğundan (bkz. Kovaryans § İlişkisizlik ve bağımsızlık), yukarıdaki denklem özellikle rastgele değişkenler bağımsızdır. Dolayısıyla, bağımsızlık yeterlidir ancak toplamın varyansının varyansların toplamına eşit olması için gerekli değildir.

Sonluluk sorunları

Cauchy dağılımında olduğu gibi, bir dağılım sonlu bir beklenen değere sahip değilse, varyans da sonlu olamaz. Ancak, bazı dağılımlar beklenen değerleri sonlu olmasına rağmen sonlu varyansa sahip olmayabilir. Buna bir örnek, indeksi sonlu olan bir Pareto dağılımıdır. tatmin eder

İlişkisiz değişkenlerin toplamı (Bienaymé formülü)

Diğer dağılım ölçüleri yerine varyansın kullanılmasının bir nedeni, ilişkisiz rastgele değişkenlerin toplamının (veya farkının) varyansının, varyanslarının toplamı olmasıdır:

Bu ifade Bienaymé formülü olarak adlandırılır ve 1853 yılında keşfedilmiştir. Genellikle değişkenlerin bağımsız olduğu daha güçlü bir koşulla yapılır, ancak ilişkisiz olmak yeterlidir. Dolayısıyla, tüm değişkenler aynı σ2 varyansına sahipse, n ile bölme doğrusal bir dönüşüm olduğundan, bu formül hemen ortalamalarının varyansının

Yani, n arttıkça ortalamanın varyansı azalır. Ortalamanın varyansı için bu formül, merkezi limit teoreminde kullanılan örnek ortalamasının standart hatasının tanımında kullanılır.

İlk ifadeyi kanıtlamak için şunu göstermek yeterlidir

Genel sonuç tümevarım yoluyla elde edilir. Tanımdan başlayarak,

Beklenti operatörünün doğrusallığı ve X ve Y'nin bağımsızlığı (veya ilişkisizliği) varsayımı kullanılarak, bu durum aşağıdaki gibi daha da basitleştirilir:

İlişkili değişkenlerin toplamı

Korelasyon ve sabit örneklem büyüklüğü ile

Genel olarak, değişkenler birbirleriyle aralarında korelasyon gösteriyorlarsa, toplamlarının varyansı kovaryanslarının toplamı olur:

Burada Kov kovaryanstır ve eğer herhangi bir rassal değişken bağımsız ise, bu değişkenle diğer değişkenler arasında bulunan her kovaryans değeri 0 olur. Verilen formül toplamın varyansının toplamı yapan parçaların kovaryans matrisinin bütün elemanlarına eşit olduğunu göstermektedir. Bu formül klasik sınama kuramında Cronbach'in alfa ölçüsü kavramını geliştirmek için de kullanılır.

Eğer değişkenlerin hep birbirine eğit varyansları, yani σ2, varsa ve ayrı ayrı değişkenler arasındaki korelasyonların ortalama değeri ρ ise, bu halde varyansların ortalaması şöyle ifade edilir:

Bu formüle göre ortalamanın varyansı korelasyonlar ortalaması ile birlikte artış gösterir.

Bunun yanında, eğer değişkenler için varyans 1 değerde ise (örneğin değişken değerleri standardize edilmişlerse) o halde bu formül daha da basitleştirilip şu sekli alır:

Bu formul klasik sinama teorisinde Spearman-Brown öngörü formülü için kullanılır. Eğer korelasyonlar sabit kalırlarsa veya aynı şekilde yakınsama gösterirlerse, bu ifade, n limitte sonsuz değere yakınsama gösterdikçe, ρ değerine yakınsama gösterir. Bunun bir sonucuna göre, eşit korelasyonları olan veya yakınsama gösteren ortalama korelasyonu olan standardize edilmiş değişkenler için ortalamanın varyansı şöyle ifade edilebilir:

Buna göre büyük sayıda standardize edilmiş değişkenlerin ortalamasının varyansı, yaklaşık olarak bunların ortalama korelasyonuna eşittir.

Bu formul diğer bir sonuç da ortaya çıkartır. Büyük sayılar yasası örneklem ortalamasının anakütle ortalamasına yakınsama göstereceğini önermesine rağmen, bu formülden açıktır ki, birbirine korelasyonu olan değişkenler bulunuyorsa örneklem ortalaması anakütle ortalamasına yakınsama göstermez.

(Not: İkinci eşitlik Cov(Xi,Xi) = Var(Xi) gerçeğinden gelmektedir).

I.i.d. rastgele örneklem büyüklüğü ile

Bir örneklemin, bazı kriterlere göre kaç gözlemin kabul edilebilir olacağını önceden bilmeden alındığı durumlar vardır. Bu gibi durumlarda, örneklem büyüklüğü N, varyasyonu X'in varyasyonuna eklenen rastgele bir değişkendir, öyle ki,

Bu da toplam varyans yasasından kaynaklanır.

Eğer N bir Poisson dağılımına sahipse, o zaman N = n tahmin edicisi ile. olur veren

Doğrusal bir kombinasyonun varyansı için matris gösterimi

Tanımlamak 'nin bir sütun vektörü olarak rastgele değişkenler ve 'nin bir sütun vektörü olarak skaler . Bu yüzden, bu rastgele değişkenlerin doğrusal bir kombinasyonudur, burada 'nin transpozesini gösterir. . Ayrıca bırakın 'nin kovaryans matrisi olsun. . Varyansı ile verilir:

Bu, ortalamanın varyansının şu şekilde yazılabileceği anlamına gelir (birlerin sütun vektörü ile)

Değişkenlerin ağırlıklı toplamı

Ölçekleme özelliği ve Bienaymé formülü, kovaryans Cov(aX, bY) = ab Cov(X, Y) özelliği ile birlikte şu anlama gelir

Bu, değişkenlerin ağırlıklı bir toplamında, en büyük ağırlığa sahip değişkenin toplamın varyansında orantısız olarak büyük bir ağırlığa sahip olacağı anlamına gelir. Örneğin, X ve Y ilişkisiz ise ve X'in ağırlığı Y'nin ağırlığının iki katı ise, X'in varyansının ağırlığı Y'nin varyansının ağırlığının dört katı olacaktır.

Yukarıdaki ifade birden fazla değişkenin ağırlıklı toplamına genişletilebilir:

Bağımsız değişkenlerin çarpımı

X ve Y bağımsız iki değişken ise, bunların çarpımının varyansı şu şekilde verilir

Eşdeğer olarak, beklentinin temel özellikleri kullanılarak, şu şekilde verilir

İstatistiksel olarak bağımlı değişkenlerin çarpımı

Genel olarak, iki değişken istatistiksel olarak bağımlıysa, çarpımlarının varyansı şu şekilde verilir:

Ayrıştırma

Varyans ayrıştırması veya toplam varyans yasası için genel formül şöyledir: Eğer ve iki rastgele değişkendir ve varyansı varsa, o zaman

Koşullu beklenti . verilen ve koşullu varyans aşağıdaki gibi anlaşılabilir. Y rassal değişkeninin herhangi bir özel y değeri göz önüne alındığında, bir koşullu beklenti vardır Bu miktar belirli bir y değerine bağlıdır; bir fonksiyondur . Aynı fonksiyon Y rastgele değişkeninde değerlendirildiğinde koşullu beklentidir

Özellikle, eğer olası değerler alan kesikli bir rastgele değişkendir karşılık gelen olasılıklarla toplam varyans formülünde, sağ taraftaki ilk terim şu hale gelir

nerede . Benzer şekilde, sağ taraftaki ikinci terim şu hale gelir

nerede ve . Böylece toplam varyans şu şekilde verilir

Benzer bir formül varyans analizinde de uygulanır; burada ilgili formül şöyledir

Burada Karelerin Ortalamasını ifade eder. Doğrusal regresyon analizinde ilgili formül şöyledir

Bu aynı zamanda varyansların toplanabilirliğinden de türetilebilir, çünkü toplam (gözlenen) puan, tahmin edilen puan ile hata puanının toplamıdır ve son ikisi birbiriyle ilişkisizdir.

Benzer ayrıştırmalar karesel sapmaların toplamı için de mümkündür (kareler toplamı, ):

CDF'den hesaplama

Negatif olmayan bir rastgele değişken için popülasyon varyansı, kümülatif dağılım fonksiyonu F cinsinden şu şekilde ifade edilebilir

Bu ifade, CDF'nin uygun bir şekilde ifade edilebildiği ancak yoğunluğun ifade edilemediği durumlarda varyansı hesaplamak için kullanılabilir.

Karakteristik özellik

Bir rassal değişkenin ikinci momentinin minimum değeri bu moment, rassal değişkenin ortalaması etrafında alınınca ortaya çıkar; yani

,

Bunun aksi olarak, eğer sürekli bir fonksiyon olan tüm X rassal değişkenleri için

koşulunu sağlıyorsa, o halde mutlaka ( a > 0) şeklinde bir fonksiyon olması gerekmektedir. Bu koşul çoklu boyutlu hallerde de geçerlidir.

Ölçüm birimleri

Beklenen mutlak sapmanın aksine, bir değişkenin varyansı, değişkenin kendi birimlerinin karesi olan birimlere sahiptir. Örneğin, metre cinsinden ölçülen bir değişkenin varyansı metrenin karesi cinsinden ölçülür. Bu nedenle, veri setlerini standart sapma veya kök ortalama kare sapma ile tanımlamak genellikle varyans kullanmak yerine tercih edilir. Zar örneğinde standart sapma √2,9 ≈ 1,7'dir ve beklenen mutlak sapma olan 1,5'ten biraz daha büyüktür.

Standart sapma ve beklenen mutlak sapmanın her ikisi de bir dağılımın "yayılımının" bir göstergesi olarak kullanılabilir. Standart sapma, beklenen mutlak sapmaya kıyasla cebirsel manipülasyona daha uygundur ve varyans ve onun genellemesi olan kovaryans ile birlikte teorik istatistikte sıklıkla kullanılır; ancak beklenen mutlak sapma, ölçüm anormalliklerinden veya aşırı ağır kuyruklu bir dağılımdan kaynaklanan aykırı değerlere daha az duyarlı olduğu için daha sağlam olma eğilimindedir.

Bir fonksiyonun varyansının yaklaşık olarak hesaplanması

Delta yöntemi, bir veya daha fazla rastgele değişkenin bir fonksiyonunun varyansını yaklaşık olarak hesaplamak için ikinci dereceden Taylor açılımlarını kullanır: rastgele değişkenlerin fonksiyonlarının momentleri için Taylor açılımlarına bakınız. Örneğin, bir değişkenli bir fonksiyonun yaklaşık varyansı şu şekilde verilir

f'nin iki kez türevlenebilir olması ve X'in ortalama ve varyansının sonlu olması koşuluyla.

Popülasyon varyansı ve örnek varyansı

Dünkü yağmurun gün boyunca ölçülmesi gibi gerçek dünya gözlemleri tipik olarak yapılabilecek tüm olası gözlemlerin tam kümesi olamaz. Bu nedenle, sonlu kümeden hesaplanan varyans, genel olarak olası gözlemlerin tam popülasyonundan hesaplanacak varyansla eşleşmeyecektir. Bu, bir tahmin edici denklem kullanarak sınırlı bir gözlem kümesinden ortalama ve varyansın tahmin edilmesi anlamına gelir. Tahmin edici, tüm olası gözlemler popülasyonundan gözlemsel yanlılık olmaksızın çekilen n gözlemlik örneklemin bir fonksiyonudur. Bu örnekte bu örnek, ilgilenilen coğrafyadaki mevcut yağmur ölçerlerden dünkü yağışların gerçek ölçümleri kümesi olacaktır.

Popülasyon ortalaması ve popülasyon varyansı için en basit tahmin ediciler basitçe örneklemin ortalaması ve varyansı, örneklem ortalaması ve (düzeltilmemiş) örneklem varyansıdır - bunlar tutarlı tahmin edicilerdir (örneklem sayısı arttıkça doğru değere yakınsarlar), ancak geliştirilebilirler. Örneklemin varyansını alarak popülasyon varyansını tahmin etmek genel olarak optimale yakındır, ancak iki şekilde geliştirilebilir. En basit şekilde, örnek varyansı, n'ye bölünerek (örnek) ortalama hakkındaki karesel sapmaların ortalaması olarak hesaplanır. Payda için dört yaygın değer n, n - 1, n + 1 ve n - 1.5'tir: n en basit olanıdır (örneklemin popülasyon varyansı), n - 1 yanlılığı ortadan kaldırır, n + 1 normal dağılım için ortalama karesel hatayı en aza indirir ve n - 1.5 normal dağılım için standart sapmanın yansız tahmininde yanlılığı çoğunlukla ortadan kaldırır.

İlk olarak, gerçek popülasyon ortalaması bilinmiyorsa, örnek varyansı (gerçek ortalama yerine örnek ortalamasını kullanan) yanlı bir tahmin edicidir: varyansı (n - 1) / n faktörü ile eksik tahmin eder; bu faktörle düzeltmeye (n yerine n - 1'e bölerek) Bessel düzeltmesi denir. Elde edilen tahmin edici yansızdır ve (düzeltilmiş) örnek varyansı veya yansız örnek varyansı olarak adlandırılır. Örneğin, n = 1 olduğunda, örneklem ortalaması (kendisi) hakkındaki tek bir gözlemin varyansı, popülasyon varyansından bağımsız olarak açıkça sıfırdır. Ortalama, varyansı tahmin etmek için kullanılan aynı örneklerden başka bir şekilde belirlenirse, bu yanlılık ortaya çıkmaz ve varyans güvenli bir şekilde (bağımsız olarak bilinen) ortalama hakkındaki örneklerin varyansı olarak tahmin edilebilir.

İkinci olarak, örnek varyansı genellikle örnek varyansı ile popülasyon varyansı arasındaki ortalama karesel hatayı minimize etmez. Yanlılığın düzeltilmesi genellikle bu durumu daha da kötüleştirir: her zaman düzeltilmiş örnek varyansından daha iyi performans gösteren bir ölçek faktörü seçilebilir, ancak optimum ölçek faktörü popülasyonun aşırı basıklığına bağlıdır (bkz. ortalama karesel hata: varyans) ve yanlılık getirir. Bu her zaman yansız tahmin edicinin küçültülmesinden (n - 1'den daha büyük bir sayıya bölünmesi) oluşur ve büzülme tahmin edicisinin basit bir örneğidir: yansız tahmin edici sıfıra doğru "küçültülür". Normal dağılım için, n + 1'e bölmek (n - 1 veya n yerine) ortalama karesel hatayı en aza indirir. Ancak ortaya çıkan tahminci yanlıdır ve yanlı örnek varyasyonu olarak bilinir.

Nüfus varyansı

Genel olarak, xi değerlerine sahip N büyüklüğündeki sonlu bir popülasyonun popülasyon varyansı şu şekilde verilir

burada popülasyon ortalaması

Popülasyon varyansı şu şekilde de hesaplanabilir

Bu doğrudur çünkü

Popülasyon varyansı, üreten olasılık dağılımının varyansıyla eşleşir. Bu anlamda, popülasyon kavramı sonsuz popülasyonlu sürekli rastgele değişkenlere genişletilebilir.

Önyargılı örnek varyansı

Birçok pratik durumda, bir popülasyonun gerçek varyansı önceden bilinmez ve bir şekilde hesaplanması gerekir. Çok büyük popülasyonlarla uğraşırken, popülasyondaki her nesneyi saymak mümkün değildir, bu nedenle hesaplama popülasyonun bir örneği üzerinde yapılmalıdır. Örnek varyans, sürekli bir dağılımın varyansının bu dağılımın bir örneğinden tahmin edilmesine de uygulanabilir.

Popülasyondan n < N olmak üzere n adet Y1, ..., Yn değerini değiştirerek bir örnek alırız ve bu örneğe dayanarak varyansı tahmin ederiz. Örnek verilerin varyansını doğrudan almak, karesel sapmaların ortalamasını verir:

Burada, örnek ortalamasını gösterir:

Yi rastgele seçildiğinden, her iki ve rastgele değişkenlerdir. Bunların beklenen değerleri, popülasyondan alınan n büyüklüğündeki tüm olası örneklerin {Yi} ortalaması alınarak değerlendirilebilir. İçin bu verir:

Dolayısıyla 'lik bir katsayı ile yanlı olan popülasyon varyansının bir tahminini verir. . Bu nedenle, yanlı örneklem varyansı olarak adlandırılır.

Yansız örneklem varyansı

Bu yanlılığın düzeltilmesi, yansız örnek varyansını verir ve şu şekilde gösterilir :

Versiyonu bağlam tarafından belirlenebildiğinde, her iki tahmin edici de basitçe örnek varyansı olarak adlandırılabilir. Aynı kanıt, sürekli bir olasılık dağılımından alınan örnekler için de geçerlidir.

n - 1 teriminin kullanımı Bessel düzeltmesi olarak adlandırılır ve örneklem kovaryansında ve örneklem standart sapmasında (varyansın karekökü) da kullanılır. Karekök içbükey bir fonksiyondur ve bu nedenle dağılıma bağlı olan negatif yanlılık (Jensen eşitsizliği ile) getirir ve bu nedenle düzeltilmiş örneklem standart sapması (Bessel düzeltmesi kullanılarak) yanlıdır. Standart sapmanın yansız tahmini teknik olarak karmaşık bir sorundur, ancak normal dağılım için n - 1,5 terimini kullanmak neredeyse yansız bir tahminci verir.

Yansız örneklem varyansı, ƒ(y1, y2) = (y1 - y2)2/2 fonksiyonu için bir U-istatistiğidir, yani popülasyonun 2 elemanlı alt kümeleri üzerinde 2 örneklemli bir istatistiğin ortalaması alınarak elde edilir.

Örnek varyansının dağılımı

yi bağımsız normal dağılımlı olduğunda, ν = n - 1'in çeşitli değerleri için S22'nin dağılımı ve kümülatif dağılımı.

Rastgele değişkenlerin bir fonksiyonu olan örnek varyansının kendisi de bir rastgele değişkendir ve dağılımını incelemek doğaldır. Yi'nin normal dağılımdan bağımsız gözlemler olduğu durumda, Cochran teoremi S2'nin ölçeklendirilmiş ki-kare dağılımını izlediğini gösterir:

Bunun doğrudan bir sonucu olarak

ve

Yi'ler bağımsız ve aynı dağılıma sahipse, ancak normal dağılıma sahip olmaları gerekmiyorsa

Burada κ dağılımın basıklığı ve μ4 dördüncü merkezi momenttir.

Kareli gözlemler için büyük sayılar kanunu koşulları geçerliyse, S2 σ2'nin tutarlı bir tahmincisidir. Gerçekten de tahmin edicinin varyansının asimptotik olarak sıfıra yöneldiği görülebilir. Asimptotik olarak eşdeğer bir formül Kenney ve Keeping (1951:164), Rose ve Smith (2002:264) ve Weisstein'da (t.y.) verilmiştir.

Samuelson'un eşitsizliği

Samuelson eşitsizliği, örneklem ortalaması ve (yanlı) varyansın hesaplanmış olduğu göz önüne alındığında, bir örneklemdeki bireysel gözlemlerin alabileceği değerler üzerindeki sınırları belirten bir sonuçtur. Değerler sınırlar içinde kalmalıdır

Harmonik ve aritmetik ortalama ile ilişkiler

Pozitif reel sayılardan oluşan bir {yi} örneği için gösterilmiştir,

Burada ymax örneklemin maksimum değeri, A aritmetik ortalama, H örneklemin harmonik ortalaması ve örneklemin (yanlı) varyansıdır.

Bu sınır geliştirilmiştir ve varyansın şu şekilde sınırlandığı bilinmektedir

burada ymin örneklemin minimum değeridir.

Dış kaynaklar

  • Spiegel, Murray R, ve Stephens, Larry J. (Tr.Çev.: Çelebioğlu, Salih) (2013) İstatistik , İstanbul: Nobel Akademik Yayıncılık ISBN 9786051337043

İki veya daha fazla varyansın eşitliğini test etmek zordur. F testi ve ki kare testlerinin her ikisi de normal olmama durumundan olumsuz etkilenir ve bu amaç için önerilmez.

Çeşitli parametrik olmayan testler önerilmiştir: bunlar arasında Barton-David-Ansari-Freund-Siegel-Tukey testi, Capon testi, Mood testi, Klotz testi ve Sukhatme testi bulunmaktadır. Sukhatme testi iki varyans için geçerlidir ve her iki medyanın da bilinmesini ve sıfıra eşit olmasını gerektirir. Mood, Klotz, Capon ve Barton-David-Ansari-Freund-Siegel-Tukey testleri de iki varyans için geçerlidir. Bu testler ortancanın bilinmemesine izin verir ancak iki ortancanın eşit olmasını gerektirir.

Lehmann testi, iki varyansın parametrik bir testidir. Bu testin bilinen birkaç çeşidi vardır. Varyansların eşitliğine ilişkin diğer testler arasında Box testi, Box-Anderson testi ve Moses testi yer almaktadır.

Varyansların eşitliğini test etmek için bootstrap ve jackknife gibi yeniden örnekleme yöntemleri kullanılabilir.

Tarihçe

Varyans terimi ilk kez Ronald Fisher tarafından 1918 tarihli The Correlation Between Relatives on the Supposition of Mendelian Inheritance adlı makalesinde kullanılmıştır:

Mevcut istatistiklerin büyük bir kısmı bize, bir insan ölçümünün ortalamasından sapmalarının Normal Hata Yasasını çok yakından takip ettiğini ve bu nedenle değişkenliğin, ortalama karesel hatanın kareköküne karşılık gelen standart sapma ile düzgün bir şekilde ölçülebileceğini göstermektedir. Normalde tek tip olan bir popülasyonda standart sapmalara sahip dağılımlar üretebilen iki bağımsız değişkenlik nedeni olduğunda ve dağılımının, her iki neden birlikte hareket ettiğinde, standart sapmaya sahip olduğu bulunmuştur . Bu nedenle, değişkenliğin nedenlerini analiz ederken, değişkenliğin ölçüsü olarak standart sapmanın karesi ile ilgilenmek arzu edilir. Bu niceliği Varyans olarak adlandıracağız...

Rastgele bir dağılımın varyansının geometrik görselleştirmesi (2, 4, 4, 4, 5, 5, 7, 9):
  1. Bir frekans dağılımı oluşturulur.
  2. Dağılımın merkez noktası ortalamasını verir.
  3. Her değer için, kenarları her değerin ortalamadan farkına eşit olan bir kare oluşturulur.
  4. Kareler, bir kenarı değer sayısına (n) eşit olan bir dikdörtgen şeklinde düzenlendiğinde, diğer kenar dağılımın varyansı (σ2) olur.

Eylemsizlik momenti

Bir olasılık dağılımının varyansı, kütle merkezi etrafında dönmeye göre bir doğru boyunca karşılık gelen bir kütle dağılımının klasik mekanikteki eylemsizlik momentine benzer. Bu analoji nedeniyle varyans gibi şeylere olasılık dağılımlarının momentleri denir. Kovaryans matrisi, çok değişkenli dağılımlar için eylemsizlik momenti tensörü ile ilişkilidir. Kovaryans matrisi aşağıdaki gibi olan n noktadan oluşan bir bulutun atalet momenti tarafından verilir

Fizikteki ve istatistikteki eylemsizlik momenti arasındaki bu fark, bir doğru boyunca toplanan noktalar için açıktır. Birçok noktanın x eksenine yakın olduğunu ve bu eksen boyunca dağıldığını varsayalım. Kovaryans matrisi şöyle görünebilir

Yani, x yönünde en fazla varyans vardır. Fizikçiler bunun x ekseni etrafında düşük bir momente sahip olduğunu düşünürler, bu nedenle eylemsizlik momenti tensörü

Yarı Değişkenlik

Yarıvaryans, varyans ile aynı şekilde hesaplanır ancak sadece ortalamanın altında kalan gözlemler hesaplamaya dahil edilir:

Farklı uygulama alanlarında özel bir ölçü olarak da tanımlanmaktadır. Çarpık dağılımlar için yarıvaryans, varyansın sağlamadığı ek bilgileri sağlayabilir.

Yarıvaryans ile ilişkili eşitsizlikler için Chebyshev eşitsizliği § Yarıvaryanslar bölümüne bakınız.

Genelleştirmeler

Karmaşık değişkenler için

Eğer 'de değerleri olan skaler karmaşık değerli bir rastgele değişkendir. o zaman varyansı nerede 'nin karmaşık eşleniğidir. Bu varyans gerçek bir skalerdir.

Vektör değerli rassal değişkenler için

Bir matris olarak

Eğer 'de değerleri olan vektör değerli bir rastgele değişkendir. ve bir sütun vektörü olarak düşünüldüğünde, varyansın doğal bir genellemesi nerede ve 'nin transpozesidir. ve dolayısıyla bir satır vektörüdür. Sonuç, genellikle varyans-kovaryans matrisi (veya sadece kovaryans matrisi) olarak adlandırılan pozitif yarı tanımlı bir kare matristir.

Eğer 'de değerleri olan vektör ve karmaşık değerli bir rastgele değişkendir. o zaman kovaryans matrisi nerede 'nin eşlenik transpozesidir. Bu matris aynı zamanda pozitif yarı tanımlı ve karedir.

Bir skaler olarak

Vektör değerli rastgele değişkenler için varyansın bir başka genellemesi matris yerine skaler bir değerle sonuçlanan genelleştirilmiş varyanstır. kovaryans matrisinin determinantıdır. Genelleştirilmiş varyansın, noktaların ortalamaları etrafındaki çok boyutlu dağılımıyla ilişkili olduğu gösterilebilir.

Rassal değişken ile ortalaması arasındaki Öklid uzaklığı dikkate alınarak farklı bir genelleme elde edilir. Bu şu sonuçları verir Bu da kovaryans matrisinin izidir.

Formüller

Örnekler

Varyans; verilerin aritmetik ortalamadan sapmalarının karelerinin aritmetik ortalaması olduğuna göre,

2,2,3,5,3 serisinin varyansı şu şekilde bulunur;

1) Verilerin aritmetik ortalaması (A.O) hesaplanır.

2) 1. maddedeki ortalamadan,verilerin sapmalarının karelerinin aritmetik ortalaması alınarak varyans bulunur.

Örneğin 1: Tablo ile verilmiş bir aralıklı deneysel dağılım

Bu örnekte bir X rastlantı değişkeninin i=1,2,3 için aldığı değerler ve X in bu değerleri alması olasılığı bir tablo olarak verilmiştir.

i 1 2 3
xi -1 1 2
f(xi) 0,5 0,3 0,2

Beklenen değer şöyle hesaplanır:

Genel formülle, varyans şöyle bulunur:

Hesaplama formülu ile ise varyans şöyle hesaplanır ve aynı sonuç verir:

Varyansın biçimsel özellikleri

Varyansın şu özellikleri bulunmaktadır:

Varyans için hesaplama formülü

Varyans için hesaplama formülü hemen doğrudan doğruya beklenen değerlerin doğrusallarından ve yukarıda verilen tanımlamadan ortaya çıkar\;

Bu çok zaman pratikte varyans hesaplaması için kullanılır. Fakat eğer denklemin iki kısmının değerleri birbirine eşit veya çok yakınsa numerik yaklaşımlama hatasından etkilenip yanlış değerler verebilir.