Korelasyon

bilgipedi.com.tr sitesinden
Her bir küme için x ve y'nin Pearson korelasyon katsayısı ile birlikte birkaç (x, y) nokta kümesi. Korelasyon, doğrusal bir ilişkinin gürültüsünü ve yönünü yansıtır (üst sıra), ancak bu ilişkinin eğimini (orta) veya doğrusal olmayan ilişkilerin birçok yönünü (alt) yansıtmaz. Not: Ortadaki şeklin eğimi 0'dır ancak bu durumda Y'nin varyansı sıfır olduğu için korelasyon katsayısı tanımsızdır.

İstatistikte korelasyon veya bağımlılık, iki rastgele değişken veya iki değişkenli veri arasında nedensel olsun ya da olmasın herhangi bir istatistiksel ilişkidir. En geniş anlamıyla "korelasyon" her türlü ilişkiyi gösterebilmesine rağmen, istatistikte normalde bir çift değişkenin doğrusal olarak ilişkili olma derecesini ifade eder. Bağımlı olguların bilinen örnekleri arasında ebeveynlerin boyları ile yavruları arasındaki korelasyon ve talep eğrisi olarak adlandırılan şekilde gösterildiği gibi, bir malın fiyatı ile tüketicilerin satın almaya istekli oldukları miktar arasındaki korelasyon yer alır.

Korelasyonlar faydalıdır çünkü uygulamada kullanılabilecek bir tahmin ilişkisine işaret edebilirler. Örneğin, bir elektrik şirketi elektrik talebi ile hava durumu arasındaki korelasyona dayanarak ılıman bir günde daha az elektrik üretebilir. Bu örnekte nedensel bir ilişki vardır, çünkü aşırı hava koşulları insanların ısıtma veya soğutma için daha fazla elektrik kullanmasına neden olur. Ancak, genel olarak, bir korelasyonun varlığı nedensel bir ilişkinin varlığını ortaya çıkarmak için yeterli değildir (yani, korelasyon nedensellik anlamına gelmez).

Resmi olarak, rastgele değişkenler, olasılıksal bağımsızlığın matematiksel bir özelliğini karşılamıyorlarsa bağımlıdırlar. Gayri resmi dilde korelasyon, bağımlılık ile eş anlamlıdır. Bununla birlikte, teknik anlamda kullanıldığında korelasyon, test edilen değişkenler ile bunların beklenen değerleri arasındaki birkaç özel matematiksel işlem türünden herhangi birini ifade eder. Esasen korelasyon, iki veya daha fazla değişkenin birbiriyle nasıl ilişkili olduğunun ölçüsüdür. Genellikle şu şekilde ifade edilen çeşitli korelasyon katsayıları vardır veya korelasyon derecesini ölçer. Bunlardan en yaygın olanı Pearson korelasyon katsayısıdır ve yalnızca iki değişken arasındaki doğrusal ilişkiye duyarlıdır (bir değişken diğerinin doğrusal olmayan bir fonksiyonu olduğunda bile mevcut olabilir). Spearman'ın sıra korelasyonu gibi diğer korelasyon katsayıları Pearson'dan daha sağlam, yani doğrusal olmayan ilişkilere daha duyarlı olacak şekilde geliştirilmiştir. Karşılıklı bilgi de iki değişken arasındaki bağımlılığı ölçmek için uygulanabilir.

Farklı durumlar için farklı korelasyon katsayıları geliştirilmiştir. Bunlardan en iyi bilineni Pearson çarpım-moment korelasyon katsayısıdır. İki değişkenin kovaryansının, yine bu değişkenlerin standart sapmalarının çarpımına bölünmesiyle elde edilir. Pearson ismiyle bilinmesine rağmen ilk olarak Francis Galton tarafından bulunmuştur.

Pearson'ın momentler çarpımı katsayısı

Çeşitli korelasyon katsayılarına sahip çeşitli veri kümelerinin örnek dağılım grafikleri.

İki büyüklük arasındaki bağımlılığın en bilinen ölçüsü Pearson momentler çarpımı korelasyon katsayısı (PPMCC) veya "Pearson korelasyon katsayısı", genellikle basitçe "korelasyon katsayısı" olarak adlandırılır. Sayısal veri setimizdeki söz konusu iki değişkenin kovaryanslarının, varyanslarının kareköküne normalize edilmiş oranının alınmasıyla elde edilir. Matematiksel olarak, iki değişkenin kovaryansının standart sapmalarının çarpımına bölünmesi yeterlidir. Karl Pearson bu katsayıyı Francis Galton'un benzer ama biraz farklı bir fikrinden yola çıkarak geliştirmiştir.

Pearson momentler çarpımı korelasyon katsayısı, iki değişkenden oluşan bir veri kümesi üzerinden, esasen beklenen değerleri ortaya koyarak bir en iyi uyum çizgisi oluşturmaya çalışır ve ortaya çıkan Pearson korelasyon katsayısı, gerçek veri kümesinin beklenen değerlerden ne kadar uzakta olduğunu gösterir. Pearson korelasyon katsayımızın işaretine bağlı olarak, veri setimizin değişkenleri arasında herhangi bir ilişki varsa negatif veya pozitif bir korelasyon elde edebiliriz.

Popülasyon korelasyon katsayısı iki rastgele değişken arasında ve beklenen değerlerle ve ve standart sapmalar ve olarak tanımlanır:

nerede beklenen değer operatörüdür, kovaryans anlamına gelir ve korelasyon katsayısı için yaygın olarak kullanılan alternatif bir gösterimdir. Pearson korelasyonu yalnızca her iki standart sapmanın da sonlu ve pozitif olması durumunda tanımlanır. Tamamen momentler açısından alternatif bir formül şöyledir:

Korelasyon ve bağımsızlık

Pearson korelasyon katsayısının mutlak değerinin 1'den büyük olmaması Cauchy-Schwarz eşitsizliğinin bir sonucudur. Bu nedenle, bir korelasyon katsayısının değeri -1 ile +1 arasında değişir. Korelasyon katsayısı, mükemmel bir doğrudan (artan) doğrusal ilişki (korelasyon) durumunda +1, mükemmel bir ters (azalan) doğrusal ilişki (anti-korelasyon) durumunda -1 ve açık aralıkta bir değerdir diğer tüm durumlarda, değişkenler arasındaki doğrusal bağımlılık derecesini gösterir. Sıfıra yaklaştıkça daha az ilişki vardır (ilişkisizliğe daha yakın). Katsayı -1 ya da 1'e ne kadar yakınsa değişkenler arasındaki korelasyon o kadar güçlüdür.

Değişkenler bağımsızsa, Pearson korelasyon katsayısı 0'dır, ancak tersi doğru değildir çünkü korelasyon katsayısı yalnızca iki değişken arasındaki doğrusal bağımlılıkları tespit eder.

Örneğin, rastgele değişkenin sıfır etrafında simetrik olarak dağılır ve . Sonra tarafından tamamen belirlenir böylece ve tamamen bağımlıdır, ancak korelasyonları sıfırdır; ilişkisizdirler. Bununla birlikte, özel durumda ve birlikte normal ise, ilişkisizlik bağımsızlığa eşdeğerdir.

İlişkisiz veriler mutlaka bağımsızlık anlamına gelmese de, karşılıklı bilgileri 0 ise rastgele değişkenlerin bağımsız olup olmadığı kontrol edilebilir.

Örnek korelasyon katsayısı

Verilen bir dizi çiftinin ölçümleri tarafından endekslenmiştir örnek korelasyon katsayısı, popülasyon Pearson korelasyonunu tahmin etmek için kullanılabilir arasında ve . Örnek korelasyon katsayısı şu şekilde tanımlanır

nerede ve 'nin örnek ortalamalarıdır. ve ve ve 'nin düzeltilmiş örneklem standart sapmalarıdır. ve .

için eşdeğer ifadeler vardır

nerede ve 'nin düzeltilmemiş örneklem standart sapmalarıdır. ve .

Eğer ve ölçüm hatası içeren ölçümlerin sonuçları olduğu için, korelasyon katsayısı üzerindeki gerçekçi sınırlar -1 ila +1 değil, daha küçük bir aralıktır. Tek bir bağımsız değişkene sahip doğrusal bir model söz konusu olduğunda, belirleme katsayısı (R kare) , Pearson momentler çarpımı katsayısı.

Örnek

Aşağıdaki tabloda verilen X ve Y'nin ortak olasılık dağılımını göz önünde bulundurun.

y
x
−1 0 1
0 0 1/3 0
1 1/3 0 1/3

Bu ortak dağılım için marjinal dağılımlar şöyledir:

Bu da aşağıdaki beklenti ve varyansları verir:

Bu nedenle:

Sıralama korelasyon katsayıları

Spearman'ın sıra korelasyon katsayısı ve Kendall'ın sıra korelasyon katsayısı (τ) gibi sıra korelasyon katsayıları, bir değişken arttıkça diğer değişkenin ne ölçüde artma eğiliminde olduğunu, bu artışın doğrusal bir ilişki ile temsil edilmesini gerektirmeden ölçer. Değişkenlerden biri arttıkça diğeri azalıyorsa, sıra korelasyon katsayıları negatif olacaktır. Bu sıra korelasyon katsayılarını, hesaplama miktarını azaltmak ya da katsayıyı dağılımlardaki normal olmayanlığa karşı daha az hassas hale getirmek için kullanılan Pearson katsayısına alternatifler olarak görmek yaygındır. Ancak, sıralama korelasyon katsayıları Pearson momentler çarpımı korelasyon katsayısından farklı bir ilişki türünü ölçtüğünden ve popülasyon korelasyon katsayısının alternatif bir ölçüsü olmaktan ziyade farklı bir ilişki türünün ölçüsü olarak görüldüğünden, bu görüşün çok az matematiksel temeli vardır.

Sıralama korelasyonunun doğasını ve doğrusal korelasyondan farkını göstermek için aşağıdaki dört sayı çiftini göz önünde bulundurun :

(0, 1), (10, 100), (101, 500), (102, 2000).

Her çiftten bir sonraki çifte geçerken artar, ve böylece . Bu ilişki mükemmel bir ilişkidir. her zaman bir artışla birlikte görülür. . Bu, mükemmel bir sıra korelasyonumuz olduğu anlamına gelir ve hem Spearman'ın hem de Kendall'ın korelasyon katsayıları 1'dir, oysa bu örnekte Pearson momentler çarpımı korelasyon katsayısı 0,7544'tür ve bu da noktaların düz bir çizgi üzerinde yer almaktan uzak olduğunu gösterir. Aynı şekilde eğer her zaman azalır artarsa, sıra korelasyon katsayıları -1 olurken, Pearson momentler çarpımı korelasyon katsayısı noktaların düz bir çizgiye ne kadar yakın olduğuna bağlı olarak -1'e yakın olabilir veya olmayabilir. Mükemmel sıra korelasyonunun uç durumlarında iki katsayının her ikisi de eşit olsa da (her ikisi de +1 veya her ikisi de -1), durum genellikle böyle değildir ve bu nedenle iki katsayının değerleri anlamlı bir şekilde karşılaştırılamaz. Örneğin, üç çift için (1, 1) (2, 3) (3, 2) Spearman'ın katsayısı 1/2 iken Kendall'ın katsayısı 1/3'tür.

Rastgele değişkenler arasındaki diğer bağımlılık ölçüleri

Bir korelasyon katsayısı tarafından verilen bilgi, rastgele değişkenler arasındaki bağımlılık yapısını tanımlamak için yeterli değildir. Korelasyon katsayısı, bağımlılık yapısını yalnızca çok özel durumlarda, örneğin dağılımın çok değişkenli normal dağılım olduğu durumlarda tamamen tanımlar. (Eliptik dağılımlar söz konusu olduğunda, eşit yoğunluktaki (hiper-)elipsleri karakterize eder; ancak bağımlılık yapısını tam olarak karakterize etmez (örneğin, çok değişkenli bir t-dağılımının serbestlik derecesi kuyruk bağımlılığı seviyesini belirler).

Mesafe korelasyonu, Pearson korelasyonunun bağımlı rastgele değişkenler için sıfır olabileceği eksikliğini gidermek için tanıtılmıştır; sıfır mesafe korelasyonu bağımsızlık anlamına gelir.

Rastgele Bağımlılık Katsayısı, çok değişkenli rastgele değişkenler arasındaki bağımlılığın hesaplama açısından verimli, kopula tabanlı bir ölçüsüdür. RDC, rastgele değişkenlerin doğrusal olmayan ölçeklendirmelerine göre değişmezdir, çok çeşitli fonksiyonel ilişki modellerini keşfedebilir ve bağımsızlıkta sıfır değerini alır.

İki ikili değişken için odds oranı bağımlılıklarını ölçer ve negatif olmayan sayılar, muhtemelen sonsuzluk aralığını alır: . Yule's Y ve Yule's Q gibi ilgili istatistikler bunu korelasyon benzeri aralığa normalleştirir . Odds oranı, bağımlı değişkenlerin kesikli olduğu ve bir veya daha fazla bağımsız değişkenin olabileceği durumları modellemek için lojistik model tarafından genelleştirilmiştir.

Korelasyon oranı, entropi tabanlı karşılıklı bilgi, toplam korelasyon, ikili toplam korelasyon ve polikorik korelasyon, aralarındaki kopula dikkate alındığında olduğu gibi daha genel bağımlılıkları da tespit edebilirken, belirleme katsayısı korelasyon katsayısını çoklu regresyona genelleştirir.

Veri dağılımına duyarlılık

X ve Y değişkenleri arasındaki bağımlılık derecesi, değişkenlerin ifade edildiği ölçeğe bağlı değildir. Yani, X ve Y arasındaki ilişkiyi analiz ediyorsak, çoğu korelasyon ölçüsü X'i a + bX'e ve Y'yi c + dY'ye dönüştürmekten etkilenmez; burada a, b, c ve d sabittir (b ve d pozitiftir). Bu, bazı korelasyon istatistiklerinin yanı sıra bunların popülasyon analogları için de geçerlidir. Sıralama korelasyon katsayısı gibi bazı korelasyon istatistikleri de X ve/veya Y'nin marjinal dağılımlarının monoton dönüşümlerine karşı değişmezdir.

X ve Y arasındaki Pearson/Spearman korelasyon katsayıları, iki değişkenin aralıkları kısıtlanmadığında ve X'in aralığı (0,1) aralığıyla kısıtlandığında gösterilir.

Çoğu korelasyon ölçütü X ve Y'nin örneklenme biçimine duyarlıdır. Daha geniş bir değer aralığı üzerinden bakıldığında bağımlılıklar daha güçlü olma eğilimindedir. Dolayısıyla, babaların ve oğullarının boyları arasındaki korelasyon katsayısını tüm yetişkin erkekler üzerinden ele alırsak ve bunu babalar 165 cm ile 170 cm arasında seçildiğinde hesaplanan aynı korelasyon katsayısıyla karşılaştırırsak, ikinci durumda korelasyon daha zayıf olacaktır. Bir veya her iki değişkendeki aralık kısıtlamasını düzeltmeye çalışan ve meta-analizde yaygın olarak kullanılan çeşitli teknikler geliştirilmiştir; en yaygın olanları Thorndike'ın durum II ve durum III denklemleridir.

Kullanılan çeşitli korelasyon ölçümleri, X ve Y'nin belirli ortak dağılımları için tanımsız olabilir. Örneğin, Pearson korelasyon katsayısı momentler cinsinden tanımlanır ve dolayısıyla momentler tanımsızsa tanımsız olacaktır. Niceliklere dayalı bağımlılık ölçüleri her zaman tanımlıdır. Popülasyon bağımlılık ölçülerini tahmin etmeyi amaçlayan örnek tabanlı istatistikler, verilerin örneklendiği popülasyonun mekansal yapısına bağlı olarak yansız veya asimptotik olarak tutarlı olmak gibi arzu edilen istatistiksel özelliklere sahip olabilir veya olmayabilir.

Veri dağılımına duyarlılık bir avantaj olarak kullanılabilir. Örneğin, ölçeklendirilmiş korelasyon, zaman serilerinin hızlı bileşenleri arasındaki korelasyonları seçmek için aralığa olan duyarlılığı kullanmak üzere tasarlanmıştır. Değer aralığını kontrollü bir şekilde azaltarak, uzun zaman ölçeğindeki korelasyonlar filtrelenir ve yalnızca kısa zaman ölçeklerindeki korelasyonlar ortaya çıkarılır.

Korelasyon matrisleri

'nin korelasyon matrisi rastgele değişkenler bu olan matris giriş . Böylece köşegen girdilerin hepsi özdeş olarak birliktir. Kullanılan korelasyon ölçüleri momentler çarpımı katsayıları ise, korelasyon matrisi standartlaştırılmış rastgele değişkenlerin kovaryans matrisi ile aynıdır için . Bu hem popülasyon korelasyonları matrisi için geçerlidir (bu durumda popülasyon standart sapmasıdır) ve örneklem korelasyonları matrisine (bu durumda örneklem standart sapmasını gösterir). Sonuç olarak, her biri mutlaka pozitif yarı-sonlu bir matristir. Ayrıca, hiçbir değişkenin tüm değerleri diğerlerinin değerlerinin doğrusal bir fonksiyonu olarak tam olarak üretilemiyorsa, korelasyon matrisi kesinlikle pozitif tanımlıdır.

Korelasyon matrisi simetriktir çünkü değişkenler arasındaki korelasyon ve arasındaki korelasyon ile aynıdır. ve .

Bir korelasyon matrisi, örneğin, çoklu regresyonda uyum iyiliğinin bir ölçüsü olan çoklu belirleme katsayısı için bir formülde görünür.

İstatistiksel modellemede, değişkenler arasındaki ilişkileri temsil eden korelasyon matrisleri, bunları tahmin etmek için gereken parametre sayısı gibi faktörlerle ayırt edilen farklı korelasyon yapılarına göre kategorize edilir. Örneğin, değiştirilebilir bir korelasyon matrisinde, tüm değişken çiftleri aynı korelasyona sahip olarak modellenir, bu nedenle matrisin köşegen olmayan tüm elemanları birbirine eşittir. Öte yandan, değişkenler bir zaman serisini temsil ettiğinde genellikle otoregresif bir matris kullanılır, çünkü ölçümler zaman içinde daha yakın olduğunda korelasyonların daha büyük olması muhtemeldir. Diğer örnekler arasında bağımsız, yapılandırılmamış, M-bağımlı ve Toeplitz yer alır.

Keşifsel veri analizinde, korelasyonların ikonografisi, bir korelasyon matrisinin, "dikkate değer" korelasyonların düz bir çizgi (pozitif korelasyon) veya noktalı bir çizgi (negatif korelasyon) ile temsil edildiği bir diyagramla değiştirilmesinden oluşur.

En yakın geçerli korelasyon matrisi

Bazı uygulamalarda (örneğin, yalnızca kısmen gözlemlenen verilerden veri modelleri oluşturmak), "yaklaşık" bir korelasyon matrisine (örneğin, hesaplanma şekli nedeniyle tipik olarak yarı tanımlı pozitiflikten yoksun bir matris) "en yakın" korelasyon matrisini bulmak istenir.

2002 yılında Higham, Frobenius normunu kullanarak yakınlık kavramını resmileştirmiş ve Dykstra'nın projeksiyon algoritmasını kullanarak en yakın korelasyon matrisini hesaplamak için bir yöntem sunmuştur; bu yöntemin bir uygulaması çevrimiçi bir Web API'si olarak mevcuttur.

Bu, sonraki yıllarda elde edilen yeni teorik (örneğin, faktör yapısı ile en yakın korelasyon matrisinin hesaplanması) ve sayısal (örneğin, en yakın korelasyon matrisinin hesaplanması için Newton yönteminin kullanılması) sonuçlarla konuya olan ilgiyi artırmıştır.

Stokastik süreçlerin ilişkisizliği ve bağımsızlığı

Benzer şekilde iki stokastik süreç için ve : Eğer bağımsızlarsa, o zaman ilişkisizdirler. Bu ifadenin tersi doğru olmayabilir. İki değişken ilişkisiz olsa bile, birbirlerinden bağımsız olmayabilirler.

Yaygın kavram yanılgıları

Korelasyon ve nedensellik

"Korelasyon nedensellik anlamına gelmez" şeklindeki geleneksel söz, korelasyonun değişkenler arasında nedensel bir ilişki çıkarmak için tek başına kullanılamayacağı anlamına gelir. Bu söz, korelasyonların nedensel ilişkilerin potansiyel varlığına işaret edemeyeceği anlamına gelmemelidir. Ancak, korelasyonun altında yatan nedenler, eğer varsa, dolaylı ve bilinmiyor olabilir ve yüksek korelasyonlar, nedensel bir sürecin olmadığı özdeşlik ilişkileriyle (totolojiler) de örtüşebilir. Sonuç olarak, iki değişken arasındaki korelasyon, nedensel bir ilişki kurmak için (her iki yönde de) yeterli bir koşul değildir.

Çocuklarda yaş ve boy arasındaki bir korelasyon nedensel olarak oldukça şeffaftır, ancak insanlarda ruh hali ve sağlık arasındaki bir korelasyon daha az şeffaftır. Ruh halinin iyileşmesi sağlığın iyileşmesine mi yol açar, yoksa iyi bir sağlık mı iyi bir ruh haline yol açar, ya da her ikisi birden mi? Yoksa her ikisinin de altında başka bir faktör mü yatıyor? Başka bir deyişle, bir korelasyon olası bir nedensel ilişkinin kanıtı olarak alınabilir, ancak varsa nedensel ilişkinin ne olabileceğini gösteremez.

Basit doğrusal korelasyonlar

Anscombe'un dörtlüsü: 0,816'lık aynı korelasyona sahip dört veri seti

Pearson korelasyon katsayısı iki değişken arasındaki doğrusal ilişkinin gücünü gösterir, ancak değeri genellikle aralarındaki ilişkiyi tam olarak tanımlamaz. Özellikle, eğer iki değişkenin koşullu ortalaması verilen , gösterilir 'de doğrusal değildir. 'nin şeklini tam olarak belirlemeyeceğinden, korelasyon katsayısı .

Yandaki resim, Francis Anscombe tarafından oluşturulan dört farklı değişken çiftinden oluşan Anscombe dörtlüsünün dağılım grafiklerini göstermektedir. Bu dört değişkenler aynı ortalamaya (7.5), varyansa (4.12), korelasyona (0.816) ve regresyon doğrusuna (y = 3 + 0.5x) sahiptir. Ancak, grafiklerde de görülebileceği gibi, değişkenlerin dağılımı çok farklıdır. İlki (sol üst) normal dağılmış gibi görünmektedir ve korelasyonlu iki değişken düşünüldüğünde ve normallik varsayımı takip edildiğinde beklenene karşılık gelmektedir. İkincisi (sağ üst) normal dağılmamaktadır; iki değişken arasında bariz bir ilişki gözlemlenebilirken, bu ilişki doğrusal değildir. Bu durumda Pearson korelasyon katsayısı tam bir fonksiyonel ilişki olduğunu göstermez: sadece bu ilişkinin doğrusal bir ilişki ile ne ölçüde yaklaştırılabileceğini gösterir. Üçüncü durumda (sol altta), korelasyon katsayısını 1'den 0,816'ya düşürecek kadar etkili olan bir aykırı değer dışında doğrusal ilişki mükemmeldir. Son olarak, dördüncü örnek (sağ alt), iki değişken arasındaki ilişki doğrusal olmasa da bir aykırı değerin yüksek bir korelasyon katsayısı üretmek için yeterli olduğu başka bir örneği göstermektedir.

Bu örnekler, bir özet istatistik olarak korelasyon katsayısının verilerin görsel olarak incelenmesinin yerini alamayacağını göstermektedir. Bu örneklerin bazen Pearson korelasyonunun verilerin normal bir dağılım izlediğini varsaydığını gösterdiği söylenir, ancak bu sadece kısmen doğrudur. Pearson korelasyonu, sonlu bir kovaryans matrisine sahip olan herhangi bir dağılım için doğru bir şekilde hesaplanabilir, bu da pratikte karşılaşılan çoğu dağılımı içerir. Ancak, Pearson korelasyon katsayısı (örnek ortalaması ve varyansı ile birlikte ele alındığında) yalnızca veriler çok değişkenli bir normal dağılımdan alınmışsa yeterli bir istatistiktir. Sonuç olarak, Pearson korelasyon katsayısı değişkenler arasındaki ilişkiyi ancak ve ancak veriler çok değişkenli bir normal dağılımdan alınmışsa tam olarak karakterize eder.

İki değişkenli normal dağılım

Eğer bir çift iki değişkenli normal dağılım izlediğinde, koşullu ortalama 'nin doğrusal bir fonksiyonudur. ve koşullu ortalama 'nin doğrusal bir fonksiyonudur. . Korelasyon katsayısı arasında ve 'nin marjinal ortalamaları ve varyansları ile birlikte ve , bu doğrusal ilişkiyi belirler:

nerede ve 'nin beklenen değerleridir. ve sırasıyla, ve ve standart sapmalarıdır. ve sırasıyla.

Ampirik korelasyon korelasyon katsayısının bir tahminidir . için bir dağılım tahmini tarafından verilir

nerede Gauss hipergeometrik fonksiyonudur ve . Bu yoğunluk hem Bayesçi bir sonsal yoğunluk hem de tam bir optimal güven dağılımı yoğunluğudur.

Pearson çarpım-moment korelasyon katsayısı

İsimlendirme

Pearson çarpım-moment korelasyon katsayısı isminde, kovaryans hesaplanırken yapılan işlemin fiziksel moment hesabına benzerliği etkili olmuştur. Çift taraflı bir kaldıraçın iki yük kolundaki ağırlıkların momenti hesaplanırken kullanılan, ağırlık ile ağırlığın destek noktasına olan uzaklığın çarpımı ile her bir değişkenin ortalamaya olan uzaklıklarının bulunması arasındaki benzerlik bu isimlendirmeye neden olmuştur.

Korelasyonun açıklanması

Örneklem korelasyon katsayısı iki rassal değişken olan X ve Yyi temsil eden vektörlerin kosinus değeri olarak açıklanabilir.

Örneklem korelasyon katsayısı mümkün uçsal değerler olan -1 veya +1 olursa, çok iyi iki değişken arasında çok iyi bir doğrusal bağlantı bulunduğu kabul edilir. Eğer örneklem korelasyon katsayısı 0'a eşitse, iki değişken arasında hiç doğrusal bağlantı bulunmaz. Dikkat edilirse hep örneklem korelasyon katsayısı ile doğrusal bağlantı açıklanmakta ve genel olarak bağlantıdan bahis edilmemektedir. Örneğin iki değişken arasında çok yakın bir daire şeklinde bağlantı bulunsa, örneklem korelasyon katsayısı 0'a yakın olacaktır.

Değişik istatistikçiler örneklem korelasyon katsayısının değerlerini daha ayrıntılı olarak açıklamaktadırlar. Burada Cohen(1988) , tarafından, özellikle psikoloji ilim dalında uygulamalı olarak, verilen ayrıntılı açıklama şu tabloda gösterilmektedir:

Korelasyon Negatif Pozitif
Düşük -0,29 to -0,10 0,10 to 0,29
Orta derecede -0,49 to -0,30 0,30 to 0,49
Yüksek -0,50 to -1,00 0,50 to 1,00

Bu ayrıntılı açıklama çok subjektifdir ve belli bir bilim dalı için (psikoloji) uygundur ama genelleştirilmesi uygun değildir. Değişik bilim dalları korelasyon katsayısı değerlerinin değişik olarak açıklamasını kabul etmektedirler. Örneğin çok dakik ölçüm aletleri ile ortaya çıkarılan ölçüler arasında bulunan 0,9 korelasyon değerinin çok düşük olduğu kabul edilebilir; halbuki ayni katsayı değeri bir sosyal bilimci veya iktisatçı tarafından çok yüksek (hatta gerçekliğine şüphe yaratırcasına büyük) olarak kabul edilmektedir.

Korelasyon katsayısının kesin olarak tek-geçişli olarak bilgisayarla hesaplanması

Sayısal olarak kararlılığı ve kesinliği iyi olan Pearson'un çarpan-moment korelasyon katsayısı hesaplama algoritması için şu sözdekod verilmiştir:

sum_sq_x = 0
sum_sq_y = 0
sum_xy = 0
mean_x = x[1]
mean_y = y[1]
for i in 2 to N:
    sweep = (i - 1.0) / i
    delta_x = x[i] - mean_x
    delta_y = y[i] - mean_y
    sum_sq_x += delta_x * delta_x * sweep
    sum_sq_y += delta_y * delta_y * sweep
    sum_xy += delta_x * delta_y * sweep
    mean_x += delta_x / i
    mean_y += delta_y / i 
pop_sd_x = sqrt( sum_sq_x / N )
pop_sd_y = sqrt( sum_sq_y / N )
cov_x_y = sum_coproduct / N
korelasyon = cov_x_y / (pop_sd_x * pop_sd_y)