Co oznacza niski współczynnik korelacji wielokrotnej? Obliczanie współczynników korelacji wielokrotnej
Wielokrotny współczynnik korelacji
Jeżeli cząstkowe współczynniki korelacji modelu regresji wielorakiej okażą się istotne, czyli rzeczywiście istnieje związek korelacyjny pomiędzy zmienną wynikową a zmiennymi modelu czynnikowego, wówczas w tym przypadku za właściwą uznaje się konstrukcję współczynnika korelacji wielokrotnej.
Za pomocą współczynnika korelacji wielokrotnej scharakteryzowano łączny wpływ wszystkich zmiennych czynnikowych na zmienną wynikową w modelu regresji wielokrotnej.
Wzór na określenie współczynnika korelacji równania regresji wielokrotnej poprzez macierz sparowanych współczynników korelacji:
![](https://i1.wp.com/studbooks.net/imag_/5/6391/image104.png)
gdzie jest wyznacznikiem macierzy sparowanych współczynników korelacji;
![](https://i1.wp.com/studbooks.net/imag_/5/6391/image105.png)
Wyznacznik macierzy korelacji międzyczynnikowej.
Jak widać ze wzorów, wartość współczynnika korelacji wielokrotnej zależy nie tylko od korelacji wyniku z każdym z czynników, ale także od korelacji międzyczynnikowej. Rozważany wzór pozwala wyznaczyć całkowity współczynnik korelacji bez uciekania się do równania regresji wielokrotnej, a jedynie przy użyciu sparowanych współczynników korelacji.
Tabela 17 - Wyniki obliczeń współczynnika korelacji wielokrotnej
Ocena jakości skonstruowanego modelu
Współczynnik wielokrotnej determinacji R2 jest kwadratem współczynnika wielokrotnej korelacji.
Współczynnik determinacji wielokrotnej charakteryzuje, w jakim stopniu skonstruowany model regresji wyjaśnia zmienność wartości zmiennej wynikowej w stosunku do jej średniego poziomu, tj. pokazuje proporcję całkowitej wariancji zmiennej wynikowej wyjaśnionej zmianą w zmiennych czynnikowych uwzględnionych w modelu regresji. Im większa jest wartość współczynnika determinacji wielokrotnej, tym lepiej skonstruowany model regresji charakteryzuje zależności pomiędzy zmiennymi.
Dla współczynnika wielokrotnej determinacji zachodzi zawsze nierówność postaci:
W konsekwencji włączenie dodatkowej zmiennej czynnikowej do modelu regresji liniowej nie powoduje zmniejszenia wartości współczynnika determinacji wielokrotnej.
Tabela 18 – Obliczone współczynniki determinacji
Aby zapobiec przesadzeniu bliskości połączenia, stosuje się skorygowany wskaźnik wielokrotnego wyznaczania, który zawiera poprawkę na liczbę stopni swobody i jest obliczany według wzoru:
![](https://i1.wp.com/studbooks.net/imag_/5/6391/image106.png)
gdzie n to wielkość próby, m to liczba zmiennych w równaniu regresji wielokrotnej. Przy małej liczbie obserwacji nieskorygowana wartość współczynnika determinacji wielokrotnej R 2 ma tendencję do przeszacowywania proporcji zmienności otrzymanej charakterystyki związanej z wpływem czynników uwzględnionych w modelu regresji.
Tabela 19 – Skorygowany wskaźnik wielokrotnego oznaczania
Wysokie wartości współczynników determinacji R2 wskazują, że modele regresji dobrze przybliżają dane oryginalne i takie modele regresji można wykorzystać do predykcji wartości efektywnego wskaźnika.
Sprawdzenie znaczenia (jakości) równania regresji oznacza ustalenie, czy model matematyczny, wyrażające związek między zmiennymi, dane doświadczalne, czy zmienne objaśniające zawarte w równaniu są wystarczające do opisu zmiennej zależnej. Aby uzyskać ogólną ocenę jakości modelu, średni błąd aproksymacji wyznacza się na podstawie względnych odchyleń dla każdej obserwacji. Adekwatność równania regresji (modelu) sprawdza się za pomocą średniego błędu aproksymacji, którego wartość nie powinna przekraczać 12-15% (maksymalna dopuszczalna wartość).
Wzór na obliczenie średniego błędu aproksymacji:
![](https://i2.wp.com/studbooks.net/imag_/5/6391/image107.png)
gdzie n jest liczbą zmiennych w równaniu regresji wielokrotnej; f(x i1 , x i2 , …, xin) - i-te obliczone wartość zmiennej y; - i-ty doświadczony wartość zmiennej y.
Tabela 20 – Średni błąd przybliżenia
Jak widać z wyników obliczeń, średnie błędy aproksymacji nie przekraczają dopuszczalnych wartości 12-15%, co świadczy o adekwatności otrzymanych modeli.
Sprawdzanie znaczenia współczynników równanie liniowe regresja wielokrotna.
Sprawdzenie znaczenia poszczególnych współczynników równania oznacza, że jeśli współczynnik danej zmiennej jest nieistotny, to nie można ufać wpływowi tej zmiennej na wartości wynikowej funkcji y. Nieistotny współczynnik należy ustawić na zero, tj. odpowiednią zmienną należy wyłączyć z dalszych rozważań.
Do sprawdzenia istotności każdego ze współczynników a 0 , a 1 ,…, a n wykorzystuje się statystykę t-Studenta, której wartość eksperymentalną oblicza się ze wzoru:
, (i=0,1,…,n), (18)
gdzie a i jest współczynnikiem zmiennej x i, jest pierwiastkiem błędu średniokwadratowego tego współczynnika,
![](https://i0.wp.com/studbooks.net/imag_/5/6391/image109.png)
gdzie jest odchylenie standardowe dla wartości zmiennej y; - odchylenie standardowe dla wartości x i; - współczynnik determinacji wielokrotnej dla równania regresji jako całości; - współczynnik determinacji wielokrotnej, charakteryzujący związek czynnika x i z innymi czynnikami (x 1, x 2,..., x i-1, x i+1,..., x n) równania regresji.
Każdą z eksperymentalnych wartości statystycznych porównuje się z wartością krytyczną (i=1,2,...,n), która jest przeszukiwana za pomocą tablicy rozkładu Studenta na zadanym poziomie istotności b i liczbie stopni swobody k równe k=m-n-1. W tym przypadku na poziomie istotności b = 0,05 i k = 13-3-1 = 9 = 2,26.
Tabela 21 - Obliczone wartości eksperymentalne t - Statystyki studenckie
Jeżeli > , to hipoteza o znaczeniu współczynnika a i nie zostaje odrzucona, a odpowiadająca mu zmienna x i pozostaje w równaniu. W przeciwnym razie współczynnik a i uważa się za nieistotny i odpowiadającą mu zmienną należy wykluczyć z równania regresji. Zatem porównując uzyskane wartości eksperymentalne z wartościami krytycznymi, możemy stwierdzić, że we wszystkich czterech równaniach nie ma nieistotnych współczynników.
Ogólne testowanie znaczenia liniowego równania regresji wielokrotnej
Jeżeli okaże się, że na danym poziomie istotności b równanie jest nieistotne, to nie można z niego skorzystać, a znalezioną zależność należy pominąć.
Aby sprawdzić znaczenie równania regresji, stosuje się eksperymentalną statystykę F Fishera:
![](https://i0.wp.com/studbooks.net/imag_/5/6391/image113.png)
gdzie m jest wielkością próbki; n jest liczbą zmiennych w równaniu regresji wielokrotnej; f(x i1 , x i2 , …, x in) - i-ta obliczona wartość zmiennej y; - średnia wartości doświadczalnych zmienna losowa Y.
Otrzymane wartości eksperymentalne kryterium Fishera porównuje się z wartościami krytycznymi =F(b;k 1;k 2) na wybranym poziomie istotności b. Liczba stopni swobody k 1 = m - n - 1, k 2 = n.
Przy wybranym poziomie istotności b = 0,05 i liczbie stopni swobody k 1 = 13 - 3 - 1 = 9, k 2 = 3 = 8,81
Tabela 22 - Obliczone wartości eksperymentalne kryterium Fishera
Porównując wartości eksperymentalne kryteriów Fishera z wartościami krytycznymi (na poziomie istotności b = 0,05 F cr = 8,81) wszystkie spełniają nierówność F op > F cr i stwierdza się, że z prawdopodobieństwem p = 1 - b = 0,95 wszystkie równania są istotne i mamy pewne powody, aby ufać skonstruowanym równaniom regresji.
Ocena dokładności liniowego równania regresji wielokrotnej
Ostatnią procedurą statystyczną jest ocena dokładności skonstruowanych równań regresji.
Ocenę bliskości wartości eksperymentalnych y i zmiennej losowej Y oraz jej obliczonych wartości f(x i), otrzymanych za pomocą równania regresji liniowej, przeprowadza się stosując błąd średniokwadratowy według następującego wzoru:
Tabela 23 – Wyniki obliczenia błędu średniokwadratowego równań
![]() |
||
Badając złożone zjawiska, należy wziąć pod uwagę więcej niż dwa czynniki losowe. Prawidłowe zrozumienie natury zależności między tymi czynnikami można uzyskać tylko wtedy, gdy wszystkie rozpatrywane czynniki losowe zostaną zbadane jednocześnie. Wspólne badanie trzech lub większej liczby czynników losowych pozwoli badaczowi na ustalenie mniej lub bardziej uzasadnionych założeń na temat zależności przyczynowych pomiędzy badanymi zjawiskami. Prostą formą relacji wielokrotnej jest liniowa zależność pomiędzy trzema cechami. Czynniki losowe są oznaczone jako X 1 , X 2 i X 3. Sparowane współczynniki korelacji pomiędzy X 1 i X 2 oznacza się jako R 12, odpowiednio pomiędzy X 1 i X 3 - R 12, pomiędzy X 2 i X 3 - R 23. Jako miarę bliskości liniowej zależności pomiędzy trzema cechami stosuje się wielokrotne współczynniki korelacji, oznaczone R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 i częściowe współczynniki korelacji, oznaczone R 12.3 , R 13.2 , R 23.1 .
Współczynnik korelacji wielokrotnej R 1,23 trzech czynników jest wskaźnikiem bliskości liniowej zależności pomiędzy jednym z czynników (wskaźnik przed kropką) a kombinacją dwóch pozostałych czynników (wskaźniki za kropką).
Wartości współczynnika R zawsze mieszczą się w przedziale od 0 do 1. Gdy R zbliża się do jedności, stopień połączenie liniowe trzy znaki wzrasta.
Pomiędzy współczynnikiem korelacji wielokrotnej, np. R 2 ּ 13 i dwie pary współczynników korelacji R 12 i R 23 istnieje zależność: każdy ze sparowanych współczynników nie może przekraczać wartości bezwzględnej R 2 ּ 13 .
Wzory do obliczania współczynników korelacji wielokrotnej ze znanymi wartościami współczynników korelacji par r 12, r 13 i r 23 mają postać:
Kwadratowy współczynnik korelacji wielokrotnej R 2 nazywa się współczynnik wielokrotnej determinacji. Pokazuje proporcję zmienności zmiennej zależnej pod wpływem badanych czynników.
Znaczenie korelacji wielokrotnej ocenia się za pomocą: F-kryterium:
N - wielkość próbki; k – liczba czynników. W naszym przypadku k = 3.
hipoteza zerowa o równości współczynnika korelacji wielokrotnej w populacji do zera ( h o:R=0) jest akceptowane, jeśli F F<f t i jest odrzucany, jeśli
F f ³ F T.
wartość teoretyczna F-kryteria są ustalane dla w 1 = k- 1 i w 2 = N - k stopnie swobody i przyjęty poziom istotności a (Załącznik 1).
Przykład obliczenia współczynnika korelacji wielokrotnej. Badając związek między czynnikami, uzyskano współczynniki korelacji par ( N =15): R 12 ==0,6; g13 = 0,3; R 23 = - 0,2.
Konieczne jest sprawdzenie zależności cechy X 2 ze znaku X 1 i X 3, czyli obliczyć współczynnik korelacji wielokrotnej:
Wartość tabeli F-kryteria przy n 1 = 2 i n 2 = 15 – 3 = 12 stopni swobody przy a = 0,05 F 0,05 = 3,89 i przy a = 0,01 F 0,01 = 6,93.
Zatem związek między znakami R 2,13 = 0,74 jest istotne przy
Poziom istotności 1%. F f > F 0,01 .
Sądząc po współczynniku wielokrotnej determinacji R 2 = (0,74) 2 = 0,55, zmienność cechy X 2 jest w 55% związane z wpływem badanych czynników, a 45% zmienności (1-R 2) nie może być wyjaśnione wpływem tych zmiennych.
Częściowa korelacja liniowa
Częściowy współczynnik korelacji jest wskaźnikiem mierzącym stopień koniugacji dwóch cech.
Statystyka matematyczna pozwala ustalić korelację między dwiema cechami ze stałą wartością trzeciej, bez przeprowadzania specjalnego eksperymentu, ale przy użyciu sparowanych współczynników korelacji R 12 , R 13 , R 23 .
Częściowe współczynniki korelacji oblicza się za pomocą wzorów:
Liczby przed kropką wskazują, które cechy badanej zależności, a liczba po kropce oznaczają wpływ, która cecha jest wykluczona (wyeliminowana). Kryterium błędu i istotności dla korelacji częściowej wyznacza się za pomocą tych samych wzorów, co dla korelacji parami:
.
Wartość teoretyczna T- kryterium jest określone w = N– 2 stopnie swobody i przyjęty poziom istotności a (Załącznik 1).
Hipoteza zerowa, że współczynnik korelacji cząstkowej w populacji jest równy zeru ( H o: R= 0) jest akceptowane, jeśli T F< T t i jest odrzucany, jeśli
T f ³ T T.
Współczynniki częściowe mogą przyjmować wartości od -1 do +1. Prywatny współczynniki determinacji znaleźć przez podniesienie do kwadratu współczynników korelacji częściowej:
D 12.3 = R 2 12ּ3 ; D 13.2 = R 2 13ּ2 ; D 23ּ1 = R 2 23ּ1 .
Często dużym zainteresowaniem cieszy się określenie stopnia częściowego wpływu poszczególnych czynników na efektywną cechę przy jednoczesnym wykluczeniu (eliminowaniu) jej powiązania z innymi cechami zakłócającymi tę korelację. Czasami zdarza się, że przy stałej wartości eliminowanej cechy nie da się zauważyć jej statystycznego wpływu na zmienność pozostałych cech. Aby zrozumieć technikę obliczania częściowego współczynnika korelacji, rozważmy przykład. Istnieją trzy opcje X, Y I Z. Dla wielkości próbki N= Wyznacza się 180 sparowanych współczynników korelacji
r xy = 0,799; r xz = 0,57; r yz = 0,507.
Wyznaczmy częściowe współczynniki korelacji:
Częściowy współczynnik korelacji między parametrami X I Y Z (R xyּz = 0,720) pokazuje, że tylko niewielka część związku pomiędzy tymi cechami w ogólnej korelacji ( r xy= 0,799) wynika z wpływu trzeciej cechy ( Z). Podobny wniosek należy wyciągnąć odnośnie współczynnika częściowej korelacji pomiędzy parametrem X i parametr Z ze stałą wartością parametru Y (R X zּу = 0,318 i r xz= 0,57). Przeciwnie, częściowy współczynnik korelacji między parametrami Y I Z ze stałą wartością parametru X r zz ּ X= 0,105 różni się istotnie od ogólnego współczynnika korelacji r y z = 0,507. Z tego jasno wynika, że jeśli wybierzesz obiekty o tej samej wartości parametru X, to związek między znakami Y I Z będą miały bardzo słaby, ponieważ znaczna część tej zależności wynika ze zmiany parametru X.
W pewnych okolicznościach współczynnik korelacji częściowej może mieć znak przeciwny do współczynnika pary.
Na przykład podczas badania związku między cechami X, Y I Z- uzyskano sparowane współczynniki korelacji (z N = 100): R xy = 0,6; R X z= 0,9;
r y z = 0,4.
Częściowe współczynniki korelacji z wyłączeniem wpływu trzeciej cechy:
Przykład pokazuje, że wartości współczynnika pary i współczynnika korelacji cząstkowej różnią się znakiem.
Metoda korelacji cząstkowej umożliwia obliczenie współczynnika korelacji cząstkowej drugiego rzędu. Współczynnik ten wskazuje związek pomiędzy pierwszą i drugą cechą przy stałej wartości trzeciej i czwartej cechy. Wyznaczanie współczynnika cząstkowego drugiego rzędu opiera się na współczynnikach cząstkowych pierwszego rzędu, korzystając ze wzoru:
Gdzie R 12 . 4 , R 13 ּ4, R 23 ּ4 - współczynniki cząstkowe, których wartość określa się ze wzoru na współczynnik cząstkowy, stosując współczynniki korelacji par R 12 , R 13 , R 14 , R 23 , R 24 , R 34 .
Aby określić stopień zależności pomiędzy kilkoma wskaźnikami, stosuje się wielokrotne współczynniki korelacji. Następnie podsumowuje się je w osobnej tabeli, zwanej macierzą korelacji. Nazwy wierszy i kolumn takiej macierzy są nazwami parametrów, których wzajemna zależność jest ustalona. Na przecięciu wierszy i kolumn znajdują się odpowiednie współczynniki korelacji. Dowiedzmy się, jak wykonać podobne obliczenia za pomocą narzędzi Excel.
Zwyczajowo określa się poziom relacji między różne wskaźniki, w zależności od współczynnika korelacji:
- 0 – 0,3 – brak połączenia;
- 0,3 – 0,5 – słabe połączenie;
- 0,5 – 0,7 – połączenie przeciętne;
- 0,7 – 0,9 – wysoki;
- 0,9 – 1 – bardzo mocny.
Jeśli współczynnik korelacji jest ujemny, oznacza to, że zależność między parametrami jest odwrotna.
Do utworzenia macierzy korelacji w programie Excel służy jedno narzędzie zawarte w pakiecie "Analiza danych". Tak to się nazywa - "Korelacja". Dowiedzmy się, jak można go wykorzystać do obliczenia wielu metryk korelacji.
Krok 1: Aktywuj pakiet analityczny
Trzeba od razu powiedzieć, że pakiet domyślny "Analiza danych" wyłączony. Dlatego przed przystąpieniem do procedury bezpośredniego obliczania współczynników korelacji należy ją aktywować. Niestety nie każdy użytkownik wie, jak to zrobić. Dlatego zatrzymamy się nad tym problemem.
![](https://i1.wp.com/lumpics.ru/wp-content/uploads/2017/05/Perehod-v-parametryi-v-Microsoft-Excel-2.png)
Po określonej akcji pakiet narzędzi "Analiza danych" zostanie aktywowany.
Etap 2: obliczenie współczynnika
Teraz możesz przejść bezpośrednio do obliczenia współczynnika korelacji wielokrotnej. Na przykładzie poniższej tabeli wskaźników wydajności pracy, kapitału do pracy i energii do pracy w różnych przedsiębiorstwach obliczymy współczynnik korelacji wielokrotnej tych czynników.
![](https://i0.wp.com/lumpics.ru/wp-content/uploads/2017/05/Zapusk-paketa-analiza-v-Microsoft-Excel.png)
Etap 3: analiza uzyskanego wyniku
Zastanówmy się teraz, jak zrozumieć wynik, który otrzymaliśmy w procesie przetwarzania danych za pomocą narzędzia "Korelacja" w Excelu.
Jak widać z tabeli, współczynnik korelacji stosunku kapitału do pracy (Kolumna 2) i dostępność energii ( Kolumna 1) wynosi 0,92, co oznacza bardzo silną zależność. Między wydajnością pracy ( Kolumna 3) i dostępność energii ( Kolumna 1) wskaźnik ten wynosi 0,72, co oznacza wysoki stopień zależności. Współczynnik korelacji pomiędzy wydajnością pracy ( Kolumna 3) i stosunek kapitału do pracy ( Kolumna 2) wynosi 0,88, co również oznacza wysoki stopień zależności. Można zatem powiedzieć, że związek pomiędzy wszystkimi badanymi czynnikami jest dość silny.
Jak widać, pakiet "Analiza danych" w programie Excel jest bardzo wygodnym i dość łatwym w obsłudze narzędziem do wyznaczania współczynnika korelacji wielokrotnej. Za jego pomocą można również obliczyć zwykłą korelację między dwoma czynnikami.
Praktyczne znaczenie równania regresji wielokrotnej ocenia się za pomocą wskaźnika korelacji wielokrotnej i jego kwadratu – współczynnika determinacji.
Współczynnik determinacji pokazuje, jaka część zmienności cechy wypadkowej pozostaje pod wpływem cech czynnikowych, tj. określa, jaka jest proporcja zmienności cechy Na uwzględniane w modelu i wynika z wpływu na niego czynników uwzględnionych w modelu:
Współczynnik korelacji wielokrotnej można obliczyć jako pierwiastek kwadratowy współczynnika determinacji. Im współczynnik korelacji jest bliższy jedności, tym bliższy jest związek wyniku ze wszystkimi czynnikami, a równanie regresji lepiej opisuje rzeczywiste dane. Jeśli współczynnik korelacji wielokrotnej jest bliski zeru, wówczas równanie regresji słabo opisuje rzeczywiste dane, a czynniki mają niewielki wpływ na wynik. Współczynnik ten, w odróżnieniu od współczynnika korelacji parami, nie może być wykorzystany do interpretacji kierunku zależności.
Wartość współczynnika korelacji wielokrotnej jest większa lub równa wartości maksymalnego współczynnika korelacji pary:
W przypadku liniowej regresji wielokrotnej współczynnik korelacji wielokrotnej można obliczyć za pomocą następującego wzoru:
W związku z tym wielokrotny współczynnik determinacji wynosi:
Istnieje inny wzór na obliczenie współczynnika korelacji wielokrotnej dla regresji liniowej:
gdzie jest wyznacznikiem pełnej macierzy współczynników korelacji liniowej w parach (tj. uwzględniającej sparowane współczynniki korelacji liniowej czynników z wynikiem i między sobą):
Wyznacznik macierzy współczynników korelacji par liniowych pomiędzy czynnikami:
Obliczany jest również skorygowany współczynnik determinacji:
Gdzie N– liczba obserwacji;
M– liczba parametrów równania regresji bez uwzględnienia składnika wolnego (np. dla regresji liniowej liczba ta jest równa liczbie czynników zawartych w modelu).
Skorygowany współczynnik determinacji służy do rozwiązania dwóch problemów: oceny rzeczywistej bliskości związku wyniku z czynnikami oraz porównania modeli z różne liczby parametry. W pierwszym przypadku zwraca się uwagę na bliskość skorygowanych i nieskorygowanych współczynników determinacji. Jeżeli wskaźniki te są duże i różnią się tylko nieznacznie, model uznaje się za dobry.
Porównując różne modele, ceteris paribus, preferowany jest ten z większym skorygowanym współczynnikiem determinacji.
Należy zaznaczyć, że zakres stosowania skorygowanego współczynnika determinacji ogranicza się wyłącznie do tych zadań. Nie można go stosować we wzorach, w których stosuje się zwykły współczynnik determinacji. Skorygowanego współczynnika determinacji nie można interpretować jako proporcji zmienności wyniku wyjaśnionej zmiennością czynników uwzględnionych w modelu regresji.
Aby sprawdzić istotność współczynnika korelacji wielokrotnej, użyj F-Kryterium Fishera, które określa się wzorem:
Gdzie R2– wielokrotny współczynnik determinacji;
M– liczba parametrów dla współczynników x w równaniu regresji wielokrotnej (w regresji sparowanej M=1).
Uzyskaną wartość testu F porównuje się z wartością z tabeli na pewnym poziomie istotności i M I n-m-1 stopnie swobody. Jeżeli obliczona wartość F-kryterium jest większe niż w tabeli, równanie regresji wielokrotnej uważa się za istotne.
Współczynnik korelacji to stopień związku między dwiema zmiennymi. Jego obliczenie daje wyobrażenie o tym, czy istnieje związek między dwoma zbiorami danych. W przeciwieństwie do regresji, korelacja nie przewiduje wartości wielkości. Jednak obliczenie współczynnika jest ważny etap wstępna analiza statystyczna. Ustaliliśmy na przykład, że współczynnik korelacji między poziomem bezpośrednich inwestycji zagranicznych a dynamiką PKB jest wysoki. Daje nam to wyobrażenie, że aby zapewnić dobrobyt, konieczne jest stworzenie sprzyjającego klimatu specjalnie dla zagranicznych przedsiębiorców. Na pierwszy rzut oka nie jest to taki oczywisty wniosek!
Korelacja i przyczynowość
Być może nie ma ani jednego obszaru statystyki, który tak mocno ugruntował się w naszym życiu. Współczynnik korelacji stosowany jest we wszystkich obszarach wiedzy społecznej. Jego głównym niebezpieczeństwem jest to, że często spekuluje się na temat jego wysokich wartości, aby przekonać ludzi i przekonać ich do pewnych wniosków. Jednak w rzeczywistości silna korelacja wcale nie wskazuje na związek przyczynowo-skutkowy między wielkościami.
Współczynnik korelacji: wzór Pearsona i Spearmana
Istnieje kilka podstawowych wskaźników charakteryzujących związek pomiędzy dwiema zmiennymi. Historycznie rzecz biorąc, pierwszym jest współczynnik korelacja liniowa Osoba. Uczy się tego w szkole. Został on opracowany przez K. Pearsona i J. Yule na podstawie pracy ks. Galtona. Współczynnik ten pozwala zobaczyć związek pomiędzy liczby wymierne, które zmieniają się racjonalnie. Jest zawsze większa niż -1 i mniejsza niż 1. Liczba ujemna oznacza zależność odwrotnie proporcjonalną. Jeśli współczynnik wynosi zero, wówczas nie ma związku między zmiennymi. Równy liczbie dodatniej - istnieje wprost proporcjonalna zależność między badanymi wielkościami. Współczynnik korelacja rang Spearman pozwala uprościć obliczenia poprzez konstruowanie hierarchii wartości zmiennych.
Zależności między zmiennymi
Korelacja pomaga odpowiedzieć na dwa pytania. Po pierwsze, czy związek między zmiennymi jest dodatni czy ujemny. Po drugie, jak silne jest uzależnienie. Analiza korelacji to potężne narzędzie, które może dostarczyć tych ważnych informacji. Łatwo zauważyć, że dochody i wydatki rodziny spadają i rosną proporcjonalnie. Zależność tę należy uznać za pozytywną. I odwrotnie, gdy cena produktu rośnie, popyt na niego spada. Zależność tę nazywa się ujemną. Wartości współczynnika korelacji mieszczą się w przedziale od -1 do 1. Zero oznacza, że pomiędzy badanymi wartościami nie ma związku. Im uzyskany wskaźnik jest bliższy wartościom ekstremalnym, tym silniejsza jest zależność (ujemna lub dodatnia). Brak zależności wskazuje współczynnik od -0,1 do 0,1. Musisz zrozumieć, że taka wartość wskazuje jedynie na brak zależności liniowej.
Funkcje aplikacji
Stosowanie obu wskaźników wiąże się z pewnymi założeniami. Po pierwsze, obecność silnego związku nie przesądza o tym, że jedna wielkość determinuje drugą. Być może istnieje trzecia wielkość, która definiuje każdą z nich. Po drugie, wysoki współczynnik korelacji Pearsona nie wskazuje na związek przyczynowo-skutkowy pomiędzy badanymi zmiennymi. Po trzecie, pokazuje wyłącznie zależność liniową. Korelację można zastosować do oceny znaczących danych ilościowych (np. ciśnienia barometrycznego, temperatury powietrza), a nie kategorii takich jak płeć czy ulubiony kolor.
Wielokrotny współczynnik korelacji
Pearson i Spearman zbadali związek między dwiema zmiennymi. Ale co zrobić, jeśli jest ich trzy lub nawet więcej. Tutaj na ratunek przychodzi współczynnik korelacji wielokrotnej. Na przykład na produkt narodowy brutto wpływają nie tylko bezpośrednie inwestycje zagraniczne, ale także polityka monetarna i fiskalna rządu oraz poziom eksportu. Tempo wzrostu i wielkość PKB są efektem współdziałania wielu czynników. Należy jednak zrozumieć, że model korelacji wielokrotnej opiera się na szeregu uproszczeń i założeń. Po pierwsze, wykluczona jest wieloliniowość pomiędzy wartościami. Po drugie, związek między zależnością a zmiennymi na nią wpływającymi uważa się za liniowy.
Obszary zastosowań analizy korelacji i regresji
Ta metoda znajdowania zależności między wielkościami jest szeroko stosowana w statystyce. Najczęściej stosuje się go w trzech głównych przypadkach:
- Aby przetestować związki przyczynowo-skutkowe pomiędzy wartościami dwóch zmiennych. W rezultacie badacz ma nadzieję odkryć zależność liniową i wyprowadzić wzór opisujący te zależności między wielkościami. Ich jednostki miary mogą się różnić.
- Aby sprawdzić związek między ilościami. W tym przypadku nikt nie określa, która zmienna jest zmienną zależną. Może się okazać, że o wartości obu wielkości decyduje jakiś inny czynnik.
- Aby wyprowadzić równanie W takim przypadku możesz po prostu zastąpić w nim liczby i znaleźć wartości nieznanej zmiennej.
Człowiek poszukujący związku przyczynowo-skutkowego
Świadomość jest zaprojektowana w taki sposób, że zdecydowanie musimy wyjaśnić zdarzenia, które dzieją się wokół nas. Człowiek zawsze szuka powiązania pomiędzy obrazem świata, w którym żyje, a informacjami, które otrzymuje. Mózg często tworzy porządek z chaosu. Z łatwością dostrzega związek przyczynowo-skutkowy tam, gdzie go nie ma. Naukowcy muszą w szczególności nauczyć się przezwyciężać tę tendencję. Umiejętność obiektywnej oceny relacji między danymi jest niezbędna w karierze akademickiej.
Stronniczość mediów
Zastanówmy się, jak obecność korelacji może zostać błędnie zinterpretowana. Grupę brytyjskich uczniów zachowujących się niewłaściwie zapytano, czy ich rodzice palą. Następnie test został opublikowany w gazecie. Wyniki wykazały silną korelację pomiędzy paleniem tytoniu przez rodziców a przestępczością ich dzieci. Profesor, który przeprowadził to badanie, zasugerował nawet umieszczenie ostrzeżenia o tym na paczkach papierosów. Jednakże z wnioskiem tym wiąże się wiele problemów. Po pierwsze, korelacja nie pokazuje, która z wielkości jest niezależna. Dlatego całkiem możliwe jest założenie, że szkodliwy nawyk rodziców jest spowodowany nieposłuszeństwem dzieci. Po drugie, nie można z całą pewnością stwierdzić, że oba problemy nie powstały na skutek jakiegoś trzeciego czynnika. Na przykład rodziny o niskich dochodach. Warto zwrócić uwagę na emocjonalny aspekt wstępnych ustaleń profesora prowadzącego badanie. Był zagorzałym przeciwnikiem palenia. Nic więc dziwnego, że w ten sposób zinterpretował wyniki swoich badań.
wnioski
Błędne interpretowanie korelacji jako związku przyczynowo-skutkowego pomiędzy dwiema zmiennymi może skutkować haniebnymi błędami badawczymi. Problem w tym, że leży to u samych podstaw ludzkiej świadomości. Wiele chwytów marketingowych opiera się na tej funkcji. Zrozumienie różnicy między przyczyną a skutkiem oraz korelacją pozwala racjonalnie analizować informacje w obu przypadkach Życie codzienne oraz w karierze zawodowej.