Zephyrnet-Logo

Kovarianz vs. Korrelation: Was ist der Unterschied?

Datum:

Inhaltsverzeichnis

In der Statistik sind Kovarianz und Korrelation zwei mathematische Begriffe. Beide Ausdrücke werden verwendet, um die Beziehung zwischen zwei Variablen zu beschreiben. In diesem Blog geht es um Kovarianz vs. Korrelation: Was ist der Unterschied? Lass uns anfangen!

Einleitung

Kovarianz und Korrelation sind zwei mathematische Konzepte, die in der Statistik verwendet werden. Beide Begriffe werden verwendet, um zu beschreiben, wie sich zwei Variablen zueinander verhalten. Kovarianz ist ein Maß dafür, wie sich zwei Variablen gemeinsam verändern. Die Begriffe Kovarianz vs. Korrelation sind in der Wahrscheinlichkeitstheorie und Statistik einander sehr ähnlich. Beide Begriffe beschreiben das Ausmaß, in dem eine Zufallsvariable oder eine Menge von Zufallsvariablen vom Erwartungswert abweichen kann. Aber was ist der Unterschied zwischen Kovarianz und Korrelation? Lassen Sie uns dies verstehen, indem wir jeden dieser Begriffe durchgehen.

Sie wird als Kovarianz der beiden Variablen dividiert durch das Produkt ihrer Standardabweichungen berechnet. Die Kovarianz kann positiv, negativ oder null sein. Eine positive Kovarianz bedeutet, dass die beiden Variablen dazu neigen, gemeinsam zuzunehmen oder zu fallen. Eine negative Kovarianz bedeutet, dass sich die beiden Variablen tendenziell in entgegengesetzte Richtungen bewegen.

Eine Kovarianz von Null bedeutet, dass die beiden Variablen nicht miteinander in Zusammenhang stehen. Die Korrelation kann nur zwischen -1 und 1 liegen. Eine Korrelation von -1 bedeutet, dass die beiden Variablen vollkommen negativ korreliert sind, das heißt, wenn eine Variable zunimmt, nimmt die andere ab. Eine Korrelation von 1 bedeutet, dass die beiden Variablen vollkommen positiv korreliert sind, das heißt, wenn eine Variable zunimmt, nimmt auch die andere zu. Eine Korrelation von 0 bedeutet, dass die beiden Variablen nicht zusammenhängen.

Beigesteuert von: Deepak Gupta

Unterschied zwischen Kovarianz und Korrelation

Aspekt Kovarianz Korrelation
Definition Misst die gemeinsame Variabilität zweier Zufallsvariablen. Misst die Stärke und Richtung der linearen Beziehung zwischen zwei Variablen.
Abdeckung Kann jeden Wert von negativ unendlich bis positiv unendlich annehmen. Der Bereich liegt zwischen -1 und 1.
Einheit Hat Einheiten – das Produkt der Einheiten der beiden Variablen. Dimensionslos (keine Einheiten), ein standardisiertes Maß.
Normalisierung Nicht normalisiert – die Größe hängt von den Einheiten der Variablen ab. Normalisiert – unabhängig von der Skala der Variablen.
Dolmetschen Aufgrund mangelnder Normalisierung ist es schwierig, die Stärke der Beziehung zu interpretieren. Leicht zu interpretieren, da es sich um einen standardisierten Koeffizienten handelt (normalerweise Pearsons �).r).
Sensitivität Empfindlich gegenüber der Skala und den Maßeinheiten der Variablen. Unempfindlich gegenüber Maßstab und Maßeinheiten, da es sich um ein relatives Maß handelt.

Wenn Sie daran interessiert sind, mehr über Statistik zu erfahren, können Sie an einem kostenlosen Online-Kurs teilnehmen, der Ihnen dabei hilft, die grundlegenden Konzepte zu verstehen, die Sie für den Einstieg in Ihre Karriere benötigen. Bei Tolle Lernakademiebieten wir a Kostenloser Kurs über Statistik für Data Science. Dieser ausführliche Kurs beginnt aus der Perspektive eines völligen Anfängers und führt Sie in die verschiedenen Facetten der Statistik ein, die zur Lösung verschiedener datenwissenschaftlicher Probleme erforderlich sind. Die Teilnahme an diesem Kurs kann Ihnen dabei helfen, Ihre Karriere im Bereich Datenwissenschaft voranzutreiben.

In Statistiken, stoßen wir häufig auf diese beiden Begriffe, die als Kovarianz und Korrelation bekannt sind. Die beiden Begriffe werden oft synonym verwendet. Diese beiden Ideen sind ähnlich, aber nicht gleich. Beide werden verwendet, um den linearen Zusammenhang zu bestimmen und die Abhängigkeit zwischen zwei Zufallsvariablen zu messen. Aber sind sie gleich? Nicht wirklich. 

Trotz der Ähnlichkeiten zwischen diesen mathematischen Begriffen unterscheiden sie sich voneinander.

Von Kovarianz spricht man, wenn zwei Variablen voneinander abweichen, während von Korrelation die Rede ist, wenn die Änderung einer Variablen zu einer Änderung einer anderen Variablen führt.

In diesem Artikel werden wir versuchen, die Begriffe Korrelation und Kovarianzmatrizen zu definieren, über Kovarianz vs. Korrelation zu sprechen und die Anwendung beider Begriffe zu verstehen.

Was ist Kovarianz?

Kovarianz gibt die Richtung der linearen Beziehung zwischen den beiden Variablen an. Mit Richtung meinen wir, wenn die Variablen sind direkt proportional oder umgekehrt proportional zueinander. (Eine Erhöhung des Werts einer Variablen kann sich positiv oder negativ auf den Wert der anderen Variablen auswirken.)

Die Werte der Kovarianz können eine beliebige Zahl zwischen den beiden entgegengesetzten Unendlichkeiten sein. Außerdem ist es wichtig zu erwähnen, dass die Kovarianz nur misst, wie sich zwei Variablen gemeinsam verändern, und nicht die Abhängigkeit einer Variablen von einer anderen.

Der Wert der Kovarianz zwischen zwei Variablen wird ermittelt, indem die Summe des Produkts der Differenzen aus den Mittelwerten der Variablen wie folgt gebildet wird: 

Die Ober- und Untergrenzen der Kovarianz hängen von den Varianzen der beteiligten Variablen ab. Diese Varianzen können wiederum mit der Skalierung der Variablen variieren. Auch eine Änderung der Maßeinheiten kann die Kovarianz verändern. Daher ist Kovarianz nur nützlich, um die Richtung der Beziehung zwischen zwei Variablen und nicht die Größe zu ermitteln. Unten sind die Diagramme, die uns helfen zu verstehen, wie die Kovarianz zwischen zwei Variablen in verschiedenen Richtungen aussehen würde.

Kovarianz vs. Korrelation

Beispiel:

X Y
10 40
12 48
14 56
8 32

Schritt 1: Berechnen Sie den Mittelwert von X und Y 

Mittelwert von X (μx): 10+12+14+8 / 4 = 11 

Mittelwert von Y(μy) = 40+48+56+32 = 44

Schritt 2: Ersetzen Sie die Werte in der Formel 

xi –x yi – ȳ 
10 - 11 = -1  40 – 44 = – 4
12 - 11 1 = 48 – 44 = 4
14 - 11 3 = 56 - 44 12 =
8 - 11 = -3 32 - 44 12 = 

Ersetzen Sie die oben genannten Werte in der Formel 

Cov(x,y) = (-1) (-4) +(1)(4)+(3)(12)+(-3)(12)

                  ___________________________

                                            4 

 Cov(x,y) = 8 / 2 =

Daher beträgt die Kovarianz für die obigen Daten 4 

Schneller Check - Einführung in Data Science

Was ist Korrelation?

Die Korrelationsanalyse ist eine statistische Auswertungsmethode, mit der die Stärke einer Beziehung zwischen zwei numerisch gemessenen, kontinuierlichen Variablen untersucht wird.

Es zeigt nicht nur die Art der Beziehung (in Bezug auf die Richtung), sondern auch, wie stark die Beziehung ist. Daher können wir sagen, dass die Korrelationswerte standardisierte Vorstellungen haben, während die Kovarianzwerte nicht standardisiert sind und nicht zum Vergleich der Stärke oder Schwäche der Beziehung verwendet werden können, da die Größe keine direkte Bedeutung hat. Er kann Werte von -1 bis +1 annehmen. 

Um festzustellen, ob die Kovarianz der beiden Variablen groß oder klein ist, müssen wir sie relativ zu den Standardabweichungen der beiden Variablen bewerten. 

Dazu müssen wir die Kovarianz normalisieren, indem wir sie durch das Produkt der Standardabweichungen der beiden Variablen dividieren und so eine Korrelation zwischen den beiden Variablen herstellen.

Das Hauptergebnis einer Korrelation wird Korrelationskoeffizient genannt. 

Kovarianz vs. Korrelation

Der Korrelationskoeffizient ist eine dimensionslose Metrik und sein Wert reicht von -1 bis +1. 

Je näher er bei +1 oder -1 liegt, desto enger hängen die beiden Variablen zusammen. 

Wenn zwischen zwei Variablen überhaupt kein Zusammenhang besteht, dann ist der Korrelationskoeffizient mit Sicherheit 0. Wenn er jedoch 0 ist, können wir nur sagen, dass kein linearer Zusammenhang besteht. Es könnten andere funktionale Beziehungen zwischen den Variablen bestehen.

Wenn der Korrelationskoeffizient positiv ist, erhöht ein Anstieg einer Variablen auch die andere. Wenn der Korrelationskoeffizient negativ ist, sind die Änderungen der beiden Variablen in entgegengesetzte Richtungen.

Beispiel: 

X Y
10 40
12 48
14 56
8 32

Schritt 1: Berechnen Sie den Mittelwert von X und Y 

Mittelwert von X (μx): 10+12+14+8 / 4 = 11 

Mittelwert von Y(μy) = 40+48+56+32/4 = 44

Schritt 2: Ersetzen Sie die Werte in der Formel 

xi –x yi – ȳ 
10 - 11 = -1  40 – 44 = – 4
12 - 11 1 = 48 – 44 = 4
14 - 11 3 = 56 - 44 12 =
8 - 11 = -3 32 - 44 12 = 

Ersetzen Sie die oben genannten Werte in der Formel 

Cov(x,y) = (-1) (-4) +(1)(4)+(3)(12)+(-3)(12)

                  ___________________________

                                            4 

Cov(x,y) = 8 / 2 =

Daher beträgt die Kovarianz für die obigen Daten 4 

Schritt 3: Setzen Sie nun die erhaltene Antwort in die Korrelationsformel ein  

Kovarianz vs. Korrelation

Vor der Substitution müssen wir die Standardabweichung von x und y ermitteln 

Nehmen wir die Daten für X wie in der Tabelle angegeben, nämlich 10,12,14,8

Um die Standardabweichung zu ermitteln 

Schritt 1: Finden Sie den Mittelwert von x, der x̄ ist

 10+14+12+8 /4 = 11 

Schritt 2: Finden Sie jede Zahlenabweichung: Subtrahieren Sie jede Punktzahl vom Mittelwert, um die mittlere Abweichung zu erhalten

10 - 11 = -1 
12 - 11 1 =
14 - 11 3 =
8 - 11 = -3

Schritt 3: Quadrieren Sie die erhaltene mittlere Abweichung 

-1 1
1 1
3 9
-3 9

Schritt 4: Summieren Sie die Quadrate 

1+1+9+9 = 20 

Schritt 5: Finden Sie die Varianz 

Teilen Sie die Summe der Quadrate durch n-1, also 4-1 = 3 

20/3 = 6.6 

Schritt 6: Finden Sie die Quadratwurzel

Quadrat von 6.6 = 2.581

Daher ist die Standardabweichung von x = 2.581

Suchen Sie nach Y mit derselben Methode 

Die Standardabweichung von y = 10.29

Korrelation = 4 /(2.581 x10.29)

Korrelation = 0.15065

Jetzt können Sie den Unterschied zwischen Kovarianz und Korrelation verstehen.

[Eingebetteten Inhalt]

Anwendungen der Kovarianz

  1. Kovarianz wird in der Biologie – Genetik und Molekularbiologie – zur Messung bestimmter DNAs verwendet.
  2. Kovarianz wird bei der Vorhersage der Höhe der Investitionen in verschiedene Vermögenswerte auf den Finanzmärkten verwendet 
  3. Kovarianz wird häufig verwendet, um Daten aus astronomischen/ozeanographischen Studien zusammenzustellen, um zu endgültigen Schlussfolgerungen zu gelangen
  4. In der Statistik können wir zur Analyse eines Datensatzes mit logischen Implikationen der Hauptkomponente die Kovarianzmatrix verwenden
  5. Es wird auch zur Untersuchung von Signalen verwendet, die in verschiedenen Formen erhalten werden.

Anwendungen der Korrelation

  1. Zeit vs. Geld, das ein Kunde auf Online-E-Commerce-Websites verbringt 
  2. Vergleich zwischen den vorherigen Aufzeichnungen der Wettervorhersage und dem aktuellen Jahr. 
  3. Wird häufig bei der Mustererkennung verwendet
  4. Der Temperaturanstieg im Sommer im Verhältnis zum Wasserverbrauch der Familienmitglieder wird analysiert 
  5. Der Zusammenhang zwischen Bevölkerung und Armut wird gemessen 

Methoden zur Berechnung der Korrelation

  1. Die grafische Methode
  2. Die Streumethode
  3. Korrelationstabelle 
  4. Korrelationskoeffizient nach Karl Pearson 
  5. Koeffizient der gleichzeitigen Abweichung
  6. Rangkorrelationskoeffizient nach Spearman

Bevor wir auf die Details eingehen, versuchen wir zunächst, Varianz und Standardabweichung zu verstehen.

Schneller Check - Kurs zur statistischen Analyse

Unterschied

Varianz ist die Erwartung der quadratischen Abweichung einer Zufallsvariablen von ihrem Mittelwert. Informell misst es, wie weit eine Reihe von Zahlen von ihrem Durchschnittswert abweicht.

Standardabweichung

Die Standardabweichung ist ein Maß für das Ausmaß der Variation oder Streuung einer Reihe von Werten. Eine niedrige Standardabweichung weist darauf hin, dass die Werte tendenziell nahe am Mittelwert der Menge liegen, während eine hohe Standardabweichung darauf hinweist, dass die Werte über einen größeren Bereich verteilt sind. Es misst im Wesentlichen die absolute Variabilität einer Zufallsvariablen.

Kovarianz und Korrelation hängen in dem Sinne miteinander zusammen, dass Kovarianz die Art der Interaktion zwischen zwei Variablen bestimmt, während Korrelation sowohl die Richtung als auch die Stärke der Beziehung zwischen zwei Variablen bestimmt.

Unterschiede zwischen Kovarianz und Korrelation

Sowohl die Kovarianz- als auch die Korrelationsmetrik bewerten zwei Variablen in der gesamten Domäne und nicht anhand eines einzelnen Werts. Die Unterschiede zwischen ihnen sind zum schnellen Nachschlagen in tabellarischer Form zusammengefasst. Schauen wir uns Kovarianz vs. Korrelation an.

Kovarianz Korrelation
Kovarianz ist ein Maß, das angibt, inwieweit sich zwei Zufallsvariablen gleichzeitig ändern. Korrelation ist ein Maß, das angibt, wie stark zwei Zufallsvariablen miteinander in Beziehung stehen.
Kovarianz ist nichts anderes als ein Maß für die Korrelation. Korrelation bezieht sich auf die skalierte Form der Kovarianz.
Kovarianz gibt die Richtung der linearen Beziehung zwischen Variablen an. Die Korrelation hingegen misst sowohl die Stärke als auch die Richtung der linearen Beziehung zwischen zwei Variablen.
Kovarianz kann zwischen -∞ und +∞ . variieren Korrelation reicht zwischen -1 und +1
Die Kovarianz wird durch die Skalenänderung beeinflusst. Wenn alle Werte einer Variablen mit einer Konstante multipliziert werden und alle Werte einer anderen Variablen mit einer ähnlichen oder anderen Konstante multipliziert werden, ändert sich die Kovarianz.  Die Korrelation wird durch die Maßstabsänderung nicht beeinflusst.
Die Kovarianz nimmt die Einheiten aus dem Produkt der Einheiten der beiden Variablen an. Korrelation ist dimensionslos, dh sie ist ein einheitenfreies Maß für die Beziehung zwischen Variablen.
Die Kovarianz zweier abhängiger Variablen misst, um wie viel reale Mengen (z. B. cm, kg, Liter) sie im Durchschnitt kovariieren. Die Korrelation zweier abhängiger Variablen misst den Anteil, wie stark diese Variablen im Durchschnitt voneinander abweichen.
Bei unabhängigen Variablen ist die Kovarianz Null (wenn sich eine Variable bewegt und die andere nicht), da sich die Variablen dann nicht unbedingt gemeinsam bewegen. Unabhängige Bewegungen tragen nicht zur Gesamtkorrelation bei. Daher haben völlig unabhängige Variablen eine Nullkorrelation.

Zusammenfassung

Die als Cov(X, Y) bezeichnete Kovarianz dient als erster Schritt bei der Quantifizierung der Richtung einer Beziehung zwischen den Variablen X und Y. Technisch gesehen ist sie der erwartete Wert des Produkts der Abweichungen jeder Variablen von ihren jeweiligen Mittelwerten. Das Vorzeichen der Kovarianz gibt explizit die Richtung der linearen Beziehung an – eine positive Kovarianz zeigt an, dass sich X und Y in die gleiche Richtung bewegen, während eine negative Kovarianz auf eine umgekehrte Beziehung hindeutet. Eine der Einschränkungen der Kovarianz besteht jedoch darin, dass ihre Größe unbegrenzt ist und durch die Skalierung der Variablen beeinflusst werden kann, wodurch sie isoliert weniger interpretierbar ist.

Korrelation, insbesondere der Pearson-Korrelationskoeffizient (r), verfeinert das Konzept der Kovarianz durch Standardisierung. Der Korrelationskoeffizient ist eine dimensionslose Größe, die man erhält, indem man die Kovarianz der beiden Variablen durch das Produkt ihrer Standardabweichungen dividiert. Diese Normalisierung beschränkt den Korrelationskoeffizienten auf einen Bereich zwischen -1 und 1 (einschließlich). Ein Wert von 1 impliziert eine perfekte positive lineare Beziehung, -1 impliziert eine perfekte negative lineare Beziehung und 0 bedeutet keine lineare Beziehung. Der absolute Wert des Korrelationskoeffizienten liefert ein Maß für die Stärke der Beziehung.

Mathematisch wird der Pearson-Korrelationskoeffizient ausgedrückt als:

Es ist wichtig zu erkennen, dass sowohl Kovarianz als auch Korrelation nur lineare Beziehungen berücksichtigen und möglicherweise keinen Hinweis auf komplexere Zusammenhänge geben. Darüber hinaus bedeutet das Vorhandensein einer Korrelation nicht, dass eine Kausalität vorliegt. Korrelation bedeutet nur, dass eine Beziehung besteht, nicht aber, dass Änderungen in einer Variablen Änderungen in der anderen verursachen.

Zusammenfassend lässt sich sagen, dass Kovarianz und Korrelation grundlegende Werkzeuge für die statistische Analyse sind, die Einblicke in die Beziehung zwischen zwei Variablen liefern. Es ist jedoch die Korrelation, die uns ein skaliertes und interpretierbares Maß für die Stärke dieser Beziehung liefert.

Sowohl Korrelation als auch Kovarianz hängen sehr eng miteinander zusammen und unterscheiden sich dennoch stark. 

Wenn es darum geht, zwischen Kovarianz und Korrelation zu wählen, ist letztere die erste Wahl, da sie von der Änderung der Dimensionen, des Ortes und des Maßstabs unberührt bleibt und auch für einen Vergleich zwischen zwei Variablenpaaren verwendet werden kann. Da er auf einen Bereich von -1 bis +1 beschränkt ist, ist er nützlich, um Vergleiche zwischen Variablen über Domänen hinweg durchzuführen. Eine wichtige Einschränkung besteht jedoch darin, dass beide Konzepte die einzige lineare Beziehung messen.

Häufig gestellte Fragen zu Covarinca vs. Corelation

Was sagt eine positive Kovarianz über zwei Variablen aus?

Eine positive Kovarianz bedeutet, dass die andere Variable tendenziell ebenfalls zunimmt, wenn eine Variable zunimmt. Umgekehrt nimmt die andere tendenziell ab, wenn eine Variable abnimmt. Dies impliziert einen direkten Zusammenhang zwischen den beiden Variablen.

Kann Korrelation verwendet werden, um auf einen Kausalzusammenhang zwischen zwei Variablen zu schließen?

Nein, Korrelation allein kann nicht zur Schlussfolgerung einer Kausalität herangezogen werden. Während die Korrelation die Stärke und Richtung einer Beziehung zwischen zwei Variablen misst, bedeutet sie nicht, dass Änderungen in einer Variablen Änderungen in der anderen verursachen. Die Feststellung des Kausalzusammenhangs erfordert weitere statistische Tests und Analysen, häufig durch kontrollierte Experimente oder Längsschnittstudien.

Warum wird Korrelation gegenüber Kovarianz bevorzugt, wenn Beziehungen zwischen verschiedenen Variablenpaaren verglichen werden?

Korrelation wird bevorzugt, da es sich um ein dimensionsloses Maß handelt, das eine standardisierte Skala von -1 bis 1 bereitstellt, die sowohl die Stärke als auch die Richtung der linearen Beziehung zwischen Variablen beschreibt. Diese Standardisierung ermöglicht den Vergleich verschiedener Variablenpaare unabhängig von deren Maßeinheiten, was mit Kovarianz nicht möglich ist.

Was bedeutet ein Korrelationskoeffizient von 0?

Ein Korrelationskoeffizient von 0 bedeutet, dass zwischen den beiden Variablen kein linearer Zusammenhang besteht. Es ist jedoch wichtig zu beachten, dass immer noch eine nichtlineare Beziehung zwischen ihnen bestehen könnte, die der Korrelationskoeffizient nicht erkennen kann.

Wie wirken sich Ausreißer wahrscheinlich auf Kovarianz und Korrelation aus?

Ausreißer können sowohl die Kovarianz als auch die Korrelation erheblich beeinflussen. Da diese Maße auf den Mittelwerten der Variablen basieren, kann ein Ausreißer den Mittelwert verzerren und das Gesamtbild der Beziehung verzerren. Ein einzelner Ausreißer kann einen großen Einfluss auf die Ergebnisse haben und zu einer Über- oder Unterschätzung des wahren Zusammenhangs führen.

IIst es möglich, eine hohe Kovarianz, aber eine niedrige Korrelation zu haben?

Ja, es ist möglich, eine hohe Kovarianz, aber eine niedrige Korrelation zu haben, wenn die Variablen hohe Varianzen aufweisen. Da die Korrelation die Kovarianz anhand der Standardabweichungen der Variablen normalisiert, kann die Korrelation auch dann noch niedrig sein, wenn diese Standardabweichungen groß sind und die Kovarianz hoch ist.

Was bedeutet es, wenn zwei Variablen eine hohe Korrelation aufweisen?

Eine hohe Korrelation bedeutet, dass zwischen den beiden Variablen ein starker linearer Zusammenhang besteht. Wenn die Korrelation positiv ist, bewegen sich die Variablen tendenziell zusammen; ist er negativ, tendieren sie dazu, sich in entgegengesetzte Richtungen zu bewegen. Allerdings ist „hoch“ ein relativer Begriff und der Schwellenwert für eine hohe Korrelation kann je nach Fachgebiet und Kontext variieren.

Wenn Sie mehr über statistische Konzepte wie Kovarianz vs. Korrelation erfahren möchten, können Sie sich bei Great Learning weiterbilden PG-Programm in Data Science und Business Analytics. Der PGP DSBA-Kurs ist speziell für Berufstätige konzipiert und hilft Ihnen, Ihre Karriere voranzutreiben. Sie können mithilfe von Mentorensitzungen und praktischen Projekten unter Anleitung von Branchenexperten lernen. Sie haben außerdem Zugang zu Karriereunterstützung und über 350 Unternehmen. Sie können sich auch die Great Learning Academy ansehen kostenlose Online-Zertifikatskurse.

Weiterführende Literatur

  1. Was ist Dimensionsreduktion – ein Überblick
  2. Inferenzstatistik – Ein Überblick | Einführung in die Inferenzstatistik
  3. Verteilungen in der Statistik verstehen
  4. Hypothesentests in R – Einführungsbeispiele und Fallstudie
spot_img

Neueste Intelligenz

spot_img