Zephyrnet-Logo

Diese Datenvisualisierung ist der erste Schritt für eine effektive Feature-Auswahl

Datum:

Diese Datenvisualisierung ist der erste Schritt für eine effektive Feature-Auswahl

Das Verständnis der wichtigsten zu verwendenden Funktionen ist entscheidend für die Entwicklung eines Modells mit guter Leistung. Um zu wissen, welche Funktionen zu berücksichtigen sind, müssen Sie experimentieren, und die richtige Visualisierung Ihrer Daten kann helfen, Ihre anfängliche Auswahl zu klären. Das Scatter Pairplot ist ein großartiger Ausgangspunkt.


Bild von Benjamin O. Tayo.

Das Scatter Pairplot ist eine Visualisierung von paarweisen Beziehungen in einem Dataset und der erste Schritt für eine effektive Feature-Auswahl. Es bietet eine qualitative Analyse der paarweisen Korrelation zwischen Merkmalen und ist ein leistungsstarkes Werkzeug zur Merkmalsauswahl und Dimensionsreduktion. Eine Einführung in das Pairplot mit dem Seaborn-Paket finden Sie unter diesem Link: https://seaborn.pydata.org/generated/seaborn.pairplot.html

In diesem Artikel analysieren wir ein Portfolio von Aktien, um diejenigen zu untersuchen, die stark mit dem Gesamtmarkt korrelieren. Das Portfolio enthält 22 Aktien (siehe Tabelle 1) aus verschiedenen Sektoren wie Gesundheitswesen, Immobilien, zyklische Konsumgüter, Energie, Industrie, Telekommunikationsdienste, Informationstechnologie, nichtzyklische Konsumgüter und Finanzen.

Symbol Name und Vorname Symbol Name und Vorname Symbol Name und Vorname
AAL American Airlines BEARBEITEN Editas Medizin UAL united Airlines
AAPL Apple HPP Hudson Pacific Eigenschaften WEN Wendy
ABT Abbott Laboratories JNJ Johnson & Johnson WFC Wells Fargo
BNTX BioNTech mRNA modern WMT Walmart
BXP Boston Eigenschaften MRO Marathon Oil Corporation XOM Exxon Mobile
CCL Carnival Corporation PFE Pfizer SP500 Börsenindex
VON Delta Airlines SLG SL Green Realty
DVN Devon Energy TSLA Tesla

Tisch 1. Portfolio von 22 Aktien aus verschiedenen Sektoren.

Unser Ziel ist es, die Frage zu beantworten: Welche Aktien im Portfolio korrelieren stark mit dem Aktienmarkt? Wir werden den S&P 500-Index als Maß für den gesamten Aktienmarkt verwenden. Wir gehen von einem Schwellenkorrelationskoeffizienten von 70 % aus, damit eine Aktie als stark mit dem S&P 500 korreliert angesehen wird.

Datenerfassung und -verarbeitung

Rohdaten wurden von der Yahoo Finance-Website bezogen: https://finance.yahoo.com/

Die historischen Daten für jede Aktie enthalten Informationen zum täglichen Eröffnungskurs, Höchstkurs, Tiefstkurs und Schlusskurs. Für jede Aktie wurde die CSV-Datei heruntergeladen, dann die Spalte „schließen“ extrahiert und zum Datensatz kombiniert, der hier zu finden ist: Portfolio.csv

Streupaardiagramm erstellen

import numpy als np import pandas als pd import pylab import matplotlib.pyplot als plt import seaborn als sns url = 'https://raw.githubusercontent.com/bot13956/datasets/master/portfolio.csv' data = pd.read_csv(url ) data.head() cols = data.columns[1:24] sns.pairplot(data[cols], height=2.0) 

Berechnen Sie die Kovarianzmatrix

Das Scatter Pairplot ist der erste Schritt, der eine qualitative Analyse von paarweisen Korrelationen zwischen Merkmalen bietet. Um den Korrelationsgrad zu quantifizieren, muss die Kovarianzmatrix berechnet werden.

from sklearn.preprocessing import StandardScaler stdsc = StandardScaler() X_std = stdsc.fit_transform(data[cols].iloc[:,range(0,23)].values) cov_mat = np.cov(X_std.T, bias= True) import seaborn als sns plt.figure(figsize=(13,13)) sns.set(font_scale=1.2) hm = sns.heatmap(cov_mat, cbar=True, annot=True, square=True, fmt='.2f' , annot_kws={'size': 12}, yticklabels=cols, xticklabels=cols) plt.title('Kovarianzmatrix mit Korrelationskoeffizienten') plt.tight_layout() plt.show() 

Komprimierte Ausgabe mit Pairplots und Korrelationskoeffizienten

Da uns nur die Korrelationen zwischen den 22 Aktien im Portfolio mit dem S&P 500 interessieren, Figure 1 unten zeigt das endgültige Ergebnis unserer Analyse.

Abbildung 1. Streupaardiagramme und Korrelationskoeffizienten zwischen Portfolioaktien und dem S&P 500.

Figure 1 zeigt, dass 22 von 8 Aktien einen Korrelationskoeffizienten von weniger als 70 % aufweisen. Interessanterweise weisen alle anderen Aktien mit Ausnahme der WEN-Aktie eine positive Korrelation mit dem S&P 500-Index auf.

Die vollständige Kovarianzmatrix ist in Figure 2.

Figure 2. Visualisierung der Kovarianzmatrix.

Zusammenfassend haben wir gezeigt, wie das Scatter Pairplot als erster Schritt zur Feature-Auswahl verwendet werden kann. Andere fortschrittliche Methoden zur Merkmalsauswahl und Dimensionsreduktion umfassen die folgenden: PCA (Hauptkomponentenanalyse) und LDA (Lineare Diskriminanzanalyse).

Related:

Münzsmart. Beste Bitcoin-Börse in Europa
Quelle: https://www.kdnuggets.com/2021/06/data-visualization-feature-selection.html

spot_img

Neueste Intelligenz

spot_img