Diese Datenvisualisierung ist der erste Schritt für eine effektive Feature-Auswahl
Das Verständnis der wichtigsten zu verwendenden Funktionen ist entscheidend für die Entwicklung eines Modells mit guter Leistung. Um zu wissen, welche Funktionen zu berücksichtigen sind, müssen Sie experimentieren, und die richtige Visualisierung Ihrer Daten kann helfen, Ihre anfängliche Auswahl zu klären. Das Scatter Pairplot ist ein großartiger Ausgangspunkt.
Bild von Benjamin O. Tayo.
Das Scatter Pairplot ist eine Visualisierung von paarweisen Beziehungen in einem Dataset und der erste Schritt für eine effektive Feature-Auswahl. Es bietet eine qualitative Analyse der paarweisen Korrelation zwischen Merkmalen und ist ein leistungsstarkes Werkzeug zur Merkmalsauswahl und Dimensionsreduktion. Eine Einführung in das Pairplot mit dem Seaborn-Paket finden Sie unter diesem Link: https://seaborn.pydata.org/generated/seaborn.pairplot.html
In diesem Artikel analysieren wir ein Portfolio von Aktien, um diejenigen zu untersuchen, die stark mit dem Gesamtmarkt korrelieren. Das Portfolio enthält 22 Aktien (siehe Tabelle 1) aus verschiedenen Sektoren wie Gesundheitswesen, Immobilien, zyklische Konsumgüter, Energie, Industrie, Telekommunikationsdienste, Informationstechnologie, nichtzyklische Konsumgüter und Finanzen.
Symbol | Name und Vorname | Symbol | Name und Vorname | Symbol | Name und Vorname |
AAL | American Airlines | BEARBEITEN | Editas Medizin | UAL | united Airlines |
AAPL | Apple | HPP | Hudson Pacific Eigenschaften | WEN | Wendy |
ABT | Abbott Laboratories | JNJ | Johnson & Johnson | WFC | Wells Fargo |
BNTX | BioNTech | mRNA | modern | WMT | Walmart |
BXP | Boston Eigenschaften | MRO | Marathon Oil Corporation | XOM | Exxon Mobile |
CCL | Carnival Corporation | PFE | Pfizer | SP500 | Börsenindex |
VON | Delta Airlines | SLG | SL Green Realty | ||
DVN | Devon Energy | TSLA | Tesla |
Tisch 1. Portfolio von 22 Aktien aus verschiedenen Sektoren.
Unser Ziel ist es, die Frage zu beantworten: Welche Aktien im Portfolio korrelieren stark mit dem Aktienmarkt? Wir werden den S&P 500-Index als Maß für den gesamten Aktienmarkt verwenden. Wir gehen von einem Schwellenkorrelationskoeffizienten von 70 % aus, damit eine Aktie als stark mit dem S&P 500 korreliert angesehen wird.
Datenerfassung und -verarbeitung
Rohdaten wurden von der Yahoo Finance-Website bezogen: https://finance.yahoo.com/
Die historischen Daten für jede Aktie enthalten Informationen zum täglichen Eröffnungskurs, Höchstkurs, Tiefstkurs und Schlusskurs. Für jede Aktie wurde die CSV-Datei heruntergeladen, dann die Spalte „schließen“ extrahiert und zum Datensatz kombiniert, der hier zu finden ist: Portfolio.csv
Streupaardiagramm erstellen
import numpy als np import pandas als pd import pylab import matplotlib.pyplot als plt import seaborn als sns url = 'https://raw.githubusercontent.com/bot13956/datasets/master/portfolio.csv' data = pd.read_csv(url ) data.head() cols = data.columns[1:24] sns.pairplot(data[cols], height=2.0)
Berechnen Sie die Kovarianzmatrix
Das Scatter Pairplot ist der erste Schritt, der eine qualitative Analyse von paarweisen Korrelationen zwischen Merkmalen bietet. Um den Korrelationsgrad zu quantifizieren, muss die Kovarianzmatrix berechnet werden.
from sklearn.preprocessing import StandardScaler stdsc = StandardScaler() X_std = stdsc.fit_transform(data[cols].iloc[:,range(0,23)].values) cov_mat = np.cov(X_std.T, bias= True) import seaborn als sns plt.figure(figsize=(13,13)) sns.set(font_scale=1.2) hm = sns.heatmap(cov_mat, cbar=True, annot=True, square=True, fmt='.2f' , annot_kws={'size': 12}, yticklabels=cols, xticklabels=cols) plt.title('Kovarianzmatrix mit Korrelationskoeffizienten') plt.tight_layout() plt.show()
Komprimierte Ausgabe mit Pairplots und Korrelationskoeffizienten
Da uns nur die Korrelationen zwischen den 22 Aktien im Portfolio mit dem S&P 500 interessieren, Figure 1 unten zeigt das endgültige Ergebnis unserer Analyse.
Abbildung 1. Streupaardiagramme und Korrelationskoeffizienten zwischen Portfolioaktien und dem S&P 500.
Figure 1 zeigt, dass 22 von 8 Aktien einen Korrelationskoeffizienten von weniger als 70 % aufweisen. Interessanterweise weisen alle anderen Aktien mit Ausnahme der WEN-Aktie eine positive Korrelation mit dem S&P 500-Index auf.
Die vollständige Kovarianzmatrix ist in Figure 2.
Figure 2. Visualisierung der Kovarianzmatrix.
Zusammenfassend haben wir gezeigt, wie das Scatter Pairplot als erster Schritt zur Feature-Auswahl verwendet werden kann. Andere fortschrittliche Methoden zur Merkmalsauswahl und Dimensionsreduktion umfassen die folgenden: PCA (Hauptkomponentenanalyse) und LDA (Lineare Diskriminanzanalyse).
Related:
Top Stories der letzten 30 Tage
Münzsmart. Beste Bitcoin-Börse in Europa
Quelle: https://www.kdnuggets.com/2021/06/data-visualization-feature-selection.html