Zephyrnet-Logo

Datenanalyseprojekt für Anfänger mit Python

Datum:

Dieser Artikel wurde als Teil des veröffentlicht Data Science-Blogathon.

Einleitung

Die Datenanalyse ist ein wichtiger Teil, den Sie beherrschen müssen, bevor Sie lernen oder in den Abschnitt über maschinelle Lernalgorithmen eintauchen, da die Datenanalyse ein Prozess ist, um die Daten zu einem besseren Verständnis der Daten zu untersuchen. Die Datenanalyse ist ein zentraler Bestandteil jedes Data-Science- oder maschinellen Lernprojekts, das fast 70 bis 80 Prozent der Zeit des gesamten Projektlebenszyklus in Anspruch nimmt. Die Datenanalyse ist ein sehr umfangreicher Bereich, der verschiedene Techniken und Methoden wie Datenbereinigung, Vorverarbeitung, Visualisierung, Transformationen, Codierung usw. enthält. In diesem Tutorial lernen wir eine grundlegende Datenanalyse kennen, die Ihr Selbstvertrauen stärken wird, mehr über Datenanalyse zu erfahren und helfen, Ihre Reise zum Erlernen von Datentechnologien mit Python zu beginnen.

Datensatzübersicht

Der Datensatz, den wir verwenden werden, ist ein einfacher Wetterdatensatz, bei dem es sich um einen Zeitreihendatensatz handelt, der Temperatur, Luftfeuchtigkeit, Windgeschwindigkeit usw. stündlich an verschiedenen Daten im Jahr 2012 speichert. Der Datensatz ist einfach auf Kaggle verfügbar und Sie können auf oder zugreifen Laden Sie den Datensatz mit herunter fehlen uns die Worte. Verknüpfung. Der Datensatz enthält 8784 Zeilen und 8 Spalten, wobei die letzte Spalte die Wetterbedingungen gemäß den aufgezeichneten unterschiedlichen klimatischen Bedingungen angibt. Die grundlegende Übersicht des Datensatzes kann im unten angegebenen Screenshot beobachtet werden.

Datensatz laden

Sie haben den Datensatz und öffnen das Jupyter-Notebook oder Sie können dort auch selbst ein Kaggle-Notebook erstellen. Der erste Schritt besteht darin, die erforderlichen Bibliotheken zu importieren und den Datensatz in ein Notebook zu laden. Pandas ist eine beliebte Datenvorverarbeitungsbibliothek in Python, die hilft, Daten mithilfe integrierter Funktionen zu analysieren und mit ihnen zu spielen.

Pandas importieren als pd
importiere numpy als np
#Laden Sie die Daten
technische Daten = pd. read_csv("/kaggle/input/weather-data-set-for-beginners/1. Weather Data.csv") data.head()

Grundlegende Datenanalysefunktionen von Python Pandas

1. Form – Shape ist eine Eigenschaft oder ein Attribut von Python-Pandas, das die Anzahl der Zeilen und die Anzahl der Spalten als Tupel speichert. Wenn Sie die Shape-Eigenschaft für Daten verwenden, werden 8784 Zeilen und 8 Spalten in einem Tupel angezeigt.

data.shape

2. Datentypen – Pandas werden verwendet, um den Datentyp jeder Spalte im Datenrahmen zu drucken, und die Eigenschaft kann auch auf eine einzelne Spalte angewendet werden.

3. Einzigartig – Dies ist die Funktion, die die Liste aller eindeutigen Werte anzeigt, die in einer bestimmten Spalte vorhanden sind.

data['Wetter'].unique()

4. n einzigartig – Es ist eine Funktion, die mehrere eindeutige Werte anzeigt, die im Datenrahmen vorhanden sind. Die Funktion kann sowohl auf eine einzelne Spalte als auch auf vollständige Daten gleichzeitig angewendet werden.

#Um die Anzahl der eindeutigen Werte in jeder Spalte anzuzeigen, können wir func on data verwenden
technische Daten.nunique()

5. Zählen – count-Funktion zeigt die Gesamtzahl der Nicht-Null-Werte an, die in einer bestimmten Spalte vorhanden sind. Sie können die Funktion auf vollständige Daten und auch auf eine einzelne Spalte anwenden.

data.count()

6. Wert zählt – Die Funktion zeigt die Anzahl aller eindeutigen Daten in einer beliebigen Spalte an. Die Funktion kann jeweils nur für eine Spalte verwendet werden.

data['Wetter'].value_counts()

7. Informationen – Die folgende Funktion wird verwendet, um die grundlegenden Details über den Datensatz zu erhalten.

8. Beschreiben – Es ist eine Funktion, die grundlegende Informationen über im Datensatz vorhandene numerische Variablen wie Anzahl, Minimum, Maximum, Standardabweichung, Durchschnitt usw. liefert. Kurz gesagt, die Beschreibungsfunktion wird verwendet, um die statistische Zusammenfassung von Daten zu erhalten.

Beantwortung verschiedener Datenanalyseprobleme

Die Hauptarbeit der Datenanalyse kommt hier, wo Sie mithilfe einiger Abfragen die Lösung für das gegebene Problem finden müssen, und wir werden einige grundlegende und wichtige Datenanalysefragen üben, einschließlich Filtern, Aggregieren und Abrufen der Daten. Denken Sie an den einen Punkt, dass es mehrere Möglichkeiten gibt, ein Problem zu lösen, und basierend auf Ihrer Einfachheit oder Leistung können Sie jede Lösung wählen.

Frage-1) Finden Sie alle Aufzeichnungen von Daten, als das Wetter genau klar war?

Die Frage fordert einfach auf, die Zeilen anzuzeigen, in denen die Wetterbedingungen (letzte Spalte) klar sind. Wir können also die Antwort auf diese Frage auf drei verschiedene Arten finden. Das erste ist das Filtern, das Zählen von Werten und das Verwenden von Gruppierungen. Lassen Sie uns versuchen, jede Methode anzuwenden.

I] Filtern der Daten

Filtern bedeutet einfach, einige Zeilen aus dem Datensatz zu extrahieren, die bestimmten Bedingungen entsprechen, in unserem Fall sollte das Wetter klar sein. So können wir die Wetterwerte mit dem Zuweisungsoperator mit Clear vergleichen und den Datenrahmen drucken, den wir zum Einbetten der Bedingung in eine eckige Klammer benötigen. Und wenn Sie nur die Anzahl der Zeilen wissen möchten, in denen das Wetter klar ist, können wir die Shape-Eigenschaft nach diesem Code verwenden. Beide Anweisungen werden unter dem Snippet demonstriert.

data[data['Weather'] == 'Clear'] #um den kompletten Datenrahmen anzuzeigen

data[data['Weather'] == 'Clear'].shape #um die Anzahl der Datensätze anzuzeigen

II] Verwenden Sie Wertzählungen

Wertzählungen zeigen die Gesamtzahl der Aufzeichnungen jedes eindeutigen Werts in der Spalte an, sodass wir sie in der Wetterspalte verwenden können, um die Anzahl der eindeutigen Werte zu ermitteln.

technische Daten.Wetter.value_counts().einrahmen().reset_index()

Die To-Frame-Funktion wird verwendet, um die Seriendaten in einen Datenrahmen zu konvertieren, und wir haben den Index wieder von 0 gesetzt, wenn ein neuer Datenrahmen gebildet wird.

III] Gruppierung verwenden

Gruppieren nach Befehl Gruppieren Sie die Daten nach jedem eindeutigen Wert, und wir können die Aggregatfunktion darauf verwenden, um die gewünschte Anzahl von Zeilen mit klarem Wetter zu erhalten. Um den Datenrahmen anzuzeigen, können wir get group property of group by verwenden und clear übergeben, um alle Zeilen zu erhalten, in denen das Wetter klar ist.

#gruppiere nach
technische Daten.gruppiere nach('Wetter').get_group('Klar').gestalten

Frage-2) Finden Sie heraus, wie oft die Windgeschwindigkeit genau 4 km/h betrug?

Die Frage ist dieselbe wie die obige Frage, und ich hoffe, Sie können die Abfrage für dieselbe schreiben. Die Antwort kann mithilfe der Filter- oder Wertzählungsfunktion gefunden werden.

technische Daten[technische Daten['Windgeschwindigkeit_km/h'] == 4].gestalten

Que-3) Überprüfen Sie, ob NULL-Werte im Datensatz vorhanden sind?

Nullwerte sind die fehlenden Werte, die keinen richtigen Wert für die erforderliche Spalte enthalten, die im Datensatz als NA oder NULL gekennzeichnet ist. Um die Nullwerte zu finden, haben Pandas eine direkte Funktion und um die Anzahl der Nullwerte zu drucken, können wir die Summenfunktion verwenden.

In unseren Daten sind keine NULL-Werte vorhanden, aber wenn Sie mit n realen oder Echtzeitdaten arbeiten, werden sogar eine große Menge fehlender Werte vorhanden sein, und Sie müssen ihre Behandlung durchführen. Wenn Sie mehr über die Erkennung und Behandlung fehlender Werte erfahren möchten, können Sie sich auf beziehen fehlen uns die Worte. Artikel.

Que-4) Benennen Sie die Spalte Weather in Weather_Condition um?

Sie denken vielleicht, dass das Umbenennen einer Spalte nicht Teil der Datenanalyse ist, aber einige Spalten in Ihrem Datensatz enthalten einige durcheinandergebrachte Wörter oder Leerzeichen dazwischen und verursachen ein Problem beim Zugriff auf sie, sodass Sie sie besser umbenennen können. Um zu demonstrieren, wie eine Spalte umbenannt wird, wählen wir eine Wetterspalte aus.

data.rename(columns = {'Weather' : 'Weather_Condition'}, inplace=True)
#um col dauerhaft umzubenennen, verwenden Sie sie an Ort und Stelle

Frage-5) Was ist die mittlere Sichtbarkeit eines gegebenen Datensatzes?

Der Mittelwert ist der Durchschnitt aller im Datensatz vorhandenen Werte. Sie errechnet sich aus der Summe aller Werte dividiert durch eine Gesamtzahl von Werten. Um den Mittelwert direkt zu finden, verwenden Sie die Mittelwertfunktion von Pandas und um die Ausgabe zu überprüfen, können Sie auch mit der Summenfunktion berechnen und durch mehrere Zeilen dividieren.

technische Daten['Sichtweite_km'].bedeuten()

Genauso wie mittlere Pandas bieten grundlegende Aggregat- und Statistikfunktionen, die für jede numerische Spalte wie Standardabweichung, Varianz, Maximalwert, Minimalwert, Anzahl des Gesamtwerts, Schiefe usw. verwendet werden können.

Frage-6) Finden Sie die Anzahl der Aufzeichnungen, bei denen die Windgeschwindigkeit größer als 24 und die Sichtweite gleich 25 ist?

Die Frage fordert erneut, den Datensatz zu filtern, aber auf der Grundlage von zwei Bedingungen zu filtern. Und wenn wir zwei oder mehr zwei Bedingungen haben, verwenden wir logische Operatoren. In diesem Fall müssen wir Datensätze finden, bei denen die Windgeschwindigkeit größer als 24 und die Sichtweite gleich 25 sein sollte, sodass der logische AND-Operator verwendet wird und die verbleibende Filtersyntax gleich bleibt. Um mehr Bedingungen in eckige Klammern zu schreiben, verwenden wir auch Klammern für die Lesbarkeit des Codes.

data[(data['Wind Speed_km/h'] > 24) & (data['Sichtweite_km'] == 25)].shape

Frage-7) Was ist der Mittelwert jeder Spalte für jede Wetterbedingung?

Immer wenn die Frage „EACH“ lautet, müssen Sie die Group By-Klausel in der Abfrage verwenden, da Sie die Daten basierend auf jedem eindeutigen Wetterwert gruppieren und die Daten in anderen Spalten aggregieren müssen, um eine Bedeutung zu finden.

Auf die gleiche Weise können Sie basierend auf jedem Wetterwert den minimalen oder maximalen Wert aller Spalten finden. Diese müssen Sie in Ihrem Notizbuch finden.

Frage-8) Finden Sie alle Fälle, in denen das Wetter klar ist und die relative Luftfeuchtigkeit größer als 50 ist oder die Sicht über 40 liegt?

Die Frage fordert Sie auf, den Datensatz basierend auf 3 verschiedenen Bedingungen zu filtern. Und während Sie drei Bedingungen anwenden, müssen Sie zwei logische Operatoren verwenden und in dieser qdition zuerst die Frage verstehen, wo und wie die Bedingungen getrennt werden sollen.

Frage-9) Finden Sie die Anzahl der Wetterbedingungen, bei denen Schnee vorhanden ist?

Die Frage fordert Sie nicht auf, mehrere Aufzeichnungen zu finden, bei denen das Wetter gleich Schnee ist, sondern fordert Sie auf, alle Wetterdaten zu finden, bei denen Schneewörter wie Schneenebel, Schneeschauer, Schneetreiben usw. vorhanden sind. Verstehen Sie es einfach, um einen Satz zu finden - enthält das jeweilige Wort in der Satzliste.

Um das Problem zu lösen, stellen Pandas eine Funktion namens contains bereit, mit der wir überprüfen können, ob jeder Iterator ein bestimmtes Element enthält, und die nur auf Strings anwendbar ist.

Zusammenfassung

Die Datenanalyse ist ein kontinuierlicher Prozess, der darstellt, wie umfassend und besser Sie Ihre Analyse gegenüber dem Kunden darstellen, damit die Erkenntnisse, die für Geschäftsentscheidungen verwendet werden können, verständlich sind. Lassen Sie uns den Artikel mit einigen wichtigen Erkenntnissen abschließen, die wir in diesem Artikel gelernt haben.

  • Die Datenanalyse mit logischen Operatoren filtert die Daten basierend auf bestimmten Bedingungen und ruft die Daten ab, die für die definierte Bedingung wahr sind.
  • Statistische Techniken wie Mittelwert, Median, Standardabweichung und Varianz stellen viele Informationen über die Streuung von Daten dar.
  • Behandeln Sie die NULL-Werte immer mit der besten Imputationstechnik und versuchen Sie, sie nicht zu löschen, wenn Ihr Datensatz klein ist oder wenn Sie mehr NULL-Werte im Datensatz haben.
  • Die Datenanalyse ist ein kontinuierlicher Prozess und umfasst verschiedene Techniken, und nachdem ich diesem Artikel gefolgt bin, werde ich vorschlagen, diesem zu folgen explorative Datenanalyse Artikel, um diese Reise fortzusetzen und zu lernen, wie man die Daten mit besseren Visualisierungsdiagrammen und Grafiken analysiert, die den Schritt der Datenanalyse und Datendarstellung einfach und rationalisieren.

👉 Ich hoffe, dass es einfach war, jeden Schritt zu bewältigen und leicht verständlich. Wenn Sie Fragen haben, können Sie diese gerne im Kommentarbereich unten posten oder sich mit mir in Verbindung setzen. Ich hoffe, Ihnen hat mein Artikel über die Hive-Abfragesprache gefallen.

👉 Verbinde dich mit mir auf Linkedin.

👉 Schau dir meine anderen Artikel an Analytics-Vidhya und verrückter Technikfreak

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet.

spot_img

Neueste Intelligenz

spot_img

Chat mit uns

Hallo! Wie kann ich dir helfen?