Zephyrnet-logotyp

Komma igång med Python for Data Science – KDnuggets

Datum:

Komma igång med Python for Data Science
Bild av författare
 

Sommaren är över och det är tillbaka till att studera eller arbeta med din självutvecklingsplan. Många av er kanske har haft sommartid på att fundera över vad era nästa steg kommer att bli, och om det har något med Data Science att göra – måste ni läsa den här bloggen. 

Generativ AI, ChatGPT, Google Bard – det är förmodligen många termer du har hört under de senaste månaderna. Med detta uppståndelse funderar många av er på att komma in på teknikområdet, till exempel Data Science.

Människor från olika roller vill behålla sina jobb, så de kommer att sträva efter att utveckla sina färdigheter för att passa den nuvarande marknaden. Det är en konkurrensutsatt marknad och vi ser att fler och fler människor bygger intresse för Data Science; där det finns tusentals kurser online, bootcamps och Masters (MSc) tillgängliga i branschen. 

Om du vill veta vilka GRATIS kurser du kan ta för Data Science, läs på De bästa gratis onlinekurserna i datavetenskap för 2023

Med det sagt, om du vill ta dig in i datavetenskapens värld måste du känna till Python. 

Python utvecklades i februari 1991 av den holländska programmeraren Guido van Rossum. Designen betonar kraftigt den lättläsliga koden. Konstruktionen av det språk- och objektorienterade tillvägagångssättet hjälper nya och nuvarande programmerare att skriva tydlig och förståelig kod, från små projekt till stora projekt, till att använda små data till stora data. 

31 år senare anses Python vara ett av de bästa programmeringsspråken att lära sig idag.

Python innehåller en mängd olika bibliotek och ramverk så att du inte behöver göra allt från grunden. Dessa förbyggda komponenter innehåller användbar och läsbar kod som du kan implementera i dina program. Till exempel, numpy, matplotlib, SciPy, Vacker soppaOch mycket mer. 

Om du vill veta mer om Python Libraries, läs följande artikel: Python Libraries Data Scientists borde veta 2022

Python är effektivt, snabbt och pålitligt vilket gör att utvecklare kan skapa applikationer, utföra analyser och producera visualiserade utdata med minimal ansträngning. Allt du behöver för att bli datavetare!

Om du funderar på att bli en dataforskare kommer vi att gå igenom en steg-för-steg-guide som hjälper dig att komma igång med Python:

Installera Python

Först måste du ladda ner den senaste versionen av Python. Du kan ta reda på den senaste versionen genom att gå över till den officiella webbplatsen här.

Baserat på ditt operativsystem, följ installationsinstruktionerna till slutet. 

Välj din IDE eller Code Editor

IDE är en integrerad utvecklingsmiljö, det är en mjukvaruapplikation som programmerare använder för att utveckla mjukvarukod mer effektivt. En kodredigerare har samma syfte, men det är ett textredigeringsprogram.

Om du är osäker på vilket du ska välja kommer jag att ge en lista över populära alternativ:

När jag började min datavetenskapskarriär arbetade jag med VSC och Jupyter Notebook, vilket jag tyckte var mycket användbart i mitt datavetenskapsinlärning och interaktiva kodning. När du har valt en som passar dina behov, installera den och gå igenom genomgångarna om hur du använder dem. 

Innan du dyker in i djupet av omfattande projekt måste du först lära dig grunderna. Så låt oss dyka in i dem.

Variabler och datatyper

Variabler är den terminologi som används för behållare som lagrar datavärden. Datavärden har olika datatyper, såsom heltal, flyttal, strängar, listor, tupler, ordböcker och mer. Att lära sig dessa är mycket viktigt och bygger din grundläggande kunskap. 

I följande exempel är variabeln ett namn och den innehåller värdet "John". Datatypen är en sträng: name = "John" .

Operatörer och uttryck

Operatorer är symboler som tillåter beräkningsuppgifter som addition, subtraktion, multiplikation, division, exponentiering etc. Ett uttryck i Python är en kombination av operatorer och operander.

Till exempel x = x + 1 0x = x + 10 x = x+ 10

Kontrollstrukturer

Kontrollstrukturer gör ditt programmeringsliv enklare genom att specificera flödet av exekvering i din kod. I Python finns det flera typer av kontrollstrukturer som du behöver lära dig såsom villkorliga uttalanden, loopar och undantagshantering.

Till exempel:

if x > 0: print("Positive") else: print("Non-positive")

Funktioner

En funktion är ett kodblock, och detta kodblock kan endast köras när det anropas. Du kan skapa en funktion med hjälp av def nyckelord.

Till exempel 

def greet(name): return f"Hello, {name}!"

Moduler och bibliotek

En modul i Python är en fil som innehåller Python-definitioner och -satser. Den kan definiera funktioner, klasser och variabler. Ett bibliotek är en samling relaterade moduler eller paket. Moduler och bibliotek kan användas genom att importera dem med hjälp av import uttalande.

Till exempel nämnde jag ovan att Python innehåller en mängd olika bibliotek och ramverk som NumPy. Du kan importera dessa olika bibliotek genom att köra:

import numpy as np
import pandas as pd
import math
import random 

Det finns olika bibliotek och moduler som du kan importera med Python.

När du har en bättre förståelse för grunderna och hur de fungerar, är ditt nästa steg att använda dessa färdigheter för att arbeta med data. Du måste lära dig hur du:

Importera och exportera data med Pandas

pandas är ett mycket använt Python-bibliotek inom datavetenskapens värld, eftersom det erbjuder ett flexibelt och intuitivt sätt att hantera datamängder av alla storlekar. Låt oss säga att du har en CSV-fildata, du kan använda pandor för att importera datamängden genom att:

import pandas as pd example_data = pd.read_csv("data/example_dataset1.csv")

Datarensning och manipulering

Datarensning och -manipulation är viktiga steg i dataförbehandlingsfasen i ett datavetenskapligt projekt, eftersom du tar rådata och kammar igenom alla dess inkonsekvenser, fel och saknade värden för att omvandla dem till ett strukturerat format som kan användas för analys.

Delar av datarensning inkluderar:

  • Hantering av saknade värden
  • Kopiera data
  • Extremvärden
  • Datatransformation
  • Rengöring av datatyp

Delar av datamanipulation inkluderar:

  • Välja och filtrera data
  • Sortera data
  • Gruppera data 
  • Sammanfoga och slå samman data
  • Skapa nya variabler
  • Pivotering och korstabulering

Du kommer att behöva lära dig alla dessa element och hur de används i Python. Vill du börja nu, du kan Lär dig datarensning och förbearbetning för datavetenskap med denna gratis e-bok.

Statistisk analys

Som en del av din tid som datavetare måste du ta reda på hur du kan kamma igenom dina data för att identifiera trender, mönster och insikter. Du kan uppnå detta genom statistisk analys. Detta är processen att samla in och analysera data för att identifiera mönster och trender.

Denna fas används för att ta bort partiskhet genom numerisk analys, vilket gör att du kan fortsätta din forskning, utveckla statistiska modeller och mer. Slutsatserna används i beslutsprocessen för att göra framtida förutsägelser baserat på tidigare trender. 

Det finns 6 typer av statistisk analys:

  1. Beskrivande analys
  2. Inferentiell analys
  3. Prediktiv analys
  4. Preskriptiv analys
  5. Utforskande dataanalys
  6. Kausal analys

I den här bloggen kommer jag att dyka lite mer in i Exploratory Data Analysis.

Exploratory Data Analysis (EDA)

När du har rensat och manipulerat data är det redo för nästa steg: utforskande dataanalys. Det är då datavetare analyserar och undersöker datamängden och skapar en sammanfattning av de viktigaste egenskaperna/variablerna som kan hjälpa dem att få ytterligare insikt och skapa datavisualiseringar. 

EDA-verktyg inkluderar

  • Prediktiv modellering såsom linjär regression
  • Klustringstekniker som K-betyder klustring
  • Dimensionalitetsreducerande tekniker som Principal Component Analysis (PCA)
  • Univariat, bivariat och multivariat visualisering

Denna fas av datavetenskap kan vara den svåraste aspekten och kräver mycket övning. Bibliotek och moduler kan hjälpa dig, men du måste förstå uppgiften och vad du vill att resultatet ska bli för att ta reda på vilket EDA-verktyg du behöver. 

EDA används för att få ytterligare insikt och skapa datavisualisering. Som datavetare förväntas du skapa visualiseringar av dina resultat. Detta kan vara grundläggande visualiseringar som linjediagram, stapeldiagram och spridningsdiagram, men då kan du vara väldigt kreativ som värmekartor, choropleth-kartor och bubbeldiagram. 

Det finns olika datavisualiseringsbibliotek som du kan använda, men dessa är de mest populära:

Datavisualiseringar möjliggör bättre kommunikation, särskilt för intressenter som inte är särskilt tekniskt inställda. 

Den här bloggen är avsedd att vägleda nybörjare om de steg de måste ta för att lära sig Python i sin datavetenskapskarriär. Varje fas kräver tid och uppmärksamhet för att bemästra. Eftersom jag inte kunde gå in i detaljer om var och en, har jag skapat en kort lista som kan guida dig vidare:

 
 
Nisha Arya är en datavetare, frilansande teknisk skribent och Community Manager på KDnuggets. Hon är särskilt intresserad av att ge Data Science karriärråd eller handledning och teoribaserad kunskap kring Data Science. Hon vill också utforska de olika sätten artificiell intelligens är/kan gynna människans livslängd. En angelägen lärande som vill bredda sina tekniska kunskaper och skrivförmåga, samtidigt som hon hjälper andra att vägleda.
 

plats_img

Senaste intelligens

plats_img