최근에 만난 멋진 Python 라이브러리 6개

머신러닝을 위한 멋진 Python 라이브러리를 확인해 보세요.

By 딜립 수 브라마 니안, 데이터 과학자 및 AI 애호가

Python은 기계 학습의 필수적인 부분이며 라이브러리는 우리의 삶을 더 단순하게 만듭니다. 최근에 저는 ML 프로젝트를 진행하면서 6개의 멋진 라이브러리를 발견했습니다. 그것들은 제가 많은 시간을 절약하는 데 도움이 되었으며 이 블로그에서 이에 대해 논의할 것입니다.

1. 깨끗한 텍스트

정말 놀라운 라이브러리인 깨끗한 텍스트는 스크래핑이나 소셜 미디어 데이터를 처리해야 할 때 사용해야 합니다. 가장 멋진 점은 데이터를 정리하기 위해 긴 코드나 정규 표현식이 필요하지 않다는 것입니다. 몇 가지 예를 살펴보겠습니다.

설치

!pip install cleantext

예

#Importing the clean text library
from cleantext import clean# Sample texttext = """ Zürich, largest city of Switzerland and capital of the canton of 633Zürich. Located in an Alu017eupine. (https://google.com). Currency is not ₹"""# Cleaning the "text" with clean textclean(text, fix_unicode=True, to_ascii=True, lower=True, no_urls=True, no_numbers=True, no_digits=True, no_currency_symbols=True, no_punct=True, replace_with_punct=" ", replace_with_url="", replace_with_number="", replace_with_digit=" ", replace_with_currency_symbol="Rupees")

산출

위에서 보면 Zurich라는 단어에 유니코드(문자 'u'가 인코딩됨), ASCII 문자(Alu017eupine.), 루피 통화 기호, HTML 링크, 구두점이 있음을 알 수 있습니다.

clean 기능에서 필요한 ASCII, 유니코드, URL, 숫자, 통화 및 구두점을 언급하기만 하면 됩니다. 또는 위 함수에서 대체 매개변수로 대체할 수 있습니다. 예를 들어 루피 기호를 루피로 변경했습니다.

정규식이나 긴 코드를 사용할 필요가 전혀 없습니다. 특히 스크랩이나 소셜 미디어 데이터에서 텍스트를 정리하려는 경우 매우 편리한 라이브러리입니다. 요구 사항에 따라 인수를 모두 결합하는 대신 개별적으로 인수를 전달할 수도 있습니다.

자세한 내용은 이쪽을 확인해 주세요 GitHub 저장소.

2. 그리기 데이터

Drawdata는 제가 발견한 또 다른 멋진 Python 라이브러리입니다. ML 개념을 팀에 설명해야 하는 상황을 몇 번이나 경험하셨나요? 데이터 과학은 팀워크에 관한 것이기 때문에 이런 일이 자주 발생해야 합니다. 이 라이브러리는 Jupyter 노트북에 데이터 세트를 그리는 데 도움이 됩니다.
개인적으로 팀에 ML 개념을 설명할 때 이 라이브러리를 사용하는 것이 정말 즐거웠습니다. 이 라이브러리를 만든 개발자에게 찬사를 보냅니다!

Drawdata는 XNUMX개 클래스의 분류 문제에만 사용됩니다.

설치

!pip install drawdata

예

# Importing the drawdata from drawdata import draw_scatterdraw_scatter()

산출

작성자 이미지

위의 그리기 창은 draw_Scatter()를 실행한 후에 열립니다. 분명히 A, B, C, D라는 네 가지 클래스가 있습니다. 아무 클래스나 클릭하고 원하는 포인트를 그릴 수 있습니다. 각 클래스는 도면의 다양한 색상을 나타냅니다. 데이터를 csv 또는 json 파일로 다운로드하는 옵션도 있습니다. 또한 데이터를 클립보드에 복사하고 아래 코드에서 읽을 수 있습니다.

#Reading the clipboardimport pandas as pd df = pd.read_clipboard(sep=",")
df

이 라이브러리의 한계 중 하나는 XNUMX개의 클래스에 XNUMX개의 데이터 포인트만 제공한다는 것입니다. 그러나 그렇지 않으면 확실히 그만한 가치가 있습니다. 자세한 내용은 여기를 확인해 주세요 GitHub 링크.

3. 오토비즈

나는 matplotlib를 사용하여 탐색적 데이터 분석을 수행하는 데 보낸 시간을 결코 잊지 않을 것입니다. 간단한 시각화 라이브러리가 많이 있습니다. 하지만 최근에 한 줄의 코드로 모든 데이터 세트를 자동으로 시각화하는 Autoviz에 대해 알게 되었습니다.

설치

!pip install autoviz

예

이 예에서는 IRIS 데이터 세트를 사용했습니다.

# Importing Autoviz class from the autoviz library
from autoviz.AutoViz_Class import AutoViz_Class#Initialize the Autoviz class in a object called df
df = AutoViz_Class()# Using Iris Dataset and passing to the default parametersfilename = "Iris.csv"
sep = ","graph = df.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_rows_analyzed=150000, max_cols_analyzed=30,
)

위의 매개변수는 기본 매개변수입니다. 자세한 내용은 확인해주세요. 여기에서 지금 확인해 보세요..

산출

작성자 이미지

코드 한 줄로 모든 시각적 요소를 확인하고 EDA를 완성할 수 있습니다. 자동 시각화 라이브러리가 많이 있지만 특히 이 라이브러리에 익숙해지는 것이 정말 즐거웠습니다.

4. 미토

엑셀은 다들 좋아하시죠? 이는 처음에 데이터 세트를 탐색하는 가장 쉬운 방법 중 하나입니다. 몇 달 전에 미토를 접했는데 최근에야 먹어봤는데 정말 마음에 들었어요!

스프레드시트 기능을 추가하는 GUI 지원 기능을 갖춘 Jupyter-lab 확장 Python 라이브러리입니다. CSV 데이터를 로드하고 데이터세트를 스프레드시트로 편집할 수 있으며 자동으로 Pandas 코드가 생성됩니다. 아주 멋지다.

Mito는 진정으로 전체 블로그 게시물을 게시할 자격이 있습니다. 그러나 오늘은 자세히 다루지 않겠습니다. 대신 간단한 작업 데모를 보여드리겠습니다. 자세한 내용은 확인해주세요. 여기에서 지금 확인해 보세요..

설치

#First install mitoinstaller in the command prompt
pip install mitoinstaller# Then, run the installer in the command prompt
python -m mitoinstaller install# Then, launch Jupyter lab or jupyter notebook from the command prompt
python -m jupyter lab

설치에 대한 자세한 내용은 확인해주세요. 여기에서 지금 확인해 보세요..

# Importing mitosheet and ruuning this in Jupyter labimport mitosheet
mitosheet.sheet()

위 코드를 실행하면 jupyter lab에서 mitosheet가 열립니다. IRIS 데이터 세트를 사용하고 있습니다. 먼저 두 개의 새로운 열을 만들었습니다. 하나는 평균 꽃받침 길이이고 다른 하나는 합계 꽃받침 너비입니다. 둘째, 평균 꽃받침 길이에 대한 열 이름을 변경했습니다. 마지막으로 평균 꽃받침 길이 열에 대한 히스토그램을 만들었습니다.

위에서 언급한 단계를 수행하면 코드가 자동으로 생성됩니다.

산출

작성자 이미지

위 단계에 대해 아래 코드가 생성되었습니다.

from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-119387c0-fc9b-4b04-9053-802c0d428285') # Let Mito know which analysis is being run# Imported C:UsersDhilipDownloadsarchive (29)Iris.csv
import pandas as pd
Iris_csv = pd.read_csv('C:UsersDhilipDownloadsarchive (29)Iris.csv')# Added column G to Iris_csv
Iris_csv.insert(6, 'G', 0)# Set G in Iris_csv to =AVG(SepalLengthCm)
Iris_csv['G'] = AVG(Iris_csv['SepalLengthCm'])# Renamed G to Avg_Sepal in Iris_csv
Iris_csv.rename(columns={"G": "Avg_Sepal"}, inplace=True)

5. 그램포머

또 다른 인상적인 라이브러리인 Gramformer는 문장의 문법을 수정하는 데 도움이 되는 생성 모델을 기반으로 합니다. 이 라이브러리에는 세 가지 모델이 있습니다. 감지기, 형광펜 및 교정기. 감지기는 텍스트에 잘못된 문법이 있는지 식별합니다. 형광펜은 말의 잘못된 부분을 표시하고 교정기는 오류를 수정합니다. Gramformer는 완전한 오픈 소스이며 초기 단계에 있습니다. 그러나 문장 수준에서만 작동하고 64개 길이의 문장에 대해 훈련되었기 때문에 긴 단락에는 적합하지 않습니다.

현재 교정기 및 형광펜 모델이 작동합니다. 몇 가지 예를 살펴보겠습니다.

설치

!pip3 install -U git+https://github.com/PrithivirajDamodaran/Gramformer.git

인스턴스화 문법 형성기

gf = Gramformer(models = 1, use_gpu = False) # 1=corrector, 2=detector (presently model 1 is working, 2 has not implemented)

예

#Giving sample text for correction under gf.correctgf.correct(""" New Zealand is island countrys in southwestern Paciific Ocaen. Country population was 5 million """)

산출

작성자 이미지

위 출력에서 문법은 물론 철자 오류까지 수정된 것을 볼 수 있습니다. 정말 놀라운 라이브러리이며 기능도 매우 훌륭합니다. 여기서는 형광펜을 사용해 본 적이 없습니다. 자세한 내용은 이 GitHub 문서를 확인해 보세요. 세부설명.

6. 스타일포머

Gramformer에 대한 나의 긍정적인 경험은 나에게 더 독특한 라이브러리를 찾도록 격려했습니다. 이것이 제가 또 다른 매우 매력적인 Python 라이브러리인 Styleformer를 찾은 방법입니다. Gramformer와 Styleformer는 모두 Prithiviraj Damodaran이 만들었으며 둘 다 생성 모델을 기반으로 합니다. 오픈소스로 공개해주신 제작자분께 감사드립니다.

Styleformer는 캐주얼 문장을 격식 있는 문장으로, 격식을 갖춘 문장에서 캐주얼 문장으로, 능동형에서 수동형 문장으로, 수동형에서 능동형 문장으로 변환하는 데 도움을 줍니다.

몇 가지 예를 보자

설치

!pip install git+https://github.com/PrithivirajDamodaran/Styleformer.git

스타일포머 인스턴스화

sf = Styleformer(style = 0)# style = [0=Casual to Formal, 1=Formal to Casual, 2=Active to Passive, 3=Passive to Active etc..]

예

# Converting casual to formal sf.transfer("I gotta go")

# Formal to casual sf = Styleformer(style = 1) # 1 -> Formal to casual# Converting formal to casual
sf.transfer("Please leave this place")

# Active to Passive sf = Styleformer(style = 2) # 2-> Active to Passive# Converting active to passive
sf.transfer("We are going to watch a movie tonight.")

# passive to active
sf = Styleformer(style = 2) # 2-> Active to Passive# Converting passive to active
sf.transfer("Tenants are protected by leases")

위의 출력을 보면 정확하게 변환됩니다. 나는 특히 내 분석 중 하나에서 소셜 미디어 게시물을 위해 캐주얼한 옷을 공식적인 옷으로 변환하기 위해 이 라이브러리를 사용했습니다. 자세한 사항은 꼭 확인해주세요 GitHub의.

이전에 언급한 라이브러리 중 일부에 익숙할 수도 있지만 Gramformer 및 Styleformer와 같은 라이브러리가 최근에 등장했습니다. 그들은 극도로 과소평가되었으며 내 시간을 많이 절약해 주고 NLP 프로젝트에 많이 사용했기 때문에 가장 확실하게 알려질 가치가 있습니다.

읽어 주셔서 감사합니다. 추가할 내용이 있으면 언제든지 댓글로 남겨주세요!

내 이전 기사를 좋아할 수도 있습니다. 데이터 과학을 위한 XNUMX가지 멋진 Python 라이브러리

바이오 : 딜립 수 브라마 니안 기계 엔지니어이며 분석 석사를 마쳤습니다. 그는 IT, 마케팅, 뱅킹, 전력 및 제조를 포함하여 데이터와 관련된 다양한 영역에서 9 년의 경력을 쌓았습니다. 그는 NLP와 머신 러닝에 열정적입니다. 그는에 기여 SAS 커뮤니티 또한 Medium 플랫폼에서 데이터 과학의 다양한 측면에 대한 기술 기사를 작성하는 것을 좋아합니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

= 이전 포스트

다음 게시물 =>

지난 30 일 동안의 주요 기사

가장 인기 많은
Python을 사용하여 Microsoft Excel 및 Word 자동화 Python으로 Excel 파일을 읽습니까? 1000배 빠른 방법이 있습니다 데이터 과학자와 ML 엔지니어의 차이점 가장 일반적인 데이터 과학 인터뷰 질문 및 답변 Django의 가장 일반적인 9가지 애플리케이션

가장 많이 공유 한
데이터 과학자와 ML 엔지니어의 차이점 Pandas 데이터 프레임을 쿼리하는 방법 Prefect: Python으로 첫 번째 ETL 파이프라인을 작성하고 예약하는 방법 가설 검정 설명 데이터 과학 치트 시트 2.0

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://www.kdnuggets.com/2021/09/6-cool-python-libraries-recently.html

생성 데이터 인텔리전스

최근에 만난 멋진 Python 라이브러리 6개

최근에 만난 멋진 Python 라이브러리 6개

1. 깨끗한 텍스트

2. 그리기 데이터

3. 오토비즈

4. 미토

5. 그램포머

6. 스타일포머

Islanders가 5차전에서 승리하는 데 필요한 세 가지 열쇠

레이커스는 덴버를 상대로 탐나는 승리를 거두었고, 현재 시리즈에서 3-1로 패했습니다.

최신 인텔리전스

Dogecoin과 Pepecoin 매니아들이 Wahoo Exchange 플랫폼에서 출시한 새로운 AI 토큰 뒤에 모였습니다 – CryptoInfoNet

FTX 재판의 교훈: CEX 규제만으로는 불량 행위자를 예방하는 데 충분하지 않을 수 있음 | 의견 - CryptoInfoNet

Ioniq 5 N의 "기어" 및 기타 성능 기능에 대한 엔지니어링 설명 – CleanTechnica

분석가 벤자민 코웬(Benjamin Cowen)에 따르면 금은 비트코인(BTC) 랠리의 종료를 신호했을 수 있습니다. 그가 의미하는 바는 다음과 같습니다. – The Daily Hodl

라이트코인의 불타오르다: 미스테리한 신호가 100달러 가격 폭발을 가리킨다

이번 주 암호화폐 트위터: 비트코인 룬 매니아 및 기타 이더리움 법적 드라마 – 복호화