제퍼넷 로고

데이터 과학자를 위한 Docker 자습서 – KDnuggets

시간

데이터 과학자를 위한 Docker 자습서
작성자 별 이미지
 

Python 및 Python 데이터 분석 제품군과 pandas 및 scikit-learn과 같은 기계 학습 라이브러리를 사용하면 데이터 과학 애플리케이션을 쉽게 개발할 수 있습니다. 그러나 Python의 종속성 관리는 어려운 문제입니다. 데이터 과학 프로젝트에서 작업할 때 다양한 라이브러리를 설치하고 사용 중인 라이브러리 버전을 추적하는 데 상당한 시간을 소비해야 합니다.

다른 개발자가 귀하의 코드를 실행하고 프로젝트에 기여하기를 원하면 어떻게 합니까? 데이터 과학 응용 프로그램을 복제하려는 다른 개발자는 먼저 설정 계속해서 코드를 실행하기 전에 컴퓨터의 프로젝트 환경. 다른 라이브러리 버전과 같은 작은 차이도 코드에 주요 변경 사항을 도입할 수 있습니다. 도커 구조에. Docker는 개발 프로세스를 단순화하고 원활한 협업을 촉진합니다.

이 가이드는 Docker의 기본 사항을 소개하고 Docker를 사용하여 데이터 과학 애플리케이션을 컨테이너화하는 방법을 알려줍니다.

데이터 과학자를 위한 Docker 자습서
작성자 별 이미지
 

도커 라는 휴대용 아티팩트로 애플리케이션을 빌드하고 공유할 수 있는 컨테이너화 도구입니다. 형상

소스 코드 외에도 애플리케이션에는 일련의 종속성, 필수 구성, 시스템 도구 등이 있습니다. 예를 들어, 데이터 과학 프로젝트에서 필요한 모든 라이브러리를 개발 환경(가상 환경 내부에 설치하는 것이 좋음)에 설치합니다. 또한 라이브러리가 지원하는 업데이트된 버전의 Python을 사용하고 있는지 확인할 수 있습니다. 

그러나 다른 컴퓨터에서 응용 프로그램을 실행하려고 하면 여전히 문제가 발생할 수 있습니다. 이러한 문제는 개발 환경에서 두 시스템 간의 구성 및 라이브러리 버전이 일치하지 않아 발생하는 경우가 많습니다.

Docker를 사용하면 종속성 및 구성과 함께 애플리케이션을 패키징할 수 있습니다. 따라서 다양한 호스트 시스템에서 애플리케이션에 대해 격리되고 재현 가능하며 일관된 환경을 정의할 수 있습니다.

몇 가지 개념/용어를 살펴보겠습니다.

도커 이미지

Docker 이미지는 애플리케이션의 이식 가능한 아티팩트입니다. 

도커 컨테이너

이미지를 실행하면 기본적으로 컨테이너 환경 내에서 애플리케이션이 실행됩니다. 따라서 실행 중인 이미지 인스턴스는 컨테이너입니다.

도커 레지스트리

Docker 레지스트리는 다음을 위한 시스템입니다. 저장배포 도커 이미지. 애플리케이션을 Docker 이미지로 컨테이너화한 후 이미지 레지스트리로 푸시하여 개발자 커뮤니티에서 사용할 수 있도록 할 수 있습니다. DockerHub는 가장 큰 공개 레지스트리이며 모든 이미지는 기본적으로 DockerHub에서 가져옵니다.

컨테이너는 애플리케이션을 위한 격리된 환경을 제공하므로 이제 다른 개발자는 자신의 머신에 Docker를 설정하기만 하면 됩니다. 그리고 복잡한 설치에 대해 걱정할 필요 없이 원격에서 단일 명령을 사용하여 Docker 이미지를 가져오고 컨테이너를 시작할 수 있는 컨테이너를 시작할 수 있습니다. 

애플리케이션을 개발할 때 동일한 앱의 여러 버전을 빌드하고 테스트하는 것도 일반적입니다. Docker를 사용하는 경우 서로 다른 컨테이너 내에서 동일한 앱의 여러 버전을 실행할 수 있습니다.없이 동일한 환경에서 모든 충돌.

개발을 단순화하는 것 외에도 Docker는 배포를 단순화하고 개발 및 운영 팀이 효과적으로 협업하도록 돕습니다. 서버 측에서 운영 팀은 복잡한 버전 및 종속성 충돌을 해결하는 데 시간을 소비할 필요가 없습니다. Docker 런타임만 설정하면 됩니다.

이 튜토리얼에서 가장 많이 사용할 몇 가지 기본 Docker 명령을 빠르게 살펴보겠습니다. 자세한 개요는 다음을 참조하세요. 모든 데이터 과학자가 알아야 할 12가지 Docker 명령.

명령 함수
docker ps 실행 중인 모든 컨테이너 나열
docker pull image-name 기본적으로 DockerHub에서 이미지 이름을 가져옵니다.
docker images 사용 가능한 모든 이미지를 나열합니다.
docker run image-name 이미지에서 컨테이너 시작
docker start container-id 중지된 컨테이너를 다시 시작합니다.
docker stop container-id 실행 중인 컨테이너 중지
docker build path Dockerfile의 지침을 사용하여 경로에서 이미지를 빌드합니다.

주의 사항: 접두어로 모든 명령 실행 sudo 생성하지 않은 경우 도커 사용자와 그룹화합니다.

지금까지 Docker의 기본 사항을 배웠으며 이제 배운 내용을 적용할 차례입니다. 이 섹션에서는 Docker를 사용하여 간단한 데이터 과학 애플리케이션을 컨테이너화합니다.

집값 예측 모델

목표 값을 예측하는 다음 선형 회귀 모델을 살펴보겠습니다. 입력 특성을 기반으로 하는 중간 주택 가격입니다. 모델은 다음을 사용하여 빌드됩니다. 캘리포니아 주택 데이터 세트:

# house_price_prediction.py
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score # Load the California Housing dataset
data = fetch_california_housing(as_frame=True)
X = data.data
y = data.target # Split the dataset into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # Standardize features
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test) # Train the model
model = LinearRegression()
model.fit(X_train, y_train) # Make predictions on the test set
y_pred = model.predict(X_test) # Evaluate the model
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred) print(f"Mean Squared Error: {mse:.2f}")
print(f"R-squared Score: {r2:.2f}")

 

우리는 scikit-learn이 필수 종속성이라는 것을 알고 있습니다. 코드를 통과하면 설정됩니다. as_frame 데이터 세트를 로드할 때 True와 같습니다. 그래서 판다도 필요합니다. 그리고 requirements.txt 파일은 다음과 같습니다.

pandas==2.0
scikit-learn==1.2.2

 

데이터 과학자를 위한 Docker 자습서
작성자 별 이미지

Dockerfile 만들기

지금까지 소스 코드 파일이 있습니다. house_price_prediction.py 그리고 requirements.txt 파일. 이제 정의해야 합니다. 방법 애플리케이션에서 이미지를 빌드합니다. 그만큼 도커 파일 애플리케이션 소스 코드 파일에서 이미지를 빌드하는 이 정의를 만드는 데 사용됩니다.

그렇다면 Dockerfile은 무엇입니까? Docker 이미지를 빌드하기 위한 단계별 지침이 포함된 텍스트 문서입니다.

 

데이터 과학자를 위한 Docker 자습서
작성자 별 이미지
 

예제에 대한 Dockerfile은 다음과 같습니다.

# Use the official Python image as the base image
FROM python:3.9-slim # Set the working directory in the container
WORKDIR /app # Copy the requirements.txt file to the container
COPY requirements.txt . # Install the dependencies
RUN pip install --no-cache-dir -r requirements.txt # Copy the script file to the container
COPY house_price_prediction.py . # Set the command to run your Python script
CMD ["python", "house_price_prediction.py"]

 

Dockerfile의 내용을 분석해 보겠습니다.

  • 모든 Dockerfile은 a로 시작합니다. FROM 기본 이미지를 지정하는 명령. 기본 이미지는 이미지의 기반이 되는 이미지입니다. 여기서는 Python 3.9에 사용 가능한 이미지를 사용합니다. 그만큼 FROM 명령은 지정된 기본 이미지에서 현재 이미지를 빌드하도록 Docker에 지시합니다.
  • XNUMXD덴탈의 SET 명령은 다음 모든 명령에 대한 작업 디렉토리를 설정하는 데 사용됩니다( 이 예에서).
  • 그런 다음 requirements.txt 파일을 컨테이너의 파일 시스템에 복사합니다. 
  • XNUMXD덴탈의 RUN 명령은 컨테이너 내부의 쉘에서 지정된 명령을 실행합니다. 여기에서 다음을 사용하여 필요한 모든 종속성을 설치합니다. pip
  • 그런 다음 소스 코드 파일인 Python 스크립트를 복사합니다. house_price_prediction.py—컨테이너의 파일 시스템에.
  • 최종적으로 CMD 컨테이너가 시작될 때 실행할 명령을 나타냅니다. 여기서 우리는 house_price_prediction.py 스크립트. Dockerfile은 하나만 포함해야 합니다. CMD 교수.

이미지 구축

이제 Dockerfile을 정의했으므로 다음을 실행하여 도커 이미지를 빌드할 수 있습니다. docker build:

docker build -t ml-app .

 

옵션 -t 에서 이미지의 이름과 태그를 지정할 수 있습니다. 이름표 체재. 기본 태그는 최근

빌드 프로세스는 몇 분 정도 걸립니다.

Sending build context to Docker daemon 4.608kB
Step 1/6 : FROM python:3.9-slim
3.9-slim: Pulling from library/python
5b5fe70539cd: Pull complete f4b0e4004dc0: Pull complete ec1650096fae: Pull complete 2ee3c5a347ae: Pull complete d854e82593a7: Pull complete Digest: sha256:0074c6241f2ff175532c72fb0fb37264e8a1ac68f9790f9ee6da7e9fdfb67a0e
Status: Downloaded newer image for python:3.9-slim ---> 326a3a036ed2
Step 2/6 : WORKDIR /app
...
...
...
Step 6/6 : CMD ["python", "house_price_prediction.py"] ---> Running in 7fcef6a2ab2c
Removing intermediate container 7fcef6a2ab2c ---> 2607aa43c61a
Successfully built 2607aa43c61a
Successfully tagged ml-app:latest

 

Docker 이미지가 빌드된 후 다음을 실행합니다. docker images 명령. 당신은 볼 수ml-app 이미지도 나열됩니다.

docker images

 

데이터 과학자를 위한 Docker 자습서
 
Docker 이미지를 실행할 수 있습니다. ml-app 를 사용하여 docker run 명령:

docker run ml-app

 

데이터 과학자를 위한 Docker 자습서
 

축하해요! 첫 번째 데이터 과학 애플리케이션을 고정 표시했습니다. DockerHub 계정을 생성하여 이미지를 해당 계정(또는 조직 내의 프라이빗 리포지토리)에 푸시할 수 있습니다.

이 Docker 소개 튜토리얼이 도움이 되었기를 바랍니다. 이 튜토리얼에서 사용된 코드는 다음에서 찾을 수 있습니다. 이 GitHub 저장소. 다음 단계로 컴퓨터에 Docker를 설정하고 이 예제를 시도하십시오. 또는 선택한 애플리케이션을 도커화합니다. 

컴퓨터에 Docker를 설치하는 가장 쉬운 방법은 다음을 사용하는 것입니다. 도커 데스크탑: Docker CLI 클라이언트와 GUI를 모두 사용하여 컨테이너를 쉽게 관리할 수 있습니다. 따라서 Docker를 설정하고 바로 코딩을 시작하십시오!
 
 
발라 프리야 C 인도 출신의 개발자이자 테크니컬 라이터입니다. 그녀는 수학, 프로그래밍, 데이터 과학 및 콘텐츠 제작의 교차점에서 일하는 것을 좋아합니다. 그녀의 관심 분야와 전문 분야는 DevOps, 데이터 과학 및 자연어 처리입니다. 그녀는 읽기, 쓰기, 코딩, 커피를 즐깁니다! 현재 그녀는 자습서, 사용 방법 가이드, 의견 등을 작성하여 개발자 커뮤니티와 지식을 배우고 공유하는 작업을 하고 있습니다.
 

spot_img

최신 인텔리전스

spot_img