버전과 버저닝
- 버전(Version): 소프트웨어 제품의 특정 릴리스에 대한 고유한 식별자입니다.
- 버저닝(Versioning): 소프트웨어에 고유한 버전 이름과 번호를 할당하는 과정입니다.
파이썬 3.11 설치하기
- 다양한 방법으로 파이썬을 설치할 수 있습니다:
- 공식 홈페이지에서 다운로드
- Conda를 사용하여 설치
- Docker 이미지를 사용하여 설치
- 패키지 관리자(brew, apt, winget)를 사용하여 설치
- Pyenv를 사용하여 설치
Pyenv
- Pyenv: 파이썬의 다양한 버전을 CLI로 쉽게 설치하고 관리할 수 있는 도구입니다.
3. 파이썬 프로젝트 버전 관리
3.1 가상 환경
- 가상 환경: 프로젝트 별로 독립적인 파이썬 환경을 생성하여 패키지 충돌 문제를 해결합니다.
3.2 패키지 매니저
- 파이썬의 주요 패키지 매니저:
- pip: 가장 많이 사용되는 파이썬 내장 패키지 매니저입니다.
- poetry
- conda (주로 Anaconda의 패키지 매니저)
2.1 리눅스
- Linux의 이해
- 개발하기 전에는 주로 Mac OS나 Windows OS에 익숙하지만, 프로그래밍에 본격적으로 입문하면 Linux를 많이 다루게 됨.
- 특히 서버와 관련된 직군에서 Linux 사용이 많음.
- Linux를 알아야 하는 이유
- 서버에서 자주 사용되는 OS로, Mac이나 Windows도 서버로 사용 가능하지만 유료임.
- Linux는 Free이며 오픈소스로, 다양한 버전이 존재하여 사용자가 직접 버전을 만들 수도 있음.
- Linux는 안정성과 신뢰성이 높으며, Unix 기반으로 Stability와 Reliability를 제공함.
- 쉘 커맨드와 쉘 스크립트 사용이 중요.
2.2 Shell Command
- 쉘의 종류
- sh: 최초의 쉘.
- bash: Linux 표준 쉘.
- zsh: Mac Catalina OS의 기본 쉘.
- 쉘 사용 사례
- 서버 접속, crontab 같은 Linux 내장 기능 활용, 데이터 전처리, Docker 사용, 서버 관리 등에 쉘 커맨드 사용.
- 기본 쉘 커맨드
man
: 쉘 커맨드의 매뉴얼 문서를 보기 위함.mkdir
: 폴더 생성.ls
: 현재 폴더의 파일 목록을 확인.pwd
: 현재 폴더의 절대 경로를 보여줌.cd
: 폴더 이동.echo
: 터미널에 텍스트 출력.cp
: 파일 또는 폴더 복사.mv
: 파일 또는 폴더 이동 또는 이름 변경.cat
: 파일 내용 출력 및 파일 합치기.
- Redirection & Pipe
- Redirection을 통해 프로그램의 출력을 다른 파일이나 스트림으로 전달할 수 있음.
- Pipe를 사용하여 한 프로그램의 출력을 다른 프로그램의 입력으로 사용 가능.
- 서버에서 자주 사용하는 쉘 커맨드
ps
: 현재 실행 중인 프로세스를 보여줌.curl
: 커맨드 라인 기반 데이터 전송, 웹 서버의 요청 테스트에 사용.scp
: SSH을 이용해 파일을 네트워크를 통해 전송.
2.3 쉘 스크립트
- 쉘 스크립트의 이해
- 쉘 커맨드의 조합으로 구성되며, Python과 유사한 if, while, case 문을 포함할 수 있음.
- 실제 작성 예시 및 학습 방법 제공.
3.1 Docker 소개
- 가상화란?
- 하나의 물리적 서버에 여러 개의 가상 서버를 생성하는 기술로 가상 서버는 물리적 서버의 하드웨어 자원을 공유하지만, 독립적인 운영 체제와 응용 프로그램을 실행할 수 있음
- 가상화를 통한 일관된 개발 환경 제공의 필요성.
- Container란?
- 가상화의 한 형태로, 애플리케이션과 그 애플리케이션을 실행하는 데 필요한 모든 종속 항목을 하나의 패키지로 묶은 것
- 컨테이너는 가상 머신과 달리 운영 체제의 커널을 공유하기 때문에 가볍고 효율적
- Docker 소개
- 컨테이너 기반의 개발과 운영을 빠르게 확장.
- 가상화 기술을 쉽게 사용할 수 있는 도구.
- Docker Image : 컨테이너를 실행할 때 사용할 수 있는 '템플릿'
- Docker Container : Docker Image를 활용해 실행된 인스턴스
3.2 Docker 사용법
- Docker 실행 명령어
docker run --name [컨테이너 이름]
: 컨테이너에 이름 지정. 이름을 지정하지 않으면 Docker가 랜덤으로 이름을 생성-e [환경변수=값]
: 컨테이너에 환경변수 설정. MySQL 컨테이너의 경우, root 계정 비밀번호 설정을 위해-e MYSQL_ROOT_PASSWORD=1234
사용-d
: 컨테이너를 백그라운드 모드로 실행. 이 옵션을 사용하지 않으면 컨테이너가 현재 셸 위에서 실행되며, 셸을 종료하면 컨테이너도 종료됨 .-p [로컬 호스트 포트]:[컨테이너 포트]
: 로컬 호스트의 포트와 컨테이너 포트를 연결. 예:-p 3306:3306
을 사용하여 로컬 포트 3306을 컨테이너 포트 3306에 연결
- Docker 기본 명령어
docker pull “이미지 이름:태그"
: 필요한 이미지 다운로드.docker images
: 다운받은 이미지 목록 확인.docker run “이미지 이름:태그"
: 이미지를 기반으로 컨테이너 생성.docker ps
: 실행 중인 컨테이너 목록 확인. -a 명령어를 활용하여 작동을 멈춘 컨테이너도 확인 가능docker exec -it “컨테이너 이름(ID)”/bin/bash
: 컨테이너에 진입.docker stop “컨테이너 이름(ID)”
: 실행 중인 컨테이너 중지.docker rm “컨테이너 이름(ID)”
: 중지된 컨테이너 삭제. -f 옵션을 통해서 실행중인 것도 삭제 가능-v [호스트 폴더]:[컨테이너 폴더]
: 호스트와 컨테이너 간의 폴더 공유.ex) dockerrun-it-p8888:8888-v/some/host/folder/for/work:/home/jovyan/workspace jupyter/minimal-notebook
- Docker Image 작성
- Dockerfile은 Docker Image를 빌드하기 위한 정보를 담고 있음.
- FROM: 이미지 빌드에 사용할 베이스 이미지를 지정.
- COPY: 로컬 디렉토리(파일)을 컨테이너 내 디렉토리(파일)로 복사.
- WORKDIR: Dockerfile의 명령어들을 실행할 컨테이너 경로 지정.
- ENV: 컨테이너 내 환경변수 설정.
- RUN: 컨테이너 내에서 리눅스 명령어 실행.
- CMD: 컨테이너 실행 시 바로 실행할 명령어.
- Docker Image 빌드
docker build -t <이미지 이름:태그> <Dockerfile 위치>
: Docker Image 빌드. ex): docker build -t 02-docker:latest .-t
옵션으로 이미지 이름과 태그 지정.- 태그를 지정하지 않으면 기본적으로
latest
가 사용됨.- 빌드가 완료되면
docker images
명령어로 이미지 확인 가능.
- Docker Image Push
- 이미지를 온라인 저장소에 업로드.
- 로그인:
docker login
명령어로 Docker 계정에 CLI에서 로그인.- 태그 설정:
docker tag <기존 이미지:태그> <새 이미지 이름:태그>
.
- Dockerhub에 올릴 경우, 이미지 이름은계정 ID/이미지 이름
형태여야 함【oaicite:1】
.
- Push:
docker push <이미지 이름:태그>
명령어로 이미지 업로드.
4.1 디버깅 Process
- 문제 인식
- 문제 상황 확인: 어떤 상황인지, 재현 가능성
- 오류 분류: 코드 오류, 인프라 오류, 알 수 없는 오류 등
- 해결책 찾기
- 과거 경험, 구글, Stackoverflow, 오픈카톡방, 공식 문서, Github Issue, ChatGPT 등을 통한 정보 수집
- 오답노트 및 오픈소스 코드 확인
4.2 서버 관리
- 서버의 역할과 관리
- 서버는 클라우드뿐만 아니라 집에 있는 컴퓨터로도 활용 가능
- 서버 관리의 목적: 안정적 운영 및 장애 방지
- 서버 관리를 위한 기초 지식
- Shell Command, 파일 시스템, 네트워크, 패키지 관리, 성능 모니터링, Docker 컨테이너 등
- Linux 파일 시스템 구성과 디스크 관리 방법
4.3 네트워크 관리
- 네트워크 관리와 진단
- IP, DNS, 포트 관리 및 방화벽 설정
- 네트워크 진단 명령어: ping, nslookup, netstat 사용법
5.1 MLOps 개론
- 모델 개발 프로세스 (Research & Production)
- MLOps : ML(MachineLearning)+Ops(Operations)
- Research 프로세스: 문제 정의, EDA, Feature Engineering, Train, Predict.
- Production 프로세스: 위 단계에 Deploy 단계 추가.
5.2 MLOps Component
- Infra (Server GPU) : 서버 GPU 및 기타 인프라에 대한 중요성. (GCP, AWS)
- Serving : 모델의 배포 및 서빙 방식에 대한 설명.
- Experiment & Model Management : 실험 관리와 모델 관리의 중요성.
- MLflow : 모델의 개발, 배포 및 추적을 위한 오픈 소스 플랫폼.
mlflow.sklearn.autolog()
와 같이 한줄로 logging을 시도할 수 있음- Feature Store : 데이터 특징 저장 및 관리 방법.
- Data Validation : 데이터 유효성 검증의 중요성.
- 데이터 드리프트 : 입력 데이터의 통계적 특성이 예상치 못하게 변화하여 모델 성능이 저하되는 현상
- 모델 드리프트 : 시간에 따라 입력과 출력 변수 간의 기본 관계가 변경되어 모델 성능이 저하되는 현상
- 개념 드리프트 : 모델이 예측하려는 대상 변수의 통계적 특성이 변경되는 현상
- Continuous Training : 모델의 지속적인 훈련 및 업데이트 필요성.
- Monitoring : 모델 성능 및 상태 모니터링의 중요성.
- AutoML : 자동화된 머신러닝 프로세스의 장점.
- NNI : 양한 머신 러닝 프레임워크와 호환되며, 다양한 하이퍼파라미터 탐색 방법을 제공
5.3 Futher reading
6.1 Model Serving 개요
- Model Serving의 정의
- 실제 환경(앱, 웹 등)에서 머신러닝 모델을 사용할 수 있도록 배포하는 과정입니다.
- 서비스화된 모델을 회사 서비스의 일부로 활용할 수 있습니다.
- Model Serving의 주요 방식
- Model Serving은 크게 Online Serving 과 Batch Serving 두 가지 방식으로 나뉩니다.
- 각각의 방식은 모델을 배포하고 활용하는 방법에 따라 다릅니다.
6.2 Online Serving
- Web Server 기초
- Web Server는 HTTP를 통해 요청받은 내용을 전달하는 역할을 합니다.
- Online Serving의 특징
- 실시간으로 요청에 대해 예측하고 결과를 반환합니다.
- 클라이언트(애플리케이션)에서 머신러닝 모델 서버에 HTTP 요청을 하고, 서버는 예측 후 결과를 반환합니다.
- Online Serving의 구현
- 직접 API 웹 서버 개발, 클라우드 서비스 활용, Serving 라이브러리 활용 등 여러 방법이 있습니다.
6.3 Batch Serving
- Batch Serving 기초
- Batch Serving은 데이터를 주기적으로 한꺼번에 처리합니다.
- 예: 매일 특정 시간에 데이터를 처리하거나, 일정 주기로 예측을 수행합니다.
- Batch Serving의 예시
- 추천 시스템, 수요 예측 등 실시간 처리가 필요하지 않은 대부분의 경우에 활용됩니다.
- Batch Serving의 장단점
- 구현이 간단하고 많은 데이터를 한번에 처리할 수 있는 장점이 있습니다.
- 실시간으로 활용할 수 없다는 단점이 있습니다.
6.4 Online Serving과 Batch Serving 비교
- 선택 기준
- 데이터 처리 방식과 결과 활용 방식에 따라 선택합니다.
- 예: 데이터를 하나씩 실시간 처리해야 하면 Online, 한꺼번에 처리해도 되면 Batch 방식을 선택합니다.
7.1 머신러닝 프로젝트 Flow
- 문제 정의의 중요성 : 문제 해결을 위해 명확한 문제 정의가 필수임을 강조.
- 현상 파악 : 현재 발생하고 있는 사건과 그로 인한 어려움을 파악하는 과정.
- 구체적인 문제 정의 : 문제를 보다 명확하고 구체적으로 정의하고, 이를 해결하기 위한 방법 모색.
- 프로젝트 설계 : 문제 정의에 기반한 프로젝트의 전체적인 설계.
- 지표 결정 : 프로젝트의 성공을 측정하기 위한 지표를 결정.
- Action(모델 개발 후 배포 & 모니터링) : 개발한 모델을 배포하고 그 성능을 모니터링하는 단계
7.2 비즈니스 모델
- 비즈니스 모델 파악하기
- 프로젝트의 비즈니스 측면을 이해하고, 비즈니스 모델을 분석하는 과정
7.3 예시
- 문제 정의에서 출발 : 문제 정의, 데이터 수집, 모델 개발, 배포 및 수익 획득의 순서로 진행.
- 실제 프로젝트 과정 : 문제 정의, Metric 선택, 데이터 수집, 모델 개발, 예측 결과 분석, 모델 재학습, 데이터 추가 수집, 모델 최적화 및 재학습 과정을 거침
- 목표 설정 : 프로젝트의 일반적인 목적과 그 달성을 위한 구체적인 단계 목표 설정.
- 목표 예시 : 랭킹 시스템에서 고객 참여 최대화 목표 설정 및 세부 목표 규정
- 비즈니스 목표 영향 파악 : 모델 성능 지표와 별개로 비즈니스 목표에 미치는 영향을 고려해야 함
- 제약 조건 : 프로젝트의 시간, 예산, 영향 받는 사람들 등을 고려.
- 기술적 제약 및 개인정보 보호 : 기존 인프라의 제약, 데이터 저장 및 보호 요구사항 등을 고려
8.1 웹 서비스 형태 - Streamlit
- 웹 서비스를 만드는 과정
- Voila에서의 학습 내용과 Streamlit의 장점 소개
- Voila의 장점: 노트북에서 쉽게 프로토타입을 만들 수 있음, 하지만 대시보드 레이아웃 설정이 어려움
- Streamlit의 등장 배경: 프로토타이핑을 위한 자바스크립트, React, Vue 사용의 비효율성과 HTML/자바스크립트 + Flask/Fast API 대신 기존 코드를 소량 수정하여 웹 서비스 제작 목표
- Streamlit의 대안
- R의 Shiny, Flask Fast API (백엔드 직접 구성 + 프론트엔드 작업), Dash (Python 대시보드 라이브러리), Voila (Jupyter Notebook 시각화)
- Streamlit 소개
- 장점: 파이썬 스크립트 코드를 소량 수정하여 웹 서비스 구현, 백엔드 개발 및 HTTP 요청 불필요
- 다양한 컴포넌트 제공, Streamlit Cloud를 통한 쉬운 배포, 화면 녹화 기능
- 예시 및 Streamlit Gallery 소개
- Streamlit 설치 및 실행
- 설치 방법:
pip3 install streamlit
- 실행 방법: CLI를 통해
streamlit run streamlit-basic.py
실행, localhost:8501로 접근
- Streamlit 기능
- Text 작성, Button, Check Box, Pandas Dataframe, Markdown, Metric, JSON, Line Chart, Map Chart, Radio Button, Select Box, Multi Select Box, Slider, Input Box, Caption Code, Latex, Layout (Sidebar, Columns, Expander), Spinner, Balloons, Status Box, Form, File Uploader 등 다양한 기능
- Streamlit의 데이터 플로우
- 화면 업데이트 시 전체 코드 재실행
- 사용자 위젯 상호작용 시 코드 수정
- Streamlit Session State
- 데이터 플로우로 인한 코드 재실행 문제 해결을 위한 Global Variable 비슷한 기능
- Streamlit 0.84 버전에 session_state 개발
- Counter 예제로 session_state 사용 방법 설명
- Streamlit Cache - @st.cache
- 매번 코드 재실행으로 인한 데이터 재읽기 문제를 해결하기 위한 캐싱 기능
- 데이터 읽는 함수에 데코레이터 적용 방법
- 특별 임무
- Jupyter Notebook으로 만든 마스크 분류 모델을 Streamlit으로 구현
- 공식 문서 읽고 정리
- Callback 함수를 사용하여 session_state 값을 유지하는 코드 작성
- CV/NLP에서 진행한 프로젝트를 Streamlit으로 구현
- poetry
- MLflow
- NNI
- wandb
- streamlit