시리즈

머신러닝 교과서

3.3장 사이킷런을 타고 떠나는 머신 러닝 분류 모델 투어

3.1 분류 알고리즘 선택 ☑️머신러닝 훈련 단계☑️ 1) 특성을 선택하고 훈련 샘플을 모으기 2) 성능 지표를 선택 3) 분류 모델과 최적화 알고리즘 선택 4) 모델의 성능을 평가 (학습에 사용하는 데이터에 크게 의존) 5) 알고리즘을 튜닝 3.2 사이킷런 첫걸음: 퍼셉트론 훈련 🟡 150개의 꽃 샘플 🟡 특성 행렬 X : 꽃잎 길이, 꽃잎 너비 �...

2022년 4월 13일

4.4장 좋은 훈련 데이터셋 만들기: 데이터 전처리

4.1 누락된 데이터 다루기 4.1.1 테이블 형태 데이터에서 누락된 값 식별 ☑️CSV로부터 간단한 예제 데이터셋 만들기☑️ read_csv 함수 : CSV 포맷의 데이터를 판다스 DataFrame으로 읽어들임 두 개의 누락된 값은 NaN으로 바꿈 StringIO 함수 : 하드 디스크에 있는 일반 CSV 파일처럼 csv_data에 저장된 문자열을 읽어들임...

2022년 4월 13일

5.5장 차원 축소를 사용한 데이터 압축

5.1 주성분 분석을 통한 비지도 차원 축소 특성 추출 : 데이터셋의 특성 개수를 줄이는 방법으로, 새로운 특성 곤간으로 데이터를 변환하거나 투영하여 원본 특성이 유지되지 않음 📍장점📍 1) 저장 공간 절약 2) 학습 알고리즘의 계산 효율성 향상 3)* 차원의 저주* 문제 감소 -> 예측 성능 향상 5.1.1 주성분 분석의 주요 단계 PCA : 비지도...

2022년 4월 23일

6.6장 모델 평가와 하이퍼파라미터 튜닝의 모범 사례

6.1 파이프라인을 사용한 효율적인 워크플로 6.1.1 위스콘신 유방암 데이터셋 위스콘신 유방암 데이터셋 - 악성과 양성인 종양 세포 샘플 569개 첫 2열 : 샘플의 고유 ID 번호와 진단 결과(M=악성,B=양성) 3~32번째 열 : 세포 핵의 디지털 이미지에서 계산된 30개의 실수 값 특성 => 종양이 악성인지 양성인지 예측하는 모델 만들기 ☑️pan...

2022년 4월 23일

7.7장 다양한 모델을 결합한 앙상블 학습

7.1 앙상블 학습 목표 : 여러 분류기를 하나의 메타 분류기로 연결 -> 개별 분류기보다 더 좋은 일반화 성능을 달성하는 것 ☑️방법☑️ 1) 과반수 투표 : 분류기의 과반수가 예측한 클래스 레이블을 선택하는 단순한 방법 2) 다수결 투표 : 가장 많은 투표(최빈값)를 받은 클래스 레이블을 선택 3) 랜덤 포레스트 : 서로 다른 결정 트리를 연결 📍...

2022년 4월 29일

8.8장 감성 분석에 머신 러닝 적용

8.1 텍스트 처리용 IMDb 영화 리뷰 데이터 준비 감정 분석(의견 분석) - 자연어 처리(NLP)의 하위 분야 📍IMDB 영화 리뷰 데이터셋📍 긍정 또는 부정으로 레이블되어 있는 영화 리뷰 5만 개로 구성 긍정 : IMDb에서 별 여섯 개 이상을 받은 영화 부정 : IMDb에서 별 다섯 개 아래로 받은 영화 8.1.1 영화 리뷰 데이터셋 구하기 ...

2022년 4월 29일

9.9장 웹 애플리케이션에 머신 러닝 모델 내장

9.3 플라스크 웹 애플리케이션 개발 플라스크 : 핵심 모듈은 가볍고 단순하지만 다른 라이브러리들과 연결하여 쉽게 확장할 수 있어 마이크로프레임워크라고 함 ☑️플라스크 설치하기☑️ 9.3.1 첫 번째 플라스크 애플리케이션 첫 번째 애플리케이션 - 이름만 입력하는 폼 필드 하나만 가진 간단한 웹 페이지 ☑️디렉터리 구조 만들기☑️ app.py : 플라스...

2022년 5월 7일

10.10장 회귀 분석으로 연속적 타깃 변수 예측

10.1 선형 회귀 목적 : 하나 이상의 특성과 연속적인 타깃 변수 사이의 관계를 모델링하는 것 범주형 클래스 레이블이 아니라 연속적인 출력 값을 예측 10.1.1 단순 선형 회귀 단순 선형 회귀 : 하나의 특성(설명 변수 x)과 연속적인 타깃(응답 변수 y)사이의 관계를 모델링 > y = w0 + w1x 해당 방정식으로 훈련 데이터셋이 아닌 새로운 샘...

2022년 5월 7일

11.12장 다층 인공 신경망을 밑바닥부터 구현

12.2 손글씨 숫자 분류 12.2.1 MNIST 데이터셋 구하기 MNIST 데이터셋 : 미국 NIST에서 만든 두 개의 데이터셋으로 구성 훈련 데이터셋 : 각기 다른 250명의 사람이 쓴 손글씨 숫자 (50%는 고등학교 학생, 50%는 인구 조사국 직원) 테스트 데이터셋 : 같은 비율로 다른 사람들이 쓴 손글씨 숫자 📍MNIST 데이터셋 구성📍 훈련...

2022년 5월 11일

12.13장 텐서플로를 사용한 신경망 훈련

13.1 텐서플로와 훈련 성능 13.1.1 성능 문제 GPU 사용 이유 : 모델 훈련 시에 파라미터 개수가 급격히 늘어나기 때문에 단일 프로세스로는 힘듦. 따라서, 컴퓨터 안에 포함된 작은 컴퓨터 클러스터로 생각할 수 있는 GPU를 이용해야 함 but, GPU에 머신 러닝 작업에 맞는 코드를 작성하는 일은 CUDA나 OpenCL에서 해야 하는데 편리한 환...