기초부터 쌓아가는 머신러닝 #OT

거친코딩·2021년 3월 23일

machine learning matplotlib numpy pandas seaborn 머신러닝

기초부터 쌓아가는 머신러닝

목록 보기

1/9

YouTube Channel(거친코딩)
소개
Scikit-learn 라이브러리 빌트인 예제를 통한 데이터 분석 전처리 및 시각화와 머신러닝을 배웁니다.
바로 머신러닝으로 들어가는 것이 아니라, 실제 데이터를 가지고 입맛대로 전처리해보고 시각화하면서
마지막으로 머신러닝을 적용해봄으로써, 전반적인 데이터분석을 배워볼 수 있습니다.

목표

스스로 데이터 전처리를 할 수 있다.
데이터 보는 관점을 확장할 수 있다.
머신러닝의 기초 이론을 학습할 수 있다.

난이도

초급 ~ 중급

파이썬 언어에 대한 기본 지식을 가지고 있으면 가능합니다. 그리고 파이썬 언어로 데이터 분석을 할 수 있는 도전과 용기만 있으면 됩니다.

진행 날짜

매주 금요일 저녁 7시 (약 2시간)

학습 방식

온라인 화상 세션 진행 (줌 활용 예정)
과제 및 프로젝트는 없습니다.

세션 유의사항

본인 노트북을 사용하고, google colab을 사용할 예정입니다.
본인 하는 것에 따라 남는 것이 많을 수 있으니, 같이 열심히 해봅시다

커리큘럼

1주차 : pandas 라이브러리 기초 실습

데이터 불러오기 및 저장
Series
DataFrame
DataFrame 행, 열 선택 및 필터링
DataFrame 행, 열 삭제
DataFrame 행, 열 수정

2주차 : pandas 라이브러리 기초 실습

DataFrame 행, 열 선택 및 필터링 복습
DataFrame 행, 열 삭제 복습
DataFrame 행, 열 수정 복습
DataFrame 그룹 생성
중복 데이터 삭제
NaN 찾아서 다른 값 변경
apply함수 활용
컬럼 내 유니크한 값 뽑아서 갯수 확인
두 개의 DataFrame 합치기

3주차 : matplotlib과 seaborn 라이브러리를 활용한 데이터 시각화

Bar 차트 이해 및 제작
Pie 차트 이해 및 제작
Line 차트 이해 및 제작
Scatter 차트 이해 및 제작
Heat Map 차트 이해 및 제작
Histogram 차트 이해 및 제작
Box 차트 이해 및 제작

4주차 : 선형 회귀 이론 및 실습

선형 회귀란 무엇인가
선형 회귀 모델의 훈련과 비용함수
선형 회귀 모델의 최적화 방법

배치 경사 하강법
확률적 경사 하강법
미니배치 경사 하강법

다항회귀
규제가 있는 선형 모델

릿지 회귀
라쏘 회귀
엘라스틱넷

조기 종료(Early Stopping)

5주차 : 선형 분류 이론 및 실습

로지스틱 회귀란 무엇인가
로지스틱 회귀 모델의 훈련과 비용함수
서포트 벡터 머신이란 무엇인가
서포트 벡터 머신의 분류

하드 마진 분류
소프트 마진 분류

6주차 : 결정 나무 모형 이론 및 실습

결정 나무 모형이란 무엇인가
결정 트리 학습과 시각화
예측하기
클래스 확률 추정
CART 훈련 알고리즘
계산 복잡도
지니 불순도 또는 엔트로피
규제 매개변수
회귀

7주차 앙상블 모형 이론 및 실습

앙상블 모형이란 무엇인가
투표 기반 분류기
배깅과 페이스팅

사이킷런의 배깅과 페이스팅
oob 평가

랜덤 패치와 랜덤 서브스페이스
랜덤 포레스트

엑스트라 트리
특성 중요도

부스팅

아다부스트
그래디언트 부스팅

스태킹

8주차 : Kaggle 데이터 소개 및 분석

9주차 : Kaggle 데이터 분석

머신러닝이란?

데이터를 가지고 다양한 통계적 알고리즘을 활용하여 학습하도록 컴퓨터를 프로그래밍하는 것 입니다.

"[머신러닝] 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야다." -아서 사무엘,1959-

왜 머신러닝을 사용하는가?

먼저, 전통적인 기법을 통해 스팸 필터를 만드는 예시를 생각해봅시다.

스팸에 주로 들어가는 단어인 '신용카드', '무료', '광고', '대출' 같은 단어나 구절이 있는 문장 패턴을 감지한다.
문장 패턴 감지를 하는 알고리즘을 만들어서 메일 스팸을 분류하게 한다.
알고리즘 테스트 및 평가한다.

" 위 방식은 간단해 보이지만, 문제가 점점 복잡해지고 규칙이 많아지면 유지보수가 힘들어진다. "

반면 머신러닝을 활용하면 스팸에서 발생되는 패선을 자동으로 학습함으로써 유지보수 용이 및 정확도가 높아집니다.

" 그래서 우리는 머신러닝을 배워야 합니다! "

거친코딩

데이터 분석 유튜버 "거친코딩"입니다.

다음 포스트

[Python] pandas 라이브러리를 활용한 데이터 전처리 1

1개의 댓글

gyeong-yeon jang

2021년 3월 29일

멋진 내용 기대됩니다!

답글 달기