6주가 휘리릭

탁가이버·2023년 2월 9일
0

혼공머신

목록 보기
7/7

우연의 연속은 필연이라고 했던가.

오래 전에 혼공머신 책을 사놓고는 차일피일 보기를 미뤄두다가 연말에 어쩌다 혼공 9기 정보를 페이스북에서 접하게 되었다. 혼공학습단 9기에 신청했고 당첨되어, 연초에 세우는 작심삼일 계획에 혼공머신 책 읽고 미션 완성 하기를 집어 넣었다.
https://www.hanbit.co.kr/store/books/look.php?p_code=B2002963743

실력 없는 데이터분석가는 되고 싶지 않아서, 마이크로소프트 데이터, AI, 애저 자격증도 따고 경력도 업그레이드했는데, 뭔가 정리되지 않은 느낌였다. 혼공머신 책 시작하자마자 오 이렇게 연결되는구나 하는 느낌이 미션 완성을 서두르게 했다.

재미있게 박해선 저자님의 유튜브 강의를 들으며,
혼공 책에 나온 문제풀이를 구글 코랩에서 직접 해보며 신이 났다. 그래서 6주 공부를 4일 만에 끝내 버렸다.

덕분에 매주 우수혼공족에 뽑혀 커피 쿠폰이랑 크로플 선물도 받았다. 이제 6주 완성되면, 한빛 미디어 책을 살 수 있는 포인트도 주신다니, 최근에 번역된 데이터분석 책 사서 혼공해야겠다.

혼공족장님의 댓글과 빠른 이메일 답변도 좋았습니다!

"혼공족 중에서 포스팅 말미에 간단하게 정리하는 좋은 습관을 가지고 계신 분이 있는데요! 요걸 참고해서 회고록을 만드는 시간을 가져보려고 해요. 스터디가 이미 끝났으니 마무리 해보시는 것도 좋을 것 같습니다! https://bit.ly/3JSrPrE "

그 일을 사랑할 때까지 연습 또 연습
재미 있게 하니 보답까지 생기고
더 잘하게 되니 일석 이조다.

'핸즈온 머신러닝 2판'과 '데이터 분석과 머신러닝을 위한 파이썬' 둘 다 사서 봐야하는지 고민 중이다.

🤔머신러닝·딥러닝 어떤 책을 봐야 하나요?
박해선 저·역자님이 알려주시는 머신러닝 패스와 딥러닝 패스를 확인해 보세요.
https://youtu.be/VFMJ8MU6I20
전체 도서 목록: https://tensorflow.blog/book-roadmap/

https://www.facebook.com/hanbitmedia

https://www.hanbit.co.kr/store/books/look.php?p_code=B9073454247

박해선: <데이터 분석과 머신러닝을 위한 파이썬>
19장은 드디어 그 유명한 중심극한정리를 다룹니다. 보스톤 마라톤 대회 데이터를 사용해 샘플링한 표본의 평균이 어떻게 정규 분포를 형성하는지 그래프를 만들어 확인해 봅니다. 시뮬레이션을 통해 표본의 크기가 커짐에 따라 신뢰 구간이 점점 향상되는 것을 배웁니다. 그다음 표본의 표준 오차 공식을 제시하고 실제로 하나의 표본에서 만든 표준 오차가 표본 평균의 표준 편차와 거의 비슷한지 확인해 봅니다. 마지막으로 표본 오차를 사용해 표본 평균의 신뢰 구간을 계산하는 방법을 보입니다.
20장은 실험 데이터로부터 간단한 선형 회귀 모델을 만드는 방법을 배웁니다. 먼저 스프링의 변위를 측정한 데이터로 선형 회귀와 다항 회귀를 만듭니다. 하지만 아직 사이킷런을 사용하는 것은 아니고 넘파이의 polyfit 함수를 사용합니다. 자연스럽게 최소 제곱이나 목적 함수에 대해 소개하며 한 발 더 나아가 고차 다항식일 때 발생하는 과대적합에 대해서도 설명합니다. 이어서 어떤 발사체의 궤적을 따라 측정한 높이를 사용해 선형 모델을 만들고 최소 제곱 대신 결정 계수를 사용해 모델을 평가하는 방법을 안내합니다. 마지막으로 지수적으로 분포된 데이터는 y 축을 스케일링하여 선형 모델을 훈련할 수 있다는 것을 소개합니다.
21장은 앞의 장들을 기반으로 가설 검정에 대해 본격적으로 파헤칩니다. 먼저 가설 검정을 만든 피셔의 우유가 섞인 차 테스트 이야기로 시작해서 가상의 신약의 효과에 대한 유의성을 확인하기 위해 필요한 도구를 설명합니다. 영 가설, 대립 가설, 유의 수준 t-점수, 자유도 등이죠. 이 과정에서 t 분포를 만든 고셋의 재미있는 뒷 이야기도 들을 수 있습니다. 신약의 가설 검정 결과는 효과가 없다는 영가설을 기각할만하네요. 하지만 안심하기는 이릅니다. p-값을 주의해야 하는 이유를 아주 자세히 설명하고 있습니다. 그다음 단측 2표본 검정과 1표본 검정을 설명합니다. 물론 이 장에서 사용하는 검정 도구는 사이파이입니다. 이어서 간단한 검정 예를 두 개 더 들고 다중 가설일 경우 본페로니 교정을 취해야 하는 이유를 설명합니다. 그다음은 베이즈 정리입니다. 조건부 확률을 사용해 랜덤하게 선택한 한 미국 남성이 미국의 평균 몸무게보다 많을 확률을 계산하고, 베이즈 정리를 사용해 유방조영상의 결과가 양성인 한 여성이 진짜 암일 확률을 계산해 봅니다. 이를 통해 유방조영상이 정말 필요한지 의문을 가질 수 있겠네요.
22장은 통계를 잘못 사용한 역사와 방법(!)을 간략히 소개합니다. 데이터 오염, 오해하기 좋은 시각화, 상관관계와 인과관계의 혼동, 앤스컴 콰르텟, 샘플링 편향, 체리 피킹, 외삽 문제, 백분율 기준 문제, 회귀 오류 등입니다. 어휴 정말 과거 사례를 돌이켜 보면 부끄럽기 짝이 없군요! 통계를 이렇게 사용해서는 안되겠죠! 🙂
와우 이제 거의 번역이 끝나 갑니다! ㅎ
-- 이 책은 MIT 존 구탁 교수의 "Introduction to Computation and Programming Using Python 3rd Edition"의 번역서입니다.
목차는 아래와 같습니다(편집자가 약간 조정할 수도 있습니다)
1장 시작하기
2장 파이썬 소개
3장 간단한 수치 프로그램
4장 함수, 유효범위, 추상화
5장 구조적인 타입과 가변성
6장 재귀와 전역 변수
7장 모듈과 파일
8장 테스트와 디버깅
9장 예외와 assert
10장 클래스와 객체 지향 프로그래밍
11장 알고리즘 복잡도에 대한 간략한 소개
12장 몇 가지 간단한 알고리즘과 데이터 구조
13장 그래프 출력과 클래스
14장 배낭 문제와 그래프 최적화 문제
15장 동적 계획법
16장 랜덤 워크와 데이터 시각화
17장 확률적 프로그램, 확률 그리고 분포
18장 몬테 카를로 시뮬레이션
19장 샘플링과 신뢰도
20장 실험 데이터 이해하기
21장 무작위 시험과 가설 검정
22장 거짓말, 새빨간 거짓말 그리고 통계학
23장 판다스로 데이터 탐험하기
24장 머신러닝 간략히 살펴보기
25장 군집
26장 분류

profile
더 나은 세상은 가능하다를 믿고 실천하는 활동가

0개의 댓글