[핸즈온 머신러닝]
2장
- RandomizedSearchCV
- 하이퍼파라미터 탐색 공간이 커지면 사용
- 가능한 모든 조합을 시도하는 대신 각 반복마다 하이퍼파라미터에 임의의 수를 대입하여 지정한 횟수만큼 평가함.
- 규제처럼 설정값이 연속형인 경우 랜텀 탐색 권장.
- 장점 :
- 랜덤 탐색을 1,000회 반복하도록 실행하면 하이퍼파라미터마다 각기 다른 1,000개의 값을 탐색. (그리드 탐색에서는 하이퍼파라미터마다 몇 개의 값만 탐색)
- 단순히 반복 횟수를 조절하는 것만으로 하이퍼파라미터 탐색에 투입할 컴퓨팅 자원을 제어할 수 있다.
- 신뢰구간 : 신뢰구간은 실제 모수(parameter=모평균, 모분산등)를 추정하는데 몇 퍼센트의 확률로 그 신뢰구간이 실제모수를 포함하게 될것이냐 하는 것이다. 예를 들어 모평균(µ)의 추정을 위해 100번의 sampling을 통해 표본평균과 표본분산을 구하여 100개의 신뢰구간을 얻었을때, 그 100개의 신뢰구간중 95개에 모평균(µ)이 포함되게 설정된 신뢰구간을 95% 신뢰구간이라고 한다 (http://www.promoim.co.kr/Link_file/%EA%B8%B0%EC%B4%88%ED%86%B5%EA%B3%84%EA%B0%95%EC%9D%98.pdf)
- Z점수 : 편차를 표준편차로 나눈값. 예를 들어 성적이 평균으로부터 몇 표준편차만큼 떨어져 있는가를 나타내는 값으로서, Z점수가 1.5이었다면 그 수험생은 평균으로부터 표준편차의 1.5배 많은 점수를 얻었다는것을 의미. (https://blog.daum.net/sjlee9000/9161788)
- REST API : 표준 HTTP 메서드를 사용해 자원에 대한 읽기, 수정, 생성, 삭제(GET, POST, PUT, DELETE)를 수행하며 입력과 출력으로 JSON을 사용.
[인프런 Growth hacking]
5-1 분석 환경 구축
- 데이터 파이프라인 구축
- 데이터 소스
- Transaction (서비스 로그) : 언제 가입했고 언제 결제했는지 등
- Attribution : 어떤 광고로 들어왔고 무엇을 클릭했는지 등
- cs (고객 문의사항)
- CRM (이메일, 푸시 캠페인)
- Event (행동 로그) :
- 이벤트 설계
- Property 설계 : 이벤트 발생할 때 이벤트가 가진 속성 남기는 것
- event property
- Firebase (앱)
- Google Analytics (웹)
- Data Source -> Data Warehouse -> Data Mart -> Data Use, Data Analysis, Dashboard
5-2 데이터 처리 & 활용 툴
- Cloud Service : AWS, Azure, GCP
- 대시보드, BI : Tableau, redash
- Attribution : Appsflyer, branch
- Analytics : Amplitude, Google Analytics
- CRM : MailChimp, Braze
- Data integration & pipline : ETL(Extract,Transform,Load) 추출, 변환, 적재
Stitchdata, Fivetran
- A/B Test : Apptimize, Optimizely