9 Dec, 2021

wannabedatazzang·2021년 12월 9일

[Sol] Today I Learned

목록 보기
15/15

[핸즈온 머신러닝]

2장
  • RandomizedSearchCV
    • 하이퍼파라미터 탐색 공간이 커지면 사용
    • 가능한 모든 조합을 시도하는 대신 각 반복마다 하이퍼파라미터에 임의의 수를 대입하여 지정한 횟수만큼 평가함.
    • 규제처럼 설정값이 연속형인 경우 랜텀 탐색 권장.
    • 장점 :
      • 랜덤 탐색을 1,000회 반복하도록 실행하면 하이퍼파라미터마다 각기 다른 1,000개의 값을 탐색. (그리드 탐색에서는 하이퍼파라미터마다 몇 개의 값만 탐색)
      • 단순히 반복 횟수를 조절하는 것만으로 하이퍼파라미터 탐색에 투입할 컴퓨팅 자원을 제어할 수 있다.
  • 신뢰구간 : 신뢰구간은 실제 모수(parameter=모평균, 모분산등)를 추정하는데 몇 퍼센트의 확률로 그 신뢰구간이 실제모수를 포함하게 될것이냐 하는 것이다. 예를 들어 모평균(µ)의 추정을 위해 100번의 sampling을 통해 표본평균과 표본분산을 구하여 100개의 신뢰구간을 얻었을때, 그 100개의 신뢰구간중 95개에 모평균(µ)이 포함되게 설정된 신뢰구간을 95% 신뢰구간이라고 한다 (http://www.promoim.co.kr/Link_file/%EA%B8%B0%EC%B4%88%ED%86%B5%EA%B3%84%EA%B0%95%EC%9D%98.pdf)
  • Z점수 : 편차를 표준편차로 나눈값. 예를 들어 성적이 평균으로부터 몇 표준편차만큼 떨어져 있는가를 나타내는 값으로서, Z점수가 1.5이었다면 그 수험생은 평균으로부터 표준편차의 1.5배 많은 점수를 얻었다는것을 의미. (https://blog.daum.net/sjlee9000/9161788)
  • REST API : 표준 HTTP 메서드를 사용해 자원에 대한 읽기, 수정, 생성, 삭제(GET, POST, PUT, DELETE)를 수행하며 입력과 출력으로 JSON을 사용.

[인프런 Growth hacking]

5-1 분석 환경 구축
  • 데이터 파이프라인 구축
  • 데이터 소스
    • Transaction (서비스 로그) : 언제 가입했고 언제 결제했는지 등
    • Attribution : 어떤 광고로 들어왔고 무엇을 클릭했는지 등
    • cs (고객 문의사항)
    • CRM (이메일, 푸시 캠페인)
    • Event (행동 로그) :
  • 이벤트 설계
    • Property 설계 : 이벤트 발생할 때 이벤트가 가진 속성 남기는 것
      - event property
      • uesr property
    • Firebase (앱)
    • Google Analytics (웹)
  • Data Source -> Data Warehouse -> Data Mart -> Data Use, Data Analysis, Dashboard
5-2 데이터 처리 & 활용 툴
  • Cloud Service : AWS, Azure, GCP
  • 대시보드, BI : Tableau, redash
  • Attribution : Appsflyer, branch
  • Analytics : Amplitude, Google Analytics
  • CRM : MailChimp, Braze
  • Data integration & pipline : ETL(Extract,Transform,Load) 추출, 변환, 적재
    Stitchdata, Fivetran
  • A/B Test : Apptimize, Optimizely

0개의 댓글