프로젝트에서 사용했던 plotly의 graph objects를 정리해보겠다 기본 문법 주요 구성 요소 Trace(데이터 시각화 요소) go.Scatter(): 선 그래프, 산점도 go.Bar(): 막대 그래프 go.Pie(): 파이 차트 go.Box(): 박스 플롯
이커머스 데이터로 프로젝트를 진행했을 때, 분석에 사용한 리텐션 분석을 기록하려고 한다! 고객 세그먼트 > 구매 고객을 VIP, 일반 고객 두 그룹으로 나누어 리텐션 분석을 진행했다. 고객 세그먼트 코드 리텐션 분석 > 고객의 주문건을 기준으로 리텐션을 계산 첫 주
주제: 신규 고객 활성화 기준 설정 분석 방법: 코호트 분석을 통해 신규 고객이 활성화 될 수 있는 주문수 기준 설정 기간: 23년 7월 첫 주문 고객의 첫 주문일로부터 1달간 누적 주문수 별 리텐션 확인 SQL 코드 dense_rank를 이용해서 회원별로 누적 주
고객 생애 가치로 유저가 서비스를 사용하는 기간동안 창출하는 매출EX) 신규고객 획득비용(CAC) 기준 설정 효율적인 마케팅 채널을 파악해 예산 분배LTV = ARPU \* 리텐션ARPU = 유저당 주문금액(매출/유저수)그룹을 코호트로 쪼개서 LTV 비교 분석30대가
특정 기간 동안 공통된 특성이나 경험을 갖는 사용자 집단시간을 두고 비슷한 그룹을 비교하는 방법ex) 최근 유입 고객의 가입전환율이 낮아짐 -> 광고채널별 유입고객 코호트 분석사업의 핵심지표를 찾고, 성장시키는 방법을 찾는 활동사용자 행동방식 5단계 지표사용자 유치(A
A/B Test > A/B Test A와 B를 대조하여 가설을 검정하는 실험방법 즉, 결과와 상관성이 높다고 생각되는 변수를 테스트하여 검정하는 방법 > ex) 배너 위치를 변경하면 CTR(클릭전환율)이 증가할 것이다 이중차분법(Difference-In-Differe
크롤링 네이버 페이 부동산을 크롤링하여 100페이지가 넘지 않으면 에러가 날 수 있기 때문에 try except 사용했다 필요한 컬럼만 사용하고 컬럼명 지정 후 엑셀 파일로 저장 전처리 중복된 인덱스 컬럼 삭제 월세가 0원인 경우 삭제 보증금 숫자로 변환 새로
교통 데이터를 활용해 folium으로 데이터 시각화 수행 데이터 구조 2018년 이후 데이터, 2호선, 승차 인원에 관해 분석을 진행하기 위해 전처리 필요 전처리 연도, 월 컬럼 추가 2018년 이후, 2호선만 추출 둘 다 같은 의미의 코드 지만 query를
데이터 탐색 movies 데이터 budget: 영화 예산 (단위: 달러) genres: 모든 장르 homepage: 공식 홈페이지 id: 각 영화당 unique id original_language: 원 언어 original_title: 원 제목 overview: 간
기본 문법 산점도 facet_col: column 지정해서 분할 히스토그램 px.histogram(data_frame=데이터, x= , y= , color=색) 상자 그림 px.box(data_frame=데이터, x= , y= , color=색) 막대 그래프
matplotlib, seaborn 기본 문법sns.set_style(스타일)sns.set_palette(팔레트)sns.scatterplot(data=데이터, x= , y= , hue=색) sns.lmplot(data=데이터, x= , y= , hue=색) \`\`\`
날짜 다루기 문자형을 날짜형으로 변경 날짜가 문자형으로 되어있다면 날짜형으로 변경해야 날짜 계산 가능 pd.to_datetime(컬럼, format='날짜 형식') ex 날짜를 원하는 형식으로 변경 데이터컬럼.dt.strftime(날짜형식) dt 연산자 |연
select 윈도우함수명(인수) over(\[partition by 컬럼\] \[order by 컬럼\] \[windowing절\]) from 테이블명; 집계 윈도우 함수 over 윈도우 함수는 결과를 생성하기 위해 입력으로 고려해야 하는 행의 일부를 over절에서
스토어드 프로그램 > SQL 스토어드 프로그램: 데이터베이스에서 실행된는 일련의 SQL문을 포함하고 있는데이터베이스 객체 > 프로시저 호출 call 프로시저명; > 프로시적 삭제 drop procedure 프로시저명; > delimiter \$\$ create pr
훈련 데이터 컬럼 설명 > PassengerId : 승객 ID HomePlanet : 출발 행성(거주지) CryoSleep : 취침 방식 여부 Cabin : 객실 종류 및 번호 (port : 좌현, starboard : 우현) Destination : 목적지 Age :
문자형 함수 char_length, length char_length(문자열): 문자의 개수를 반환 length(문자열): 문자열에 할당된 바이트를 반환 concat, concat_ws concat(문자열1, 문자열2, ...): 문자열 연결 concat_ws(구분자
데이터 로드 및 확인 Olist 데이터 컬럼 설명 Order ID: 주문번호 Order Date: 주문일 CustomerName: 주문자명 State: 주 City: 도시 이름 Detail 데이터 컬럼 설명 Order ID: 주문번호(Order data와 동일) A
프로젝트 제작 배경 > 금융 시장에서 투자자들은 뉴스와 같은 텍스트 데이터를 기반으로 의사 결정을 내린다. 텍스트 데이터를 활용하여 시장 심리를 분석하고 긍정 또는 부정의 감정으로 분류하여 투자 전략을 수립하는 역할을 할 수 있다. 데이터 수집: 캐글 데이터셋 구성
Attention > Attention: 문맥에 따라 집중할 단어를 결정하는 방식 Encoder: input data를 입력으로 받아 context vector로 변환, 출력 Decoder: context vector를 입력 받아 output data를 출력 > con