데이터는 우리가 일상 생활에서 관찰할 수 있는 모든 것이다. 이런 데이터를 바탕으로 의미있는 정보의 도출이 가능하다. 데이터 활용의 시작은 데이터를 기록하고 수집하는 것이다. 데이터 수집을 위한 digitalization이 가장 쉬운 환경이 웹이나 모바일 같은 온라인
📌1. 데이터 기반 의사 결정 Decision Science란? 1. 데이터 기반 의사 결정의 종류 1) data driven decision 2) data informed decision 데이터는 과거의 기록이기에 데이터를 바탕으로 하는 결정은 혁신보다는 지
머신 러닝 기술을 통해 코딩 없이 데이터로부터 미래를 예측하여, 개인화(추천, 검색 등)된 서비스를 제공하는 것 또한 운영 비용의 최소화, 공정상 이슈 예측 등 decicison science는 데이터 분석가의 역할 (이전 강의 참조)데이터 과학자는 머신러닝 형태로 모
1) 데이터 분석가가 속한 팀은 -> Decision Science2) 데이터 분석가가 가치를 만들어내는 방법이 아닌 것은 -> ETL 시스템 운영3) 데이터 분석가에 필요한 역량이 아닌 것은 -> 이벤트 로그 수집4) 애자일 개발 방법론에서 필요한 미팅이 아닌 것은
job descriptiondata를 통한 비지니스 의사 결정들을 지원기존 프로세스 개선 및 신규 지표 개발, 관리 -> 지표와 대시보드가 매우 많아서 이러한 discovery issue를 관리required3년 이상 -> senior (2년 이상이면 그냥 내자)SQL
데이터 소스와 양의 폭팔적인 증가모든 조직에서 데이터 생성, 사용 -> Data decentralization (데이터에 대한 접근이 용이해야 함)자연스레 데이터 접근을 위해 SQL, Dashboard 스킬셋이 필요해짐거의 모든 회사들이 클라우드를 사용한다. 개인정보
목표: 데이터 기반의 의사소통을 경험해보는 것 데이터란 이론을 세우는 데 기초가 되는 사실, 또는 바탕이 되는 자료이다. 데이터만으로는 의사결정을 내릴 수 없다. 데이터를 기반으로 정보를 확인하고 지식을 얻고 가치를 추출해야 한다. 위 사진은 휴게소 주차장 현황 데이터
숫자 데이터 날짜 데이터 문자 데이터 기타 타이타닉 데이터에 대한 도메인 지식1,2,3등급으로 객실이 나뉘어져 있었음3등급에 가난한 이민지가 머물렀음3등급 객실은 복잡했으며 영어가 불가능한 사람들도 다수 존재Lady first 개념으로 인해 여성과 아이를 우선적으로 구
논리 데이터 : 참이나 거짓수식 데이터 : 함수 혹은 수식으로 구성된 데이터summinmaxaverageand -> and(필기 >80, 실기 >80)or -> or(필기 >80, 실기 >80)if -> if(조건, 참일때, 거짓일때)if(필기>80, "합격", "불합
프로그래머스 데브코스는 각 팀 당 배정된 멘토님과 일주일마다 한 번씩 1:1 멘토링을 진행한다. 멘토링은 게더타운을 통해 이루어지고, 20-25분 정도 받을 수 있다. (시간은 멘토님과 조율) 나의 경우, 첫 번째 멘토링은 어제였고 간략하게 나의 백그라운드를 멘토님께
목표원하는 형태로 데이터를 가져올 수 있다. 효율적으로 데이터를 가져올 수 있다. 간단한 데이터 분석을 수행할 수 있다. 레포트나 ML 모델과 같은 Data Product는 데이터로부터 산출하는 다양한 결과물 여러 데이터의 묶음인 Database에서 Data를 가져오기
📌1. 다양한 Joins 1. join 두 개 이상의 테이블을 특정 키를 통해 결합한다. join의 종류는 다음과 같다. inner join left inner join right inner join full outer join cross join(=car
지난주 팀 멘토링 때 멘토님께서 강조하신 부분 중 하나가 주제의 논리적인 흐름이었다. 즉, 스토리텔링이 되어야하며 주제를 선정한 이유가 납득이 가야한다는 것이다.우리 팀은 네이버 API를 활용하여 이커머스 데이터를 가지고 여러 가지 주제를 생각해보았지만 주제들의 논리적
좋은 모델 보다는, 문제 해결 시, 왜 이 문제를 풀어보고자 하는지 ——📌SQL을 활용한 EDA 수행 한계가 있으나, 차별화되기 위해서는 데이터 및 주제 선정이 중요하고, 특히 데이터 선정 과정에서 잘 빌드해야한다. 프로젝트를 어떻게 설계하느냐에 따라 퀄리티가 다르다
📌1. 숫자 현업에서는 주로 int, boolean, float, double을 사용하지만, tinyint, smallint 등은 메모리 사용량을 대폭 줄일 수 있기에 알아두면 좋다. 참고) bool, boolean 데이터 타입에서 0을 제외한 양, 음의 정수는
현업에서 사용하는 데이터와 테이블의 크기는 매우 크기때문에 기본적인 원칙을 지키지 않으면 비용 증가와 리소스 낭비 등 문제가 생길 수 있다. 따라서 기본적인 원칙을 지키면서 쿼리를 작성해야한다.업로드중..왼쪽과 같이 먼저 with 구문 안에서 where 절로 필터링을
이번 1:1 멘토링은 아무래도 지금 진행하고 있는 SQL 프로젝트에 대한 질문을 많이 했다. 1. 프로젝트 디벨롭 현재 진행중인 프로젝트는 기간이 일주일밖에 되지 않기에 아쉬웠다. 시각화도 태블로를 활용해보고 싶었고, API로 수집할 수 있는 데이터가 한정적이었기에 크롤러를 사용해서 보다 다양한 정보들을 수집해 분석하고 싶었다. 그래서 프로젝트 기...
SQL 스킬은 데이터 관련 직군에게 굉장히 중요하다. 데이터 분석가의 역량SQL비지니스 도메인에 대한 지식통계 -> A/B 테스트 분석 데이터 과학자 역량머신러닝SQL파이썬통계데이터 엔지니어 역량파이썬자바/스칼라SQL, 데이터베이스ELT. ETLSpark, Hadoop
aws redshift에서 Redshift cluster를 생성할 수 있다. 사용자 ID: 웹 서비스에서 등록된 사용자마다 부여하는 유일한 ID세션 ID: 사용자의 방문을 논리적인 단위로 나눈 ID하나의 사용자는 여러 개의 세션을 가질 수 있음세션1: 구글 키워드 광고
신뢰를 기반으로 피드백을 주어야한다. 상대를 믿고 피드백을 줄 때 선한 의도를 가져야한다.신뢰를 갖는다면, 자기검열하지 않고 편하게 자신의 의견을 얘기한다. 인간적인 모습을 보이는 것이 중요하다. 특히 모르는 것은 모른다고하고, 실수했을 경우 얘기해야한다.1:1 미팅을
월별 세션수를 계산 채널별 사용량 비교 여기서 "사용량"은 두 가지로 해석할 수 있다. 채널별 세션 총합 (session_count)채널별 사용자 수 총합 (user_count) : 만약 DISTINCT 연산자가 없으면 session_count와 동일한 값이 나오게 된
JOIN은 두 개 이상의 테이블들을 merge하는 것이다. 이 때 테이블들은 공통 필드를 가져야한다. 스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용된다. inner join full outer joincross join : 가능한 모든 레코드 조
데이터를 정리, 변환, 조작, 검사를 통해 인사이트를 만들어내는 작업 의사 결정의 판단 기준이 주관적인 직감에서 객관적 데이터로 주어진 데이터로 문제를 해결할 수 있을지 없을지 모른다. 그러나 이 또한 데이터 분석이다. 단순한 분석보다는 어떻게 문제를 해결해야 할지에
1. 확률과 확률 변수 통계학 : 여러 사건들을 수학적으로 모델링하고, 이를 분석하는 것이 통계학의 본질이다. 확률 : 사건은 불확실성을 내포하고 있으며, 이러한 불확실성을 표현할 수 있는 수단이 확률이다. 즉, 나올 수 있는 모든 경우의 수 내에서 특정 사건이 발
데이터 레이크 : 구조화 데이터 + 비구조화 데이터 보존 기한이 없는 모든 데이터를 원래 형태대로 보존하는 스토리지에 가까움 (컴퓨팅 파워가 있는 것이 아님)ETL데이터 레이크와 웨어하우스 바깥에서 안으로 데이터를 가져오는 것 회사의 성장에 따라 갯수가 많아진다. Ai
KPI 설정을 통해 목표를 설정할 수 있고, 이 목표를 달성하기 위해 집중을 할 수 있음성과 측정이 가능함 의사 결정에 도움이 됨리소스 할당 시 우선순위를 정할 수 있음진행 상황을 추적할 수 있음조직 내에서 달성하고자 하는 중요한 목표 정량적임 명확한 정의가 중요함 -
실제 사용자에게 새로 만든 기능을 노출시켜 기존 기능과 비교해보는 실험이다. 처음부터 50:50으로 나누지 않는다. A(컨트롤), B(테스트) 간의 비교를 하는 테스트이다. 따라서 A/B 테스트는 객관적으로 새로운 기능이나 변경을 측정 및 비교를 하는 것이다. 큰 위험