데이터는 우리 생활 모든 곳에 존재 , 일상생활에서 관찰할 수 있는 모든 것이다.이런 데이터를 기록하고 수집하는 것을 Digitization이라고 하며, 온라인 환경에서 데이터의 수집이 가장 쉽고 활발하다.웹과 모바일 폰 사용의 보편화로 데이터 크기가 폭발적으로 성장
1.데이터 기반 의사 결정이란? 두 가지 형태의 데이터 기반 의사 결정 데이터란 기본적으로 과거의 기록 이를 바탕으로한 결정은 지금 하는 일의 최적화에 가까움 vs 혁신 Data Driven Decision Data Informed Decision 데이터에서 인사이트
머신러닝의 형태로 사용자들의 경험을 개선 \- 문제에 맞춰 가설을 세우고 데이터를 수집한 후에 예측 모델을 만들고 이를 테스트 \- 장시간이 필요하지만 이를 짧은 사이클로 단순하게 시작해서 고도화하는 것이 좋다. \- 테스트는 가능하면 A/B테스트를 수행하는
인공지능 : 인간이 하는 일을 대신 해주는 시스템을 만드는 컴퓨터 과학머신러닝 : 인공지능의 일부딥러닝 : 머신러닝의 일부이미지/비디오/오디오 등의 복잡한 데이터 처리에 강점학습된 컨텐츠 바탕으로 새로운 컨텐츠를 만드는 딥러닝 기술입력 컨텐츠의 내용을 학습한 모델이 만
데이터 소스와 양의 폭발적인 증가Data Warehouse ➡️ Data Lake모든 조직에서 데이터 생성과 사용 증가Data Decentralization데이터 사용자 폭발적인 증가Data DemocratizationSQL / Dashboard skill클라우드 기본
이론을 세우는데 기초가 되는 사실, 또는 바탕이 되는 자료Fact문자형, 숫자형, 날짜형 등등데이터를 통해 정보를 얻고 정보를 이용해 지식을 얻고 이를 지혜로써 새로운 데이터나, 아이디어를 내놓을 수 있다.공공데이터 포털 : https://www.data.go
숫자로 이루어져 있는 데이터숫자(0~9), +, -, 화폐기호, 소수점, %, 지수 등으로 이루어진 ㄷ이터ex) 4, 1002, 92%, $1000핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터문자와 숫자가 혼합된 데이터특정 함수 사용이 불가능하다문자열 함
True(1), False(0)참이나 거짓을 표시하는 데이터논리 함수에 주로 사용됨주어진 조건에 따라 참 또는 거짓을 반환IF함수, AND, OR, NOT 함수 등이 포함AND : 인수로 사용되는 논리식과 논리값들이 모두 TRUE여야만 TRUE 반환OR : 인수로 사용
타이타닉와인파이썬으로 진행했을 때보다 다소 한계적이고 성능도 좋지 않음특정 조건을 만족하는 셀의 개수를 세는 데 사용범위1에서 조건에 해당하는 data가 해당되는 범위2 내의 데이터 평균
0이 아닌 값NA : Not Available (유효하지 않음)NaN : Not a Number (숫자가 아닌)Null : 아무것도 존재하지 않음변수의 결측값을 평균값으로 대체특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인정보의 손실은 줄어들
원하는 형태로 데이터를 가져올 수 있다.효율적으로 데이터를 가져올 수 있다.간단한 데이터분석을 수행할 수 있다.MySQL, SQL Server, PostgreSQL, ORACLE사용목적정형 데이터 : 테이블/행/열로 이루어진 형태Transaction처리 : 데이터의 일
1\. JOIN : 두 개 이상의 테이블을 특정 key를 기준으로 결합하는 것INNER JOIN : 두 테이블을 조인할 때, 두 테이블에 모두 지정한 열의 데이터가 있어야 한다.2\. OUTER JOINLEFT JOINRIGHT JOINFULL OUTER JOIN (M
숫자형 타입을 int로 지정해두었으면, 데이터 삽입할 때 float형으로 넣어도 출력할 땐 int형으로 나옴➡️ 숫자 아무거나 와도 true로 반환, 0만 false로 반환➡️ false반환 (2=TRUE이다가 2=1이다로 해석되기 때문에 false로 반환)ENUM형태
최대한 작게 만들어 놓고 JOIN하기WHERE절을 이용한 필터링2-1 LIMIT 걸고 조회하기2-2 파티션이 있는 테이블인지 확인하고, 파티션을 필터 조건으로 걸고 조회하기2-3 컬럼수가 많은 테이블을 조회할 때 SELECT\* 지양하기2-4 LIKE 사용 시 % 제한
Data Source : https://www.kaggle.com/datasets/abhijitdahatonde/27000-indian-restaurant-datasetData Source : https://www.kaggle.com/datasets/
데이터셋 : 캐글 아디다스 매출https://www.kaggle.com/datasets/heemalichaudhari/adidas-sales-datasetSQL로 질의하기 전 파이썬으로 데이터 정보 확인과 그래프로 데이터 파악하기제품별 판매량 확인제품별 매출액

모든 데이터 직군에게 필요한 기술은 SQL데이터 엔지니어파이썬, 자바/스칼라SQL, 데이터베이스ETL/ELT (Airflow, DBT)Spark, Hadoop데이터 분석가SQL, 비지니스 도메인에 대한 지식통계 (AB테스트 분석)데이터 과학자머신러닝SQL, 파이썬통계엑

1 x dc2.large instance160 GBHost:learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.comPort number:5439Database name:dev사용자 ID: 보통 웹서비스에서는 등록된 사용자
테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산이는 두 단계로 이뤄짐 \- 먼저 그룹핑을 할 필드 결정 (하나 이상의 필드가 될 수 있음) \- GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용)다음 그룹별로 계산할 내용 결정여기서 A
SQL조인은두개혹은그이상의테이블들을공통필드를가지고머지하는데 사용된다. 이는 스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용된다. 왼쪽 테이블을 LEFT라고 하고 오른쪽 테이블을 RIGHT이라고 하자. JOIN의 결과는 방식에 상관없이 양쪽의 필드

Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는방법이는 DDL이나 DML 중 레코드를 수정/추가/삭제한 것에만 의미가 있음SELECT에는 트랜잭션을 사용할 이유가 없음BEGIN과 END 혹은 BEGIN과 COMMIT 사이에 해당 SQL들을 사