시리즈

프로그래머스-데이터분석1기

1.[1일차]데이터분석-데이터 문해력이란?

데이터는 우리 생활 모든 곳에 존재 , 일상생활에서 관찰할 수 있는 모든 것이다.이런 데이터를 기록하고 수집하는 것을 Digitization이라고 하며, 온라인 환경에서 데이터의 수집이 가장 쉽고 활발하다.웹과 모바일 폰 사용의 보편화로 데이터 크기가 폭발적으로 성장

2023년 11월 20일

2.[2일차]데이터분석-데이터 기반 의사 결정

1.데이터 기반 의사 결정이란? 두 가지 형태의 데이터 기반 의사 결정 데이터란 기본적으로 과거의 기록 이를 바탕으로한 결정은 지금 하는 일의 최적화에 가까움 vs 혁신 Data Driven Decision Data Informed Decision 데이터에서 인사이트

2023년 11월 21일

3.[3일차]데이터분석-데이터 기반 제품 개선

머신러닝의 형태로 사용자들의 경험을 개선 \- 문제에 맞춰 가설을 세우고 데이터를 수집한 후에 예측 모델을 만들고 이를 테스트 \- 장시간이 필요하지만 이를 짧은 사이클로 단순하게 시작해서 고도화하는 것이 좋다. \- 테스트는 가능하면 A/B테스트를 수행하는

2023년 11월 22일

4.[4일차]데이터분석-Gen AI를 이용한 생산성 증대

인공지능 : 인간이 하는 일을 대신 해주는 시스템을 만드는 컴퓨터 과학머신러닝 : 인공지능의 일부딥러닝 : 머신러닝의 일부이미지/비디오/오디오 등의 복잡한 데이터 처리에 강점학습된 컨텐츠 바탕으로 새로운 컨텐츠를 만드는 딥러닝 기술입력 컨텐츠의 내용을 학습한 모델이 만

2023년 11월 23일

5.[5일차]데이터분석-데이터 활용시 고려할 점

데이터 소스와 양의 폭발적인 증가Data Warehouse ➡️ Data Lake모든 조직에서 데이터 생성과 사용 증가Data Decentralization데이터 사용자 폭발적인 증가Data DemocratizationSQL / Dashboard skill클라우드 기본

2023년 11월 24일

6.[6일차]데이터분석-Excel을 활용한 다양한 데이터 분석(1)

이론을 세우는데 기초가 되는 사실, 또는 바탕이 되는 자료Fact문자형, 숫자형, 날짜형 등등데이터를 통해 정보를 얻고 정보를 이용해 지식을 얻고 이를 지혜로써 새로운 데이터나, 아이디어를 내놓을 수 있다.공공데이터 포털 : https://www.data.go

2023년 11월 27일

7.[7일차]데이터분석-Excel을 활용한 다양한 데이터 분석(2)

숫자로 이루어져 있는 데이터숫자(0~9), +, -, 화폐기호, 소수점, %, 지수 등으로 이루어진 ㄷ이터ex) 4, 1002, 92%, $1000핸드폰번호, 주민등록번호, 숫자, 기호, 명칭과 같은 데이터문자와 숫자가 혼합된 데이터특정 함수 사용이 불가능하다문자열 함

2023년 11월 28일

8.[8일차]데이터분석-Excel을 활용한 다양한 데이터 분석(3)

True(1), False(0)참이나 거짓을 표시하는 데이터논리 함수에 주로 사용됨주어진 조건에 따라 참 또는 거짓을 반환IF함수, AND, OR, NOT 함수 등이 포함AND : 인수로 사용되는 논리식과 논리값들이 모두 TRUE여야만 TRUE 반환OR : 인수로 사용

2023년 11월 29일

9.[9일차]데이터분석-Excel을 활용한 다양한 데이터 분석(4)

타이타닉와인파이썬으로 진행했을 때보다 다소 한계적이고 성능도 좋지 않음특정 조건을 만족하는 셀의 개수를 세는 데 사용범위1에서 조건에 해당하는 data가 해당되는 범위2 내의 데이터 평균

2023년 11월 30일

10.[10일차]데이터분석-Excel을 활용한 다양한 데이터 분석(5)

0이 아닌 값NA : Not Available (유효하지 않음)NaN : Not a Number (숫자가 아닌)Null : 아무것도 존재하지 않음변수의 결측값을 평균값으로 대체특정 정보가 존재하지 않을 경우 평균값이 가장 좋은 샘플이라는 논리에 기인정보의 손실은 줄어들

2023년 12월 1일

11.[11일차]데이터분석-SQL(1)

원하는 형태로 데이터를 가져올 수 있다.효율적으로 데이터를 가져올 수 있다.간단한 데이터분석을 수행할 수 있다.MySQL, SQL Server, PostgreSQL, ORACLE사용목적정형 데이터 : 테이블/행/열로 이루어진 형태Transaction처리 : 데이터의 일

2023년 12월 4일

12.[12일차]데이터분석-SQL(2)

1\. JOIN : 두 개 이상의 테이블을 특정 key를 기준으로 결합하는 것INNER JOIN : 두 테이블을 조인할 때, 두 테이블에 모두 지정한 열의 데이터가 있어야 한다.2\. OUTER JOINLEFT JOINRIGHT JOINFULL OUTER JOIN (M

2023년 12월 5일

13.[13일차]데이터분석-SQL(3)

숫자형 타입을 int로 지정해두었으면, 데이터 삽입할 때 float형으로 넣어도 출력할 땐 int형으로 나옴➡️ 숫자 아무거나 와도 true로 반환, 0만 false로 반환➡️ false반환 (2=TRUE이다가 2=1이다로 해석되기 때문에 false로 반환)ENUM형태

2023년 12월 6일

14.[14일차]데이터분석-SQL(4)

최대한 작게 만들어 놓고 JOIN하기WHERE절을 이용한 필터링2-1 LIMIT 걸고 조회하기2-2 파티션이 있는 테이블인지 확인하고, 파티션을 필터 조건으로 걸고 조회하기2-3 컬럼수가 많은 테이블을 조회할 때 SELECT\* 지양하기2-4 LIKE 사용 시 % 제한

2023년 12월 7일

15.[15일차]데이터분석-SQL(5)

Data Source : https://www.kaggle.com/datasets/abhijitdahatonde/27000-indian-restaurant-datasetData Source : https://www.kaggle.com/datasets/

2023년 12월 8일

16.[16-20일차] 프로젝트

데이터셋 : 캐글 아디다스 매출https://www.kaggle.com/datasets/heemalichaudhari/adidas-sales-datasetSQL로 질의하기 전 파이썬으로 데이터 정보 확인과 그래프로 데이터 파악하기제품별 판매량 확인제품별 매출액

2023년 12월 11일

17.[21일차] SQL을 이용한 데이터 분석

모든 데이터 직군에게 필요한 기술은 SQL데이터 엔지니어파이썬, 자바/스칼라SQL, 데이터베이스ETL/ELT (Airflow, DBT)Spark, Hadoop데이터 분석가SQL, 비지니스 도메인에 대한 지식통계 (AB테스트 분석)데이터 과학자머신러닝SQL, 파이썬통계엑

2023년 12월 20일

18.[22일차] SQL을 이용한 데이터 분석

1 x dc2.large instance160 GBHost:learnde.cduaw970ssvt.ap-northeast-2.redshift.amazonaws.comPort number:5439Database name:dev사용자 ID: 보통 웹서비스에서는 등록된 사용자

2023년 12월 21일

19.[23일차] SQL을 이용한 데이터 분석

테이블의 레코드를 그룹핑하여 그룹별로 다양한 정보를 계산이는 두 단계로 이뤄짐 \- 먼저 그룹핑을 할 필드 결정 (하나 이상의 필드가 될 수 있음) \- GROUP BY로 지정 (필드 이름을 사용하거나 필드 일련번호를 사용)다음 그룹별로 계산할 내용 결정여기서 A

2023년 12월 22일

20.[24일차] SQL을 이용한 데이터 분석

SQL조인은두개혹은그이상의테이블들을공통필드를가지고머지하는데 사용된다. 이는 스타 스키마로 구성된 테이블들로 분산되어 있던 정보를 통합하는데 사용된다. 왼쪽 테이블을 LEFT라고 하고 오른쪽 테이블을 RIGHT이라고 하자. JOIN의 결과는 방식에 상관없이 양쪽의 필드

2023년 12월 22일

21.[25일차] SQL을 이용한 데이터 분석

Atomic하게 실행되어야 하는 SQL들을 묶어서 하나의 작업처럼 처리하는방법이는 DDL이나 DML 중 레코드를 수정/추가/삭제한 것에만 의미가 있음SELECT에는 트랜잭션을 사용할 이유가 없음BEGIN과 END 혹은 BEGIN과 COMMIT 사이에 해당 SQL들을 사

2023년 12월 24일