SQL 1주차 강의를 들었다.SQL 기본 구조, 데이터 조회 시작\-SELECT : 데이터를 가져오는 기본 명령어\-FROM : 데이터를 가져올 테이블을 특정 select \* from payments 원하는 항목만 선택하기\-select 컬럼1, 컬럼2\-from 테
SUM, AVG, COUNT, MIN, MAX합계 : SUM(컬럼)평균 : AVG(컬럼)최솟값 : MIN(컬럼)최댓값 : MAX(컬럼)데이터 갯수 : COUNT(컬럼) 컬럼명 대신 1 혹은 사용 가능몇개의 값을 가지고 있는지 구할 때 : DISTINCT\+,-,\*
ADSP 공부할 때 글자로만 외웠던 상관분석, 야매로 상관분석을 해보자.예시를 외울 땐 상관관계를 데이터로 증명하니 쉽다고만 생각했는데오히려 숫자만 잘 준비되면 알아서 돌아가는 t검정이 간편해보인다.공부가 10이면 경험은 990인가봐 :(배움의 기쁨보단 걱정이 앞서는
생각보다 데이터 전처리가 정말 어렵다.전처리가 제대로 안되면 할 수 있는 게 아무것도 없다.분석 목적도 명확하지 않으면 마찬가지.자격증 공부할 땐 목적이 뚜렷하지 않아도 분석이 가능하다고 했는데어떻게...?해당 내용은 오늘 데이터 분석 진행하며 토론한 내용가장 교통사고
‘저희는 날씨가 안좋으면 교통 사고가 많이 일어날까’ 라는 의문에서 출발했습니다.일상적으로 아침에 일어나면 날씨를 확인하고 오늘의 교통수단을 정합니다. 기상 상태와 교통상황은 얼마나 관련이 있을지, 눈과 비가 많이 오면 실제로 사건 사고도 많이 일어날지. 이러한 이야기
소주제 :Subquery메모여러번의 연산 수행조건문에 연산 결과 사용조건에 Query 결과 사용select column1, special_columnfrom( / subquery /select column1, column2 special_columnfrom table1
조회한 데이터에 값이 없을 때없는 값 제외하기대체값 사용하기없는 값 제외하기대체값 사용하기다른 값이 있을 때 조건문 이용하기 : if(rating>=1, rating, 대체값)null 값일 때 : coalesce(age, 대체값)조회한 데이터가 상식적이지 않은 값을 가
데이터 분석하기데이터 전처리데이터 분석하기데이터를 분석하기 전 필요한 전처리 마무리하기프로덕트 개선은 정말 도움이 되었을까\_시각화 피벗 테이블이란? 기존의 데이터를 바탕으로 필드를 재구성해, 데이터 통계를 보다 쉽게 파악 할수 있도록 만든 테이블 리텐션 테이블리텐
본 자료는 개인 노션에 정리한 내용이다.https://velog.io/write?id=9f0832e7-e322-4a6d-9fd0-95339797feaa현재 SQL 기초, 데이터분석종합반을 수강했고, SQLD 강의 수강중이다.요즘 공부방법이 잘못되었다는 것을 계
문제 1: "최소 주문 날짜 찾기"주어진 테이블 list_of_orders에는 여러 주문들의 날짜가 저장되어 있습니다. 주문 날짜는 'dd-mm-yyyy' 형식으로 저장되어 있습니다. 이 테이블에서 가장 이른 주문 날짜를 찾아보세요.해결 예시 : SQL 문은 list
SQL 기본기본 구조 : 데이터 베이스 - 테이블 -필드 - 레코드DDL : 테이블 생성, 수정, 삭생CREATE(생성), ALTER(구조), DROP(데이터베이스 내에서 삭제)DML : 데이터 삽입, 조회, 업데이트, 삭제INSERT(삽입), SELECT(조회), U
데이터 리터러시 데이터를 읽는 능력데이터를 이해하고 분석하는 능력결과를 의사소통에 활용할 수 있는 능력= 데이터 수집과 원천 / 활용법 / 핵심지표를 이해하는 것심슨의 역설 : ‘부분’에서 성립한 대소 관계가 ‘전체’에 대해서는 성립하지 않는 모순적인 경우데이터 해석
당신은 소매점에서 근무하며 제품의 재고 관리를 담당하고 있습니다. 제품의 재고는 매주 갱신되며, 재고가 부족하거나 과잉인 제품을 식별하는 것이 중요합니다.주어진 제품의 재고 데이터를 분석하여, 재고가 기준치 미안인 제품과 기준치 초과인 제품을 식별하는 프로그램을 작성하
ANIMAL_INS 테이블은 동물 보호소에 들어온 동물의 정보를 담은 테이블입니다. ANIMAL_INS 테이블 구조는 다음과 같으며, ANIMAL_ID, ANIMAL_TYPE, DATETIME, INTAKE_CONDITION, NAME, SEX_UPON_INTAKE는
문제1문제2문제3문제4
나이 출력 머쓱이는 40살인 선생님이 몇 년도에 태어났는지 궁금해졌습니다. 나이 age가 주어질 때, 2022년을 기준 출생 연도를 return 하는 solution 함수를 완성해주세요.숫자 비교하기 정수 num1과 num2가 매개변수로 주어집니다. 두 수가 같으면
주제 : 왜 한 번만 구매하고 떠날까?우리 고객은 한 번만 구매한 고객이 50% 이상이며, 재구매율이 낮은 이유를 밝혀야 한다. 재구매를 유도할 수 있도록 적절한 마케팅을 고민해야 한다.생각 정리하기재구매가 일어난 고객의 특성을 파악하면 한 번 구매한 고객도 재구매를
상관분석을 위한 파일 제작 코드(SQL)재주문과 연관된 요인 상관분석(Python)order_id, customer_id 제외 그래프선형회귀를 위한 파일 코드(SQL)선형회귀분석(Python)데이터 전처리를 비롯한 분석 진행은 나쁘지 않은데, 가설이 기각된 후 막혔다.
가설검증 이후 흐름을 놓쳐서 어떡하나 고민이었는데 꽤나 빨리 길을 찾았다."배송기간과 재주문의 상관관계"는 없다로 결론을 내리고,재주문 유도와 매출 상승을 위해 RFM 분석을 진행했다.길을 잃은 동안 진행해둔 기초 통계량 분석을 통해 구체적인 액션 플랜을 작성하고,기존
데이터 전처리이상치 탐지 및 처리데이터 정규화 또는 표준화배달소요기간을 1-5/6-10/11-15/16-20/21-25/25-27 6단계로 범주화주문 데이터(order_id)와 등록되니 고객 데이터(customer_id)를 비교하여 고객별 주문 건수를 측정한 후, 주문
와ㅏㅏㅏㅏ 끝났다.진짜 쉽지 않았다. 처음부터 끝까지 하나도 쉬운 게 없었다.신종플루(?) 이후 첫 독감이라 아픈 것도 정신이 없었고...데이터 수집부터 기획안 쓰고 가설 설정, 전처리, 문제 정의, 가설 기각, 두번째 분석, PPT, 스크립트 어쩌구 저쩌구...그래도
아아아아무것도 하기 싫다. 원래도 주말공부를 싫어하는 편이 아니라서 주말도 웬만하면 하려고 하는데,오늘은 정말 주말 믿고 아무것도 안했다.코드카타 풀었으면 됐지.. 다음주차 확인했음 됐지..기초 프로젝트 발표회 다시 봤다.잘한 사람은 다시 봐도 정말 잘했다.우리 팀 발
통계학 기초 1-12까지 들었다.날리는 게 반.. 내용도 '지금 모르셔도 됩니다'가 반인 것 같다.어려운 건 둘째치고 핵심이라도 알아가고 싶은데 뭐가 핵심인지도 모르겠다.엉성한 낚시대 사용법 배웠는데 다음주부터 알래스카에서 배타고 연어잡는대 뭐 그런 느낌(?)ADsP
ANOVA와 회귀까지 통계학 기초 끝냈다.기초 프로젝트로 실습(?)까지 해본 김에 회귀만큼은 제대로 이해하고 싶다.익숙해서 그런가 만만한 게 회귀이기도 하다.전처리 시작이랑 통기 정리까지 하려면 내일은 바쁘겠다.통계 어렵다고 코드카타까지 손을 놓는 건 무슨 경우인지 모
침대에서 몸 일으키자마자 SQL, Python 코드카타 3문제씩 풀었다.전처리랑 통계, 데이터 종합반, 코드카타까지 모두 파이썬을 사용하는데같은 언어가 맞나 싶을 정도로 모르겠다. 아예 개념도 안잡힌 수준?그나마 코드카타 하는 시간을 좋아하는데 알고리즘 코드카타 시작하
오늘도 역시 눈 뜨자마자 노트북 앞.아침엔 부지런히 SQL / 알고리즘 코드카타 풀고, 시각화 전처리 강의도 끝냈다.여전히 기본적인 문법 없이 원서 읽는 상태지만 어제보단 확실히 낫다.그래도 강의 들은 걸로는 공부한 것 같지도 않아서 노션에 전부 정리했다.전처리에 필요
SQL / Python 코드카타 3문제씩 풀고 과제 풀이에 집중했다.확신은 없지만.. 푼 데 까지는 정상작동 되었고,뒷내용 붙들고 있는 것보단 해설 강의 듣는 게 속 편할 것 같아서 일단은 미뤘다.국취제 1차 상담도 다녀왔다.상담사님이 친절하셔서 불편함 없이 진행했다.
늘 그랬듯 해설 강의만 들으면 과제가 별 게 아닌 게 된다. 하지만 과제 해설을 들어야 아 저렇게 접근할 수 있구나 생각이라도 할 수 있다. 머신러닝 기초 강의 자료도 노션에 정리했다.오늘은 이래저래 강의는 못들었지만, 기본적인 세팅만 해놨다.다시 한 번 SQLD 시험
강의 들을 힘이 없어서 좀 쉬었다.SQL 코드카타 풀고, 점프 투 파이썬 공부했다.책의 1/4 정도 풀고 있는데 안보는 것 보단 확실히 낫다.'좋아요는 어떻게 지구를 파괴하는가'도 읽었다.며칠 전에 엄마랑 토론했던 데이터와 윤리에 관한 문제,같은 맥락으로 IT 기술의
잘 쉬고(쉬었다기 보단 징징대고) 돌아왔다!과제를 앞두고 제대로 강의를 듣지 않아 직접 코딩하면서 머신러닝 기초 강의를 들었다.불행 중 다행으로 자격증 시험 볼 때 유난스럽게 붙잡던 내용이라 수워라게 공부했다.단순선형회귀 (키-몸무게 데이터, tips데이터) 범주형 데
간만에 만족스럽게 열심히 했다. 강의를 잘 하시는 건지 휴식 버프인지 모르겠지만,수월하게 이해하면서 M/L 기초 강의, 과제 3번 끝냈다.과거의 나에게 압도적 감사.. 통계부터 머신러닝까지 ADsP가 하드 캐리 중...앞으로도 과거의 나에게 고마워 하려면 지금 열심히
오늘은 그래도 과제 해설이 유익했다.아예 모르는 건 알려줘도 못 먹어서 아쉽지만,,더 공부해야지 모<데이터 전처리 - 이상치 >Extreme Studentized Deviation(ESD) 이용한 이상치 발견데이터가 정규분포를 따른다고 가정할 때, 평균에서 표준편
심화 프로젝트 첫날. 학습이 선행이 되어야 프로젝트를 할 수 있는데 너무 놀았나보다. 데이터와 주제까지 주니까 플젝인지 과제인지 헷갈리더라. 분석 프로세스 중 데이터 전처리, EDA, 모델링(M/L)을 배운거고, ML 공부했다고 프로세스를 놓치면 안된다는 걸 잊어버렸다
심화 프로젝트 둘째날.여전히 물음표만 오백만 개 느낌,,,할 수 있는 걸 하자 222<과적합> 배경설명과대적합(Overfitting) : 데이터를 너무 과도하게 학습한 나머지 해당 문제만 잘 맞추고 새로운 데이터를 제대로 예측 혹은 분류하지 못하는 현상예측 혹은
심화 프로젝트 2일차.어제 얼떨결에 받아버린 튜터링을 통해 EDA&전처리 시도.아직 너무 지저분해서 연휴동안 정리할 예정..의사결정나무(Decision Tree, DT)의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석
모델 성능평가 끝내고 SQL로 EDA 뽑아보는 중.데이터 사이즈가 너무 커서 10만개 중 2만개밖에 안보인다..쿼리를 짜는 건 쉬운데 1/5밖에 안되는 거니까 결국 파이썬 써야할듯,,,,대출금액 대비 상환율 계산:대출금액대비원금상환율 = (총상환원금 / 대출금액) 1
Train 데이터로 EDA 진행.많다면 많고,, 적다면 적은 내용,, 쓸모가 있길 바람,,어떻게 발표로 푸느냐가 관건이라 주말 내내 대본쓰고 PPT 같이 만들지 않을까,,대출등급을 기준으로 기초 통계량 분석하고,등급별 통계를 기준으로 범주형 데이터 마다 할 수 있는 것
발표를 마치고 마지막 요약본을 읽어봤다..많이 바뀌었지만 반영은 안함 ㅋ ㅋ ㅋ모델링에 참여를 많이 안한 것 같아서 걱정했는데, 추가분석까지 피드백이 괜찮아서 다행이다.서론프로젝트 개요 : 고객 금융 데이터 활용한 대출 등급 분류고객 관련 금융 정보를 활용하여 대출의
Tableau 수업 듣고 있다. 재밌다. 간편하고 예쁘기까지 하다. 낯설어서 그렇지 만들기 확실히 쉬운 것 같다. 시각화도 쉽고 분석도 손쉽게 할 수 있는데 사람이 왜 필요하지? 싶지만,, 뭘 알아야 GPT도 쓰고 태블로도 쓰는 거겠지,,, 프로젝트가 끝날 때마다
2.텍스트 테이블2-1.데이터 형태SQL, Python에서도 많이 사용하는 데이터 프레임과 비슷하게 행과 열로 이루어짐. ex.엑셀의 피벗 테이블테이블 구조화 형식에는 대표적으로 2가지 형식의 wide format table과 long format table 사용.태
태블로 강의/과제 마무리했다. 데이터나 분석 과정을 이해하지 못한 상태에서 시각화를 짜내니 바보가 된 너낌,,, 그래도 머신러닝보단 낫다. 매개변수를 만들고 활용하는 과정에서 애 먹었다. 기술적인 문제였지만 막상 문제가 생기니 기본적인 개념도 와리가리하더라. SQL
실전 프로젝트 첫날.주식데이터 파이프라인 구축 및 분석...을 선택했다.데이터를 보면 볼수록 미친 짓인가 싶으나, 선택에 책임을 져야하므로,,, 일단 하는걸로,, 힝구개요 :주식을 이용한 시계열 대시보드를 작성해봅시다.데이터를 수집하고, Database에 적재합니다.태
Sheet 1애플 주식데이터 차트 생성라인 그래프라 데이터를 한 눈에 보기 어려움,,,주식 캔들스틱 차트 형태로 변경증감에 따른 색상 변경 및 추가 지표 정보 필요Bullish/Bearish 에 따른 색상 변경연도, 분기, 월별로 요일별 시트 필터로 확인 가능Open,
예측 모델 만들기준범님 코드 활용매개변수 활용 및 성능검사 추가 (모델링은 하늘님 코드 따라가는 걸로,,)파이썬-태블로 연동 방법 찾기https://www.youtube.com/watch?v=PjFQcc9ELMk탭파이 활용추가 : 단타를 추천하는 모델? (bu
전통적인 지표 활용한 차트 분석이동평균선 (Moving Averages): 단기 및 장기 이동평균선은 주식의 추세를 파악하는 데 유용.주가가 이동평균선을 상향 돌파하거나 하향 돌파할 때 매수 또는 매도 신호로 사용될 수 있음.상대강도지수 (Relative Strengt
한 차트에 모든 보조지표를 올릴 방법은 찾았다.캔들차트와 합칠 수 있는지는 의문,,,https://snowgot.tistory.com/entry/Google-bigquery에-데이터를-적재하고-태블로로-데이터-가져오기빅쿼리 연동 방법을 팀원이 찾았다.튜터님도
MACDMAUpper BandLower BandOpen > CloseClose > Open Bullish/Bearish날짜 필터 생성.YMD(Date) 열에 올리기.평균 종가, 측정값 행에 올리기.행의 측정값 중 필요한 것만 선택. 측정값이 늘어나면 약간의 노가다 예상
실전 프로젝트가 끝났다.마무리하는 기념으로 분석 프로세스 정리.프로젝트 개요 : 주식을 이용한 시계열 대시보드 작성.데이터를 수집하고, Database 적재.태블로로 데이터를 시각화.(선택) 시계열 모델로 주가 예측.위 전체 과정의 데이터 파이프라인 구축.목적과 목표
Google BigQuery에 데이터 적재하고 Tableau로 가져오는 과정은 다음과 같다. Google Cloud Storage 로그인Google Cloud SDK를 이용한 로컬과 Big Query 연결Big Query에 해당 데이터 저장Big Query에서 Tabl
발표회 때 피드백이 아쉬워서 찾아갔는데,,,생각보다 너무 꼼꼼하게 말씀해주셔서 정리를 안할 수 가 없었다.모델링은 모델링, 서비스는 서비스 확실하게 포커스를 잡자목표 달성률 더 발달 (수익금액 표현)자산 관리 포트폴리오도 대시보드로 구현Decision Support S
정의: Apache Spark는 SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진입니다. Spark는 클라우드의 Apache Hadoop, Apache Mesos, Kubernetes에서 자체적으로 실행될
실전 프로젝트 포트폴리오 만들기인상적인 결론 만들기결론 다듬기 \- 단발성 프로젝트가 아니라 지향하는 바를 생각한 결론이어야 함포트폴리오의 방향성 \- 도메인이 다르더라도 '저 이런 능력 있어요'를 강조 \- 주식이라는 데이터를 '분석'하고 통계적으로 접근 했음
일단 아까워서 포트폴리오로 만들어보자 하긴 했는데..애초에 무대만 서봤지 포트폴리오를 만들어 본 적이 없어서 난감했다...다행인 건 튜터님들이 도와주셔서 예시라도 한 번 보구 포폴 제작해보기로!이 프로젝트를 통해 알 수 있는 나의 역량Tableau : 지표 선정 능력과
실전 프로젝트 포트폴리오 만들기 (3)파이프라인 아키텍쳐를 그리겠다 마음먹고 나니... 빅쿼리 연동을 안해볼 수가 없는 것..덮어뒀던 에러창을 다시 꺼냈다.yfinance에서 모델 학습도 원하는 데이터 추출도 잘 되었는데, 빅쿼리 연결이 다시 안된다.이런 식으로 Def
실전 프로젝트 포트폴리오 만들기 (4)여전히 아키텍쳐 가지고 씨름하고 있다.찾아보니 아키텍쳐를 구현하는 프로그램도 다양하고, 여러가지 규칙도 있고,클라우드 중심, 이벤트 지향, 서비스 지향 등 관점에 따라 종류도 많다.https://it-license.tist
파이프라인 구축 아키텍쳐분석 프로세스 아키텍쳐이게 최선인가 싶지만 엄한 데 공들이면 너무 과할 것 같아서 여기서 끝내기로 ,,,^^구글에 data architecture flow 혹은 data pipeline architecture 로 검색하니 예제가 많다.엔지니어가
최종 프로젝트 기획 아이디어 2가지.. 머리통 터지는 줄 알았다데이터 직무별 연봉 예측 분석데이터 직군(DA,DS,DE) 별 연봉 분석데이터 산업 내 핫토픽 텍스트 분석(미디엄 블로그)현업 커뮤니티 내 핫토픽 텍스트 분석을 통해 입사를 희망하는 데이터 분석가로서 강화해
며칠간의 회의 끝에 우리의 주제는'IT 직군 채용정보 자연어 분석 및 추천 알고리즘 구축' 정리되었다.이제부터 진짜 어려운 것들을 해야하는데, 말 맞추고 회의 끝나니까 지쳐서 아무것도 하기시름,,,한글 전처리 필요 -> 언어의 맥락을 담는 기술들 필요다양한 자연어 기술
이제야 좀 정리가 된 것 같았는데, 결국 프로젝트를 엎고 새로 하기로.부랴부랴 데이터셋 찾고 기획서 작성했다.왜 갑자기 애니메이션이냐면,, 데이터가 맛도리이기 때문 ^ㅁ^사이즈 크고 정리 잘 되어있고, 전처리할 거 적당히 있고,무엇보다 분석 과정에서 여러 갈래로 뻗어나
고난이도 전처리에 얼타는 중...분석 프로세스 중 가장 어려운 작업인 건 맞지만,한 데이터셋 안에 방대한 양의 정보가 들어있어서 적절하게 거르는 게 쉽지가 않다.사용자 기반 협업 필터링과 컨텐츠 기반 필터링을 한다고 가정했을 때,각각에 필요한 데이터의 내용도 다르고,해
본격적으로 채용공고 프로젝트를 진행하기 전, Animation 데이터로 추천 알고리즘을 맛보고자 실습 진행.손코딩을 해도 논리를 이해하지 못했으나.. 시도를 했다는 점에.. 박수...협업 필터링: 사람들의 행동 기록을 분석하다‘협업 필터링’이란 특정 집단에서 발생하는
실습해본 사용자 기반 협업 필터링, 고대로 쓸 순 없겠지만 코사인 유사도 측정하는 방법은 알았다.data analyst 데이터에 적용해보기 위해 덮어두었던 텍스트 데이터 전처리를 다시 꺼냈다.애증의 NLTK ..Data Analyst 채용공고 데이터 안에 Job Des
농땡이 Day,,,내가 한 건 아니지만, 분석 프로세스에서 핵심적인 기술이자 궁금했던 지점이라 기록해두는 코드.이미 NLTK나 RE, Pandas를 통해서 텍스트를 분석하여 라벨링하고, 유사도를 계산해보았다.우리가 수작업으로 조건 하나하나 손코딩 했던 것을 AI가 대신
EDA 하기 위해 전처리 재시도.라벨링은 결국 성능 좋은 코드만 따로 돌렸고..한 개도 안나오던 'Data preprocessing'은 76개를 라벨링하는데 성공했다.랜덤하게 추출해서 Job Description 살펴보니,전처리보다 정제, cleaning으로 들어가 있
중간 발표할 생각에 아득해져서 대본 쓰기 전 프로세스 정리프로젝트 개요 :채용 공고 데이터를 활용한 분석을 통해 전반적인 채용 트렌드를 확인한다.공고 내 상세 페이지의 텍스트를 분석해 취업에 필요한 스킬을 정량화한다.개인에게 적합한 채용공고를 추천하는 개인 맞춤형 추천
중간발표 대본으로 떼우고 싶지만 앞으로의 갈길이 멀기 때문에 발표 이후 뭘 할지 간단히 정리국내 데이터 수집 (잡코리아, 잡플레닛, 워크넷, 사람인, 링크드인...)국내 데이터 분석데이터 전처리 : 수집한 채용공고 내용 양식에 맞게 데이터프레임화 적재KoNLPy, LL
삽질해서 만든 데이터 .. 멋지고 힘들다..잡코리아 캐치 등 대부분의 채용 사이트는 이미지로 들어가 있어서 일일이 타이핑해 데이터를 만들었는데 쉬운 방법들이 있었다.원하는 부분 스크린 샷 찍기이미지에서 원하는 부분 찾아 드래그텍스트 복사 가능 이 쉬운걸.. 할줄 몰라서
인형 눈깔 붙이기 끗...다행인 건, 겹치는 게 많진 않아서 대략 250개는 살릴 수 있을 것 같다.내가 맡은 회사는 잡코리아, 워크넷, 사람인, 링크드인.워크넷은 10개 공고 남짓 빼고는 전부 잡코리아나 사람인에서 긁어온 포스팅이라 쓸 만 한 게 없었다.데이터 수집할