시리즈

TIL

1.240826 TIL

나는 어떤 히스토리를 가지고 데이터 분석트랙에 참여하게 되었나요?학과 수업 중 데이터 관련 수업을 재밌게 들어, 그 뒤 여러 관련 수업과 심화 전공을 들으며 데이터 분석가로 목표를 정하게 되었습니다.본 코스 수료 후, 어떤 데이터 분석가 혹은 원하는 직무로 성장하고 싶

2024년 8월 26일

2.240827 TIL

데이터 분석이란 무엇일까?주제데이터와 데이터 분석이 무엇이고 왜 중요한 지에 대해 설명하고 데이터 분석 프로세스와 분석에 필요한 기술에 대해 설명하고 있다.아티클 요약우리 주변에 방대한 양의 데이터가 있지만, 데이터를 가공하거나 분석하지 않는다면 아무런 가치를 얻을 수

2024년 8월 27일

3.240828 TIL

DBeaver는 Database 관리 툴로 SQL을 쉽게 사용할 수 있도록 도와주는 프로그램이다. MySQL 외에도 여러 DB를 선택할 수 있다. Database계의 Anaconda-Navigator 같은 느낌이 들었다.

2024년 8월 28일

4.240829 TIL

계산기호와 계산 함수들을 SQL에서도 사용할 수 있다. 생소했던 점은 원하는 계산식을 select절에 입력해야 한다는 점이다.이런 느낌으로 select 할 때부터 무엇을 계산해야하고 추출해야하는 지 알고 있어야 하는 느낌.GROUP BY와 계산 함수를 사용하여 원하는

2024년 8월 29일

5.240902 TIL

REPLACE컬럼의 특정 문자를 다른 문자로 바꿔준다. SUBSTRING칼럼 중 특정 문자를 골라서 조회할 수 있다. 시작 위치와 글자 수를 정해서 추출한다. CONCAT여러 칼럼의 값을 하나로 합칠 수 있는 기능위와 같이 기존 칼럼들의 값에서 특정 부분을 추출하여

2024년 9월 2일

6.240903 TIL

NULL값은 연산에서 아예 제외시켜 주거나, 평균값이나 중앙값 등의 대표값을 사용하여 대체해줘야 한다.if문을 사용하여도 되지만 coalesce(컬럼, 대체값)을 사용해도 된다.상식적으로 말이 되지 않는 이상값이 확인될 경우 조건문으로 가장 큰 값과 가장 작은 값의 범

2024년 9월 3일

7.240904 TIL

파이썬은 1991년 귀도 반 로섬(Guido van Rossum)이라는 프로그래머에 의해 개발된 언어로, 가독성이 높고 쉬운 문법 덕택에 다른 프로그래밍 언어보다 빠른 습득이 가능하다는 특징이 있습니다. 그 덕에 프로그래밍을 전공하지 않은 비전공자 중심으로 인기를 얻어

2024년 9월 4일

8.240906 TIL

대학교 1학년 때 팩맨 게임 만들기 과제를 해본 적이 있었는데, 막상 오랜만에 만드려니까 쉽지만은 않았다. 분명 저번 학기때만해도 더 어려운 알고리즘 코딩도 해보고 그랬었는데 벌써 모든 게 다 휘발된 기분이다.사실 문제에서 요구된 사항은 단어 자릿수 알려주기, 맞춘 알

2024년 9월 6일

9.240910 TIL

데이터 문해력에 대하여 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력(카시와기 요시키 저) 저자가 생각하는 데이터 문해력(Data Literacy)이란 데이터 분석 전에 문제와 목적을 정의하고 가설을 구축하는 능력, 분석 후 분석 결과에 대한 해석 및 스토리를 구축

2024년 9월 10일

10.240913 TIL

아무리 봐도 이해가 완벽히 되지않아 GPT와 대화를 나누며 하나하나 파악해봤다.e1과 e2를 Department 기준으로 INNER JOIN을 하는데, 저렇게 되면 부서가 겹치는 인원들에 대해 모든 조합이 튀어나온다. 예시는 아래와 같다.그 뒤 WHERE절을 통하여 각

2024년 9월 13일

11.240930 TIL

‘플레이어가 최적의 환경에서 더 재미있게 게임을 즐길 수 있도록’ 이라는 모토로 운영되고 있는 넥슨의 분석 조직. 게임 경험을 빅데이터화하여 분석하고 활용하기 위해 AI와 머신러닝 기술 연구.게임 안팎의 모든 로그 데이터를 수집 및 분석Spark 기반 대용량 로그

2024년 9월 30일

12.241001 TIL

데이터 추출, 데이터 가공, 데이터 시각화, 인사이트 도출 등유관부서가 원하는 데이터와 인사이트를 시각화하여 공유 및 설득따라서 데이터를 추출하여 논리 기반의 인사이트를 타 부서에 공유하고, 서비스를 개선하는 방향성을 제시한 경험이 있다면 좋음데이터 분석가의 가장 중요

2024년 10월 1일

13.241002 TIL

이런 식으로 범주를 나누어 범주를 할당할 수 있다. Python처럼 elif가 있으면 좋겠지만 딱히 없는 것 같다.

2024년 10월 2일

14.241007 TIL

복잡하지만 중요한 부분인 것 같다. 다양하게 연산하고 분류하기 위해 많이 사용되는 것으로 보인다. 사용하다 보면 Python으로 하면 이렇게 복잡하게 하지 않아도 될텐데.. 라는 생각도 들지만 나중에 익숙해지면 아무렇지 않게 구사할 수 있지 않을까.종류로는 WHERE

2024년 10월 7일

15.241008 TIL

수직 결합에 사용한다.UNION은 결과에서 중복되는 행은 하나만 표시UNION ALL은 중복되는 행을 모두 표시Python에서의 데이터프레임 JOIN과 같다.INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN이 있다.FULL OU

2024년 10월 8일

16.241014 TIL

각 서비스만의 Active User 찾는 것이 중요. ex. 어디까지 경험한 유저가 활성유저일까?DAU: Daily Active UserWAUMAU이탈율CVR(Conversion Rate): 특정 행동을 한 후, 전환된 비율CTR(Click Through Rate):

2024년 10월 14일

17.241015 TIL

WHERE 절에서 AND가 OR보다 우선순위가 높다. 따라서 괄호로 묶어줘야 논리적으로도, 시각적으로도 문제가 없다.COALSECE vs IFNULL \- COALSECE는 SQL 표준함수, IFNULL은 MySQL에서만 사용 가능 \- COALSECE는 multi

2024년 10월 15일

18.241016 TIL

DATEDIFF(END_DATE, START DATE)와 같이 END_DATE가 먼저 나와야 함.실제 일 수를 구하려면 +1을 하여 시작일을 포함시켜 주어야 함.문제일단 +보다는 슬라이싱이 연산 시간을 줄이는데 유리하다고 한다. 하지만 가장 신박하게 느껴졌던 것은 st

2024년 10월 16일

19.241017 TIL

SQL 문법 집합연산 (1) A ∩ B (2) A- B (3) A ∪ B

2024년 10월 17일

20.241018 TIL

문제list도 아니고 하나의 string이 정렬이 될 줄은 몰랐다. 정렬이 된다 쳐도 알파벳 대소문자 순서까지 적용될 지는 생각도 못했다. 문자열 정렬이 아스키 코드를 기준으로 실행된다고 한다. 그래서 대문자가 소문자보다 먼저 오고 reverse=True를 했기 때문에

2024년 10월 18일

21.241021 TIL

내 코드의 경우 행과 열의 길이를 구해 빈 행렬을 만들어 놓은 뒤 각 위치에 해당하는 원소를 삽입하였다. 남 코드 1의 경우 zip을 포함한 for 문을 두 번 사용한 리스트 컴프리헨션으로 간결화 하였다. 빈 행렬을 만들어 놓을 필요가 없어 좀 더 용이한 것 같다.남

2024년 10월 21일

22.241022 TIL

문제첫 번째로는 answer의 순서에 대해 헷갈렸었다. 분명 진법으로 변환하는 과정에서 실제 순서와 반대로 answer에 문자열로 삽입되기 때문에 어짜피 결과가 거꾸로 나와 answer\[::-1]를 할 필요가 없지 않나 싶었다. 하지만 생각해보니 뒤에 for문으로 1

2024년 10월 22일

23.241023 TIL

Pandas의 문법 중 하나인 merge는 SQL 구문의 join과 유사하다.인덱스 기준으로 테이블을 병합한다.데이터프레임 또는 시리즈를 특정 축을 따라 연결하는 데 사용한다. 수직결합, 수평결합을 택할 수 있다.데이터프레임에 행을 추가한다.

2024년 10월 23일

24.241024 TIL

교재2025 시나공 빅데이터 분석기사 실기 Python 사용교재는 주요 코드를 따라하는 형식으로 진행되며 챕터마다 연습문제가 배치되어있다.교재에 있는 링크에 코드 및 데이터가 업로드되어있어, 다운받아 ipynb로 한 줄씩 실행시켜보며 교재의 흐름을 따라가면 좋을 것 같

2024년 10월 24일

25.241025 TIL

문제replace 생각 못해서 열심히 머리 굴린 것 치고는 나쁘지 않은 아이디어가 나왔다고 생각하지만, replace를 사용한 코드가 가독성이 너무 좋다.

2024년 10월 25일

26.241028 TIL

pivot_table의 파라미터에 column이 필수가 아니라는 사실을 깨달았다. 막연하게 pivot_table이 groupby와 매우 비슷하다는 느낌을 받았는데, pivot_table로 할 수 있는 일 중에 groupby가 포함되어있기 때문이었던 것 같다.위 코드의

2024년 10월 28일

27.241029 TIL

학기 중 ML/DL 쪽을 맛보고 있을 때도, 방학을 활용해 데이터 특강을 들었을 때도, Kaggle에 대해 수없이 많이 들었다. 관련 수업 다 듣고 감 잡히면 시도해보다가 익숙해지면 Competition도 참가해보겠다고 다짐했지만, 매번 시작하기가 어려워서 아이디만 만

2024년 10월 29일

28.241030 TIL

문자열 칼럼을 숫자형 칼럼으로 바꾸다가 문득 pd.to_numeric()과 astype()의 차이가 궁금해졌다. 결론부터 말하자면 둘 다 각각의 쓰임이 있다고 한다.pd.to_numeric()의 경우 errors라는 옵션을 통해 변환할 수 없는 데이터를 처리하는 방식을

2024년 10월 30일

29.241101 TIL

사용한 데이터는 Kaggle 음식 배달 데이터그동안 배운 전처리, 시각화를 활용하여 EDA를 해볼 예정이다.가능하다면 추가적인 분석도.엑셀로 보면 ID 컬럼이 인덱스로 되어있는데, '0x4607' 이런 난잡한 형식이기에 index_col없이 불러와 숫자를 인덱스로 삼았

2024년 11월 1일

30.241104 TIL

이외에는 split()을 통해 불필요한 공백이나 문자열 제거 및 타입변경을 수행

2024년 11월 4일

31.241105 TIL

아직 프로젝트가 한창 진행중이지만 학습과정에서는 느낄 수 없었던 부족함들이 프로젝트 하는 와중에 느껴져 정리해보려 한다.전처리 과정의 체계성 제로: 전처리를 할 때 순서없이 눈에 보이는 것부터 하다 보니까 다시 한 번 정리해야 해서 매우 비효율적이었다.결측치와 이상치를

2024년 11월 5일

32.250106 TIL

게임 쪽에는 open api가 많아서 다양하고 라이브한 정보도 담겨있는 데이터들이 많을 줄 알았는데, 생각보다 입맞에 맞는 데이터를 찾기는 쉽지 않았다. 대시보드를 만들게 된다면 매출 현황같은 대시보드도 만들고 싶어 매출 관련 데이터가 있기를 바랐는데, 역시 BM과 관

2025년 1월 6일