나는 어떤 히스토리를 가지고 데이터 분석트랙에 참여하게 되었나요?학과 수업 중 데이터 관련 수업을 재밌게 들어, 그 뒤 여러 관련 수업과 심화 전공을 들으며 데이터 분석가로 목표를 정하게 되었습니다.본 코스 수료 후, 어떤 데이터 분석가 혹은 원하는 직무로 성장하고 싶
데이터 분석이란 무엇일까?주제데이터와 데이터 분석이 무엇이고 왜 중요한 지에 대해 설명하고 데이터 분석 프로세스와 분석에 필요한 기술에 대해 설명하고 있다.아티클 요약우리 주변에 방대한 양의 데이터가 있지만, 데이터를 가공하거나 분석하지 않는다면 아무런 가치를 얻을 수
DBeaver는 Database 관리 툴로 SQL을 쉽게 사용할 수 있도록 도와주는 프로그램이다. MySQL 외에도 여러 DB를 선택할 수 있다. Database계의 Anaconda-Navigator 같은 느낌이 들었다.
계산기호와 계산 함수들을 SQL에서도 사용할 수 있다. 생소했던 점은 원하는 계산식을 select절에 입력해야 한다는 점이다.이런 느낌으로 select 할 때부터 무엇을 계산해야하고 추출해야하는 지 알고 있어야 하는 느낌.GROUP BY와 계산 함수를 사용하여 원하는
REPLACE컬럼의 특정 문자를 다른 문자로 바꿔준다. SUBSTRING칼럼 중 특정 문자를 골라서 조회할 수 있다. 시작 위치와 글자 수를 정해서 추출한다. CONCAT여러 칼럼의 값을 하나로 합칠 수 있는 기능위와 같이 기존 칼럼들의 값에서 특정 부분을 추출하여
NULL값은 연산에서 아예 제외시켜 주거나, 평균값이나 중앙값 등의 대표값을 사용하여 대체해줘야 한다.if문을 사용하여도 되지만 coalesce(컬럼, 대체값)을 사용해도 된다.상식적으로 말이 되지 않는 이상값이 확인될 경우 조건문으로 가장 큰 값과 가장 작은 값의 범
파이썬은 1991년 귀도 반 로섬(Guido van Rossum)이라는 프로그래머에 의해 개발된 언어로, 가독성이 높고 쉬운 문법 덕택에 다른 프로그래밍 언어보다 빠른 습득이 가능하다는 특징이 있습니다. 그 덕에 프로그래밍을 전공하지 않은 비전공자 중심으로 인기를 얻어
대학교 1학년 때 팩맨 게임 만들기 과제를 해본 적이 있었는데, 막상 오랜만에 만드려니까 쉽지만은 않았다. 분명 저번 학기때만해도 더 어려운 알고리즘 코딩도 해보고 그랬었는데 벌써 모든 게 다 휘발된 기분이다.사실 문제에서 요구된 사항은 단어 자릿수 알려주기, 맞춘 알
데이터 문해력에 대하여 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력(카시와기 요시키 저) 저자가 생각하는 데이터 문해력(Data Literacy)이란 데이터 분석 전에 문제와 목적을 정의하고 가설을 구축하는 능력, 분석 후 분석 결과에 대한 해석 및 스토리를 구축
아무리 봐도 이해가 완벽히 되지않아 GPT와 대화를 나누며 하나하나 파악해봤다.e1과 e2를 Department 기준으로 INNER JOIN을 하는데, 저렇게 되면 부서가 겹치는 인원들에 대해 모든 조합이 튀어나온다. 예시는 아래와 같다.그 뒤 WHERE절을 통하여 각
‘플레이어가 최적의 환경에서 더 재미있게 게임을 즐길 수 있도록’ 이라는 모토로 운영되고 있는 넥슨의 분석 조직. 게임 경험을 빅데이터화하여 분석하고 활용하기 위해 AI와 머신러닝 기술 연구.게임 안팎의 모든 로그 데이터를 수집 및 분석Spark 기반 대용량 로그
데이터 추출, 데이터 가공, 데이터 시각화, 인사이트 도출 등유관부서가 원하는 데이터와 인사이트를 시각화하여 공유 및 설득따라서 데이터를 추출하여 논리 기반의 인사이트를 타 부서에 공유하고, 서비스를 개선하는 방향성을 제시한 경험이 있다면 좋음데이터 분석가의 가장 중요
이런 식으로 범주를 나누어 범주를 할당할 수 있다. Python처럼 elif가 있으면 좋겠지만 딱히 없는 것 같다.
복잡하지만 중요한 부분인 것 같다. 다양하게 연산하고 분류하기 위해 많이 사용되는 것으로 보인다. 사용하다 보면 Python으로 하면 이렇게 복잡하게 하지 않아도 될텐데.. 라는 생각도 들지만 나중에 익숙해지면 아무렇지 않게 구사할 수 있지 않을까.종류로는 WHERE
수직 결합에 사용한다.UNION은 결과에서 중복되는 행은 하나만 표시UNION ALL은 중복되는 행을 모두 표시Python에서의 데이터프레임 JOIN과 같다.INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL OUTER JOIN이 있다.FULL OU
각 서비스만의 Active User 찾는 것이 중요. ex. 어디까지 경험한 유저가 활성유저일까?DAU: Daily Active UserWAUMAU이탈율CVR(Conversion Rate): 특정 행동을 한 후, 전환된 비율CTR(Click Through Rate):
WHERE 절에서 AND가 OR보다 우선순위가 높다. 따라서 괄호로 묶어줘야 논리적으로도, 시각적으로도 문제가 없다.COALSECE vs IFNULL \- COALSECE는 SQL 표준함수, IFNULL은 MySQL에서만 사용 가능 \- COALSECE는 multi
DATEDIFF(END_DATE, START DATE)와 같이 END_DATE가 먼저 나와야 함.실제 일 수를 구하려면 +1을 하여 시작일을 포함시켜 주어야 함.문제일단 +보다는 슬라이싱이 연산 시간을 줄이는데 유리하다고 한다. 하지만 가장 신박하게 느껴졌던 것은 st
SQL 문법 집합연산 (1) A ∩ B (2) A- B (3) A ∪ B
문제list도 아니고 하나의 string이 정렬이 될 줄은 몰랐다. 정렬이 된다 쳐도 알파벳 대소문자 순서까지 적용될 지는 생각도 못했다. 문자열 정렬이 아스키 코드를 기준으로 실행된다고 한다. 그래서 대문자가 소문자보다 먼저 오고 reverse=True를 했기 때문에
내 코드의 경우 행과 열의 길이를 구해 빈 행렬을 만들어 놓은 뒤 각 위치에 해당하는 원소를 삽입하였다. 남 코드 1의 경우 zip을 포함한 for 문을 두 번 사용한 리스트 컴프리헨션으로 간결화 하였다. 빈 행렬을 만들어 놓을 필요가 없어 좀 더 용이한 것 같다.남
문제첫 번째로는 answer의 순서에 대해 헷갈렸었다. 분명 진법으로 변환하는 과정에서 실제 순서와 반대로 answer에 문자열로 삽입되기 때문에 어짜피 결과가 거꾸로 나와 answer\[::-1]를 할 필요가 없지 않나 싶었다. 하지만 생각해보니 뒤에 for문으로 1
Pandas의 문법 중 하나인 merge는 SQL 구문의 join과 유사하다.인덱스 기준으로 테이블을 병합한다.데이터프레임 또는 시리즈를 특정 축을 따라 연결하는 데 사용한다. 수직결합, 수평결합을 택할 수 있다.데이터프레임에 행을 추가한다.
교재2025 시나공 빅데이터 분석기사 실기 Python 사용교재는 주요 코드를 따라하는 형식으로 진행되며 챕터마다 연습문제가 배치되어있다.교재에 있는 링크에 코드 및 데이터가 업로드되어있어, 다운받아 ipynb로 한 줄씩 실행시켜보며 교재의 흐름을 따라가면 좋을 것 같
문제replace 생각 못해서 열심히 머리 굴린 것 치고는 나쁘지 않은 아이디어가 나왔다고 생각하지만, replace를 사용한 코드가 가독성이 너무 좋다.
pivot_table의 파라미터에 column이 필수가 아니라는 사실을 깨달았다. 막연하게 pivot_table이 groupby와 매우 비슷하다는 느낌을 받았는데, pivot_table로 할 수 있는 일 중에 groupby가 포함되어있기 때문이었던 것 같다.위 코드의
학기 중 ML/DL 쪽을 맛보고 있을 때도, 방학을 활용해 데이터 특강을 들었을 때도, Kaggle에 대해 수없이 많이 들었다. 관련 수업 다 듣고 감 잡히면 시도해보다가 익숙해지면 Competition도 참가해보겠다고 다짐했지만, 매번 시작하기가 어려워서 아이디만 만
문자열 칼럼을 숫자형 칼럼으로 바꾸다가 문득 pd.to_numeric()과 astype()의 차이가 궁금해졌다. 결론부터 말하자면 둘 다 각각의 쓰임이 있다고 한다.pd.to_numeric()의 경우 errors라는 옵션을 통해 변환할 수 없는 데이터를 처리하는 방식을
사용한 데이터는 Kaggle 음식 배달 데이터그동안 배운 전처리, 시각화를 활용하여 EDA를 해볼 예정이다.가능하다면 추가적인 분석도.엑셀로 보면 ID 컬럼이 인덱스로 되어있는데, '0x4607' 이런 난잡한 형식이기에 index_col없이 불러와 숫자를 인덱스로 삼았
이외에는 split()을 통해 불필요한 공백이나 문자열 제거 및 타입변경을 수행
아직 프로젝트가 한창 진행중이지만 학습과정에서는 느낄 수 없었던 부족함들이 프로젝트 하는 와중에 느껴져 정리해보려 한다.전처리 과정의 체계성 제로: 전처리를 할 때 순서없이 눈에 보이는 것부터 하다 보니까 다시 한 번 정리해야 해서 매우 비효율적이었다.결측치와 이상치를
게임 쪽에는 open api가 많아서 다양하고 라이브한 정보도 담겨있는 데이터들이 많을 줄 알았는데, 생각보다 입맞에 맞는 데이터를 찾기는 쉽지 않았다. 대시보드를 만들게 된다면 매출 현황같은 대시보드도 만들고 싶어 매출 관련 데이터가 있기를 바랐는데, 역시 BM과 관