학습 개요 및 소개데이터 분석이란 단순히 데이터를 정리하는 것을 넘어, 데이터를 활용하여 의사결정을 지원하는 과정을 의미합니다. 데이터를 기반으로 이루어지는 의사결정은 조직의 성공을 위해 필수적입니다. 데이터 분석은 다음과 같은 다양한 질문에 답을 줄 수 있습니다:신규
2.1 BI와 Tableau의 중요성데이터 기반 의사결정(Data-driven)은 이전 성과를 이해하고 누적된 경험을 바탕으로 새로운 방향성을 도출하는 데 필수적입니다. 데이터는 비즈니스 의사결정을 위해 중요한 역할을 하며, 이를 통해 불확실성을 줄이고 보다 효율적인
BI Tool - TableauTableau: 시각적 분석 플랫폼Tableau는 데이터를 효과적으로 분석하고 시각화할 수 있는 강력한 플랫폼으로, 다음의 시각적 분석 주기를 따릅니다:Task: 해결해야 하는 과제 혹은 비즈니스적 질문을 정의합니다.Get Data: 올바
Tableau 설치 안내 1 - Tableau DesktopTableau Desktop 소개Tableau Desktop은 유료 소프트웨어로, 다음과 같은 특징과 이점을 제공합니다:유료 서비스:2주 무료 체험판을 제공하여 구매 전에 기능을 체험할 수 있습니다.학생 및 교
Tableau 설치 안내 2 - Tableau PublicTableau Public 소개Tableau Public은 무료로 제공되는 데이터 시각화 플랫폼으로, 다음과 같은 특징과 한계를 가집니다:무료 사용:누구나 무료로 다운로드하고 사용할 수 있습니다.Tableau P
1\. 왜 "시장"에서부터 출발할까?첫 주제: 시장 동향 파악용 대시보드 제작분석가는 내부 지표만으로 충분하지 않습니다.특히 비즈니스 분석가(BA)는 비즈니스 전략과 밀접하게 연결되어 있어야 합니다. 따라서 단순히 내부 데이터에만 집중하기보다 더 넓은 시야를 가지는 것
이번 분석에서 활용할 데이터는 통계청에서 매월 발표하는 온라인 쇼핑 동향 자료입니다.이 데이터는 우리나라 온라인 쇼핑 시장의 규모와 트렌드를 파악할 수 있는 대표적인 자료로, 비즈니스 분석 및 시장 이해에 널리 활용됩니다.데이터의 활용 목적온라인 쇼핑 시장 규모를 논할
집계된 형태의 데이터는 분석에 적합하지 않습니다. 이를 해결하기 위해 데이터를 재구조화해야 합니다.현재 데이터는 이미 총합 및 중간 집계값이 포함된 형태로 제공됩니다.이러한 형태의 데이터는 세부적인 분석이나 유연한 시각화 작업에 제약이 있습니다.pd.melt() 함수집
데이터 분석의 첫걸음은 데이터를 탐색하고 이해하는 것입니다. Python의 Pandas 라이브러리를 사용하여 데이터의 구조와 특성을 확인하고, 분석에 적합한 형태로 데이터를 준비할 수 있습니다.먼저, 데이터를 로드하고 주요 정보를 확인합니다:df.head(): 데이터프
데이터 분석과 시각화를 위해 가로로 넓게 펼쳐진 데이터를 세로형(long format)으로 변환해야 할 때가 있습니다. 이를 위해 Pandas의 melt() 함수를 활용합니다.다음은 기본적으로 melt()를 적용한 예제입니다:melt('상품군별(1)'): 특정 컬럼(상
melt()를 통해 데이터를 세로형(long format)으로 변환한 이후, 데이터를 다시 분석 목적에 맞게 피벗 테이블 형식으로 재구조화합니다. 이를 위해 Pandas의 pivot_table() 함수를 활용합니다.먼저, 변환된 데이터를 복사하여 작업합니다:pivot.
List Comprehension은 Python에서 리스트를 생성하는 간결하고 효율적인 방법입니다. 이를 사용하면 복잡한 루프를 단 한 줄로 작성할 수 있습니다.다음은 for 문을 사용하여 1부터 10까지의 숫자를 2배로 만든 리스트를 생성하는 예제입니다:출력 결과:
List Comprehension은 조건문을 추가하여 더욱 유연하게 리스트를 생성할 수 있습니다. 이를 통해 데이터를 필터링하거나 가공하는 작업이 간결해집니다.다음은 0부터 19까지의 숫자를 포함하는 리스트를 생성하는 기본 예제입니다:출력 결과: \[0, 1, 2, 3
데이터 분석 과정에서 문자열 데이터가 숫자형 데이터와 섞여 있으면 계산이나 분석에 문제가 생깁니다. 이를 해결하기 위해 데이터를 일관된 형식으로 변환해야 합니다.데이터프레임에서 거래액 컬럼에 숫자형(int)과 문자열(str)이 섞여 있는 경우를 처리해야 합니다. 특히,
데이터 타입 이슈를 해결한 후, 데이터를 pivot_table을 활용하여 요약하고 구조화할 수 있습니다. 이를 통해 분석에 적합한 형태로 데이터를 정리할 수 있습니다.Pandas의 pivot_table은 데이터를 요약하고, 특정 기준에 따라 집계 결과를 테이블 형식으로
데이터를 분석하기 전, 총합, 중간 집계 값, 불필요한 카테고리 등을 제거해야 합니다. 이 작업은 데이터의 정확성과 분석 효율성을 높이기 위한 필수 과정입니다.상품군별(1) 컬럼에서 "합계" 데이터를 제거합니다.!= '합계': "합계" 값이 포함된 행을 제거합니다.un
데이터 재구조화 6 - Lambda문자열 데이터 변환 및 정리데이터 컬럼에 포함된 특정 문자열을 제거하거나, 형식을 변환하여 분석에 적합한 형태로 만드는 작업은 전처리 과정에서 매우 중요합니다. Python의 lambda 함수와 apply() 메서드를 활용하여 간결하게
대량의 파일을 처리해야 할 때, 수작업으로 하나씩 작업하는 대신 Python으로 자동화하여 시간과 노력을 절약할 수 있습니다.초기에 파일을 하나씩 처리하는 코드는 다음과 같습니다:이 방식은 파일 수가 적을 때는 문제가 없지만, 대량의 파일을 처리할 경우 비효율적입니다.
Pandas에서 데이터를 변환할 때 가장 많이 사용하는 두 가지 함수는 pivot과 pivot_table입니다. 이 둘은 유사한 작업을 수행하지만, 특정 상황에서 사용하는 방식과 결과에 차이가 있습니다.아래는 예제로 사용할 데이터프레임입니다:데이터프레임의 구조는 다음과
Pandas의 melt, pivot_table, 그리고 concat 메서드를 사용하면 데이터 재구조화와 결합 작업을 효율적으로 처리할 수 있습니다. 이를 통해 데이터를 분석에 적합한 형태로 변환할 수 있습니다.아래는 예제로 사용할 데이터프레임입니다:데이터프레임의 구조는
대시보드 설계의 첫 단계는 "왜 이 대시보드를 만드는가?"를 명확히 하는 것입니다.Key Question을 정의합니다:새로운 기능 도입 → 체류시간 증가를 평가하는 성과 지표?인플루언서 광고 → 광고 성과를 확인하는 지표?사용자 접속 → 지역별 접속 패턴 분석?목표에
데이터 패널: 연결된 데이터 소스와 필드를 볼 수 있습니다.차원(Dimension): 범주형 데이터.측정값(Measure): 수치형 데이터.필드를 끌어서 선반(Shelf)에 추가하여 시각화를 생성합니다.행(Row) 및 열(Column) 선반:데이터를 축으로 드래그하여
데이터 필드는 데이터 원본의 열(Column)에서 만들어지며, Tableau는 데이터 유형과 역할을 자동으로 할당합니다.데이터 유형: 정수, 실수, 문자열, 날짜, 불리언 등.역할: 차원(Dimension) 또는 측정값(Measure).\*정성적 값(범주형 데이터)\*
정의: 끊김 없이 연속적인 값으로 구성된 데이터.표현 색상: 녹색.특징:값들이 무한한 범위를 가진다고 가정.일반적으로 축(Axis)을 생성합니다.수치형 데이터와 날짜 데이터가 주로 연속형으로 사용됨.필드의 값이 숫자처럼 연속적으로 변할 때 적합.연속형 측정값:SUM(P
데이터셋에 포함된 날짜 필드의 형식을 확인합니다.날짜 필드가 문자열로 되어 있다면, Tableau에서 날짜 필드로 변환하려면 해당 문자열이 어떤 형식으로 저장되어 있는지 알아야 합니다.예:2023-01-10 → 형식: yyyy-MM-dd01/10/23 → 형식: MM/
\*로캘(Localization)\*\*은 Tableau가 날짜 문자열을 해석할 때 사용하는 언어 및 형식 규칙입니다.문자열에서 월 이름(예: Sep, September) 또는 시간 값이 로캘에 따라 다르게 해석됩니다.예: 영어 로캘에서는 Sep을 9월로 인식하지만,
대시보드는 다음 세 가지 질문에 답할 수 있어야 합니다:시장의 성장세/하락세를 확인할 수 있는가?상품군별 비중을 비교할 수 있는가?기별 상품군 소비 형태를 분석할 수 있는가?기간: 데이터를 분석하는 기준 기간(예: 연도, 분기, 월 등).단위: 데이터를 측정하는 단위(
Google이 Looker를 인수한 후, 잘 알려진 Google Data Studio가 Looker Studio로 리브랜딩되었습니다. 이는 Data Studio의 친숙한 기능을 유지하면서 Looker 생태계와의 통합을 강화한 것입니다.쉽고 빠른 데이터 소스 연결Look
측정기준과 측정항목(필드 또는 통칭)은 차트에 표시되거나 보고서의 컨트롤에 의해 처리된 데이터가 포함됩니다.측정기준집계되지 않은 데이터를 포함합니다.이름, 설명, 색상, 크기 등 데이터의 특성을 나타내는 데이터 카테고리로 볼 수 있습니다.차트에 추가된 측정기준은 데이터
피봇 테이블 (Pivot Table) - Looker Studio 스터디 노트피봇 테이블은 데이터를 요약하고 분석하기 위한 강력한 도구로, 데이터를 특정 기준에 따라 그룹화하거나 비교할 수 있는 유연성을 제공합니다. Looker Studio에서는 간단한 드래그 앤 드롭
Looker Studio에서 PARSE_DATE 함수는 문자열 형식의 날짜 데이터를 분석하여 날짜 형식으로 변환하는 데 사용됩니다. 이 함수는 데이터 정리와 시계열 차트를 생성하는 데 매우 유용합니다.PARSE_DATE('날짜 형식', '변환할 문자열')날짜 형식: 변
이커머스 데이터 분석과 지표 - 스터디 노트비즈니스는 측정을 통해 발전합니다.액션을 취한 뒤 결과가 좋았는지 나빴는지 평가할 수 있어야 합니다.구체적인 목표를 설정하고 성공 여부를 판단하며 우선순위를 개선해야 합니다. 이 과정에서 데이터를 분석하는 능력과 지표에 대한
Data Warehouse(데이터 웨어하우스)는 대량의 데이터를 체계적으로 저장하고 관리하며 분석이 가능하도록 설계된 시스템입니다. 이는 데이터베이스와 직접 연결하기보다는 중간에 위치하여 데이터를 효과적으로 통합하고 제공하는 역할을 합니다.\*Google Cloud P
비즈니스 분석의 핵심은 큰 그림에서 시작해 세부 사항으로 파고드는 것입니다. 이는 문제를 효과적으로 파악하고 해결책을 도출하는 데 중요한 접근 방식입니다.큰 그림: 돈을 많이 썼다.질문: 외식? 쇼핑? 치과?구체적 지표:고정 지출은 이상 없음.변동 지출이 많아졌다.큰
판매대금 ↔ 수수료 판매자는 소비자가 지불한 금액에서 플랫폼이 차감하는 수수료를 제외한 실제 매출을 받습니다. 거래된 총 금액 (GMV): 플랫폼을 통해 거래된 총 금액을 의미합니다.결제금액: 소비자가 결제한 실제 금액.최종적으로 소비자는 상품 또는 서비스를 구매하
매출은 비즈니스의 핵심 성과 지표로, 간단히 말해 "우리가 얼마나 벌었는가?"를 나타냅니다. 이는 다음과 같은 기본 공식을 통해 계산할 수 있습니다:매출 = 판매 건수 × 건당 평균 매출액우리는 몇 건을 팔았는가?주문 수: 특정 기간 동안 들어온 총 주문 건수.건당 평
건당 주문 금액 = 평균 주문 금액은 고객이 한 번의 주문에서 지출한 금액을 나타냅니다. 이는 다음과 같은 공식을 통해 계산됩니다:건당 주문 금액 = 구매 수량 × 단가매출 = 주문 건수 × 건당 평균 금액이를 더 세부적으로 나누면:주문 수 (a) = 주문 고객 수 (
매출 = 판매 금액 총합들어온 주문 수 = 주문 건수 세기건당 주문 금액 = 판매 금액 / 주문 건수테이블 이름: olist_orders테이블 이름: olist_order_items위 쿼리들은 olist_orders와 olist_order_items 데이터를 사용해 매
olist_orderscustomer_id가 매 주문 건마다 새로 생성됩니다.주문 테이블 내 주문 건수와 고객번호 수는 일치합니다.서로 다른 customer_id가 같은 고객일 수 있습니다.고객 정보 테이블에 customer_unique_id가 존재합니다.olist_o
Explanation:DATE(연, 월, 일): 지정한 연도, 월, 일을 기준으로 DATE 객체를 생성합니다.DATETIME: 시간 포함 데이터에서 날짜 부분만 추출합니다.TIMESTAMP: 특정 시간대 기준으로 날짜를 변환합니다.Reference: 한국 시간대 → '
HOUR: 시간MINUTE: 분SECOND: 초Result:Result:시간 데이터에서 특정 부분만 필요할 때 EXTRACT 함수는 매우 유용합니다.주의할 점: 요일(DAYOFWEEK)과 주(WEEK)는 기준 시작일(일요일/월요일)에 따라 결과가 달라질 수 있습니다.다
데이터 분석 과정을 진행할 때, 막대 그래프(Bar Chart)는 범주형(또는 이산형) 변수가 갖는 값을 시각적으로 확인하는 데 매우 효과적입니다. 이번 포스팅에서는 직급(JobLevel)과 월급(MonthlyIncome) 간 관계를 막대 그래프로 살펴보면서, 직급별
데이터가 많거나, 분석해야 할 범주(부서 등)가 여러 개인 경우에는 한 화면에 담기가 쉽지 않습니다. 이럴 때 Seaborn의 FacetGrid를 활용하면, 특정 범주를 기준으로 여러 개의 서브플롯을 한 번에 생성할 수 있어 다차원으로 데이터를 살펴보기에 매우 편리합니
데이터 분석에서 숫자형 변수 두 개를 가지고 선형적인 관계를 시각적으로 파악하고 싶다면, Seaborn의 regplot()을 활용해 볼 수 있습니다. 이번 포스팅에서는 나이(Age)와 월급(MonthlyIncome) 간의 관계를 회귀선(Regression Line)으로
데이터 분석 과정에서 여러 변수를 동시에 시각화하고 싶을 때, 한 화면에 여러 그래프를 나란히 배치하면 비교가 훨씬 수월해집니다. 이번 포스팅에서는 파이썬의 enumerate() 함수와 plt.subplot()을 함께 사용하여, 하나의 Figure 안에 두 개 이상의
데이터 분석을 하다 보면 두 숫자형 변수가 서로 어떤 식으로 관계 맺고 있는지 궁금할 때가 많습니다. 이때 산점도(Scatter Plot)만 봐서는 한쪽 또는 양쪽 변수의 분포(Distribution)까지 확인하기가 까다로울 수 있는데요.Seaborn의 jointplo
MySQL을 설치하고, DBeaver를 사용해 로컬(MySQL 서버)로 연결한 다음 CSV 파일을 불러와 간단한 SELECT 쿼리까지 실행하는 과정을 단계별로 정리했습니다. 또한, DBeaver의 기본 설정(테마, 글꼴, SQL 편집기 설정 등) 팁도 함께 다뤄보니,
데이터베이스를 다루다 보면, 단순히 행(Row)을 조회하는 것만으로는 충분하지 않을 때가 많습니다. 예를 들어, 부서별 평균 급여를 구하거나, 제품별 판매량 합계를 알고 싶다면, GROUP BY 구문과 집계 함수를 활용해야 합니다. 이번 글에서는 SQL에서 자주 쓰이는
데이터를 조회할 때, 정렬은 아주 빈번하게 쓰이는 기능 중 하나입니다. 예를 들어, 직원 목록을 월급이 높은 순으로 보고 싶거나, 영업 데이터를 날짜가 빠른 순으로 확인하고 싶을 때가 있죠. 이럴 때 사용하는 구문이 바로 ORDER BY입니다. 이번 글에서는 ORDER
1은 True, 0은 False MySQL이나 MariaDB와 같은 대부분의 SQL 계열 데이터베이스에서 비교 연산이나 논리 연산 결과를 정수(1 또는 0)로 반환합니다. 1은 참(True)을, 0은 거짓(False)을 의미합니다. 이 특징을 WHERE 절에 활용할
참고대부분의 SQL 데이터베이스(MySQL, MariaDB 등)에서는 이런 논리/비교 연산의 결과를 1(참, TRUE) 또는 0(거짓, FALSE)로 반환합니다.3 IN (0,1,2,3)는 숫자 3이 지정된 목록(0,1,2,3)에 있는지 확인합니다. 있으므로 참(1).
MySQL에서 숫자를 정수로 다룰 때 사용되는 자료형은 다음과 같이 크게 5가지가 있습니다.SIGNED: 음수와 양수를 모두 저장 가능. (예: 128 ~ 127 for TINYINT)UNSIGNED: 음수를 제외하고 양수만 저장 가능. 대신 최대 양의 범위가 SIGN
Windows보통 파일 시스템 자체가 대소문자를 구분하지 않음 (case-insensitive).따라서 Windows 환경에서 MySQL도 디폴트 설정 시 테이블 명/컬럼 명의 대소문자를 엄격하게 구분하지 않습니다.Linux파일 시스템이 대소문자를 구분 (case-se
JOIN은 말 그대로 “결합”이라는 의미이며, 두 개 이상의 테이블을 합쳐 하나의 결과로 만드는 것을 말합니다.하나의 테이블만으로는 부족한 정보(예: 주문 테이블 + 고객 정보 테이블)를 연결해서 볼 때 주로 사용됩니다.대표적인 JOIN 유형:INNER JOINLEFT
JOIN여러 테이블을 연결(Join)하여 데이터를 합쳐서, 더 풍부한 정보를 얻음.예) hr.hr_cate 테이블에는 부서 정보(Department), 교육 분야(EducationField) 등 속성 정보가 있고, hr.hr_number 테이블에는 직원 번호(Emplo
집계 결과를 기존 데이터(각 행)에 추가해 보여줌GROUP BY를 쓰면 결과가 “그룹별로 단 1행”으로 요약되지만,Window 함수는 각 행을 모두 유지한 채로 추가 열(Column)로 집계 결과를 볼 수 있습니다.합계, 평균, 순위 매기기, 순서 조작 등대표적인 예시
LEAD는 “다음 행(N칸 뒤)의 값”을, LAG는 “이전 행(N칸 앞)의 값”을 현재 행에서 조회할 수 있도록 해주는 윈도우 함수(Window Function)입니다.기본적으로 N=1 → 바로 다음/이전 행N을 지정해 2행 뒤, 3행 뒤 등 더 멀리 떨어진 행의 값을
Microsoft Power BI 사이트 접속공식 다운로드 페이지에 접속합니다.또는 Microsoft Store(윈도우 스토어)에서 “Power BI Desktop”을 검색해 다운로드할 수도 있습니다.설치 파일 실행다운로드한 .exe 파일을 실행하여 설치 마법사(Ins
Power Query Editor 열기Power BI Desktop → “홈(HOME)” 탭 → “데이터 변환(Transform data)” 클릭.합칠 열 선택Ctrl(또는 Shift)을 누른 상태로 병합할 열을 차례대로 클릭해 동시에 선택합니다.열 병합 실행상단 메뉴
Power Query Editor에서, 상단 변환(Transform) → 텍스트 형식(Format) 메뉴를 통해 텍스트 데이터를 일괄적으로 바꿀 수 있습니다.소문자로 변환: 예) ABC -> abc대문자로 변환: 예) abc -> ABC이를 통해 일관된 케이스(Case
<expression>: SUM, AVERAGE, COUNT, DISTINCTCOUNT 등 집계 함수를 지정<filter>: 테이블\[컬럼] = "값" 같은 조건을 넣어, 해당 조건만 적용한 상태에서 <expression>을 계산예) CALCULATE(
데이터 링크: Historical Sales and Active Inventory내용:Historical: 이미 판매 이력이 있는 상품과 해당 판매량/가격 정보.Active: 현재 재고로 보유 중인 상품. 일부는 실제로 판매 이력이 없을 수도 있음.일부 상품은 1년에
재고 관리에서 사용하는 최소 단위 코드예: 상품 A, 상품 B가 서로 다른 특성을 가진다면 각각 1개의 SKU로 구분실제 상품의 개수예: SKU A가 3개 있으면 “3 Units”SKU별 몇 개의 상품이 있는지 의미예: SKU A(3 Units) + SKU B(2 Un
또는case_value: 비교할 대상(주로 하나의 컬럼 값)when_value: 비교하고자 하는 값(=, >, LIKE 등 조건 가능)search_condition: 여러 컬럼을 조합하거나 복잡한 조건식을 쓸 때 사용ELSE: 모든 when 조건에 해당하지 않을 때 반
보통 SQL에서 FROM table_name 위치에 하위 쿼리(SELECT ...)를 넣어,그 결과를 임시 테이블처럼 사용하는 기법입니다.이런 방식을 통해, 필요한 컬럼만 미리 집계/가공한 뒤 최종 쿼리에서 재활용함으로써 연산량을 줄일 수 있습니다.위 예시는 ORIGI
Inven_unit(재고 단위 수)보유 재고(수량)가 얼마나 많은지 상/중/하 위치에 따라 구간을 나눔예: 상위 10%, 10~50%, 50% 초과 등으로 구분Month of coverage간단히 “현재 재고가 몇 개월 동안 판매를 커버할 수 있는가?”수식:Month
Step 1: sku_1이라는 임시 집계 테이블 만들기각 sku_number별 file_type, inven_unit, sold_unit 계산예) Active/Historical + soldflag 조합으로 “1. Active”, “2. Semi-Active”, “3.
table: 계산의 대상이 될 테이블(또는 필터가 적용된 테이블 표현식)expression: 테이블의 각 행에 대해 실행할 계산식(예: column1 \* column2, IF(...) 등)일반적인 SUM 함수 vs. SUMXSUM(): 특정 컬럼 값(숫자형)을 그대로
구문:설명:SWITCH 함수는 특정 표현식의 값을 평가한 뒤, 해당 값과 일치하는 결과를 반환합니다. 조건이 많은 경우 if-else 구문보다 간결하게 표현할 수 있어 가독성과 유지 보수성을 높여줍니다.매개변수:: 평가할 표현식입니다. 예를 들어, 특정 열(column
Supply Chain Management – 공급망 관리SCM은 생산자, 공급자, 고객에 이르는 물류의 흐름을 하나의 가치사슬 관점에서 파악하고, 공급망의 구성요소들 간에 이루어지는 전체 프로세스 최적화를 목표로 하는 경영 혁신 기법입니다.주요 구성 요소:Manufa
Inventory Workflow는 공급망에서 재고의 흐름을 시각화하여 이해를 돕는 중요한 과정입니다. 주요 단계는 다음과 같습니다:입고 (Inbound):재고가 창고에 들어오는 단계로, 공급업체로부터 상품을 발주하고 납품받습니다.이 과정에서는 주문, 납품, 대금 결제
DATEDIFF 함수는 두 날짜 간의 차이를 특정 시간 단위로 계산하는 데 사용됩니다. Power BI 및 DAX를 활용한 데이터 분석에서 자주 사용되는 함수로, 시간 기반 데이터의 간격을 측정하는 데 유용합니다.매개변수:: 첫 번째 날짜 값 (스칼라 날짜/시간 값).
Waterfall Chart는 데이터의 변동 요인을 시각화하여 비교 분석할 수 있는 강력한 도구입니다. 이 차트는 X축의 특정 요인(시간, 카테고리 등)에 따른 변동(Gap)을 시각적으로 표현하며, 양수 또는 음수 Gap의 누적 효과를 한눈에 이해할 수 있습니다. 주로
병합할 테이블 선택첫 번째 테이블(예: Sales)과 두 번째 테이블(예: D_Inventory_Price)을 선택합니다.조인 조건 지정두 테이블 간의 공통 열(예: InventoryId)을 선택하여 병합 조건을 설정합니다.조인 유형 선택Power BI에서는 다양한 조
DAX(Data Analysis Expressions)는 날짜 데이터를 효과적으로 다룰 수 있는 다양한 함수를 제공합니다. 이 글에서는 Power BI와 DAX에서 자주 사용되는 날짜 함수들을 정리하고, 그 구문과 활용 방법을 소개합니다.설명:CALENDAR 함수는 시
Power BI의 방사형 게이지 차트는 원형 형태의 시각화 도구로, KPI(핵심 성과 지표)를 추적하거나 목표에 대한 진행 상태를 효과적으로 보여줍니다. 목적:목표값(Target) 대비 현재값(Value)을 시각적으로 표현.진행률(Progress) 및 성과 지표를 한눈
Power BI에서 KPI(핵심 성과 지표) 시각화는 측정 가능한 목표에 대한 진행률을 나타내는 데 매우 유용한 도구입니다. KPI 시각화를 통해 목표와 현재 성과를 빠르고 직관적으로 비교할 수 있습니다.KPI를 사용하는 것이 적합한 경우는 다음과 같습니다:진행률 측정
DAX(데이터 분석 식)는 Power BI와 같은 도구에서 데이터를 집계하고 분석하는 강력한 언어입니다. 이번 글에서는 자주 사용하는 AVERAGEX, FILTER, ALL 함수의 개념과 활용법을 살펴본 뒤, 이를 활용한 Weekday Sales Goal 예제를 소개합
데이터 분석가는 수집된 데이터를 활용해 비즈니스와 프로젝트에 필요한 인사이트를 제공합니다. 이를 위해 데이터가 다루어지는 전 과정에서 적절한 도구와 기술을 활용하는 것이 중요합니다. 본 글에서는 데이터 분석의 주요 단계를 수집, 처리, 분석, 리포팅으로 나누어 설명합니
데이터 분석을 처음 배울 때, 적합한 데이터셋을 선택하고 이해하는 것은 매우 중요합니다. 이번 글에서는 Kaggle에서 제공하는 Iowa Liquor Sales 데이터셋을 소개하고, 이 데이터를 활용해 상점별, 제품별 판매량을 분석하는 방향성을 제시합니다.이 데이터셋에
데이터 분석가는 실무에서 다양한 비즈니스 요구를 처리하며, 주어진 데이터를 기반으로 의미 있는 인사이트를 도출합니다. 이번 글에서는 실제 데이터 분석 프로젝트에서 자주 접할 수 있는 요구 사항과 그 해결 과정을 단계별로 살펴보겠습니다.비즈니스 요구:특정 데이터셋(A,
Apache Spark는 분산 클러스터 컴퓨팅을 위한 오픈소스 프레임워크로, 대규모 데이터를 병렬로 처리할 수 있도록 설계되었습니다.주요 특징:범용적인 빅데이터 분석 도구SQL, 스트리밍 데이터 처리, 머신러닝, 그래프 분석 등을 지원고속 데이터 처리를 위한 인메모리
PySpark는 Python 환경에서 Apache Spark를 사용할 수 있도록 제공되는 API입니다. Apache Spark의 강력한 기능을 Python에서 쉽게 활용할 수 있게 해주는 인터페이스로, 빅데이터 처리와 분석에 특화되어 있습니다.PySpark의 구성:Py
PySpark는 Python에서 대규모 데이터 처리를 가능하게 해주는 강력한 도구입니다. 아래는 PySpark 환경을 설정하는 데 필요한 단계를 정리한 내용입니다.PySpark를 사용하기 위해서는 JDK와 Spark 설치가 필요합니다. 또한, Python 환경에서 Sp
PySpark 환경을 설정하려면 아래의 명령어를 차례로 실행합니다:apt-get: 시스템에서 패키지 설치, 검색, 업데이트 등을 수행합니다.wget: 웹 상의 파일을 다운로드 받을 때 사용하는 명령어입니다.tar: 여러 파일을 묶거나 압축을 풀 때 사용합니다.pip:
PySpark에서 결측치를 확인하려면 아래의 코드를 사용할 수 있습니다:select: 특정 컬럼만 선택하여 연산을 수행합니다.count: 데이터프레임의 행 개수를 계산합니다.when: 조건문을 작성하여 특정 조건을 만족하는 데이터를 반환합니다.isnull: 해당 값이
SQL 쿼리를 사용하려면 데이터프레임을 임시 뷰로 등록해야 합니다:SQL 쿼리를 사용하여 데이터 선택:DataFrame API는 Action 또는 Transformation을 사용합니다.SQL Query는 항상 새로운 데이터프레임을 반환하며, select 구문이 필수입
PySpark의 데이터프레임을 Pandas 데이터프레임으로 변환하려면 toPandas()를 사용합니다:시각화 필요: 대부분의 시각화 라이브러리는 Pandas를 기반으로 동작합니다.메모리 의존: Pandas는 데이터를 메모리에 로드하므로, 대용량 데이터에는 적합하지 않지
산업의 전반적인 성장세를 파악하기 위해 매출과 상점 수의 변화를 분석합니다. 이를 통해 매출 성장과 상점 수 증가가 산업의 성장 가능성을 보여주는지 확인할 수 있습니다.groupBy: 데이터를 연도별로 그룹화.sum: 각 그룹의 매출 합계 계산.countDistinct
영업이익은 영업 활동을 통해 순수하게 남은 이익을 의미합니다. 이는 다음과 같이 정의됩니다:영업이익 = 매출액 - 매출원가 - 기타 비용본 데이터에서는 각 점포 당 기타 비용이 모두 동일하다고 가정하여, 매출액 - 매출원가를 통해 영업이익을 계산했습니다. 실제 상황에서
누적 매출(Running Total) 시각화는 비즈니스 성장 추세를 파악하는 데 중요한 도구입니다. 이와 함께 Running Functions(최대값, 합계, 평균 등)를 활용하면 데이터에 대한 다양한 관점을 제공할 수 있습니다. 이 글에서는 누적 매출을 중심으로 Ru
비즈니스 데이터를 분석할 때, 전월 대비 매출 성장 정도를 파악하는 것은 매우 중요한 작업입니다. 이는 특정 기간 동안의 성과를 비교하고, 성장 추세나 감소 원인을 분석하는 데 도움을 줍니다. Tableau에서 Lookup 함수를 사용하면 이러한 전월 대비 매출 성장
매출 데이터를 분석할 때, 아이템 매출 순위를 파악하는 것은 가장 인기 있는 상품을 이해하고, 전략적 의사결정을 내리는 데 도움을 줍니다. Tableau에서 FIXED와 INDEX 함수를 활용하면 특정 조건에 따라 매출 상위 20개 아이템을 쉽게 분석하고 시각화할 수
비즈니스 데이터 분석에서 도시별, 스토어별, 아이템별 매출 데이터를 상세히 분석하는 것은 지역 및 매장 수준의 성과를 파악하고, 제품 전략을 최적화하는 데 중요합니다. Tableau의 TOTAL 함수를 활용하면 데이터를 다양한 집계 수준에서 효과적으로 분석할 수 있습니