[python] pandas / 데이터시각화 / 기초 통계분석

Seoyu Kwak·2025년 8월 6일

python

목록 보기
8/11





📌 6일차 배운 내용 목차



번호주제세부 내용
1pandas- Series, Dataframe
- 조건에 맞는 데이터 추출: loc, iloc
- boolean indexing
- 그룹화: groupby()
- 그룹함수: mean(), sum(), max(), min()
- 데이터 변환: apply(), map()
- 결측치 처리
2데이터 시각화- matplotlib
- 시각화 라이브러리: 히트맵 seaborn
3기초 통계 분석-






✏️1. pandas





✔️pandas란?

  • 데이터 분석과 처리를 위한 강력한 라이브러리
  • row(행)과 column(열) 구조의 데이터
  • 대규모 데이터 분석, 통계 처리, 데이터 시각화에 사용

✔️라이브러리 설치 및 import






DataFrame?

  • 2차원 데이터 구조(~~엑셀표 유사)
  • 여러개의 시리즈(열)로 구성된 테이블 형식













loc(location)

언제? : 조건에 맞는 데이터 추출

사용?
1) 데이터프레임.loc[행슬라이싱,열슬라이싱]
2) 데이터프레임.loc[행슬라이싱]








boolean indexing

: true, false를 활용한 데이터 추출








iloc(integer location)

언제? : 조건에 맞는 데이터 추출

사용?
1) 데이터프레임.iloc[행 인덱싱 정수, 열인덱싱 정수]
2) 데이터프레임.iloc[행 인덱싱 정수]








iloc vs loc

구분사용 조건 및 특징
loc- 불리안 인덱싱 사용 시
- [시작:끝]에서 끝 포함
iloc- 컬럼명을 모를 때
- for문 등에서 index를 활용한 행 위치 지정 시
- [시작:끝]에서 끝 포함 X










desccibe()

: 통계적 정보 제공








groupby()

: 그룹화
: ~별 ~ 구할때
: 그룹함수 : mean(),sum(),max(),min()












데이터 변환 / 데이터 복사 (얕은 복사, 깊은 복사)










결측치 처리









✏️1. 데이터 시각화





matplotlib?

데이터를 다양한 방법으로 도식화하는 라이브러리








Matplotlib 기초 함수 정리 (선 그래프)





plt.plot(x, y, marker='o')

  • 역할: x와 y 데이터를 기반으로 선 그래프를 그리는 핵심 함수입니다.
  • 설명:
    1) x = [1, 2, 3, 4, 5] (x축 좌표), y = [10, 20, 30, 40, 50] (y축 좌표)
    2)marker='o' 옵션을 사용하면 데이터 포인트마다 원형 마커가 표시됩니다.
    : 'o': 원형 , 's': 네모, '^': 삼각형 등 다양한 마커 제공

plt.title("Simple Line Plot")

  • 역할: 그래프의 제목을 설정합니다.
  • 설명: 그래프 상단에 "Simple Line Plot"이라는 제목이 나타나며, 그래프의 가독성을 높이는 데 사용됩니다.

plt.xlabel("X-axis")

  • 역할: x축의 레이블(이름)을 설정합니다.
  • 설명:
    1) "X-axis"라는 텍스트가 x축 아래에 표시되며, x축 값의 의미를 설명할 때 사용됩니다.
    2) fontsize=14 옵션으로 글씨 크기를 조절할 수 있고, color="blue"로 글자 색상 변경도 가능합니다.

plt.ylabel("Y-axis")

  • 역할: y축의 레이블(이름)을 설정합니다.
  • 설명:
    1) "Y-axis"라는 텍스트가 y축 왼쪽에 표시되며, y축 데이터의 의미를 설명할 때 사용됩니다.
    2) 역시 fontsize=14, color="blue"와 같은 옵션 사용 가능

plt.grid(True)

  • 역할: 그래프에 격자(grid) 선을 추가하여 데이터 위치를 더 쉽게 읽을 수 있도록 도와줍니다.
  • 설명:
    1) True: 격자 표시, False: 격자 제거
    2) linestyle='--': 점선, color='g서ray': 회색 선, alpha=0.7: 투명도 설정 가능

plt.show()

  • 역할: 그래프를 화면에 출력합니다.
  • 설명:
    1) Matplotlib은 여러 개의 그래프를 연속적으로 그릴 수 있으며, plt.show()를 호출하면 모든 그래프가 화면에 출력됩니다.
    2) 반드시 필요한 단계이며, 생략할 경우 그래프가 보이지 않을 수 있습니다.








예시(선그래프)








Matplotlib 기초 함수 (막대 그래프)

plt.bar(departments,departments)

  • 역할 : 막대 그래프를 생성하는 핵심 코드
  • 구조 : 범주형 데이터를 시각화할 때 자주 사용
    1) departments: x축에 표시될 범주 이름 (예: 부서 이름)
    2) departments: 각 범주에 해당하는 막대의 높이 (예: 평균 급여)








예시 (막대그래프)








파이 차트 (pie chart)


plt.pie()

  • 역할 :파이 차트를 생성하는 핵심 함수입니다.
  • 구조 : plt.pie(counts, labels=departments, autopct='%1.1f%%', startangle=90)
  • 주요 매개변수
    1)counts: 각 부서의 인원 수 → 파이 조각의 크기를 결정
    2)labels: 각 조각에 표시될 라벨 (예: 부서 이름)
    3)autopct='%1.1f%%': 각 조각에 퍼센트(%) 표시 (소수점 첫째 자리까지)
    4)startangle=90: 파이 차트의 시작 각도를 90도부터 설정하여 위쪽에서 시작








seaborn 히트맵

상관관계를 직관적으로 확인할 수 있는 도구

  • 진한 빨간색(+) : 강한 양의 상관관계( 1에 가까움)
  • 진한 파란색(-) : 강한 음의 상관관계 (-1에 가까움)









연습








산점도






✏️3. 기초 통계 분석





✔️ 상관계수 분석

  • 1에 가까울수록 양의 상관관계
  • -1에 가까울수록 음의 상관관계








0개의 댓글