pandas를 통해 데이터를 정렬하고 조회해보자!

박경현·2023년 9월 10일

저번에 신청했던 인공지능 수업에서 pandas 실습이 나와서 관련된 내용들을 정리해보려고 한다!

Pandas란?

pandas는 대용량 데이터를 파이썬에서 엑셀처럼 다를 수 있게 해준다!

data Frame : 행과 열로 되어있는 엑셀과 유사한 데이터
series : 데이터 프레임에서 행이나 열을 하나 가져온 것!

pandas 관련 문제 풀이와 설명

import pandas as pd

scores = [[60,70,80], [80,80,80], [50,45,56]] 
df = pd.DataFrame(scores, index=[1,2,3], columns=['국어', '수학', ' 영어']) # 1

new_scores = [90,80,70]
df['사회'] = new_scores  # 2

df.drop('사회', axis = 1) # 3

row = 0
col = '국어'
df[row, col] = 80 # 4

result = df.loc[ (df['국어'] >= 70) & (df['수학'] < 80)] # 5

# df = df.set_index(칼럼명) 

iris = pd.read_csv('iris.csv')
iris.shape # 6
iris.describe() # 7
iris.head(5) # 8

input_sum = 'sepal_weight'
iris = iris[input_column].mul(2) # 9

하나씩 설명을 해보겠다!

일단 데이터 프레임이라는 테이블을 만드려면 pd.DataFrame(2차원 데이터, index=, columns=)
저 코드를 사용하면 된다! index와 columns는 선택이지만 어떤 테이블인지 보여주기 위해 사용하는걸 추천한다!

이미 데이터프레임을 만들었더라도 df[칼럼명] = 1차원 데이터 => 이렇게 넣어주면 새로운 columns가 만들어진다! 데이터를 안 넣으면 그 부분은 NAN이 된다!

pandas의 장점이자 파이썬의 장점인데 인덱스에 접근하기 너무 편하다!

df[row,col] = val 하면 val값을 row, col에 넣을 수가 있다!!

df.drop('칼럼명', axis= 1) 하면 그 칼럼 세로 한줄이 칼럼명과 함께 삭제 된다!

인덱스명을 현재 있는 칼럼으로 바꾸고 싶다면 df = df.set_index(칼럼명) 이렇게 적으면 된다!

또한 인덱스에 접근할때 loc를 사용하면 위치가 아닌 칼럼명이나 인덱스명으로 접근이 가능하다!
df.loc[ (df['국어'] >= 70) & (df['수학'] < 80) ]

피드백과 향후 계획 -> D-6

판다스와 넘파이를 이용해 데이터 분석에 익숙해진다면
steamlit을 사용해서 간단한 분석 웹페이지를 만들 수 있고,

이걸 활용해서 공모전에 나가보려고 한다!!!
일단 계획한건 2-3개 정도 있고 다음주는 매우 바쁘게 살자!

SW로 문제를 해결하려는 열정만 있는 대학생

이전 포스트

어떻게 동기화를 유지할 수 있는걸까? -> 스핀락, 뮤텍스, 세마포어를 통해 살펴보자!

다음 포스트

numpy문제 풀이 + streamlit 기초 틀 이해하고 간단한 페이지 만들어보기

0개의 댓글