Pandas 입문기 - 1

Seok-Hyun Lee·2020년 7월 16일
1

AI

목록 보기
1/3

인공지능을 배우고 싶어요!

"뭐부터 배워야 하지?"라는 막연한 생각 모두가 한번쯤은 했을거다. 나도 그랬다..
(뭐 대단한 말을 하려는 것 같지만 나도 초짜다..기대하고 왔다면 살포시 뒤로가기를 누르자)

작년 여름,나는 막연히 딥러닝에 대해 배우고 싶어서 딥러닝 스터디 모임에 들어가
Coursera에 올라와 있는 Andrew Ng 교수의 딥러닝 강의를 들었다.
(이거 진짜 유명하다 진짜다)
Andrew Ng 교수님이다. 벌써부터 강의를 잘 하실 것 같은 느낌이 들지 않는가

하지만, 새로운 것에 대한 배움의 즐거움도 잠시 스터디가 끝나고 바쁜 학교 생활을 하면서 끈을 계속 붙잡지 못하였다(핑계다)

이제 진지하게 다시 시작을 하려고 하니 그래도 나름 강의 좀 봤다고 무엇을 먼저 배워야 겠다는 확신이 들었다. 바로 데이터 전처리이다

데이터 전처리

왜 데이터 전처리가 중요한가.

모델을 만드는 것은 막상 강의를 보면서 따라 만들어보면 이론에 비해 쉽게 할 수 있다.
(여기서 중요한 것은 상대적이라는 것이다, 프로젝트마다 다르다)

근데 내가 딥러닝 모델(도형 판별기)을 만들면서 느꼈던 점은, 'Keras에서 제공하는 기능들과 강의에 나온 코드들을 적절히 활용하면 만들수 있겠다'라는 생각은 들었지만(지금은 못한다, 그땐 그랬다) 어떤 데이터를 어떻게 가공해야 최적의 결과를 얻을 수 있을까? 에 대해선 알지 못했다. 또한, 가지고 있는 데이터를 분석하고 시각적으로 표현하는 법도 몰랐기에 선뜻 Kaggle 에 있는 데이터들을 쓰지 못하고 데이터를 일일이 팀원과 같이 만들었다.
(그림 그리기를 했다는 말이다 얼마나 무식한 방법이었는가)

중요성

누가 한 말인지 모르겠지만 이런 말이 있었다, 데이터 과학에선

쓰레기를 넣으면 쓰레기가 나온다 (Garbage in, Garbage out)

라는 말이 있다. 노력해서 결과를 뽑았는데 쓰레기였다고 생각해보자 매우 무서운 말이다.
데이터 중요성에 대한 다양한 이유가 있지만 제일 임팩트있는 말이다.
이렇게 데이터 전처리는 전반적인 모델의 결과를 좌지우지한다.

Pandas

그래서 내가 제대로 알아야겠다고 생각한게 Pandas이다.
Pandas 는 파이썬 라이브러리 중 하나이고 과거 증권사에서 퀀트 트레이딩을 하던 웨스 맥키니(Wes Mckinney)가 R에서 영향을 받아서 만들었다.

특징

Pandas가 가지는 데이터 분석을 위한 라이브러리로써의 특징은 다음과 같다.

  • 행과 열을 주로 다룬다
  • 데이터 분석을 해볼 수 있다
  • 엑셀로 다루지 못하는 대용량 데이터를 다룰 수 있다
  • 머신러닝이나 딥러닝을 할 때 데이터 전처리를 쉽게 할 수 있다
  • 주로 시계열 데이터를 다루는데 유리하다
  • matplotlib 을 통한 데이터 시각화에 유리하다

이러한 이유로 Pandas 는 다양한 데이터 분석에 활용되며 ML 과 DL 을 하려면 Pandas를 마스터하는 것과는 별개로 기본적으로 활용할 줄 알아야 한다.

마무리

오늘은 Pandas에 대해 입문하게 된 계기와 함께 간단한 특징을 알아보았다.
별 정보는 없는 글이다. 도움이 될만한 정보가 있다면 앞으로 연재될 Pandas 내용들은 인프런 강의 중 박조은님이(강의가 매우 친절하다, 강추!) 강의하시는 단 두 장의 문서로 데이터 분석과 시각화 뽀개기 을 공부한 내용들이 주를 이룰 것이다. 하지만, 가장 중요한 것은 이 글의 목적은 내가 앞으로 Pandas 공부를 이어나가기 위한 수단이라 볼 수 있다.
마지막으로, 이글을 끝까지 읽은 당신 Pandas를 먼저 (간단히..)공부해보는건 어떤가..!

profile
Arch-ITech

0개의 댓글