데이터 분석 2-1~2 데이터 마이닝을 위한 기본 세팅

addison·2022년 3월 27일
0

데이터 분석

목록 보기
13/48

2-1 2주차 배울 것

1) 2주차 오늘 배울 것

[수업 목표]
1. 판다스와 데이터프레임 사용법에 대해 복습한다.
2. 형태소 분석과 워드 클라우드를 실습해본다.
3. 머신러닝 기법을 이용해 분류하기를 실습해본다.

👨‍🏫 본격적으로는 '택스트 분석'. 텍스트를 어떻게 가공할수 있는지, 가공된 택스트를 가지고 결과를 어떻게 예측할 수 있는지. ex)영화의 줄거리로 장르를 예측한다던지.
코드자체가 어려울수 있어도 결과를 보면 이런것도 되는 구나 라고 신기한걸 경험할 수 있다.

1주차의 연장선, 배운 내용을 조금 분석하고 형태소 분석 ( 문장이 있을때 어떻게 형태소 단위로 나누는가 단어단어로 나눌수 있는가) 그 뒤에는 이미지 형태로 텍스트가 배치 되어있는것을 확인가능 한데 이것을 워드클라우드 라고 함. 어떻게 만들수 있는지 실습 진행
그다음 줄거리를 가지고 어떤 장르에 속할 것이다 라고 예측하는 머신러닝 모델을 같이 만들어 볼 것이다. 이 부분이 코드로 나타내면 엄청나게 긴 코드가 아님. 개념이 어려운 거지.
머신러닝 이라고 해서 엄청 어려운게 아니고 생각보다 간단하고 대게 재밌을거에요.

2) 파이썬을 공부한다는 것

👨‍🏫 파이썬을 처음 공부하시는 분들은 익숙해지지않았는데 크롤링 하고 함수를 만들고 하는데 거부감 느낄수 있을수도 있을거같다. 간단하게 어떻게 공부하면 좋을지 말씀드리겠다.

💡 파이썬을 처음 공부하는 많은 분들이 복습을 어떻게 해야할 지 막막해 합니다.사실 기억할 것과 기억하지 않아도 괜찮은 것들이 엄연히 있어서 이 부분에 대해서 가이드를 드리겠습니다.

👨‍🏫 코드를 다 외워야 하나? 생각할 수 있는데 어느정도 외우는 것도 있지만 자주 쓰이지 않는 코드는 그때그때 검색해서 코드짜는데 사용한다. 모든 코드를 다 배우는것은 과유불급니다. 이런 패키지들. 절대 안외워도 됨. 강의안에 있는것 복사 붙여넣기 하면서 해도 상관없다.
그런데 몇가지 외워야 할 것은 df.head(), df.tail(), df.info() 등등.. 간단하면서 출력하고 확인하는 것들만 짧게짧게 외우시면 됩니다. 실습 진행하다 보면 외워지는 순간도 올 것이다.

  1. 패키지 이야기

반드시 기억해야 할 것

  • pandas를 사용해서 데이터프레임을 다루는 코드들은 모두 암기해주세요. 예를 들어서 df~로 시작하는 코드들은 필수 암기 대상입니다.

반면에 이런 패키지도 있구나 하고 넘어가고 사용 방법은 굳이 암기하지 않아도 되는 패키지나 함수는 다음과 같습니다.

  • KoNLPy : 한국어 텍스트 처리에서 문자열을 토큰화 하기 위해서 사용하는 형태소 분석기이다.
  • Counter : 단어들을 카운트 할 때 사용한다.
  • WordCloud : 워드 클라우드 패키지이다.
  • np.hstack, np.concatenate : Numpy 함수

★★★ 위 패키지들의 사용법을 달달 암기할 필요는 전혀 없습니다. 이런 패키지도 있구나! 정도만 기억을 하시고, 나중에 정말 필요할 때는 사용법을 검색하거나 강의자료의 코드를 복사 + 붙여넣기로 재사용하면 되고, 실제 현업에서도 그렇게 하는 겁니다.

  1. 조금 어려워요!

    리스트 컴프리헨션은 파이썬 초급에서는 조금 이해하기 어려운 개념인 것은 사실입니다. 하지만 몇 차례 사용해보면 금방 익숙해집니다. 오늘은 처음이니까 이런 것도 있구나하고 이름과 개념만 얼추 기억만 해둡시다.

    참고: https://wikidocs.net/22805

  2. 현재 실습의 난이도

    • 현재 실습의 난이도는 신입 데이터 분석가가 실제 현업에서 수행할만한 난이도입니다. 처음 접하는 여러분들이 어려운 것은 당연합니다. 너무 부담가지지말고 전체적인 데이터 분석의 과정을 경험해보는 것에 의의를 가져봅시다. 지금은 조금 어렵지만, 3주차, 4주차 정도 진행하고나서 다시 처음부터 복습해보면 보이는 것이 달라져 있을 겁니다.
    • 파이썬에 대한 공부는 끝이 없습니다. 여러분들이 빠르게 성장하는 가장 좋은 방법은 파이썬 공부도 계속 병행하는 것입니다. 사실, 여러분들이 5주차 강의까지 제 강의에만 의존하지 않았으면 좋겠습니다. 파이썬 자체를 공부하는 것은 데이터 분석을 하는 것과는 다른 이야기이기 때문입니다. 아래에 여러분들이 2-3일 정도 각잡고 빠르게 볼 수 있는 파이썬 기초 자료를 소개드리겠습니다. 아래의 실습도 Colab에서 하시면 훨씬 편합니다. 아래의 실습을 진행하다가 막히는 것 또한 편하게 질문하셔도 괜찮습니다.
    • 점프 투 파이썬 : https://wikidocs.net/book/1

👨‍🏫 그냥 넘어가지 말고 반복학습 하면서, 복습 때는 조금식 다르게 코드가 보일 것이다. 전문가는 어려워도 반복해서 학습하고 노력하면 쉽게 다가온다. 파이썬 공부도 끝이없고 데이터분석 공부도 끝이 없어요. 몇년차 개발자도 계속 새로운걸 공부해요. 그래야만 데이터 분석 트랜드를 따라갈수 있고, 계속 새로운 알고리즘, 모델들이 계속 나오는데 계속 공부해야만 트렌드를 따라가는 좋은 데이터분석가가 된다. 꼭 반복학습. 제쳐두지 말고.


2-2 텍스트 마이닝을 위한 기본 세팅

1) Colab에서 한글 사용을 위한 세팅

한글 세팅 코드 : Colab 연결 할때마다 세팅해야 함 -> 한글 폰트가 코랩에 등록 됨.

import matplotlib as mpl
import matplotlib.pyplot as plt
 
%config InlineBackend.figure_format = 'retina'
 
!apt -qq -y install fonts-nanum
 
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic') 
mpl.font_manager._rebuild()

런타임-런타임 다시시작

2) csv 파일 업로드와 데이터 로드

파일 드레그

news_data.csv

0개의 댓글