[수업 목표]
1. 판다스와 데이터프레임 사용법에 대해 복습한다.
2. 형태소 분석과 워드 클라우드를 실습해본다.
3. 머신러닝 기법을 이용해 분류하기를 실습해본다.
👨🏫 본격적으로는 '택스트 분석'. 텍스트를 어떻게 가공할수 있는지, 가공된 택스트를 가지고 결과를 어떻게 예측할 수 있는지. ex)영화의 줄거리로 장르를 예측한다던지.
코드자체가 어려울수 있어도 결과를 보면 이런것도 되는 구나 라고 신기한걸 경험할 수 있다.
1주차의 연장선, 배운 내용을 조금 분석하고 형태소 분석 ( 문장이 있을때 어떻게 형태소 단위로 나누는가 단어단어로 나눌수 있는가) 그 뒤에는 이미지 형태로 텍스트가 배치 되어있는것을 확인가능 한데 이것을 워드클라우드 라고 함. 어떻게 만들수 있는지 실습 진행
그다음 줄거리를 가지고 어떤 장르에 속할 것이다 라고 예측하는 머신러닝 모델을 같이 만들어 볼 것이다. 이 부분이 코드로 나타내면 엄청나게 긴 코드가 아님. 개념이 어려운 거지.
머신러닝 이라고 해서 엄청 어려운게 아니고 생각보다 간단하고 대게 재밌을거에요.
👨🏫 파이썬을 처음 공부하시는 분들은 익숙해지지않았는데 크롤링 하고 함수를 만들고 하는데 거부감 느낄수 있을수도 있을거같다. 간단하게 어떻게 공부하면 좋을지 말씀드리겠다.
💡 파이썬을 처음 공부하는 많은 분들이 복습을 어떻게 해야할 지 막막해 합니다.사실 기억할 것과 기억하지 않아도 괜찮은 것들이 엄연히 있어서 이 부분에 대해서 가이드를 드리겠습니다.
👨🏫 코드를 다 외워야 하나? 생각할 수 있는데 어느정도 외우는 것도 있지만 자주 쓰이지 않는 코드는 그때그때 검색해서 코드짜는데 사용한다. 모든 코드를 다 배우는것은 과유불급니다. 이런 패키지들. 절대 안외워도 됨. 강의안에 있는것 복사 붙여넣기 하면서 해도 상관없다.
그런데 몇가지 외워야 할 것은 df.head(), df.tail(), df.info() 등등.. 간단하면서 출력하고 확인하는 것들만 짧게짧게 외우시면 됩니다. 실습 진행하다 보면 외워지는 순간도 올 것이다.
반드시 기억해야 할 것
반면에 이런 패키지도 있구나 하고 넘어가고 사용 방법은 굳이 암기하지 않아도 되는 패키지나 함수는 다음과 같습니다.
★★★ 위 패키지들의 사용법을 달달 암기할 필요는 전혀 없습니다. 이런 패키지도 있구나! 정도만 기억을 하시고, 나중에 정말 필요할 때는 사용법을 검색하거나 강의자료의 코드를 복사 + 붙여넣기로 재사용하면 되고, 실제 현업에서도 그렇게 하는 겁니다.
조금 어려워요!
리스트 컴프리헨션은 파이썬 초급에서는 조금 이해하기 어려운 개념인 것은 사실입니다. 하지만 몇 차례 사용해보면 금방 익숙해집니다. 오늘은 처음이니까 이런 것도 있구나하고 이름과 개념만 얼추 기억만 해둡시다.
현재 실습의 난이도
👨🏫 그냥 넘어가지 말고 반복학습 하면서, 복습 때는 조금식 다르게 코드가 보일 것이다. 전문가는 어려워도 반복해서 학습하고 노력하면 쉽게 다가온다. 파이썬 공부도 끝이없고 데이터분석 공부도 끝이 없어요. 몇년차 개발자도 계속 새로운걸 공부해요. 그래야만 데이터 분석 트랜드를 따라갈수 있고, 계속 새로운 알고리즘, 모델들이 계속 나오는데 계속 공부해야만 트렌드를 따라가는 좋은 데이터분석가가 된다. 꼭 반복학습. 제쳐두지 말고.


한글 세팅 코드 : Colab 연결 할때마다 세팅해야 함 -> 한글 폰트가 코랩에 등록 됨.
import matplotlib as mpl
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'retina'
!apt -qq -y install fonts-nanum
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic')
mpl.font_manager._rebuild()
런타임-런타임 다시시작
파일 드레그
news_data.csv