✋ 데이터 분석이란?"컴퓨터 도구를 효율적으로 이용하고, 적절한 통계학 방법을 사용하여 실제적인 문제에 답을 내리는 활동"1주차 목표1\. HTML 문서의 개념에 대해서 이해한다.2\. 구글 Colab 사용방법을 익힌다.3\. 태그의 형식에 대해서 이해한다.4\. 크롤
크롤링 (crawling)은 웹 페이지로 부터 데이터를 추출하는 행위를 말한다. ✋ 선택자 (selector)는 html 문서의 특정 부분에 이름을 붙인 것이다. 그래서 우리는 그 이름을 가지고 html 문서 내의 특정 부분 (우리가 필요한 데이터)을 찾을 수 있다.✋
지니뮤직의 1-50위 곡의 정보 스크래핑
2주차 목표1\. 판다스와 데이터프레임 사용법에 대해 복습한다.2\. 형태소 분석과 워드 클라우드를 실습해본다.3\. 머신러닝 기법을 이용해 분류하기를 실습해본다.👉 워드 클라우드
네이버 영화 줄거리로 워드클라우드 만들기네이버 영화 페이지에서 줄거리를 크롤링하여 워드 클라우드를 만들어본다.1\. 👉네이버 영화 줄거리 크롤링👈2\. 워드 클라우드 만들기URL, HTML 구조 분석크롤링 기본 구조크롤링을 위한 함수csv 파일로 저장위의 URL에서
네이버 영화 페이지에서 줄거리를 크롤링하여 워드 클라우드를 만들어본다.1\. 네이버 영화 줄거리 크롤링2\. 👉워드 클라우드 만들기👈데이터프레임 불러오기한글 폰트 및 패키지 세팅토큰화 및 불용어 제거단어들을 하나의 리스트로 합치기워드 클라우드 만들기
영화 줄거리로 장르 분류하기1\. 머신러닝이란?2\. 데이터 전처리3\. 벡터화4\. 머신러닝5\. 모델 사용하기 및 불용어 제거인공지능(Artificial Intelligence)은 '사람의 지능을 만들기 위한 시스템이나 프로그램'을 말한다. 머신러닝과 딥러닝은 약
영화 줄거리로 장르 분류하기1\. 머신러닝이란?2\. 데이터 전처리3\. 벡터화4\. 머신러닝5\. 모델 사용하기 및 불용어 제거벡터화를 시킨 줄거리를 토대로 기계한테 해달 줄거리는 어떤 특정한 장르에 속한다고 지속적으로 학습을 시키는 것이다. 그렇게 학습시킨 결과가
영화 줄거리로 장르 분류하기1\. 머신러닝이란?2\. 데이터 전처리👉3. 벡터화👈4\. 머신러닝5\. 모델 사용하기 및 불용어 제거DTMTF-IDFDTM, TF-IDF 만들기ex)7, 3, 2, 5, 4, 17, 3, 2, 1, 2, 31, 2, 5, 1, 2, 5
영화 줄거리로 장르 분류하기1\. 머신러닝이란?2\. 데이터 전처리3\. 벡터화👉4. 머신러닝👈5\. 모델 사용하기 및 불용어 제거나이브 베이즈 분류기Logictic Regression선형 Support Vector Machinex_train과 x_test에 대해서
영화 줄거리로 장르 분류하기1\. 머신러닝이란?2\. 데이터 전처리3\. 벡터화4\. 머신러닝👉5. 모델 사용하기 및 불용어 제거👈가장 정확도가 높았던 로지스틱 회귀를 이용해 예측해보기✋ 문자열에서 특수문자 제거하기줄거리를 IMDb 페이지에서 가져와서 모델을 사용하
1\. 데이터프레임 사용법을 익힌다.2\. 파이썬을 이용해서 데이터를 각종 차트로 시각화해본다.3\. 상관 관계 분석에 대해서 이해한다.✋ read_csv vs read_tablepandas.read_table :Read general delimited file int
3주차 목표1\. 데이터프레임 사용법을 익힌다.2\. 파이썬을 이용해서 데이터를 각종 차트로 시각화해본다.👉3. 상관 관계 분석에 대해서 이해한다.👈상관 계수히트맵산점도상관 분석이란 두 변수 간의 선형적 관계를 상관 계수로 표현하는 것이다.상관 계수란 2개의 변수
3주차 목표1\. 데이터프레임 사용법을 익힌다.2\. 👉파이썬을 이용해서 데이터를 각종 차트로 시각화해본다.👈3\. 상관 관계 분석에 대해서 이해한다.결측값 채우기Pie chartgroupby결측값을 제거할 때는 dropna()를 사용하고, 채워줄 때는 fillna
3주차 목표1\. 데이터프레임 사용법을 익힌다.2\. 👉파이썬을 이용해서 데이터를 각종 차트로 시각화해본다.👈3\. 상관 관계 분석에 대해서 이해한다.바 차트는 Matplolib을 통해 plt.bar()를 이용하여 그린다.바 차트를 그리기 위해서는 세가지 리스트를
3주차 목표1\. 데이터프레임 사용법을 익힌다.2\. 👉파이썬을 이용해서 데이터를 각종 차트로 시각화해본다.👈3\. 상관 관계 분석에 대해서 이해한다.목차Line chartBar chartPie chart캐글의 코로나 확진 데이터를 통해 그래프를 그려본다. 2020
folium은 파이썬 지도 시각화 패키지이다. 지도를 불러와 데이터를 기반으로 그 위에 여러가지 시각화 기능을 제공한다.특정 지역을 표시하고자 할 때는 Map()함수를 사용해서 지역의 위도와 경도를 입력하면 된다. zoom_start는 처음에 표시할 때 얼마나 확대를
숙제리뷰 데이터를 이용해 긍정/부정 워드 클라우드 만들기리뷰로 긍정/부정 분류하는 모델 만들기데이터 정리할 때 같은 입력값으로 다른 타깃(결과)가 나오면 안 되어서 중복된 데이터는 다 제외하였다. 그런데 리뷰와 평점이 동일한 값을 가진 데이터만 뽑아보는 방법이 궁금하여
데이터 탐색 및 전처리상관계수 및 히트맵 그리기산점도 그리기파이차트 그리기GroupbyBar chart배운 점'data' 키값에 value로 리스트들이 담겨 있고, 'feature_names'에 열의 이름이 있다. 그리고 'target'이라는 키값에 정수로 이루어진 리
4주차 목표1\. 👉선형 회귀에 대한 기초👈2\. scikit-learn을 이용한 선형 회귀3\. 자전거 수요 예측해보기어떤 수치에 의해 다른 수치가 영향을 받고 있다고 한다면, 다른 변수의 값을 변하게 하는 변수를 독립 변수 (x, independent varia