동적 웹 페이지 크롤링

라이브러리 설치BeauitfulSoup을 임포트하여 사용연습용 html을 작성한다.BeautifulSoup 객체를 생성한다.객체에 저장된 html 내용을 확인한다.: 3에서는 분석할 HTML의 실제 웹페이지를 사용하지 않고 html 구조를 작성한 문자열을 사용한다.:

2022년 5월 30일
·
0개의 댓글
post-thumbnail

정적 웹 페이지 크롤링

라이브러리 설치BeauitfulSoup을 임포트하여 사용연습용 html을 작성한다.BeautifulSoup 객체를 생성한다.객체에 저장된 html 내용을 확인한다.: 3에서는 분석할 HTML의 실제 웹페이지를 사용하지 않고 html 구조를 작성한 문자열을 사용한다.:

2022년 5월 23일
·
0개의 댓글
post-thumbnail

공공데이터 API 기반 크롤링

: www.data.go.kr: 2017년부터 현재까지 우리나라에 입국한 중국인의 수 크롤링CODE 0 전체 작업 스토리를 구성한다.06행 : 데이터를 수집할 국가 코드를 입력받는다.07행 : 데이터를 수집할 시작 연도를 입력받는다.08행 : 데이터를 수집할 마지막 연

2022년 5월 16일
·
0개의 댓글
post-thumbnail

네이버 API를 이용한 크롤링

: 데이터를 수집하는 기술에는 스크레이핑과 크롤링이 있다.: 스크레이핑은 웹 사이트에서 특정 데이터를 수집하는 것이다.: 크롤링은 크롤러 또는 스파이더라는 프로그램으로 웹 사이트에서 데이터를 추출하는 것이다.: 웹에서 데이터를 수집하는 작업을 통틀어 크롤링이라고 한다.

2022년 5월 8일
·
0개의 댓글
post-thumbnail

데이터 분석과 스토리텔링

주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.문제 해결에 필요한 데이터를 구한다. 데이터가 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추출하고, 그렇지 않은 경우에는 직접 수집한다.데이터를 분

2022년 5월 2일
·
0개의 댓글
post-thumbnail

문제 정의와 데이터 수집 및 준비

# 데이터 문제 정의하기 1. 데이터 문제 해결 단계 주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다. 문제 해결에 필요한 데이터를 구한다. 데이터가 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추

2022년 4월 30일
·
0개의 댓글
post-thumbnail

데이터 과학에 유용한 도구 - R편

: 데이터 처리에 유용한 R의 기본 기능을 실습으로 알아볼 것이다. R : 실제 통계 및 시각화를 처리하는 프로그램, Rstudio : R을 편리하게 사용할 수 있는 환경을 제공

2022년 4월 29일
·
0개의 댓글
post-thumbnail

데이터 과학에 유용한 도구 - 엑셀편

: 이번 실습에는 자동차 모델별 연비와 이와 관련된 다양한 스펙을 담은 mtcars라는 데이터 셋을 사용한다.

2022년 4월 13일
·
0개의 댓글

머신러닝을 위한 통계학 소개

연속형 데이터 -> 평균, 표준편차와 같은 자료 요약 ex) 키, 나이, 가격 등범주형 데이터 -> 빈도, 백분율과 같은 자료 요약 ex) 성별, 성씨 등표본이라 불리느 일부 자료를 수집해 전체 모집합에 대한 결론을 유추추론은 가설 검정, 수치의 특징 계산, 데이터 간

2022년 4월 12일
·
0개의 댓글
post-thumbnail

머신러닝이란?

본격적인 데이터 분석에 앞서 머신러닝의 개념부터 정확하게 파악해 봅시다.

2022년 4월 3일
·
0개의 댓글

Reinforcement Learning - DQN

Reinforcement Learning (강화 학습) : 현재 상태 S에서 행동 a를 결정하고 그에 따른 보상을 받아 행동을 수정한다. : Q테이블은 각 상태집합에서 행동에 따른 우선순위가 있는 테이블이다. : Q(S, a)는 상태 S에서 a라는 행동을 했을때의 이득

2021년 11월 29일
·
0개의 댓글

DACON : 타이타닉 생존자 예측

passengerId : 탑승객의 고유 아이디Survival : 생존여부(0: 사망, 1: 생존)Pclass : 등실의 등급Name : 이름Sex : 성별Age : 나이Sibsp : 함께 탑승한 형제자매, 아내 남편의 수Parch : 함께 탑승한 부모, 자식의 수Tic

2021년 11월 20일
·
0개의 댓글

Lv4. 교차검증과 모델 앙상블을 활용한 와인 품질 분류하기

: csv 파일을 Pandas DataFrame class 로 불러오기 위해 read_csv() 매서드를 활용: info() 매서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, Dtype 에 대한 정보를 알 수 있다.: shape 어트리뷰트를 쓰면 데이터의 행갯수

2021년 11월 17일
·
0개의 댓글

Lec-12 NN의 꽃 RNN 이야기

Sequene data: 음성 인식, 자연어 모두 sequence로 되어 있음

2021년 11월 14일
·
0개의 댓글

Lab-11 CNN Basics Convolution

Lab-11 CNN basics convolution

2021년 11월 14일
·
0개의 댓글

Lec-11 ConvNet의 Conv 레이어 만들기

Sequence data: 음성 인식, 자연어 등이 Sequence data의 예시: 이전에 데이터들을 기반으로 현재의 데이터를 이해하는 것이 Sequene data이다.: NN(Neural Network), CNN(Convolutional Neural Network)

2021년 11월 14일
·
0개의 댓글

Lv3. 교차검증과 LGBM 모델을 활용한 와인 품질 분류하기

: csv 파일을 Pandas DataFrame class 로 불러오기 위해 read_csv() 매서드를 활용: info() 매서드를 활용하여 데이터의 피쳐수와 컬럼명, 결측치여부, Dtype 에 대한 정보를 알 수 있다.: shape 어트리뷰트를 쓰면 데이터의 행갯수

2021년 11월 10일
·
0개의 댓글

Lec-10 Relu

Problem of Sigmoid: output과 실제 정답 데이터(=ground-truth)와 얼마만큼 차이가 나는지를 loss라고 부름: loss를 미분한 것을 backpropagation하면서 network를 학습 시킴: backpropagation으로 전달되는

2021년 11월 7일
·
0개의 댓글

Lec-09 XOR 문제 딥러닝으로 풀기

0,0 -> 0(-)0,1 -> 1(+)1,0 -> 1(+)1,1 -> 0(-): XOR문제를 푸는 방법으로 제시network : programming code : 기계적으로/ 자동적으로 어떻게 학습시킬 수 있을까?: Gradient descent 알고리즘 사용 - 미

2021년 11월 7일
·
0개의 댓글

Lv2. 결측치 보간법과 랜덤포레스트로 따릉이 데이터 예측하기

: 각 피쳐의 평균값으로 결측치 대체: df.fillna({'칼럼명':int(df'칼럼명'.mean)}, inplace=True): 결측치가 있는 피쳐 살펴보기: 결측치 평균값으로 대체하기: 피쳐의 정보성을 강조하기 위해 보간법을 사용해 결측치 대체: Lv2 에서 다루

2021년 11월 3일
·
0개의 댓글