EDA 퀴즈 오답노트

Jio.B·2023년 7월 3일
0

CCTV 분석

pandas) df.columns.droplevel()

  • 다중 컬럼에서 특정 컬럼을 제거하는 명령어

python) pip 이용하여 모듈 설치하는 명령어
pip install module_name

pandas) date_range

  • 간격을 일(day) 간격으로 지정할 수 있음
  • 날짜, 시간의 데이터를 생성
  • 시작 날짜를 지정할 수 있음

pandas) data frame

  • 반복문에서 반복되는 인자는 index와 각 칼럼의 나머지 내용이 반환됨
  • data frame을 행 단위로 한 줄씩 반복문에서 사용하도록 반환함
  • 컬럼이름을 바로 사용할 수 있어서 가독성에 도움이 됨

pandas) to_csv

  • 컬럼간 구분을 지정하는 옵션은 sep
  • encoding 옵션 중 한글을 대응하는 방법으로 euc-kr, utf-8, cp949 등이 있음

데이터 정규화

  • 데이터를 0과 1사이의 값으로 바꾸는 것을 의미
  • 데이터가 모두 양수일 때는 간단히 max 값으로 나누기도 함
  • 데이터들을 동일 크기의 구간으로 변환하려 할떄 사용

seaborn) pairplot

  • 각 컬럼별 데이터에 대한 상관관계나 분류적 특성을 보여주는 명령어

seaborn) heatmap

  • 2차원 숫자 배열을 색상으로 표현하는 기능을 갖고 있음
  • 2차원의 표현이 가능하기 때문에 여러 데이터의 경향을 한 번에 확인할 수 있음
  • heatmap() 위에 데이터 값을 표현할 수 있음

pandas) read_csv() 함수를 통해 데이터를 읽어올 때, 특정 컬럼을 인덱스로 지정하는 옵션 : index_col

pandas) read_csv() 명령에서 thousands 옵션

  • 읽는 데이터의 숫자에 세자리 수를 구분하기 위한 콤마(,)가 사용됨을 지정
  • thousands 옵션을 사용한 후에는 콤마가 있는 숫자로 보이는 문자열 데이터가 숫자형 데이터로 자동으로 변환됨
  • 문자열로 구성된 데이터에는 해당사항 없음

웹 수집

Beautiful Soup

  • BeautifulSoup : 웹 수집을 위한 라이브러리

bs4) 실행
from bs4 import BeautifulSoup

bs4) 특정 id를 이용해서 원하는 내용을 찾는 법
soup.findall(id=‘some_id’)

bs4) ppp.com 웹페이지 열기 위한 명령어_단, urlopen으로 접근했음을 가정
BeautifulSoup("ppp.com", "html.parser")

bs4) soup이라는 변수에 어떤 사이트를 읽은 정보가 담겨있을 때, 특정 class를 이용해서 찾는 방법
soup.find("some_tag", "readable")

bs4) 태그를 찾은 결과에서 태그내의 글자를 가져오는 방법
soup.find_all("tag1", "class1")[0].string()
soup.find("tag2").get_text()
soup.find("tag1", "class1").get_text()

bs4) soup 이라는 변수에 어떤 사이트를 읽은 정보가 담겨있을 때, 특정 태그를 찾는 방법
soup.find("p")
soup.find_tag("p")
soup.find_all("p")

bs4) urllib의 quote함수역할

  • 주소에 한글이 포함된 경우에 인코딩을 맞춰준다

pandas) unique() 함수에 대한 설명

  • 해당컬럼에서 한 번 이상 등장한 데이터를 한 번만 표현
  • 해당함수를 사용해서 이상한 데이터 확인 가능
  • unique() 검사의 결과는 array로 반환
  • unique() 결과에는 nan은 포함

bs4) Request 함수를 사용할때 header 정보에 chrome 등 브라우저정보를 넣는 이유

  • 접근하고자 하는 사이트에서 사용자가 일반적인 이용자인지, 아닌지 확인하기 때문에

Regular Expression 에서 000-0000-0000의 패턴을 지정하는 코드
\d+\s-\s\d+\s-\s\d+

bs4) 영화제목 태그를 가져오기 위한 코드

  • soup.find_all("div", "tit5")[0].a.string
  • soup.select(".tit5")[0].find("a").text
  • soup.select(".title5")[0].select_one("a").get_text()

matplotlib) x축 데이터 표기의 축을 변환하는 코드
plt.xticks(rotation="vertical")

Selenium

selenium) 특징

  • 동적 페이지에 접근해서 정보를 가져오고자 할 때 사용
  • 웹크라우저 제어 가능
  • 웹크라우저에서 스크롤, 클릭, 메뉴펼침 등 사람이 하는 행동 대부분을 수행

selenium) 셀레니움을 driver라는 변수로 초기화한 후 특정 홈페이지에 접근하는 명령
dreiver.get()

selenium) 셀레니움에서 웹페이지의 팝업창을 변환하는 명령(이때 셀레니움은 driver로 초기화되어 있음)
driver.switch_to_window()

0개의 댓글

관련 채용 정보