[파이썬을 이용한 머신러닝, 딥러닝 실전 개발 입문] 0. 머신러닝을 위한 데이터 처리

ssu_hyun·2022년 4월 8일
0

ML/DL

목록 보기
2/3

인터넷의 빅데이터(Big Data)

  • 대규모 데이터의 집합으로 수집한 데이터를 분석해 비즈니스에 활용하는 것까지를 의미
  • 빅데이터 분석
    • 데이터에 포함돼 있는 요소 중에서 중요한 것들을 추출하고 이를 분류해서 규칙성을 찾는 것
  • 빅데이터라는 분야가 인기를 끌고 있는 이유
    • 수많은 데이터를 쉽고 빠르게 실시간으로 수집할 수 있는 환경 충족
  • 빅데이터 종류
    • 블로그와 SNS - 트렌드 분석
      • 페이스북, 트위터, 블로그
      • 매일매일 좋은 정보 업로드
    • 인터넷 전자상거래 - 상품 데이터베이스
      • 인터넷 쇼핑몰 API 이용
    • 금융 정보
      • 환율, 주식, 금값 실시간 정보 정기적 추출
      • 예측 등에 활용
    • 이미지 데이터
      • 플리커, 인스타그램
      • 태그 정보 활용 → 이미지 내용 확인
    • 행정 기관 정보 - 공개 데이터
    • 위키
    • 저작권이 없어진 작품
      • 고전 소설, 고전 그림 등
    • 머신러닝 데이터
      • 머신러닝에 활용할 목적으로 만들어진 데이터
      • 손글씨 이미지 데이터, 사람 얼굴 데이터, 강아지와 고양이 등의 동물 데이터를 용도에 맞게 다양하게 활용 가능

스크레이핑, 크롤링, 데이터 가공

스크레이핑(Scraping)

  • 웹 사이트에 있는 특정 정보를 추출하는 기술
  • 웹 사이트 구조 분석을 통한 데이터 추출
  • 로그인이 필요한 사이트의 경우 이에 적합한 접근 기술도 알아야 함

크롤링(Crawling)

  • 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술
  • 크롤링 하는 프로그램 : 크롤러(Crawler)/스파이더(Spider)
  • 검색 엔진 크롤러
    • 정기적으로 웹 사이트의 링크를 타고 돌며 데이터를 긁어 데이터베이스에 저장하므로 항상 최신 정보를 유지할 수 있다.

데이터 가공

  • 웹에서 내려받은 HTML 데이터를 곧바로 머신러닝에 사용할 수 없다.
  • 따라서 데이터의 구조를 분석하고 필요한 부분만 추출하는 과정 필요
  • 머신러닝에 활용되는 대표적인 데이터 형태/형식
    • 쉼표로 구분하는 CSV 형식의 데이터
    • 계층을 통해 구조화할 수 있는 JSON, XML, YAML 형식의 데이터

결론

아무리 머신러닝과 딥러닝을 하고 싶어도 가지고 있는 데이터가 하나도 없다면 mnist 손글씨 분석밖에 할 수 있는 것이 없다. 따라서 내가 원하는 무언가를 만들기 위해서는 머신러닝, 딥러닝보다 데이터 수집을 먼저 배워야 한다.

0개의 댓글