인터넷의 빅데이터(Big Data)
- 대규모 데이터의 집합으로 수집한 데이터를 분석해 비즈니스에 활용하는 것까지를 의미
- 빅데이터 분석
- 데이터에 포함돼 있는 요소 중에서 중요한 것들을 추출하고 이를 분류해서 규칙성을 찾는 것
- 빅데이터라는 분야가 인기를 끌고 있는 이유
- 수많은 데이터를 쉽고 빠르게 실시간으로 수집할 수 있는 환경 충족
- 빅데이터 종류
- 블로그와 SNS - 트렌드 분석
- 페이스북, 트위터, 블로그
- 매일매일 좋은 정보 업로드
- 인터넷 전자상거래 - 상품 데이터베이스
- 금융 정보
- 환율, 주식, 금값 실시간 정보 정기적 추출
- 예측 등에 활용
- 이미지 데이터
- 플리커, 인스타그램
- 태그 정보 활용 → 이미지 내용 확인
- 행정 기관 정보 - 공개 데이터
- 위키
- 저작권이 없어진 작품
- 머신러닝 데이터
- 머신러닝에 활용할 목적으로 만들어진 데이터
- 손글씨 이미지 데이터, 사람 얼굴 데이터, 강아지와 고양이 등의 동물 데이터를 용도에 맞게 다양하게 활용 가능
스크레이핑, 크롤링, 데이터 가공
스크레이핑(Scraping)
- 웹 사이트에 있는 특정 정보를 추출하는 기술
- 웹 사이트 구조 분석을 통한 데이터 추출
- 로그인이 필요한 사이트의 경우 이에 적합한 접근 기술도 알아야 함
크롤링(Crawling)
- 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술
- 크롤링 하는 프로그램 : 크롤러(Crawler)/스파이더(Spider)
- 검색 엔진 크롤러
- 정기적으로 웹 사이트의 링크를 타고 돌며 데이터를 긁어 데이터베이스에 저장하므로 항상 최신 정보를 유지할 수 있다.
데이터 가공
- 웹에서 내려받은 HTML 데이터를 곧바로 머신러닝에 사용할 수 없다.
- 따라서 데이터의 구조를 분석하고 필요한 부분만 추출하는 과정 필요
- 머신러닝에 활용되는 대표적인 데이터 형태/형식
- 쉼표로 구분하는 CSV 형식의 데이터
- 계층을 통해 구조화할 수 있는 JSON, XML, YAML 형식의 데이터
결론
아무리 머신러닝과 딥러닝을 하고 싶어도 가지고 있는 데이터가 하나도 없다면 mnist 손글씨 분석밖에 할 수 있는 것이 없다. 따라서 내가 원하는 무언가를 만들기 위해서는 머신러닝, 딥러닝보다 데이터 수집을 먼저 배워야 한다.