2023 그린스타트업타운 창의인재양성 아카데미
INNOST Digital Academy 빅데이터 과정
데이터는 형태와 내용에 따라 분류한다.
각각을 간단히 설명하자면,
정해진 규칙에 따라 표 형태로 구성되어 있기 때문에 한눈에 의미를 파악하기 좋다.
예를 들어, 관계형 데이터베이스(RDB)가 있다.
RDB는 키와 값들의 관계를 테이블 형태로 나타낸다.
서로 다른 행과 열의 관계나 서로 다른 데이터베이스 간의 관계도 표현할 수 있다.
RDB는 자료 간의 연결이 강한, 유연한 데이터베이스이다.
RDB에서는 원하는 정보를 찾기 위해 Query라고 하는 관계형 질의로 특정 조건을 주고, 그에 만족하는 데이터를 찾아낸다.
이러한 관계형 데이터베이스는 Oracle, MySQL, MSSQL, Sybase, MPP DB 등의 전용 관리 시스템으로 관리된다.
정해진 규칙이 없어 한눈에 의미를 파악하기는 힘들다.
포털사이트 뉴스기사, SNS의 이미지, 동영상, 음성과 같은 데이터이다.
그럼 텍스트 파일은 비정형일까, 정형일까?
자유 형식으로 쓰여진 텍스트 파일은 비정형이다!
그런데 텍스트 파일이 특정한 규칙을 갖고 구조화된다면 정형 데이터가 될 수도 있다.
비정형 데이터의 대표적인 예는 NoSQL이다.
NoSQL은 형식에 크게 제한 받지 않고 크기를 확장하기 쉽다.
NoSQL 데이터를 관리하는 시스템에는 MongoDB, Redic, Cassandra, HBase 등이 있다.
말 그대로 데이터를 다운로드 하는 것이다.
최신 정보를 제공하는 웹사이트에서 배급하는 시스템으로, 뉴스 구독과 같은 기능이 있다.
사용자들이 웹사이트에 직접 방문하지 않고도 실시간으로 업데이트되는 정보를 받아볼 수 있도록 설계되어 있다.
명령들을 관련 프로그램으로 전달해주는 매개체 역할이다.
문자 제어, 화상 처리(화면 관리), 창 제어(창 이동, 삭제 등), 파일 제어 등의 인터페이스를 제공한다.
누구나 사용할 수 있도록 웹 운영주체가 공개한 API를 OpenAPI라고 한다.
OpenAPI를 제공하는 웹사이트는 공공데이터 포털, NAVER Developers, Kakao Developers, Google Developers 등이 있다.
외부 사이트에서 원하는 데이터를 추출하는 수집 방법이다.
웹 스크래핑(Web Scrapping)이라고도 한다.
크롤링은 정적 크롤링, 동적 크롤링으로 나뉜다.
정적 크롤링은 페이지 이동(새로고침) 없이 데이터를 추출하는 것,
동적 크롤링은 다른 페이지로 이동(입력, 클릭, 로그인 등)하여 데이터를 추출하는 것이다.
음성, 오디오, 비디오를 실시간으로 수집하는 방법이다.
다운로드하지 않고, 계속 재생시키며 데이터를 수집한다.