데이터 유형과 수집 방법은 무엇인가?

youbbin·2023년 8월 4일
0

2023 그린스타트업타운 창의인재양성 아카데미
INNOST Digital Academy 빅데이터 과정


3차시. 데이터 유형과 수집 방법은 무엇인가?


데이터 유형


데이터는 형태와 내용에 따라 분류한다.

각각을 간단히 설명하자면,

형태로 분류

  • 정형 데이터 : 미리 정해진 형식에 따라 구조화되어 있는 데이터
  • 비정형 데이터 : 정해진 규칙이 없는 데이터
  • 반정형 데이터 : 약한 정형 데이터. 일반적인 데이터베이스는 아니지만 데이터의 전체적인 논리적 구조를 가지고 있는 형태

내용으로 분류

  • 양적자료 : 숫자로 된 정확한 값이 포함된 명확한 수치 - 연속형, 이산형
  • 질적 자료: 숫자로 표시될 수 없는 자료 - 명목형, 순서형

정형 데이터와 비정형 데이터

정형 데이터

정해진 규칙에 따라 표 형태로 구성되어 있기 때문에 한눈에 의미를 파악하기 좋다.

예를 들어, 관계형 데이터베이스(RDB)가 있다.

RDB는 키와 값들의 관계를 테이블 형태로 나타낸다.

서로 다른 행과 열의 관계나 서로 다른 데이터베이스 간의 관계도 표현할 수 있다.

RDB는 자료 간의 연결이 강한, 유연한 데이터베이스이다.

RDB에서는 원하는 정보를 찾기 위해 Query라고 하는 관계형 질의로 특정 조건을 주고, 그에 만족하는 데이터를 찾아낸다.

이러한 관계형 데이터베이스는 Oracle, MySQL, MSSQL, Sybase, MPP DB 등의 전용 관리 시스템으로 관리된다.


비정형 데이터

정해진 규칙이 없어 한눈에 의미를 파악하기는 힘들다.

포털사이트 뉴스기사, SNS의 이미지, 동영상, 음성과 같은 데이터이다.

그럼 텍스트 파일은 비정형일까, 정형일까?

자유 형식으로 쓰여진 텍스트 파일은 비정형이다!
그런데 텍스트 파일이 특정한 규칙을 갖고 구조화된다면 정형 데이터가 될 수도 있다.

비정형 데이터의 대표적인 예는 NoSQL이다.
NoSQL은 형식에 크게 제한 받지 않고 크기를 확장하기 쉽다.

NoSQL 데이터를 관리하는 시스템에는 MongoDB, Redic, Cassandra, HBase 등이 있다.



데이터 수집 방법


다운로드

말 그대로 데이터를 다운로드 하는 것이다.

RSS(Rich Site Summary)

최신 정보를 제공하는 웹사이트에서 배급하는 시스템으로, 뉴스 구독과 같은 기능이 있다.
사용자들이 웹사이트에 직접 방문하지 않고도 실시간으로 업데이트되는 정보를 받아볼 수 있도록 설계되어 있다.

API

명령들을 관련 프로그램으로 전달해주는 매개체 역할이다.

문자 제어, 화상 처리(화면 관리), 창 제어(창 이동, 삭제 등), 파일 제어 등의 인터페이스를 제공한다.

누구나 사용할 수 있도록 웹 운영주체가 공개한 API를 OpenAPI라고 한다.
OpenAPI를 제공하는 웹사이트는 공공데이터 포털, NAVER Developers, Kakao Developers, Google Developers 등이 있다.

크롤링(Crawling)

외부 사이트에서 원하는 데이터를 추출하는 수집 방법이다.

웹 스크래핑(Web Scrapping)이라고도 한다.

크롤링은 정적 크롤링, 동적 크롤링으로 나뉜다.

정적 크롤링은 페이지 이동(새로고침) 없이 데이터를 추출하는 것,
동적 크롤링은 다른 페이지로 이동(입력, 클릭, 로그인 등)하여 데이터를 추출하는 것이다.

스트리밍(Streaming)

음성, 오디오, 비디오를 실시간으로 수집하는 방법이다.

다운로드하지 않고, 계속 재생시키며 데이터를 수집한다.

0개의 댓글

관련 채용 정보