이번 글에서는 빅데이터를 공부하기 전에 빅데이터가 무엇인지, 어떤 특징을 가지고 있는지 알아보고자 합니다!

그렇다면 한번 알아볼까요?

빅데이터란, 양(volume)이 매우 많고, 증가 속도(velocity)가 빠르며, 종류(variety)가 매우 다양한 데이터를 말합니다. 이것을 3V라고도 합니다!
따라서 빅데이터의 공통적인 특징은 3V로 설명할 수 있습니다.

먼저 첫번째로 Volumn 이는 단순 저장되는 물리적인 데이터양을 나타내며 빅데이터의 기본적인 특징입니다~
여기서 놀라운 사실...

세상에 존재하는 데이터의 90%가 최근 2년동안 만들어졌다고 합니다😲
두번째로 Velocity는 데이터의 고도화된 실시간 처리를 뜻합니다!
이는 데이터가 생성, 저장, 시각화까지 이루어진 과정이 얼마나 빠르게 이뤄져야 하는지에 대한 중요성을 뜻하기도 합니다!
마지막 세번째인 Variety는 다양한 형태의 데이터를 포함하는 것을 뜻합니다!
이는 정형 데이터 뿐만 아니라 사진, 오디오, 비디오, 소셜 미디어 데이터, 로그 파일 등과 같은 비정형 데이터도 포함됩니다
여기서 정형, 비정형이라는 단어가 사용되었는데요!
이는 다음 글에서 설명할 예정이니 궁금하시다면 참고하시면 좋을 것 같습니다😉
이렇게 빅데이터 시대에는 방대한 데이터들을 분석하여 일정한 패턴을 추출할 수 있었지만 과연 이 데이터 일정 패턴을 설명할 수 있을 만큼 신뢰성이 있는가에 대한 문제가 발생하고있습니다.
데이터가 많아질수록 잘못된 데이터의 양도 커지기 때문입니다.
이러한 문제점을 해결하기 위해서 빅데이터의 새로운 V들이 몇가지 제시되고 있습니다.
먼저 빅데이터를 분석하기 이전에 분석할 데이터가 정확하게 어떤 것인지, 분석할 만한 가치가 있는지 등의 정확성을 살펴야 하는 필요성이 생겼고, 이러한 측면에서 빅데이터의 새로운 속성인 정확성이 제시되고 있습니다.
데이터는 특정 맥락에 따라 의미가 달라지기도 합니다.
따라서 이러한 측면에서 빅데이터의 새로운 속성으로 가변성이 제시되고 있습니다.
빅데이터는 데이터들을 수집, 분석하여 용도에 맞게 가공하는 과정을 거치게 됩니다.
이러한 데이터들은 사용 대상자가 쉽게 이해할 수 있어야 시간적, 경제적 비용을 최소화할 수 있습니다.
이러한 필요성들을 위해 빅데이터의 새로운 속성으로 시각화가 제시되고 있습니다.
다양한 양질의 데이터를 수집했다고 해도 그 데이터의 보관에는 한계가 존재합니다.
또한 앞서 말했듯이 최근 2년간의 데이터가 현재 존재하는 데이터의 90%를 차지하는 것을 보면 과거보다는 실시간이 중요해졌기 때문에 오래된 데이터들을 중요도가 떨어져 버려지게 됩니다.
이러한 빅데이터의 새로운 속성으로 휘발성이 제시되고 있습니다.
많은 양의 데이터를 수집하더라도 사용할만한 가치가 없는 정보라면 수집하는 의미가 없어지게 됩니다.
따라서 가치있는 데이터를 수집해야 가치있는 결과물을 만들 수 있게 됩니다.
이러한 이유로 빅데이터의 새로운 속성인 가치가 제시되고 있습니다.

이렇게 빅데이터의 개념과 공통적인 속성인 3V, 이를 넘어 확장되고 있는 개념인 8V까지 알아보는 시간을 가졌습니다.
이를 이해하고, 이제부터 본격적인 공부를 진행해보도록 하겠습니다!😎
출처: https://smart.science.go.kr/upload_data/subject/bigdata/pdf/B_E_02.pdf