빅데이터
빅데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 비정형 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다.위키
간단하게 말하면 여러 형태의 많은 데이터를 잘 처리해서 가치를 만들어 내는 것 입니다.
기존 데이터와의 차이는 아래와 같습니다.
- 다양한 방법으로 수집된 여러 형태의 데이터 집합을 의미하지만, 비정형화된 데이터에 초점
- 병렬 처리를 위한 컴퓨터 시스템들이 필요할 정도의 큰 데이터셋
- 가치 창출에 의미가 있으며 이를위해 타당성(Validity), 신뢰성(Veracity) 확보에 노력
- 단기간 활용보다는 장기적 활용에 초점
빅데이터의 특징
초기 빅데이터의 특징은 Volume(규모), Variety(다양성), Velocity(속도)로 3V라 불립니다.
- Volume (규모) : 데이터의 크기(저장되는 물리적 데이터양)
- Variety (다양성) : 다양한 종류의 데이터를 수용하는 특성
- Velocity (속도) : 데이터가 얼마나 빠르게 처리/분석되는지에 대한 특성
여기서 Variety (다양성)의 다양한 종류의 데이터는 아래를 포함합니다.
- 정형 데이터(Structured data) : 규칙이 잡혀있는 데이터, 스키마 구조를 가지고 있는 데이터 입니다. 관계형 데이터베이스(RDB), 스프레드시트, CSV 등이 있습니다. 주로 MySQL과 같은 관계형 데이터 베이스(RDBMS)를 통해 관리합니다. 비교적 쉽게 의미를 파악할 수 있습니다.
- 비정형 데이터(Unstructured data) : 정해진 규칙이 없으며 연산도 불가능한 데이터를 의미합니다. 예를들면 영상, 이미지, 음성 등이 있습니다. 빅데이터의 탄생에 비정형 데이터가 큰 역할을 수행했는데, 그 이유는 그동안 분석하기 힘들었던 비정형 데이터를 분석함으로써 새로운 인사이트와 가치를 창출했기 때문입니다. MongoDB같은 NOSQL데이터 베이스를 통해 관리합니다.
- 반정형 데이터(Semi-structured data) : 정형과 같이 형태가 있지만 연산이 불가능한 데이터입니다. 대표적으로 JSON,HTML,XML,로그 형태가 있습니다. MongoDB같은 NOSQL데이터 베이스를 통해 관리합니다.
빅데이터를 통한 가치 창출이 중요해지면서 3V에 Veracity(정확성)과 Value(가치)가 추가되어 5V가 되었습니다.
- Veracity (진실성) : 데이터의 신뢰성과 타당성에 관한 특성입니다. 방대한 양의 데이터를 분석하여 일정한 패턴을 추출할 수 있습니다. 그런데, 이 패턴이 오류나 노이즈로 인한것이 아니라 데이터의 특징이라고 신뢰할 수 있어야합니다. 데이터가 많아질수록 엉터리 데이터도 커질 가능성이 높아지기 때문입니다. 따라서 빅데이터를 수집할 때 분석할 만한 가치가 있는지 살펴야 할 필요성이 생겼고, 이런 측면에서 Veracity가 제시되었습니다.
- Value (가치) : 빅데이터는 결국 비즈니스나 연구에서 유용한 가치를 이끌어낼 수 있어야 그 의미가 있습니다. 데이터를 수집할 때 그 데이터를 활용하여 무엇을 할 수 있을지에 대한 고민이 필요합니다.
최근에는 여기에 Valiaity(정확성), Volatility(휘발성)이 추가되어 7V로 부르고 있습니다.
- Validity (정확성) : 데이터의 정확성을 의미합니다. Veracity와 Validity는 비슷한 개념입니다. 데이터에 Veracity가 없다면 노이즈와 바이어스로 인해 잘못된 결론을 이끌어 낼 수 있으며, Validity가 없다면 데이터의 규모가 크더라도 쓸모가 없어집니다. 예를들어 개와 고양이 사진에서 Labeling이 잘못된 데이터라면 Validity가 없는 것이고 노이즈가 많아 개와 고양이의 특징이 없다면 Veracity가 없는 것입니다.
- Volatility (휘발성) : 데이터가 얼마나 오래 저장될 수 있고 사용될 수 있을지에 관한 것입니다. 아무리 데이터의 양이 많고 잘 정리되어 있더라도 몇 년만 지나면 의미가 없어지는 유형의 데이터거나, 데이터의 양이 가진 자원에 비해 너무나도 커서 이를 오래 저장하는 것이 힘들다면 빅데이터로서의 활용성을 점검해보아야 할 것입니다. 빅데이터는 단기적으로 활용하기 보다는 장기적인 관점에서 유용한 가치를 창출할 수 있어야합니다.
결론
빅데이터의 특징은 필요에따라 계속 추가되는 중입니다. 하지만 "가치 창출"이 중점이란건 변하지 않았습니다. 빅데이터가 기업과 단체에 필요한 가치를 창출할 수 있는지 판단하기 위해 위에 언급한 특징들을 가지고있는지 살펴봐야 할 것입니다.
참고 사이트
https://deep-jin.tistory.com/entry/%EC%A0%95%ED%98%95-%EB%B0%98%EC%A0%95%ED%98%95-%EB%B9%84%EC%A0%95%ED%98%95-%EB%8D%B0%EC%9D%B4%ED%84%B0
https://needjarvis.tistory.com/502
https://ju-blog.tistory.com/45
https://3months.tistory.com/348
https://smart.science.go.kr/upload_data/subject/bigdata/pdf/B_E_02.pdf
https://blog.altair.co.kr/68974
https://ikkison.tistory.com/66