특정 목정을 위해 다양한 출처에서 데이터를 모으는 과정으로, 의사결정, 분석, 예측, 학습 등을 위한 첫 번째 단계. 필요한 정보를 정확하고 효율적으로 모아 데이터 기반 인사이트를 도출하는 데 사용하는 것이 목적임.
수집된 데이터를 손실 없이 보관, 관리, 보호하는 과정으로, 데이터 분석과 활용을 위해 반드시 필요한 단계. 데이터를 안전하고 효율적으로 저장하여 필요 시 빠르게 액세스할 수 있도록 보장하는 것이 목적임.
직접 수집한 원천 데이터로, 특정 목적을 위해 처음부터 설계된 데이터.
기존에 다른 용도로 수집된 데이터를 활용하는 방식
표준화된 질문을 통해 데이터를 수집하는 방법. 1차 데이터 수집 방식이며 정략적 데이터와 정석적 데이터를 동시에 얻을 수 있음. 특정 타겟 그룹에서 구조화된 데이터를 얻을 수 있고 온라인, 오프라인 모두 활용 가능. 예로 고객 만족도 조사, 시장조사 등이 있음.
정부 기관, 연구소, 국제기구 등에서 공개하는 데이터 활용. 2차 데이터 수집 방식이며, 신뢰할 수 있는 데이터가 제공됨. 예로 통계청 데이터, 유엔 데이터 등이 있음.
행동이나 현상을 직접 관찰하여 데이터를 수집. 정량적 데이터보다는 정석적 데이터 수집에 적합. 자연스러운 데이터 수집, 실시간 데이터 수집이 가능함. 예로 매장내 고객 행동 관찰, 공장 작업 과정 관찰 등이 있음.
인터넷에서 데이터를 자동으로 수집하는 기술. 주로 공개된 웹 사이트에서 정보를 추출함. 방대한 데이터를 자동화된 방식으로 빠르게 수집 가능. 예로 전자상거래 가격 비교를 위한 데이터 수집, 상품 리뷰 데이터, 소셜 미디어 트렌드 분석이 있음.
사물 인터넷(IoT) 디바이스와 센서를 통한 실시간 데이터 수집. 대량의 실시간 데이터(빅데이터)에 적합함. 정확하고 지속적인 데이터 제공. 예로 스마트 홈의 온도, 습도 데이터, 차량 센서 데이터(자율주행차의 도로 상태 데이터) 등이 있음.
기존 데이터베이스나 공공 기관에서 제공하는 데이터 수집. 2차 데이터 수집 방식임. 쉽게 접근 가능하며, 시간과 비용 절약이 가능. 예로 공공데이터 포털, World Bank 데이터베이스 등이 있음.
온라인 서비스나 플랫폼에서 제공하는 API를 통한 데이터 수집과 외부 서비스와의 데이터 통신을 통한 데이터 수집. 정형 데이터 수집에 적합하며, 자동화된 수집이 가능함. 지속적이고 업데이트된 데이터 수집이 가능함. 예로 소셜미디어 API(Twitter, Facebook)를 통해 사용자 활동 데이터 수집, Google Maps API, 날씨 데이터를 제공하는 API를 활용을 할 수 있음
디지털 시스템(웹 사이트, 앱 등)에서 사용자가 남긴 행동(활동) 데이터를 기록하여 수집. 정략적 데이터로 사용자 행동 분석에 적합함. 사용자가 직접 제공하지 않는 데이터 분석이 가능함. 예로 사용자 클릭 데이터를 활용한 추천 시스템, 웹 트래픽 데이터 등이 있음.
운영 효율성을 높이기 위한 핵심 도구로, 실시간 트랜잭션 처리와 데이터 저장에 초점을 둠. 데이터를 체계적으로 저장, 관리, 검색할 수 있는 시스템임. 주로 운영 중인 시스템에서 발생하는 실시간 데이터 저장, 관리, 삽입, 수정, 삭제, 조회 등 트랜잭션 처리에 초점을 둠. 데이터의 생성과 즉각적인 활용을 위한 설계를 하고 소규모 데이터 처리 실시간 데이터 처리에 적합함.
데이터를 분석하고 비즈니스 의사결정을 지원하기 위한 도구로, 통합 데이터관리와 분석 최적화에 중점을 둠. 조직의 여러 데이터 소스에서 수집한 대규모 데이터를 분석목적으로 저장하는 시스템을 의미함. 주로 데이터 분석, 비즈니스 인텔리전스, 의사결정 지원을 위한 설계를 함. 과거 데이터의 집계와 추세 분석에 초점을 둬 대규모 데이터 분석에 특징을 두고. 다양한 소스의 데이터를 통합하여 저장함. 시계열 데이터를 기반으로 한 의사결정을 위해서도 설계함.

조직은 두 시스템을 조합하여 데이터를 효과적으로 관리하고 분석하여 경쟁력을 강화할 수 있을 것으로 보임.
데이터 저장과 접근성, 효율적인 관리에 중점을 둔 서비스이며, 데이터 백업 및 공유에 적합함. 데이터를 인터넷 기반의 원격 서버에 저장, 언제 어디서나 데이터를 액세스하거나 관리할 수 있도록 하는 서비스. 데이터 저장소로서 물리적 하드웨어를 직접 관리할 필요 없이, 클라우드 제공 업체가 스토리지 인프라 운영 및 유지 관리.
필요에 따라 스토리지를 즉히 확정 및 축소가 가능함. 초기 인프라 비용 없이 사용한 만큼만 지불하는 요금제 구조임. 인터넷 연결만 있으면 언제 어디서든 데이터 접근이 가능함.
대규모 데이터 분석과 처리에 중점을 둔 인프라로, 정형 및 비정형 데이터를 포함한 모든 데이터를 다룰 수 있음. 대규모 데이터(정형, 비정형, 준정형)를 저장하고 처리할 수 있는 인프라 및 기술. 빅데이터 분석, 머신러닝, 실시간 데이터 스트리밍 등 다양한 요구를 지원. 테라바이트(TB)에서 페타바이트(PB) 이상의 데이터 저장이 가능. 텍스트, 이미지, 비디오, 로그 파일 등 비정형 데이터를 처리할 수 있음. 데이터 증가에 따라 저장소를 수평적, 수직적으로 확장할 수 있음.

데이터 활용 요구와 규모에 따라 클라우드 스토리지와 빅데이터 저장소를 하이브리드 접근 방식이 점점 더 중요해지고 있음


데이터는 주관적인 판단이 아닌, 객관적인 사실에 기반한 결정을 가능하게 함.
정량적 정보는 실질적이고 측정 가능한 결과를 예측하는데 도움이 됨.
데이터 분석을 통해 가장 효과적인 자원 배분과 전략을 설계할 수 있음. 이를 통해 시간, 비용, 노력 등의 낭비를 최소화할 수 있음.
데이터를 기반으로 패턴을 분석하여 잠재적인 문제를 조기에 발견하고 대응할 수 있음. 예로 제조업에서 센서를 활용한 데이터로 기계 고장 예측이 있음.
데이터 기반 기업은 시장 트렌드와 고객 행동을 파악하여 경쟁에서 앞설 수 있음.
데이터 활용은 깅버의 혁신을 촉진하며, 새로운 비즈니스 모델을 개발하게 함.
인터넷에 연결된 things에 센서와 통신기술을 부여해 스스로 정보를 수집하고 공유하면서 기계학습을 통한 지능형 네트워킹 기술을 활용하여 인간의 삶에 가치 있는 예측/맞춤형 서비스 제공

2030년 개인별 15-20개 이상의 IoT 디바이스가 연결될 것으로 예상됨.
(스마트폰, 웨어러블 기기, 스마트 홈 기기, 자동차, 의료 기기 등)
IoT생태계가 확장됨에 따라 하나의 기기당 연결되는 센서와 시스템 수 증가, 각 기기가 더 정밀하게 개인 맞춤형 서비스가 제공 가능되며 삶의 질이 높아질 것으로 봄.




데이터 수집: 사용자 행동 데이터와 구매 이력 수집
데이터 저장: 데이터 레이크를 통해 비정형 데이터 저장, 실시간 추천
데이터 수집: IoT 센서를 통해 교통량, 에너지 소비 데이터 수집
데이터 저장: 분산 클라우드 스토리지를 활용해 데이터 관리
데이터 수집: 거래 로그와 시장 데이터를 실시간으로 수집
데이터 수집: 고성능 데이터 웨어하우스를 사용해 리스크 분석과 사기 탐지
데이터의 수집과 저장은 데이터 활용의 기본이며, 정확성, 신뢰성, 효율성이 핵심임.
클라우드 기반의 유연한 저장소와 AI, 머신러닝 기술을 활용한 실시간 데이터 처리 기술이 앞으로도 중요해질 것임. 데이터의 보안과 윤리적 사용도 데이터 관리의 필수 요소로 자리 잡고 있음. 이는 효율적인 데이터 수집과 저장 체계는 미래 데이터 중심 사회에서 경쟁력을 확보하는 필수 조건이 될 것임.