ADsP, 20230422

cptkuk91·2023년 4월 22일
0

ADsP

목록 보기
2/4

데이터의 이해


데이터의 특성

  • 존재적 특성: 데이터 있는 그대로의 사실(Fact)
  • 당위적 특성: 데이터는 추론, 예측, 전망, 추정을 위한 근거

정성적 데이터와 정량적 데이터

  • 정성적 데이터: 언어, 문자
  • 정량적 데이터: 수치, 도형, 기호

정형 데이터, 비정형 데이터, 반정형 데이터

  • 정형 데이터: CSV, Excel, SpreadSheet
  • 비정형 데이터: 소셜 데이터, 댓글, 영상, 음성
  • 반정형 데이터: XML, JSON, 센터 데이터
    문제는 보통, XML, JSON은 반정형 데이터가 맞는가?, CSV는 정형 데이터가 맞는가? 물어봄

암묵지와 형식지

암묵지 → 표출화 → 형식지
형식지 → 내면화 → 암묵지

  • 개인의 암묵지를 표출화를 하면 형식지가 된다.
  • 모인 형식지는 연결화를 통해 더 많은 데이터가 축적
  • 형식지는 내면화를 통해 다시 개인에게 들어간다.

DIKW 피라미드

  • 지혜와 지식의 차이에 대해서 문제가 많이 나온다.
  • 지혜는 지식을 바탕으로 도출되는 창의적 아이디어
    ex) A마트의 다른 상품들도 B마트보다 쌀 것이라 판단.
  • 지식은 정보 패턴을 이해해 이를 토대로 예측한 결과물
    ex) 상대적으로 저렴한 A마트에서 연필을 사야겠다.

데이터베이스의 일반적인 특징

  • 통합된 데이터: 동일한 내용의 데이터가 중복 되어 있지 않다.
  • 저장된 데이터: 컴퓨터 매체가 접근할 수 있는 저장 매체에 저장되어 있다.
  • 공용 데이터: 여러 사용자가 공유할 수 있다.
  • 변화하는 데이터: 삽입, 수정, 삭제를 통해 항상 최신의 정확한 데이터를 유지한다.

데이터베이스의 다양한 측면에서의 특성

  • 정보의 축적 및 전달 측면
    테크 관점에서 봐야한다.
    기계 가독성: 대량의 정보를 일정한 형식에 따라 컴퓨터 등의 정보처리기기가 읽고 쓸 수 있다.
    검색 가능성: 다양한 방법으로 필요한 정보를 검색할 수 있다.
    원격 조작성: 정보통신망을 통해 원거리에서도 즉시 온라인으로 이용 가능하다.

정보 이용과 정보 관리가 주로 나온다.

  • 정보이용 측면
    사용자 관점!!!
    이용자의 정보 요구에 따라 다양한 정보를 신속하게 획득할 수 있고, 원하는 정보를 정확하고 경제적으로 찾아낼 수 있다.
  • 정보관리 측면
    DB 관점!!!
    정보를 일정한 질서와 구조에 따라 정리, 저장하고 검색, 관리할 수 있게 하여 방대한 양의 정보를 체계적으로 축적하고, 새로운 내용 추가나 갱신이 용이하다.

OLTP와 OLAP의 개념

  • OLTP (Online Transaction Processing): 정보의 수집, 조직 내에서 정보 공유하기 위한 경영정보시스템
  • OLAP (Online Analytical Processing): 정보의 '수집'과 '공유'를 탈피해 '분석' 중심
  1. OLTP는 거래 단위에 초점, 입력에 초점
  2. OLAP는 데이터에 초점을 두고 데이터를 분석

RDB와 NoSQL

  • RDB: 관계형 DB를 의미한다. Oracle, MySQL, MS-SQL, DB2, IBM, MariaDB, Derby, SQLite
  • NoSQL: 비관계형 DB를 의미한다. MongoDB, Elasticsearch, Cloudant, Dynamo, Redis, Riak, Coherence, SimpleDB, Bigtable, Cassandra, HBase, HyperTable

빅데이터


더그 래니의 3V

  • 양 (Volume): 데이터 양의 증가
  • 데이터의 유형 (Variety): 데이터 유형 증가
  • 데이터 생성 및 처리 속도의 증가 (Velocity)

데이터 → 3V → 빅데이터

빅데이터의 새로운 특징 4V

  • 3V에 Value(가치) 또는 Veracity(정확성)을 포함해 4V로 빅데이터의 특징을 설명
    학자에 따라 Visualization(시각화), Variability(가변성)등을 추가하는 견해도 있다.
  • Value(가치): 데이터 전체를 파악하고 패턴을 발견하면서 중요성을 강조
  • Veracity(정확성): 빅데이터 기반의 예측 분석 결과에 대한 신뢰성이 중요

빅데이터 출현 배경

  1. 저장 기술의 발전과 메모리 가격 하락
  2. 클라우드 컴퓨팅 기술 발전
  3. SNS 확대
  4. IOT 증가
  5. 데이터 분석 툴의 발전

빅데이터의 기능

빅데이터는 산업혁명의 석탄, 철이다, 빅데이터는 21세기 원유다, 빅데이터는 렌즈다 등등.. 묶는 문제로 나온다.

  • 빅데이터는 "산업혁명의 석탄, 철": 제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대된다.
  • 빅데이터는 "21세기의 원유": 각종 비즈니스, 공공기관 대국민 서비스, 그리고 경제 성장에 필요한 정보를 제공하여 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어 낼 것으로 기대된다.
  • 빅데이터는 "렌즈": 렌즈를 통해 현미경이 생물학 발전에 끼쳤던 영향만큼, 빅데이터도 렌즈처럼 산업 발전에 큰 영향을 줄 것으로 기대된다.
    ex) 구글의 Ngram Viewer
  • 빅데이터는 "플랫폼": 공동 활용의 목적으로 구축된 유무형의 구조물을 말한다. 플랫폼으로서 다양한 서드파티 비즈니스에 활용될 것으로 기대된다.
    ex) 페이스북, 카카오톡 등

빅데이터가 만들어내는 변화

  • 사전처리 → 사후처리: 가능한 많은 데이터를 모으고 데이터를 다양한 방식으로 조합하여 숨은 인사이트를 발굴
  • 표본조사 → 전수조사: 기술의 발전, 처리 비용 감소로 표본조사에서 전수조사로 변화
  • 질 → 양: 수집 데이터의 양이 증가할수록 분석의 정확도가 높아져서 양질의 분석 결과 산출에 긍정적인 영향을 주었다.
  • 인과관계 → 상관관계: 데이터 양이 늘어나면서 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 추천하는 등 상관관계를 통한 인사이트 도출이 점점 확산되고 있다.

빅데이터 가치 산정이 어려운 이유

  1. 데이터 활용 방식: 빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게, 어디서 활용하는지 알 수 없게 되었기 때문에 가치 산정이 어렵다.
  2. 가치 창출 방식: 빅데이터는 기존에 없던 새로운 가치를 창출함에 따라 그 가치를 산정하기 어렵다.
  3. 분석 기술의 발전: 데이터 분석 기술 발전으로 가치 있는 데이터와 가치 없는 데이터의 경계를 나누기 어려워졌다. 오늘의 무가치 데이터가 내일은 가치 데이터로 변경될 수 있기 때문에 빅데이터의 가치 산정은 어렵다.

7가지 빅데이터 활용 기본 테크닉

  1. 연관 규칙 학습
    어떤 변인 간에 주목할 만한 상관 관계가 있는지를 찾아냄
    연관 규칙 학습은 연관분석 혹은 장바구니 분석으로 불리며 분석하여 어떤 규칙이 있는지 찾아내는 분석 기법
    ex) A를 구매한 사람이 B를 더 많이 사는가?
    A를 구매한 사람들이 많이 구매한 물품은?
  1. 유형 분석(Classification Tree Analysis) === 분류 분석
    새로운 사건이 속할 범주를 찾아내는 방법
    어떤 특성을 가진 집단에 속하는가?
    ex) 문서를 어떻게 분류할 것인가?
    조식을 여러 그룹으로 나눌 것인가?
    어떤 특성을 반영하여 분류할 것인가?
  1. 유전 알고리즘 (Genetic Algorithms)
    최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법
    ex) 최적화된 택배 차량 배치, 최고의 시청률을 내기 위한 방송 프로그램 배치 예시를 주고 어떤 테크닉인지 맞추는 문제로 많이 나오는데, 상식적으로 이해하기 힘들어서 잘 봐둬야 한다.
  1. 기계학습 = 머신러닝
    컴퓨터 데이터로부터 규칙을 갖고 이러한 규칙을 활용해 "예측"하는데 초점을 둔 방법이다.
    ex) 유튜브 및 넷플릭스의 미디어 추천 시스템
    스팸 메일 필터링
    질병 진단 예측
  1. 회귀 분석
    원인과 결과의 문제다.
    독립변수를 조작하면서 종속변수가 어떻게 변하는지를 보며 수치형으로 이루어진 두 변인의 관계를 파악하는 방법
  • 독립변수: 원인을 제공하는 변수
  • 종속변수: 영향을 받는 변수
    ex) 사용자의 만족도가 충성도에 어떤 영향을 미치는가?
    상품가격(독립변수)는 매출(종속변수)에 어떤 영향을 미치는가?
  1. 감정 분석
    특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
    ex) 625전쟁의 아픔을 형제의 우애를 통해.. 전쟁, 아픔, 우애, 애절, 눈물 등 키워드를 통해
    긍정, 중립, 부정 감정을 뽑아내는 프로세스
  1. 소셜 네트워크 분석
    사회 관계망 분석으로 불리며, SNS 같은 온라인 공간에서 유저 사이의 팔로워, 팔로잉 관계를 분석하여 영향력이 있는 사람을 찾아내어 효율적 마케팅, 범죄 수사에 공범을 찾는 등 다양한 분야에서 활용
    오피니언 리더, 영향력 있는 사람을 찾아냄, 고객 간 소셜 관계 파악
    ex) 특정인과 다른 사람의 몇 촌 정도의 관계인가?
    이 사람의 영향력 있는 '인플루언서'인가?

빅데이터의 위기 요인과 통제 방안

빅데이터 위기 요인

  1. 사생활 침해: 개인의 사생활 침해 위협
  2. 책임 원칙 훼손: 빅데이터 기반 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성도 높아짐
    ex) 신용카드 발급 여부 판단에 있어 불이익 발생이 시험에 자주 등장한다.
    영화<마이너리트 리포트> → 책임 원칙 훼손
  3. 데이터 오용: 데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있다. 과거 데이터를 과신하거나 오용하면 창조적인 제품 개발이 어렵다.

빅데이터 위기 요인 예시

  • 사생활 침해 → 구글의 사용자 행동 패턴 예측
  • 책임 원칙 훼손 → 범죄 발생 이전에 체포
  • 데이터 오용 → 비행기 탑승 금지자 목록에 상원 의원이 포함

빅데이터 통제 방안

  1. 사생활 침해의 통제 방안에서 "동의"에서 "책임"으로
    개인정보 제공자의 "동의"를 통해 해결하기보다 개인정보 사용자의 "책임"으로 해결한다는 방안
  2. 책임 원칙 훼손의 통제 방안 → 결과 기반 책임 원칙 고수
    특정인의 "성형"에 따라 처벌하는 것이 아닌 "행동 결과"를 보고 처벌한다.
    ex) 범죄를 저지를 것이라 예상된다 해도 범죄가 발생하지 않았으면 어떤 조치도 취할 수 없다.
  3. 알고리즘 접근 허용: 사전에 피해자를 방지하고 피해자를 구제하는 전문 인력인 알고리즈미스트(Algorithmist)가 부상

빅데이터 통제 방안 예시

  • 사생활 침해 → "동의"에서 "책임"으로
  • 책임 원칙 훼손 → 결과 기반 책임 원칙 고수
  • 데이터 오용 → 알고리즘 접근 허용

일차원적 분석

에너지: 트레이딩, 공급/수요 예측
금융 서비스: 신용점수 산정, 가격 책점, 프로그램 트레이딩, 클레임 분석, 고객 수익성 분석
병원: 가격 책정, 고객 로열티, 수익 관리
정부: 사기 탐지, 사례 관리, 범죄 방지, 수익 최적화

데이터 사이언티스트의 역량

  1. Hard Skill
    빅데이터에 대한 이론적 지식: 관련 기법에 대한 이해와 방법론 습득
    분석 기술에 대한 숙련: 최적의 분석 설계 및 노하우 축적
  2. Soft Skill
    통찰력 있는 분석: 창의적 사고, 호기심, 논리적 비판
    설득력 있는 전달: 스토리텔링, 비주얼라이제이션
    다분야 간 협력: 커뮤니케이션

빅데이터 Trend Keyword

  1. 빅데이터와 인공지능
    인공지능은 인간의 인지능력, 학습 능력, 추론 능력, 이해 능력과 같은 고차원적인 정보처리 능력을 구현하는 ICT 기술을 의미한다. 인공지능은 머신러닝 기술 중 특히 딥러닝 연관이 매우 깊다. 오늘날 자율 주행 자동차를 비롯해 AI 로봇, 의료 기술, 미디어, 스마트 시티 등 다양한 분야에서 상용화가 이루어지고 있다.
  2. 머신러닝과 딥러닝의 차이
    머신러닝은 데이터를 분석하고 이를 분석한 후에 그 데이터를 바탕으로 결정을 내리기 위해 학습한 내용을 적용하는 알고리즘을 말한다. 딥러닝은 머신러닝보다 진보적이다. 인간이 결론을 내리는 방식과 유사한 논리 구조로 데이터를 엄청나게 빠른 속도로 분석하여 결과를 도출해내고, 이를 인공신경망 분석 기술이라고 부른다.
  3. 빅데이터 플랫폼
    데이터의 수집, 저장, 처리, 관리 및 분석 등의 역할 수행을 지원함으로써 새로운 인사이트와 비즈니스 가치 창출이 가능한 빅데이터 프로세스 환경을 의미.
  4. 하둡
  5. 하둡 에코시스템
  6. 데이터 레이크: 데이터 레이크는 정형, 비정형을 막론한 다양한 형태의 Raw Data를 모은 집합소 개념
  7. 마이데이터: 정보의 주체가 개인정보 권한을 갖고 관리할 수 있게 하자는 취지
  8. 스마트 팩토리: 설계 및 개발, 제조 및 유통 등 생산과정에서 디지털 자동화 솔루션이 결합된 정보통신기술(ICT)를 적용하여 생산성, 품질, 고객만족도를 향상시키는 지능형 생산공장
  9. 블록체인: 데이터를 하나의 블록으로 생성해서 대규모의 노드들 사이에 분산 저장하는 P2P 방식을 기반으로 한다. 중앙 집중 구조가 아니기 때문에 개인 간의 자유로운 거래가 가능하며, 동시에 하나의 블록이 위조됐을 때 다른 블록들이 그 블록의 무결정을 증명해줄 수 있어 안전한 것이 특징이다.
  10. 메타버스: 디지털화된 지구, 현실을 초월한 가상의 세계를 의미하지만 시간이 지나면서 그 개념이 점차 확장되고 있다.
profile
메일은 매일 확인하고 있습니다. 궁금하신 부분이나 틀린 부분에 대한 지적사항이 있으시다면 언제든 편하게 연락 부탁드려요 :)

0개의 댓글