ADsP Part1. 데이터 이해

시에나 Sienna·2024년 8월 1일
0

1. 데이터와 정보, 데이터베이스

1) 데이터

✅ 암묵지와 형식지

  • 암묵지 : 학습과 경험을 통해 개인에게 체화 되어있지만 겉으로 드라나지 않는 지식
  • 형식지 : 문서나 메뉴얼처럼 형상화된 지식

✅ DIKW 피라미드

  • Data : 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실
    • A마트는 100원에, B마트는 200원에 연필을 판다.
  • Information : 데이터 가공, 처리 및 연관(상관)관계 속에서 의미가 도출된 것
    • A마트 연필이 더 싸다.
  • Knowledge : 정보를 구조화하여 유의미한 정보를 분류 및 경함과 결합하여 내재화된 것
    • 상대적으로 저렴한 A마트에서 연필을 사야겠다.
  • Wisdom : 지식의 축척과 아이디어가 결합된 창의적인 산물
    • A마트 다른 상품들도 B마트보다 쌀 것이라고 판단.

2) 데이터베이스

  • 문자, 기호, 음성, 화상, 영상 등 상호관련된 다수의 콘텐츠를 정보 처리 및 정보통신기기에 의하여 체계적으로 수집, 축척하여 다양한 용도와 방법으로 이용할 수 있도록 정리된 집합체

✅ 특징

  • 통합된 데이터(Integrated Data)
  • 저장된 데이터(Stored Data)
  • 공용 데이터(Shared Data)
  • 변화되는 데이터(Changable Data)

✅ 설계 절차

  • 요구사항 분석 → 개념적 설계 → 논리적 설계 → 물리적 설계 → 구현

✅ SQL 분류

  • DDL 정의어 : create, alter, drop, truncate
  • DML 조작어 : select, insert, update, delete
  • DCL 제어어 : grant, revoke, commit, rollback

2. 빅데이터

✅ 데이터의 변화

  • 사전처리 ⇨ 사후처리
  • 표본조사 ⇨ 전수조사
  • 질 ⇨ 양
  • 인과관계 ⇨ 상관관계

✅ DW(Data Warehouse) 특징

  • 주제지향적 : 주제중심 → 분류, 저장, 관리
  • 통합성 : DB로 부터 DATA 통합
  • 시계열성 : 시간에 따른 변경정보
  • 비휘발성 : 오로지 사용(갱신 X)

✅ 위기 요인에 따른 통제 방안

  • 사생활 침해(ex. 익명화) → 동의에서 책임으로
  • 책임 원칙 훼손(ex. 마이너리티 리포트) → 결과 기반 책임 원칙 고수
  • 데이터 오용(ex. 베트남 전쟁) → 알고리즘 접근 허용

✅ 데이터양의 단위

✅ 빅데이터 가치 산정 어려움

  • 데이터 활용 방식 : 누가, 언제, 어디서 활용할지 모름
  • 새로운 가치 창출 : 기존에 없던 가치 창출
  • 분석 기술 발견

✅ 빅데이터를 활용한 기본 테크닉

테크닉내용예시
연관규칙 학습변인들간에 상관관계를 찾아내는 방법커피를 구매하는 사람이 탄산음료를 더 많이 사는가?
유형분석집단 분류이 사용자는 어떤 특성을 가진 집단에 속하는가?
유전자 알고리즘최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는 가?
기계학습훈련 데이터로부터 학습한 특성을 활용해 예측하는 방법기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가장 보고 싶어할까?
회귀분석독립변수를 따라, 종속변수가 어떻게 변하는 지를 보면서 두 변인관계를 파악구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는 가?
감정분석특정 주제에 대해 말하거나 글을 쓴 사람의 감정분석구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는 가?
소셜네트워크분석(=사회관계망분석)특정인과 다른 사람이 몇촌정도의 관계인가를 파악할 대 사용하고, 영향력있는 사람을 찾아낼 때 사용고객들 간 관계망은 어떻게 구성되어 있나?

3. 데이터 사이언스



✅ 미래사회의 특성과 빅데이터의 역할

  • 불확실성 - 통찰력
  • 리스크 - 대응력
  • 스마트 - 경쟁력
  • 융합 - 창조력

4. 약어

  1. OLAP : 다양한 비즈니스 관점, 다차원 DATA 접근 → 의사결정 활용
  2. OLTP : host에서 DB acess → 처리결과 도출
  3. BI(Business Intelligence) : 리포트 중심의 도구
  4. BA(Business Analytics) : 의사결정을 위한 통계/수학적 기법
  5. DL(Deep Learning) : 신경망 바탕의 ML의 한 기법
  6. CRM : 고객 관계 관리. 고객과 관련된 내/외부자료 분석/통합 →고객 중심 자원
  7. ERP : 경영자원 통합 시스템 재구축
  8. SCM : 공급망 관리, 원 재료의 생산, 유통 등 모든 공급망 단계를 최적화
  9. KMS : 지식 관리 시스템
  10. RTE(Real Time Enterprise) : 회사 전 부분을 통합 SCM + ERP + CRM
  11. DM(Data Mining) : 대용량 Data에서 정보를 추출 → 의사결정에 활용
  12. ISP(Information Strategy Plan) : 어떤 정보를 어떻게 다룰 것인지를 전략적으로 고민하고, 앞으로의 실행 계획을 세우는 것

0개의 댓글