250211 TIL

수이·2025년 2월 11일
0

🟡 TIL

목록 보기
8/41

팀스터디

북스터디

선정 책
빅데이터 시대, 성과를 이끌어 내는 데이터 문해력
CHAPTER 1-2

[주제]

데이터, 단순 분석보다 활용이 중요하다.

[아티클요약]

  • 데이터 문해력의 중요성

    • 기계가 하는 일 vs 사람이 하는 일
      • 기계에 맡길 수 있는 일, 맡기는 편이 나은 것과 기계가 할 수 없는 것, 사람이 해야하는 것을 구별하고 후자를 필요한 형태로 효과적으로 활용하는 게 중요
        → 통계학 지식, 분석 이론 및 방법, 데이터 가공 및 분석 작업과는 별개로 데이터 문해력을 체득하는 것이 중요
    • 데이터 활용에 필요한 3가지
      • 분석 전 문제 및 목적을 정의하고 가설을 구축 (생각)
      • 분석을 위한 기술과 지식 (작업)
      • 분석 결과에 대한 해석 및 스토리 구축 (생각)
  • 데이터 활용에 실패하는 이유
    기본적으로 데이터 분석 자체가 목적이 되기 십상

    • 풀고자 하는 문제가 명확하지 않음
      목적을 설정하지 않을 경우, 논리성이나 객관성이 없음

      • 사용된 언어가 구체적이고 명확한지 점검
      • 문제, 원인, 해결 방안 구분
    • 정의한 문제와 사용하는 데이터가 일치하지 않음

      • 개별 데이터가 정확하고 객관적이더라도, 맥락과 일치하는지 확인 → 객관성과 설득력 확보
      • 단어 정의를 명확하고 구체적이게 하기
        ex) 식당의 ‘질’ → 맛인지? 가격인지? 입지인지? 다양한 해석의 여지

[인사이트]

앞서 아티클 스터디에서도 몇 번 등장했던 주제인 것 같은데, 여러가지 실 사례와 함께 살펴 보니 좋았습니다. 어떤 데이터든 분석을 할때 명확한 목표를 가지고 시작하는 게 가장 중요하겠습니다.

[팀원 공통 인사이트]
데이터 분석에 있어 데이터 문해력을 갖추는 것이 중요하다. 명확한 목표 설정 → 올바른 해결방안을 도출하는 사고방식을 가지자!


개인스터디

ADsP 자격증 챌린지 2주차

중요부분 ✅표시!

빅데이터의 이해

1) 빅데이터 정의

  • 일반적인 빅데이터 정의
    "빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터다.”(McKinsey, 2011)
  • 가트너그룹(Gartner Group)의 더그래니(Doug Laney)의 정의 (3V)
    "빅데이터는 데이터의 양(Volume), 데이터 유형과 소스 측면의 다양성(Variety), 데이터 수집과 처리 측면에서 속도(Velocity)가 급격히 증가하면서 나타난 현상이다."
    • 4V
      Value(가치) 또는 veracity(정확성)를 포함해 4V로 빅데이터의 특징을 설명하기도 함.
      여기에 Visualization(시각화), Variability(가변성)등을 추가하는 견해도 있음

2) 빅데이터 출현 배경

  • 3가지 출현 배경

    • 산업계

      • 출현 배경
        고객 데이터 축적
      • 산업계에서 일어난 빅데이터 현상을 양질 전환 법칙으로 설명할 수 있다 ✅
      • 이는 양적인 변화가 축적되면 질적인 변화도 이루어진다는 개념이다
    • 학계

      • 출현 배경
        거대 데이터 활용 과학 확산
      • 학계에서도 빅데이터를 다루는 현상들이 늘어나면서 필요한 기술 아키텍처 및 통계 도구들이 지속적으로 발전하고 있다
        ex) 게놈 프로젝트, NASA의 기후 시뮬레이션 등
    • 기술발전

      • 출현 배경
        관련 기술의 발달
      • 디지털 화의 급진전, 저장 기술의 발전과 가격 하락, 인터넷의 발전과 모바일 시대의 진전에 따른 클라우드 컴퓨팅 보편화와 분산처리 기술 등이 모두 빅데이터 출현과 직간접적 관련이 있다 ✅
      • 클라우드 컴퓨팅은 빅데이터의 처리 비용을 획기적으로 낮춘 측면에서 그 중요성을 아무리 강조해도 지나치지 않는다

3) 빅데이터 기능과 변화

  • 빅데이터의 기능

    • 빅데이터는 ‘산업혁명의 석탄, 철’
      제조업뿐만 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회, 경제, 문화, 생활 전반에 혁명적 변화를 가져올 것으로 기대된다
    • 빅데이터는 ‘21세기의 원유’
      경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 향상시키고 새로운 범주의 산업을 만들어낼 것으로 전망된다
    • 빅데이터는 ‘렌즈’
      렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼, 빅데이터도 산업 발전에 큰 영향을 미칠 것으로 기대된다
      ex) 구글의 Ngram Viewer, 현미경
    • 빅데이터는 '플랫폼'
      공동 활용의 목적으로 구축된 유무형의 구조물을 말하며, 다양한 서드파티 비즈니스에 활용되어 플랫폼 역할을 할 것으로 기대된다
      ex) 페이스북, 카카오톡 등
  • 빅데이터가 만들어내는 변화

    • 사전처리 → 사후처리
      기존 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 인사이트를 발굴한다.

    • 표본조사 → 전수조사
      데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서 데이터 활용 방법이 전수조사로 변화했다.

    • 질 → 양
      수집 데이터의 양이 증가할 경우 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있다.

    • 인과관계 → 상관관계
      신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 그에 상응하는 행동을 추천하는 일이 점점 늘어나고 있다.

데이터의 가치와 미래

1) 빅데이터의 가치와 영향

  • 빅데이터의 가치 산정이 어려운 이유

    • 데이터 활용 방식
      빅데이터의 재사용이나 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 누가, 언제, 어떻게 활용하는지 파악할 수 없게 되었으며 따라서 가치 산정이 어려워졌음
    • 새로운 가치 창출
      데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 산정하기 어려워졌음
    • 분석 기술의 발전
      오늘은 가치가 없는 데이터일지라도 추후 새로운 분석 기법이 등장할 경우 거대한 가치를 만들어내는 재료가 될 가능성이 있음
  • 빅데이터의 영향
    생활 전반의 스마트화

    • 기업
      혁신, 경쟁력 제고, 생산성 향상
      빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴
      ex) 구글 : 사용자 로그 데이터 활용

    • 정부
      환경 탐색, 상황분석, 미래 대응
      기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출

    • 개인
      목적에 따른 활용
      정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용

2) 빅데이터 활용 기본 테크닉 7가지 ✅

  • 연관규칙 학습(Association rule learning)
    변인들 간에 주목할 만한 상관관계가 있는지 찾아내는 방법
    연관분석 or 장바구니 분석
  • 유형분석(Classification tree analysis)
    새로운 사건이 속할 범주/분류를 찾아내는 방법 (이 사용자는 어떤 특성을 가진 집단에 속하는가?)
  • 유전 알고리즘(Genetic algorithms)
    최적화
    ex) 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
    연비가 좋은 자동차를 개발하기 위해서 원자재와 엔지니어링을 어떻게 결합하는 것이 좋을까?
    최적화된 택배 차량 배치
  • 기계학습
    훈련 데이터로부터 얻은 특성을 활용해 예측하는 방법 (데이터 학습 → 예측 모형)
    딥러닝도 기계학습의 방법중 하나
  • 회귀분석
    원인과 결과를 이용한 분석 (영향력 분석)
  • 감정분석
    특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석하는 방법
    비정형 데이터 마이닝의 대표적인 기법
  • 소셜 네트워크 분석
    유저 사이의 관계를 분석하여 오피니언 리더, 즉 영향력 있는 사람을 찾아내는 데 활용

3) 빅데이터의 위기 요인과 통제 방안

  • 사생활 침해
    우리는 하루에도 셀 수 없을만큼 많이 수집당하고 있다
    목적 외 활용 시 사회/경제적 위협

    • 통제방안
      '동의에서 책임으로'
      개인정보 사용자의 ‘책임’으로 해결
  • 책임 원칙 훼손
    분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다.

    • 통제방안
      ‘결과 기반 책임 원칙 고수’
      불이익을 당할 가능성을 최소화하는 장치를 마련
  • 데이터 오용
    데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있다

    • 통제방안
      ‘알고리즘 접근권 허용/인증’
      알고리즘에 대한 접근권을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다
      알고리즈미스트가 필요하게 됨

4) 미래의 빅데이터

  • 빅데이터 활용에 필요한 3요소
    • 데이터 : 모든 것을 데이터화
    • 기술 : 진화하는 알고리즘, 인공지능
    • 인력 : 데이터 사이언티스트, 알고리즈미스트

5) 비식별 기술의 종류와 예

  • 데이터 마스킹
    데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 식별할 수 없는 임의의 값으로 대체
    ex) ADsP자격증 → ****자격증

  • 가명처리
    데이터의 값을 다른 값으로 변경하는 기술
    일정한 규칙이 노출되지 않도록 주의
    ex) 한지민 → 김우빈

  • 총계처리
    데이터의 총합 또는 평균 값을 보여주며 개별 데이터 값을 보이지 않도록 하는 기술
    ex) 10점, 20점, 30점 → 평균 20점

  • 데이터값 삭제
    필요 없거나 개인 식별에 중요한 값을 삭제
    ex) 서울시 강남구 → 서울시

  • 데이터 범주화
    데이터의 값을 범주화하여 특정 값을 숨기는 기술
    ex) 20세 → 20세~30세

가치 창조를 위한 데이터 사이언스와 전략 인사이트

1) 빅데이터 분석과 전략 인사이트

  • 빅데이터 회의론

    • 과거 CRM의 부정적 학습효과
    • 과대포장
  • 전략 인사이트

    • 크기가 아니라 어떤 시각과 인사이트를 얻을 수 있냐
    • 비용이 아니라 분석적 방법과 성과에 대한 이해 필요

2) 전략 인사이트 도출을 위한 필요 역량

  • 데이터 사이언스?
    데이터로부터 의미 있는 정보를 추출해내는 학문
    비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 하며, 이는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유이다.

    과학과 인문의 교차로✅

    구분정보통찰
    과거무슨 일이 일어났는가?어떻게, 왜 일어났는가?
    현재무슨 일이 일어나고 있는가?차선 행동은 무엇인가?
    미래무슨 일이 일어날 것인가?최악 또는 최선의 상황은 무엇인가?
  • 핵심 구성 요소

    • Analytics : 분석적 영역
      수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등

    • IT (Data Management) : 데이터 처리와 관련된 IT 영역
      시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등

    • 비즈니스 분석 : 비즈니스 컨설팅 영역

    가트너가 제시한 데이터 사이언티스트 요구 역량

    • 데이터 관리 : 데이터에 대한 이해
    • 분석 모델링 : 분석론에 대한 지식
    • 비즈니스 분석 : 비즈니스 요소에 초점
    • 소프트 스킬✅ : 커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정데이터 관리

데일리퀘스트

SQL 문법을 연습해요 10 - 이젠 테이블이 2개입니다
SQL 문법을 연습해요 11 - 마지막 연습 문제!


일기

  • ADSP 8주차✅ 2주차 복습✅
    확률분포 나오면서 머리가 어질어질😵
    통계는 어쨌든 나중에는 꼭 자세히 파봐야 할 것 같다.
    실제 상황에서 쓰이는 거니까...

    기출문제집 구입 완! 민트책이랑 미어캣책이 유명하대서 엄청 고민하다가 나는 미어캣책으로 고름

  • 데이터 문해력
    CHAPTER 3-4✅
    읽을수록 아티클을 통해 알게 되었던 내용과 일맥상통하는 것 같다. 실전에서 쓰이는 데이터들을 통해서 설명해주다 보니니 이해에 도움이 됨. 아직까지는 술술 읽히는 중

  • SQL 걷기반 퀘스트 10-11✅
    걷기반 퀘스트를 끝냈으니 내일부터는 달리기반 퀘스트 3개씩 하기!

0개의 댓글

관련 채용 정보