선정 책
빅데이터 시대, 성과를 이끌어 내는 데이터 문해력
CHAPTER 1-2
[주제]
데이터, 단순 분석보다 활용이 중요하다.
[아티클요약]
데이터 문해력의 중요성
데이터 활용에 실패하는 이유
기본적으로 데이터 분석 자체가 목적이 되기 십상
풀고자 하는 문제가 명확하지 않음
목적을 설정하지 않을 경우, 논리성이나 객관성이 없음
정의한 문제와 사용하는 데이터가 일치하지 않음
[인사이트]
앞서 아티클 스터디에서도 몇 번 등장했던 주제인 것 같은데, 여러가지 실 사례와 함께 살펴 보니 좋았습니다. 어떤 데이터든 분석을 할때 명확한 목표를 가지고 시작하는 게 가장 중요하겠습니다.
[팀원 공통 인사이트]
데이터 분석에 있어 데이터 문해력을 갖추는 것이 중요하다. 명확한 목표 설정 → 올바른 해결방안을 도출하는 사고방식을 가지자!
중요부분 ✅표시!
3가지 출현 배경 ✅
산업계
학계
기술발전
빅데이터의 기능 ✅
빅데이터가 만들어내는 변화 ✅
사전처리 → 사후처리
기존 필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 다양한 방식으로 조합하여 숨은 인사이트를 발굴한다.
표본조사 → 전수조사
데이터 수집 비용의 감소와 클라우드 기술의 발전으로 데이터 처리 비용이 감소하게 되면서 데이터 활용 방법이 전수조사로 변화했다.
질 → 양
수집 데이터의 양이 증가할 경우 양질의 정보가 오류 정보보다 많기에 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 있다.
인과관계 → 상관관계
신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계 분석에서 도출된 인사이트를 바탕으로 그에 상응하는 행동을 추천하는 일이 점점 늘어나고 있다.
빅데이터의 가치 산정이 어려운 이유✅
빅데이터의 영향
생활 전반의 스마트화
기업
혁신, 경쟁력 제고, 생산성 향상
빅데이터를 활용해 소비자의 행동을 분석하고 시장 변동을 예측해 비즈니스 모델을 혁신하거나 신사업을 발굴
ex) 구글 : 사용자 로그 데이터 활용
정부
환경 탐색, 상황분석, 미래 대응
기상, 인구이동, 각종 통계, 법제 데이터 등을 수집해 사회 변화를 추정하고 각종 재해 관련 정보를 추출
개인
목적에 따른 활용
정치인이나 대중 가수 등과 같은 개인도 인지도 향상에 빅데이터를 활용
사생활 침해
우리는 하루에도 셀 수 없을만큼 많이 수집당하고 있다
목적 외 활용 시 사회/경제적 위협
책임 원칙 훼손
분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 증가한다.
데이터 오용
데이터 과신 혹은 잘못된 지표의 사용으로 잘못된 인사이트를 얻어 비즈니스에 적용할 경우 직접 손실이 발생할 수 있다
데이터 마스킹
데이터의 길이, 유형, 형식과 같은 속성을 유지한 채, 식별할 수 없는 임의의 값으로 대체
ex) ADsP자격증 → ****자격증
가명처리
데이터의 값을 다른 값으로 변경하는 기술
일정한 규칙이 노출되지 않도록 주의
ex) 한지민 → 김우빈
총계처리
데이터의 총합 또는 평균 값을 보여주며 개별 데이터 값을 보이지 않도록 하는 기술
ex) 10점, 20점, 30점 → 평균 20점
데이터값 삭제
필요 없거나 개인 식별에 중요한 값을 삭제
ex) 서울시 강남구 → 서울시
데이터 범주화
데이터의 값을 범주화하여 특정 값을 숨기는 기술
ex) 20세 → 20세~30세
빅데이터 회의론
전략 인사이트
데이터 사이언스?
데이터로부터 의미 있는 정보를 추출해내는 학문
비즈니스의 성과를 좌우하는 핵심요소를 정확하게 겨냥할 수 있어야 하며, 이는 데이터 사이언스의 중요한 역량 중 하나인 소통력이 필요한 이유이다.
과학과 인문의 교차로✅
구분 | 정보 | 통찰 |
---|---|---|
과거 | 무슨 일이 일어났는가? | 어떻게, 왜 일어났는가? |
현재 | 무슨 일이 일어나고 있는가? | 차선 행동은 무엇인가? |
미래 | 무슨 일이 일어날 것인가? | 최악 또는 최선의 상황은 무엇인가? |
핵심 구성 요소 ✅
Analytics : 분석적 영역
수학, 확률 모델, 머신러닝, 분석학, 패턴 인식과 학습, 불확실성 모델링 등
IT (Data Management) : 데이터 처리와 관련된 IT 영역
시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 등
비즈니스 분석 : 비즈니스 컨설팅 영역
가트너가 제시한 데이터 사이언티스트 요구 역량
SQL 문법을 연습해요 10 - 이젠 테이블이 2개입니다
SQL 문법을 연습해요 11 - 마지막 연습 문제!
ADSP 8주차✅
2주차 복습✅
확률분포 나오면서 머리가 어질어질😵
통계는 어쨌든 나중에는 꼭 자세히 파봐야 할 것 같다.
실제 상황에서 쓰이는 거니까...
기출문제집 구입 완! 민트책이랑 미어캣책이 유명하대서 엄청 고민하다가 나는 미어캣책으로 고름
데이터 문해력
CHAPTER 3-4✅
읽을수록 아티클을 통해 알게 되었던 내용과 일맥상통하는 것 같다. 실전에서 쓰이는 데이터들을 통해서 설명해주다 보니니 이해에 도움이 됨. 아직까지는 술술 읽히는 중
SQL 걷기반 퀘스트 10-11✅
걷기반 퀘스트를 끝냈으니 내일부터는 달리기반 퀘스트 3개씩 하기!