big data: 크고 다양하고 빠르게 생산유통소비되는 특성을 가진다.
무슨 활동이든 흔적이 남고 그것은 데이터가 된다. 수집, 저장된 빅데이터에서 Insight 통찰을 얻어야한다.
DIKW 피라미드: 물(data) -> 생수병의 물(infomation) -> 우물안에 물(knowledge) -> 우물을 파는 법(wisdom)
빅데이터의 역사: 인쇄의 대중화->책,도서관->인터넷, 검색의 대중화->스마트폰, 모빌리티, 메타버스
5V: Volume, Variety, Velocity, Veracity, Value
빅데이터에는 숨겨진 패턴이 존재한다.
빅데이터를 수집, 저장을 하고 넘어가서 빅데이터 기술(데이터시각화, 데이터분석, 머신러닝, 딥러닝)을 사용해서 숨겨진 패턴을 찾는 것이 핵심이다.
빅데이터는 21세기 원유이다.
빅데이터 이전의 통계에서는 데이터 수집의 어려움때문에 small data를 이용했다.
표본조사, 실험계획법의 발달, 양질의 데이터 + 공정한 통계모형->의미있는 결과 도출, 절차중심
빅데이터는 인과구조를 따지지 않고 상관관계, 결과중심 즉 예측력만 좋으면 된다.
분산이 낮고 편의(편향성)이 존재한다.
Natural Language Processing
활용: 텍스트요약과 분류, 감성분석, 의미연결망분석, 기계번역, 질의응답과 챗봇, 음성인식
핵심: 토큰화, 정규화, 단어임베딩, 단어의 빈도수, 언어 모형
데이터의 시각화의 핵심: 정직(Honesty), 간결(Simplicity), 정확(Accurancy)
시간 시각화: trend 파악(경향) ex) 선, 막대, 점, 누적, 버블그래프
참고: 한스로슬링, 팩트풀리스, 갭마인드
텍스트 시각화: WordCloud, WordTree
소셜네트워크시각화: direction, undirection, Node & Vertice, Edge & link, Degree of edge, weighted graph
시각화 도구
R - ggplot2
python - pandas, matplotlib, seabon, plotly
more interactive-> Javascript + Processing ex) D3.js
Tableau, PowerBI-Azure
Recommendation System : Associative Analysis method(모집단), Collabolative Filtering method(개인)
연관성 분석: if-then, 규칙이 있을 때, X->Y, 규칙=P(XY교집합)
지지도: 규칙/전체
신뢰도: 규칙/원인
향상도: 신뢰도/결과
향상도=1 -> 독립적인 관계
향상도>1 -> 양의 상관 관계
향상도<1 -> 음의 상관 관계
코사인유사도: 벡터가 크기와 상관없이 같은 방향인 지가 중요
상관계수: 방향성보다 편차가 얼마나 비슷한 지가 중요
데이터의 희소성
고객의 수 > 상품의 수 : 상품 중심 방법, 해석력 좋음
고객의 수 < 상품의 수 : 고객 중심 방법, 놀라움 좋음
상대적 평가: 모델 간의 비교를 통해 예측력(성능)을 평가함.
절대적 평가: 각 모델을 독립적으로 평가하며, 비즈니스 성과나 기대되는 효과를 평가하는 데 적합
그러므로 추후 프로젝트 할 때에 상대적 평가와 절대적 평가를 적재적소에 모두를 이용하는 것이 중요한 포인트일 것
정확도와 재현율: 내가 좋아하는 것을 추천할 확률이 높으면 기회비용이 낮게 될 확률이 높다, 즉 재현율이 낮을 수 있다.
반면에 실제로 내가 좋아하는 것을 추천을 모두 한 경우에 재현율이 높지만 그만큼 많은 것을 추천해서 정확도가 낮아질 수 있다. 그렇다면 재현율도 높고 정확도도 높은 것이 가능할까?
추천 시스템이 정확도가 높다면 신뢰도가 높아질 것이고
재현율이 높다면 다양하고 새로운 것을 추천할 수 있기 때문에 지루함 방지가 될 것이다.
이러한 추천 시스템 자체를 평가하기 위해서는 A/B 검증이 필요하다.
ex) 추천시스템을 사용한 경우와 아닌 경우의 매출 비교
하지만 A/B 검증을 하기 위해서는 기업은 비용을 감수해야 한다. 추천시스템이 효과적인 경우 적용되지 않은 그룹의 매출 감소를 감수해야 한다. 따라서 상대적 평가를 이용하고, 마지막으로 절대적 평가를 하는 것이 좋다고 본다.