ADSP 1과목_2장

SOOYEON·2022년 2월 8일

ADSP

목록 보기

2/2

빅데이터의 정의

관점	정의
데이터의 크기 관점	빅데이터는 일반적인 데이터베이스 소프트웨어로 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터
데이터의 분석 관점	빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
데이터의 가치 관점	“빅데이터란 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다, 나아가 이를 활용해 시장, 기업 및 시민과 정부의 관계 등 많은 분야에 변화를 가져오는 일“

빅데이터의 정의

Volume (데이터의 크기)

생성되는 모든 데이터를 수집
Variety (데이터의 다양성)

정형화된 데이터를 넘어 텍스트 , 오디오, 비디오 등 모든 유형의 데이터를 분석대상으로 함
Velocity (데이터의 속도)

두 가지 관점의 속도를 의미함
데이터가 원하는 시간 내에 데이터 분석결과를 제공하는 것,
데이터의 업데이트 되는 속도가 매우 빨라지는 것

결정적 요인

빅데이터가 등장하게 된 결정적요인으로 기술변화인 클라우드 컴퓨팅과 분산처리 기술이라 할 수 있다.

빅데이터가 만들어내는 본질적인 변화

사전처리에서 사후처리로

산업혁명 시대에 발전해온 것이 바로 정보의 사전처리 방식이다. 사전처리의 대표적인 예로는 표준화한 문서 포맷을 들 수 있다. 사전에 정한 포맷으로 인쇄된 문서를 통해 자신들이 원하는 정보만 수집, 특수한 상황을 반영하는 정보의 수집을 포기함으로써 정보 관리 비용을 줄인다.
빅데이터 시대에는 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다. 이른바 사후처리 방식으로 부를 수 있다.
표본조사에서 전수조사로
전수조사의 장점 : 표본조사가 주지 못하는 패턴이나 정보를 제공
질보다 양으로
구글의 자동번역 시스템 구축 과정은 데이터의 양이 질보다 중요함을 잘 보여준다.
데이터 수가 증가함에 따라 사소한 몇 개의 오류 데이터가 ‘대세에 영향을 주지 못하는’ 경향
인과관계에서 상관관계로

비즈니스 상황에서는 인과관계를 모르고 상관관계 분석만으로 충분한 경우가 많다.

빅데이터 활용 기술

연관규칙학습 (Association rule learning)

어떤 변수간에 주목할 만한 상관관계가 있는지 찾아내는 방법
유형분석 (Classification tree Analysis)

사용자가 어떤 특성을 가진 집단에 속하는가? 와 같은 문제를 해결하고자 할 때 사용
유전알고리즘 (Genetic algorithms)

최대의 시청률을 얻으려면 어떤 프로그램을 어떠 시간대에 방송해야 하는가? 와 같은 문제를 해결할 때 사용. 최적화의 매커니즘을 찾아가는 방법

예 ) 연료 효율적인 차를 개발하기 위해 어떻게 원자재와 엔지니어링을 결합해야 하는가?
기계학습 (Machine learning)

기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중에서 어떤 것을 가자 보고 싶어할까? 와 같은 문제를 해결할 때 사용. 기계학습은 훈련 데이터로부터 학습한 알려진 특성을 활용해
‘예측’ 하는 일에 초점을 맞춘다.
회귀분석 (Regression Analysis)

구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가? 와 같은 질문에 답할 때 사용
감정분석 (Sentiment Analysis)

새로운 활불 정책에 대한 고객의 평가는 어떤가? 를 알고 싶을 때 활용
이 기법에서는 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석
소셜 네트워크 분석 (Social network analysis) = 사회관계망분석 (SNA)

소셜 네트워크 분석은 특정인과 다른 사람이 몇 촌 (Degree of separation) 정도의 관계인가? 를 파악할 때 사용. 이를 통해 오피니언 리더(Opinion leader), 즉 영향력 있는 사람을 찾아낼 수 있으며, 고객들간 소셜 관계를 파악할 수 있다.

위기 요인과 통제 방안

1. 위기 요인 및 통제 방안

사생활 침해

위기 요인
특정 데이터가 본래 목적 외에 가공 처리 돼 2차, 3차적 목적으로 활용될 가능성이 증가
사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있음.

통제 방안
새생활 침해 문제를 개인정보 제공자의 동의를 통해 해결하기보다는 개인정보 사용자에게 책임을 지움으로써 개인정보 사용 주체가 보다 적극적인 보호 장치를 강구하게 하는 효과가 발생

책임 원칙의 훼손

위기 요인

분석대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가
통제 요인

기존의 책임 원칙을 좀 더 보강하고 강화

데이터의 오용

위기 요인
- 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다.
- 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러올 수 있다,
통제 요인
- 알고리즘에 대한 접근권을 보장
- 접근권 뿐만 아니라 객관적인 인증방안을 도입
- 알고리즘이 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문

2. 개인정보 비식별화

개인정보란 살아있는 개인에 관한 정보

성명, 주민등록번호 및 영상 등을 통해 개인을 알아볼 수 있는 정보
비식별화란 정보의 일부 또는 전부를 삭제, 대체하거나 다른 정보와 쉽게 결합하지 못하도록 하여 특정 개인을 알아볼 수 없도록 하는 일련의 조치

익명화 (Anonymization)

사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환하는 것

개인정보 식별요소 제거방법 및 예시

비식별 기술	제거방법	예시
가명처리	개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 함	홍길동, 30대, 서울 거주, 국제대 재학
총계처리 또는 평균값 대체	데이터의 총합 값을 보임으로써 개별 데이터의 값을 보이지 않도록 함	물리학과 학생 키 합 : 660cm, 평균키: 165cm
데이터 값(가치) 삭제	데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요 없는 값 또는 개인식별에 중요한 값을 삭제	개인과 관련된 날짜 정보(자격 취득일자, 합격일 등)는 연 단위로 처리
범주화	데이터의 값을 범주의 값으로 변환하여 명확한 값을 감춤	임씨, 30-40대
데이터 마스킹	공개된 정보 등과 결합하여 개인을 식별하는 데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함	임, 35세, 서울 거주, 대학 재학

SOOYEON

이전 포스트

ADSP 1과목_2장

ADSP

빅데이터의 정의

빅데이터가 만들어내는 본질적인 변화

빅데이터 활용 기술

위기 요인과 통제 방안

1. 위기 요인 및 통제 방안

2. 개인정보 비식별화

개인정보 식별요소 제거방법 및 예시

ADSP 1과목_1장

0개의 댓글