2024-07-19

강대·2024년 7월 19일
post-thumbnail

안녕하세요 ~!! 드디어 금요일이네용
오늘 하루도 다들 잘 보내셨는지요
학습주차 마무리 야무지게 해봅시다 !! 😤






♾️ 빅데이터의 위기요인과 통제방안

  • ADsP

사생활 침해
개인정보가 포함된 데이터를 목적 외 활용 시 사회/경제적 위협으로 변형
ex) 여행 사실을 SNS에 올린 사람을 대상으로 빈집털이를 시도한 강도 사건 발생

책임 원칙 훼손
예측 알고리즘의 희생양이 될 가능성 증가
특정인이 빅데이터의 분석 결과에 의해 특정 행위 가능성이 높다는 이유만으로 처벌 받는 것은 행위 결과에 대해서만 책임을 묻는다는 민주주의 사회 원칙 훼손
ex) 자신의 신용도와 무관하게 ‘부당하게’ 대출이 거절된 알고리즘 예측의 피해 사례

데이터 오용
데이터 과신 혹은 잘못된 지표 사용으로 비즈니스에 직접 손실 발생 우려
ex) 베트남 전쟁, 적군의 사망자 수로 전쟁의 승리를 예측하는 오류


사생활 침해 → ‘동의에서 책임으로’
개인정보 유출 및 사용으로 발생하는 피해에 대해 사용자가 책임
-사용 주체의 적극적인 보호장치

책임 원칙 훼손 → ‘결과 기반 책임 원칙 고수’
특정인의 ‘성향’이 아닌 ‘행동 결과’로 판단

데이터 오용 → ‘알고리즘 접근권 허용/인증’
알고리즘에 대한 접근권 제공을 통한 예측 알고리즘의 부당함 반증



알고리즘 접근권 같은 경우는 재작년부터인가
애플에서 앱 내 추적을 금지하거나 허용하는 경우를 예시로 들 수 있을 것 같네요
처음에는 어플 업데이트를 하고 알림창이 뜨길래 이게 무슨 말이지 싶었는데
학생 때 대행사에서 일하던 친구가 애플에서 추적 막아놔서 데이터 반토막 났다길래 아 ... 그렇게 됐구나 싶었는데 ..
지금 유저이기도 하면서 현업을 희망하는 저로썬 아직 앱 내 추적 알림창이 뜨면 관심 있는 도메인 아니면 추적 금지 누릅니다
데이터 분석을 하면서 접근권에 관해 어떻게 지혜롭게 데이터를 모을 수 있을지에 대해 생각하게 되네요 !
|
[IT애정남] 아이폰 앱 실행하면 뜨는 ‘앱 추적 허용’ 메시지, 이게 뭔가요?
https://www.donga.com/news/It/article/all/20240125/123235158/1



저도 이 영상은 오늘 찾아보다가
처음 알았는데 한 번쯤 보시면 좋을 것 같네요 !







♾️ 중심위치의 척도

  • 절사평균과 중위수, 최빈값

절사평균(trimmed mean) :
자룟값에서 큰 것과 작은 것을 각각 1개 씩 제거한 나머지 자료 집단의 평균

자료집단 1 : [1, 2, 3, 4, 5] / 산술평균 3
자료집단 2 : [1, 2, 3, 4, 50] / 산술평균 12

이처럼 산술평균은 특이값(outlier)의 유무에 따라 많은 영향을 받기 때문에
특이값을 제거하면 영향이 감소되므로 더 바람직한 평균이 산출된다.

자료집단 2에서 가장 작은 값 : 1
자료집단 2에서 가장 큰 값 : 50

특이값 제거한 자료집단 2 : [2, 3, 4]
특이값 제거한 자료집단 2의 산술평균 : 3
|
❗️절사평균은 대개 5% 혹은 10%의 절사비율을 제거하는데
여기서 절사비율이 정수가 아니면 양 끝에서 각각 𝑎𝑛보다 작고 가장 큰 정수의 자룟값을 제거한다.

ex) 10% 절사비율을 제외하고 절사평균을 구하라
자료집단 3 : [240, 24, 27, 30, 28, 31, 22, 27, 30, 25, 25, 23]

자료집단 3의 산술 평균 : 44.33(532/12)
𝑛(자룟값 갯수) : 12
𝑎(절사비율) : 0.1 
𝑎𝑛 = 1.2보다 작은 가장 큰 정수 =1

자료집단 3에서 가장 작은 값 : 22
자료집단 3에서 가장 큰 값 : 240

특이값 제거한 자료집단 3 : [24, 27, 30, 28, 31, 27, 30, 25, 25, 23] 
특이값 제거한 자료집단 2의 산술평균 : 27
(특이값은 이하 절사비율로 보면 됨)



중위수(median; 중앙값) :
자료를 작은 수부터 크기순으로 나열하여 한 가운데에 위치한 수


자룟값이 홀수라면 - 작은 수부터 크기대로 나열하여 한 가운데에 있는 값
자룟값이 짝수라면 - 작은 수부터 크기대로 나열하여 한 가운데에 있는 두 자룟값의 평균으로 정의

ex) 자료집단 4 : [5, 8, 7, 6, 5, 4, 50] 
자료집단 4의 중앙값 : 홀수의 경우 [5, 8, 7, (6), 5, 4, 50] 

자료집단 5 : [1, 2, 3, 4, 5, 6, 7, 8, 9, 100]
자료집단 5의 중앙값 : 짝수의 경우 [1, 2, 3, 4, (5, 6), 7, 8, 9, 100] / 5와 6의 평균 5.5
|
특이값에 대해 전혀 영향 받지 않음
자료집단이 왜도를 갖는 경우, 평균보다 좋은 중심위치를 나타냄
자룟값 갯수가 많은 경우는 사용이 부적절(수리적으로 다루기 힘듦)



최빈값(mode) :
자룟값 중에 가장 많이 나타나는 자룟값을 의미

자료집단 6 : [5, 8, 7, 6, 5, 4, 5]
자료집단 6의 최빈값 : [(5), 8, 7, 6, (5), 4, (5)] = 5

|

특이값에 대해 전혀 영향 받지 않음
존재하지 않거나 여러 개일 수 있음
자룟값 갯수가 많은 경우는 사용이 부적절(수리적으로 다루기 힘듦)








이번주 평일도 이렇게 끝나네요 !!!
담주부터 당장 최종 프로젝트인데
걱정이 많네요/...,
그니까 주말에 푹 쉬고 담주도 잘 해내보겠습니다 😇

이번주도 다들 고생많으셨습니다 ! 🍀🍀🍀

profile
걍 달려

0개의 댓글