알고리즘과 차별문제

vlwkaos·2021년 8월 16일

AI Ethics 기술윤리 차별

이 글은 저의 디지털가든 에서 가져온 글입니다.

사회적 이슈를 다루기 때문에 조금 선정적이고 불편한 내용이 있을 수 있습니다.

Algorithms of Oppression

서론

이 글은 Satiya Umoja Noble의 Algorithms of Oppression을 재구성, 요약, 각색한 글이다.

저자는 구글에 중점을 두고 있지만, 이는 상징으로 봐야 한다. 정보를 활용하는 영리 기업 혹은 기술은 비슷한 문제를 지니고 있기 때문이다.

(대표적으로 Google, Amazon, Facebook Apple, Microsoft; GAFAM; The Big Five)

또한 저자가 흑인 페미니스트임을 염두에 두고 읽어야한다. 그러나 책에 나오는 문제는 누구에게나 적용할 수 있다.

구글은 돈을 벌고 싶어 한다. 많은 사람은 돈을 벌고 싶어 하는 구글의 검색엔진을 별생각 없이 사용한다. 그러니까 구글은 돈에 관심이 있지 검색엔진에 의해 생기는 인터넷상의 경제, 인종, 성별 간의 차별에는 관심이 없다. 물론 구글이 차별과 집단 간 혐오가 점점 빈번해지는 디지털 세상을 의도하고 만든 것은 아닐 것이다. 그저 인터넷이라는 거대한 실험의 나쁜 결과물일 뿐이다. 문제는 그 똥이 자기 것이 아니라고 회피하려는 데에 있다.

요즘 사람들은 알고리즘이 어떤 특징을 가지는지 대충 알고 있다. 그 특징 중 하나가 중립성이다. 알고리즘은 그저 일련의 규칙을 따르기 때문에 중립적이다. 분명 맞는 말이다. 그러나 그 알고리즘이 생산하는 결과물 또한 중립적일까? 아니다. 사용자가 인간인 만큼 기술에는 인간의 규제가 분명히 필요하다. 인공지능이 여러 분야를 장악하고 기술 의존이 커가는 만큼 기술의 결과물이 어떤 식으로 사회에 영향을 끼치는지 지속해서 고민해야 한다. 집단 간 갈등, 인종차별, 성차별 등이 기술 구조의 문제인지 아니면 그 기술을 만들고 사용하는 우리들이 문제인지 고민하고 해결하려는 노력이 필요하다.

1. 발단

2013년 구글 검색창에 'women'을 입력하면 검색 제안으로 이런 게 떴다:

women cannot drive 여자는 운전을 못해
women cannot be trusted 여자는 믿을게 못돼
women should not have rights 여자의 기본권을 박탈해야돼
...

저자는 어린 딸의 소풍 때 무엇을 준비해주면 좋을지 검색하기 위해 'black girl'이라고 검색을 한 적이 있었다. 그런데 소풍에 관한 내용은 고사하고 구글이 흑인 소녀를 성 상품화하는 이상한 웹사이트만 보여주자 충격을 받았다. 저자는 구글이 사용자의 검색 기록 맞춤형 검색 결과를 보여준다는 사실을 알고 있었기 때문에 'black feminist'라고 입력한 뒤 다시 'black girl'을 검색해보기도 했지만 안타깝게도 눈앞의 화면은 똑같은 결과만을 보여줄 뿐이었다.

이런 검색 결과와 연관 검색어는 왜 뜨게 된 걸까? 단순하게 생각해보자. 검색하면 여러 웹사이트 목록이 뜬다. 그중 클릭이 자주 되는 웹사이트일수록 상단에 노출될 것이다. 만약 'black girl'이라는 검색어의 결과가 포르노 사이트라면 대체 누가 포르노 사이트를 그렇게 많이 클릭했기에 그게 거기에 떠 있냐는 말이다.

디지털 격차

요즘 인터넷은 정보를 손쉽게 공유할 수 있다는 장점 때문에 살짝 미화되어 있는 것 같다. 특히 교육에 있어서 인터넷은 누구에게나 공평한 기회가 주어지는 평등의 장처럼 소개되곤 한다. 그러나 인터넷은 결코 그런 유토피아가 아니다. 인터넷은 가상의 공간이지만 물리적 실체도 있기 때문이다. 인터넷을 쓰기 위해서는 컴퓨터, 네트워크 인프라 등등 여러 가지가 있어야 한다. 사회 경제적 격차가 곧 디지털 격차다. 이미 인터넷에 항시 접속해 사는 사람들은 느끼지 못한다. 문제는 옛날에 생겼던 디지털 격차가 지금까지 쭉 이어져 온다는 데에 있다.

미국의 백인들은 흑인들보다 5배 더 잘 산다고 한다. 옛날에는 빈부격차가 더 심했을 게 분명하다. 개인용 컴퓨터가 보급되기 시작하던 때 누가 제일 먼저 그걸 사고 인터넷에 연결할 수 있었을지, 누가 인터넷을 만들고 다듬었을지 생각해보자.

인터넷 기득권

그렇게 먼저 인터넷을 사용하게 된 집단은 클릭도 먼저 했고 타이핑도 먼저 했다. 인터넷에 올라오는 정보, 의견 등은 다 그 집단 중점으로 돌아갔다. 그들은 자신들이 자라면서 갖게 된 편견을 무의식적으로 공유하기 시작했다. 단적인 예를 하나 들어 보자. 과거 가부장제 사회의 흑인 여성들은 노예제도, 강간 문화, 학대 등에 맞서야 했고, 결과적으로 백인 여성과는 다르게 반항적이라는 이미지를 갖게 되었다. 안타깝게도 이런 인식을 가진 사람들은 인터넷을 가장 먼저 썼을 것이다. 그렇게 과거의 잘못된 인식이나 정보는 고쳐지기는커녕 새 생명을 얻었다.

계속되는 차별

인터넷은 인류의 기록 보존이라는 명목하에 지금은 부적절할 뿐인 과거 기록을 그대로 디지털화하여 보관한다. 그리고 안타깝게도 우리는 과거의 정보가 전부일 때 거기에 과의존하려는 경향이 있다. 새로운 생각은 어렵기 때문이다. 덕분에 그 당시에 형성된 소수 집단의 이미지가 사라지기는커녕 계속해서 그들을 괴롭히는 것이다. 구시대의 고정관념은 이런 식으로 인터넷으로 넘어와서 현재까지 이어진다. 그 와중에 미디어는 정보가 흐를 자유만을 외쳐대고 사람들은 동조한다. 편견이 가득한 인터넷상의 정보는 계속해서 사람들 눈에 띌 것이고 차별은 심화할 것이다. 무엇이 상위에 노출되는가? 만으로 유권자들의 투표 경향을 달리할 수 있다는 연구 결과는 이를 뒷받침한다. 결과적으로 소수 집단이 미디어에 어떻게 비치는가는 당사자들 빼고는 별로 신경 쓰지 않게 되었다.

2. 검색엔진이 어떻게 차별을 부추기는가?

구글 검색에 'unprofessional hair'를 입력하면 흑인 여성의 헤어스타일이 나온다거나 'three black teenagers'를 입력하면 흑인 소년의 머그샷 사진이 나오던 때가 있었다.

(지금은 사람들이 많이 검색해서 그런지 해당 논란을 얘기하는 결과만 상위에 뜬다.)

검색엔진이 차별을 부추기는 방법은 복잡하고 가짓수가 많다. 그중 하나만 간단하게 설명해 보자면 이렇다. 먼저 사람들은 검색엔진 알고리즘이 중립적이고 객관적이기 때문에 문제가 없다고 생각하고, 무료로 제공되는 검색엔진이 상업성을 띠지 않는다고 믿는다. 또 개개인의 검색이 뭔가를 만든다고 여기지 않는다. 그러니까 같은 내용이 서로 다른 유저들에 의해 계속해서 검색되면 그 내용은 알고리즘에 의해 (혹은 알고리즘이 합리적이라고 믿는 사람들에 의해) 객관적으로 포장된 인기 검색어가 되어 일종의 이데올로기를 형성하게 되는데 개개인은 그 과정을 전혀 눈치채지 못한다. 여기서 그 이데올로기가 특정 집단을 차별하는 내용이라면….

구글의 검색 결과는 믿을만 해

요즘 사람들은 확실히 구글이 보여주는 검색 결과가 단순히 중립적인 알고리즘의 계산에 의한 결과라 여기기 때문에 그 결과가 정확하다 믿으며 신뢰한다. 특히 인터넷 어디든 사용되는 클릭을 통한 투표방식은 민주적이고 합리적이다. 또 구글 검색기는 무료로 제공되기 때문에 공공재라 생각한다. 심지어 학교, 연구기관, 공공기관에서도 구글을 습관처럼 사용하니까 말 다 했다. 구글을 믿지 않을 이유는 없다. 구글은 우리에게 제2의 천성이고 거부할 수 없다.

아닌가?

과연 알고리즘이 가져다주는 결과가 믿을만할까? 구글 검색의 기반은 PageRank라는 오래된 알고리즘인데 이 알고리즘은 논문의 중요도를 계산하는 방법에서 차용한 것이다. 인용이 많이 된 논문은 그만큼 중요하다고 여겨진다. 그런데 사실 이 방법을 통해서는 논문의 연관성밖에 알 수가 없다. 중요성과 연관성은 다르다. 인기 검색어라고 해서, 상위에 노출된다고 해서 사용자에게 중요하거나 믿을 만한 정보일 거라는 보장은 근본적으로 없다.

또 우리는 검색할 때 겨우 몇 가지 단어만 입력한다. 따라서 우리는 검색엔진이 복잡한 문제를 간단하게 물어봐도 간결하게 잘 대답하는 마법 상자라 느낀다. 현재 검색 엔진을 채점하는 척도 중 하나가 연관성이다. 그런데 겨우 몇 가지 단어로 특정 사람과 연관된 정확한 결과를 낸다는 게 가능하긴 한 걸까? 그 비좁은 검색 상자가 검색하는 사람의 배경이나 의도를 알 수 있을까? 답은 당연히 모른다이다. 검색 엔진의 결과는 생각보다 정확하지 않다. 그럼에도 우리는 그렇다고 믿고 있고 직접 생각하는 힘을 잃어버렸다. 순위를 매기는 알고리즘은 우리가 정보의 유용성을 직접 판단하지 못하게 만들었다.

아닐지도 모른다

구글은 광고로 돈을 벌어먹는 회사다. 그리고 겨우 몇 가지 단어만 가지고 검색하는 시스템은 돈이 된다. 자주 검색되는 단어를 비싸게 팔아먹으면 꽤 짭짤하다. 자본이 많은 회사는 자회사의 웹사이트를 노출하기 위해 상당한 금액을 지불한다. 그러니까 구글은 명백히 엘리트주의이며 절대 민주적이지 않다. 거기다가 구글은 유저들이 광고를 클릭하게 하기 위해 수단과 방법을 가리지 않는다. 덕분에 우리는 어떤 게 진짜 검색 결과인지 어떤 게 광고인지 구분하기 어려워졌다. 그러니까 우리가 무엇을 볼지 결정하는 건 결국 돈 많은 대형 매스컴이다.

여기서 발생하는 또 하나의 문제는 상업성이 짙은 검색 용어가 집단 차별과 관련이 있는 경우가 많다는 것이다. 그러나 구글은 부적절한 검색 결과가 뜰 때마다 검색하는 사람들의 문제 거나 알고리즘의 이상 현상일 뿐이라며 책임을 회피했고 아무런 조처를 하지 않았었다. 사용자에게 보여줄 정보를 자기들 맘대로 건드리는 것은 비윤리적이라는 입장이었다. 구글이 아니면 대체 누가 책임을 져야 한다는 걸까? 구글은 이후에 법적으로 문제가 되는 검색 결과를 성실히 삭제하는 모순적 모습을 보여줬는데 고객들에게 자기들 맘대로 정보의 통제가 가능하다는 사실은 알리지 않았다. 우리는 구글의 검색 결과를 신뢰할 이유가 없다.

결론

위의 내용을 다시 정리하자면 이렇다. 우선 자본을 가진 기업, 매스컴은 검색 용어를 조작하여 검색 결과를 장악한다. 사람들은 알고리즘과 검색 결과를 객관적으로 여기고 신뢰하기 때문에 자본이 만든 결과 역시 민주적으로 선택된 결과라 믿는다. 자본이 수면 위로 띄운 결과에는 더 많은 클릭이 유도되고 계속 노출된다. 그런데 이 결과는 대부분 영리를 목적으로 하기 때문에 윤리적으로 부적절할 때가 많다. 그러나 구글 역시 영리 기업이기 때문에 이를 일정량 용인한다. 이런식으로 차별은 계속된다.

아래의 소항목은 구글의 문제를 좀 더 자세히 다룬다.

구글 폭탄

예전의 구글 검색엔진 검색 결과는 과도한 링크를 거는 방법으로 조작이 가능했다. 이것을 구글 폭탄이라고 한다. 구글 폭탄은 정치적, 상업적으로 악용된 사례가 있다. 구글은 사건이 있고 난 뒤 얼마 가지 않아 알고리즘을 수정했다. 알고리즘은 질문과 답변의 '은제 탄환'이 아니다.

구글의 검색 편견

구글은 자사의 제품을 쓰지 않는 유저들에게 페널티를 부여한다. 자사의 제품이 상위에 노출되도록 검색 결과를 조작하고 자사의 인터넷 브라우저인 크롬을 쓰지 않는 유저들의 검색 결과의 정확도를 일부러 떨어트린다. 사람인지 컴퓨터인지 판별하는 캡챠 서비스의 경우 크롬을 쓰지 않는 유저들에게 이미지가 더 느리게 뜨게끔 설정하기도 하는 등 구글의 구질구질한 만행은 인터넷 곳곳에 숨어있다.

내가 바로 정의다

구글은 부적절한 콘텐츠를 나름대로 걸러내고 있다고 한다. 그러나 무엇이 부적절한지 그 기준을 알려주지는 않는다. 기준이 알려지면 악용될 여지가 있다나. 즉, 구글은 자기들이 윤리적 기준이 되어 사람들에게 정보를 가려서 제공하고 있다. 결과적으로 어느 정도의 부적절한 콘텐츠는 돈 때문에 그냥 방치된다.

자본의 정보 독점

경제지표의 통계적 규칙성이 그것을 정책목표로 삼고 규제하기 시작하는 순간 사라진다.

- 굿하트의 법칙

그냥 목표가 숫자가 될 때 그 숫자는 의미를 잃는다는 이론이다.

예를 들어 좋은 학교를 판단하는 기준이 평균 성적이라고 하자. 학생과 선생의 노력으로 달성한 성적이 반영될 때 그 기준은 의미가 있을 것이다. 단지 성적을 높이기 위해 선생과 학생이 가담하여 부정행위를 하게 된다면 그 기준은 소용이 없게 된다.

검색 엔진에도 비슷한 문제가 있다.

사람들의 정보 소비는 날로 증가하고 있다. 그러나 정보를 얻을 수 있는 출처를 몇몇 대형 자본이 독점한다. 뉴스 기사는 조회 수를 위해 인기 검색어와 연관된 단어, 헤드라인을 쓰기 바쁘다.

웹디자이너들은 가장 많이 검색될 만한 키워드에 맞춰서 웹사이트를 디자인한다.

예를 들어 포르노 사이트는 사람들이 가장 많이 사용하는 검색 용어를 주시한다. 그리고 검색엔진을 조작하여 그 검색 용어를 이용한 여러 연관 검색어를 만든다. 이른바 'long tail' 법칙을 이용하여 검색 엔진을 이겨 먹는 것이다.

예를 들면 'teen sex' 라는 검색 용어가 있다고 할 때:

teen sex
white teen sex
white teen **** sex
black teen **** sex
...

이런 식으로 사람들이 입력할만한 연관 검색어를 미리 만들어 놓는다. 그리고 점점 꼬리를 늘려 세분화시킨다. 사람들이 이제 연관 검색어를 입력할 때마다 중복적으로 포함되는 중간 검색어인 'teen sex'는 점점 포르노 사이트와 연관되게 되고 검색 결과 상위에 노출된다.

이게 가능한 이유는 위에서 설명했듯 검색 엔진이 엘리트주의이기 때문이다. 포르노 회사는 이런 식으로 정교하게 검색 결과를 조작할 정도로 돈이 많다.

이 문제를 다른 방면에서 쳐다보면 이렇게 해석할 수 있다. 아무리 제대로 된 정보를 가진 웹사이트를 만들고 알리고 싶더라도 자본력이 없어서 위와 같은 'long tail' 전략을 쓰지 못한다면 해당 사이트는 구글에서 존재하지 않는 사이트가 되어 버린다.

우리는 제대로 된 정보를 원하지만, 거대 자본에 의해 왜곡되고 질이 떨어지는 정보만 볼 수 있게 되어 버렸다.

콘텍스트의 부재

인종이나 성별 고정관념은 시대마다 특징을 갖고 있는데 몇몇 특징은 계속 살아남아 지금까지도 사람들을 괴롭힌다. 흑인 여성의 경우 Jezebel(악녀)과 Mammy(흑인 유모) 라 불리는 인종차별적 성격이 강한 상징이 있었는데, 이는 17세기에 아프리카로 여행 간 백인 여행자가 부족의 풍습을 미개하고 야만적으로 규정을 지으면서 만들어졌다. 흑인 소녀를 성 노리개로 여기는 인식도 이때 생겼다. 현재 흑인 여성은 Brutes, Bucks(반항적) 라는 새로운 상징이 생겼지만, Jezebel은 아직도 살아남아 사회 하층민을 상징한다. 이런 고정관념은 몇몇 흑인 여성의 빈곤한 처지를 정당화하기까지 한다.

구글은 사람들이 흑인 여성을 검색할 때 흑인 여성들이 왜 이런 이미지를 가지게 되었는지 과거의 잘못된 역사를 설명하지 않는다. 단순히 지금 있는 차별적 이미지만 표시해줄 뿐이다. 검색 결과에 콘텍스트가 없는 것이다.

이 문제가 왜 심각한지는 다음 사례로 설명이 가능하다.

어느 날 딜런 루프는 흑인에 증오를 느꼈다. 매스컴은 백인 경찰이 부당하게 흑인들에게 발포하거나 체포하는 등 차별을 한다고 했는데 그가 보기엔 반대였기 때문이다. 그는 자기 생각이 맞는지 확인하려고 구글에 'black on white crime'을 검색한다. 검색 결과는 흑인이 백인에게 행한 범죄에 관한 내용을 주로 띄웠다. 그런 내용을 담은 웹사이트는 대부분 백인우월주의와 인종차별을 옹호하는 웹사이트였고 전문성과 사실과는 거리가 멀었다. 그런데도 루프는 자신이 본 결과를 믿었다. 그리고 행동에 옮긴다.

그는 흑인 교회에 들어가 9명을 살해한다.

이는 끔찍한 흑인 증오 범죄 중 하나인 찰스턴 총기 난사 사건의 전말이다.

특정 견해를 지지하는 단체는 돈으로 자신의 웹사이트를 노출해서 마치 믿을만한 출처로 위장한다. 그런 부적절한 웹사이트가 상위에 뜰 때 극단적인 경우 위와 같은 혐오 범죄로 이어지는 것이다. 만약 그가 봤던 검색 결과가 FBI와 같은 공신력 있는 사이트의 폭력 범죄의 실질적 통계자료였다면 어땠을까 (실제로는 같은 인종 간의 범죄율이 제일 높다). 혹은 그가 봤던 웹사이트에 대한 부연 설명이 있었다면 어땠을까.

3. 풀리지 않는 문제

사실 검색엔진과 차별 문제는 표면에 불과하다. 차별이 풀기 어려운 사회 문제인 만큼 인과관계가 여기저기 섞여 있기 때문이다. 인터넷은 거기에 불을 지폈을 뿐이다.

실리콘밸리와 인종차별

흑인들의 교육 수준은 확실히 높아졌다. 컴퓨터 공학과를 졸업하는 흑인 인구는 점점 많아지고 있다. 그런데도 실리콘밸리에는 흑인이 매우 적다. 그 결과 실리콘밸리가 만드는 기술 역시 인종차별적이다. 예를 들어 실리콘밸리의 스냅챗(동영상 공유 애플리케이션)은 'Yellow Face'라는 필터를 냈는데 이 필터를 적용하면 동영상 촬영자의 눈을 삐죽거리게 만든다. 명백한 동양인 비하이다. 또 'Bob Marley'라는 필터도 냈는데 촬영자는 이상한 흑인 얼굴로 바꿔버렸다. 명백한 흑인 비하이다. 회사에서 일하는 사람들의 감수성이 떨어질 때 다양한 집단을 대표하지 않게 되는 건 당연하다. 윤리에 대한 지식이 전무한 기술자들이 기술이 변화를 이끄는 시대를 올바르게 이끌어갈 수 있다고 생각하는 건 오산이다.

우리는 경제적 평등(혹은 고용시장의 인종 다양화)을 위해 요즘 어떤 노력을 하고 있을까? 요즘 대기업은 대외적 이미지도 중요시 하므로 사회적 기여를 하나 이상 하는 편이다. 그중 유명한 게 있다면 빈곤층 학생들에게 전자기기를 지원하는 자선 사업이다. 이는 디지털 격차를 줄이는 데 도움이 된다. 그 외 집단이 자체적으로 노력하는 경우도 있다. 예를 들어 Black Girls Code와 같은 단체는 흑인 여성에게 프로그래밍 경험을 제공한다. 이런 시도는 올바른 방향이긴 하나 마치 이런 시도가 근본적인 인종차별을 해결하는 것으로 착각하게 만들기 때문에 더 나쁘다. 기술이 만드는 차별을 정말 해소하기 위해서는 기술을 만드는 사람들이 다양한 집단을 대변할 수 있어야 한다. 소수 집단이 단순히 기술을 소비하는 데 그치면 안 되고 직접 생산자가 되어야 한다는 말이다.

'소비자가 생산자가 되어야 한다'는 보기엔 간단하지만 어려운 문제다. 실리콘밸리의 기업은 능력주의를 가장한 인종차별 집단이기 때문이다. 능력주의가 뭘까. 기업은 좋은 학교에서 질 높은 교육을 받은 사람을 선호한다. 그런데 여기서 좋은 학교 자체가 인종차별이다. 흑인과 백인이 졸업한 학교가 같을 리가 없기 때문이다. 앞서 말했듯 백인은 평균적으로 흑인보다 더 부유하다. 백인이 이력서에 유리한 더 좋은 학교를 적을 확률이 더 높다는 말이다. 기술계 고용시장의 인종차별은 이런 식으로 계속된다.

사람들의 인식과 인종차별

차이로 인해 발생하는 집단 간 차별을 없애는 게 가능할까? 예전부터 미국은 인종차별을 줄이기 위해 색으로 사람을 차별하지 않는 다는 개념의 색맹 사회 인식을 사람들에게 퍼뜨렸다. 안타깝게도 색맹 사회는 인종차별을 없애는 척만 한다. 사람들이 색을 의식적으로 보지 않으려 하면서 오히려 차별 문제에 관심을 가지지 않는 방관자가 되어버렸다. 인종 문제를 그들이 해결해야 할 문제로 바라보는 것이다. 결과적으로 사람들의 감수성은 더 부족해질 수밖에 없다. 그리고 이런 사람들은 백인이 다른 인종을 조종하는 것을 오히려 대수롭지 않게 여긴다. 색맹 사회는 다양한 인종과 문화를 수용하는 듯 보이나 기술이나 교육 쪽에서 발생하는 실질적 사회 구조적 억압을 부추긴다.

더 나아가 기술이 발전하면서 사람들은 기계가 더 나은 사회, 정치적 결정을 내린다고 여기기까지 하는데. 소수자의 인권이 조금씩 자리를 잡기 시작하려는 시대에 인공지능의 지위가 상승하게 된 것은 우연이 아니다. 인간의 참견이 없다면 인공지능은 앞서 언급된 문제를 답습하고 차별을 이어가게 될 것이다. 인공지능이 인터넷에 널려있는 데이터로 편견을 학습한다는 내용의 기사나 논문을 본 적이 있을 것이다.

집단 간 차별을 확실히 줄이는 방법은 모두가 사회과학을 공부하는 것이다. 흑백의 이분적 사고는 미국 사람에게 너무 익숙해져 버렸다. 인종 분류는 분류를 시작한 부류에 권력을 가져다주었다. 미국의 수많은 정책이 백인 우호적임은 이를 방증한다.

저자는 인종차별을 없애기 위해 비판적 인종 이론(Critical race theory; CRT)을 제시한다. 비판적 인종 이론은 인종간의 차이를 인정하는 것부터 시작된다, 또 중립적 태도는 아무것도 해결하지 못함을 인정한다. 결과적으로 분류를 시행한 부류를 분석하고 인종, 법, 권력 간의 관계를 올바르게 재정의하려는 이론이다.

인터넷이 정체성과 사회에 주는 영향

다양한 집단이 살고있는 미국에서 정체성을 찾는 일은 특히 더 중요하다. 사회 경험이 한 사람의 정체성이 형성되는데 큰 영향을 끼친다는 사실을 부정하는 사람은 없을 것이다. 현대 사회 경험의 주축은 단연 인터넷이다. 문제는 인터넷에 보이는 수많은 콘텐츠를 구글과 같은 돈이 목적인 회사가 제어한다는 점이다. 이 글에서 언급한 기타 문제들이 어느 정도 사실이라는 점을 인지하고 볼 때, 인터넷 세대의 아이들이 학교나 집에서 구글같이 최소한의 윤리만을 지키는 회사의 제품을 통해 편견을 흡수하고 있는 것은 심각한 문제가 아닐 수 없다. 올바르지 않은 편견이 아이들의 정체성에 섞여 들어갈 것이다.

예를 하나 들어보자. 인터넷은 광고 천국이다. 그러나 우리는 광고를 무시하면 그만이라 여기기 때문에 광고가 끼치는 사회적 영향력을 가벼이 여긴다. 광고는 안 보면 그만이 아니다. 광고는 그 자체로 우리를 폄하하고 자존감을 낮게 한다. 예를 들어 뷰티 관련 광고가 뜰 때, 우리는 광고가 제시하는 미적 기준 때문에 자신을 스스로 상품화한다. 요즘 세상에 인터넷 광고가 어떻게 사용자에게 도달하는지를 생각해보면 마냥 무시할 만한 문제는 아니다.

또 다른 예로 포르노가 있다. 포르노 산업은 여러 가치사슬에 포함되어 있음에도 불구하고 포르노 자체를 사람들이 쉬쉬하기 때문에 연구가 덜 되는 경향이 있다. 덕분에 포르노 회사는 뒷골목에 숨은 채로 막대한 권력을 휘두를 수 있게 되었다.

여하튼 여성들은 자기실현을 위해 포르노가 만들어내는 여성의 이미지를 극복해야 하는 장애물로 여기게 되었고 몇몇 여성들은 이런 이미지를 받아들이고 살아가게 되기도 한다.

자기 자신뿐만 아니라 집단의 정체성은 집단 내에서 정의되어야 한다. 그러나 인터넷은 이를 타인이 하도록 만들어버렸다. 사람들은 타인이 만든 사회계층에 스스로 종속되어 버렸다. 그리고 이렇게 되기까지 민주주의가 많은 도움을 주었다. 자유와 관용이 차별을 용인하는 양날의 검이 되었다.

구글과 신식민주의

얼핏 보면 구글은 아프리카 같은 저소득국가의 디지털 격차를 줄이려고 노력하는 듯 보인다. 그런데 대부분의 IT 대기업은 현대 디지털 산업의 기초가 되는 반도체의 주재료를 저소득 국가에서 가져온다. 그 과정에서 지어지는 시설은 오롯이 재료 조달을 위한 것이고 현지인들에게 돌아가는 이득은 하나도 없다. 오히려 현지인의 값싼 노동력이 착취당할 뿐. 대단한 이중성이 아닐 수 없다. 그리고 요즘 기술 플랫폼이 우리의 일상을 지배하고 감시한다는 점을 미루어 볼 때 디지털 격차를 줄이기 위해 자기 회사 제품을 저소득 국가에 지원한다는 것조차 의심스럽다. 그러니까 그 나라의 정보까지 제어하겠다는 숨은 의도가 보인다는 말이다. 구글은 자본, 정보독점을 통한 새로운 형태의 식민지를 만들었다.

공공 지식의 사유재산화

우리는 구글이 시작한 구글 북스 서비스 덕분에 수많은 책을 온라인으로 볼 수 있게 되었다. 그런데 구글은 다른 나라의 책까지 전부 가져다 자기들 재산으로 만든다. 미국 정부는 다른 나라 정부의 허락은 묻지도 따지지도 않고 이를 용인했다. 문제는 디지털화된 책이나 지식이 구글 이사회의 결정에 따라 사용자 약관이 변할 때 언제든지 우리 곁에서 사라질 수 있다는 것이다.

또한 사람들은 구글이 지식을 독점하기 시작한 뒤로 전문 학술기관이나 전문가를 찾아가기보다는 검색을 더 신뢰하게 되었는데 이는 도서관이나 학교 같은 공공 교육기관에 대한 정부의 지원을 낮췄다. 그러니까 학비 올라갔다는 말이다. 그리고 그 영향으로 기업은 그런 기관을 대체하는 서비스를 소비자들에게 더욱 잘 제공할 수 있게 되었다. 우리는 지식을 얻기 위해 영리 기업에 점점 의존하게 되는 악순환에 갇혀버렸다.

잊힐 권리

인터넷에 한번 뭔가가 올라오면 순식간에 복제되기 때문에 온전히 그 기록을 없앤다는 건 매우 힘든 일이 되어버렸다. 영구 박제된다는 특성 때문에 옛날과 다르게 인생을 다시 산다는 것이 거의 불가능해졌다. 누군가는 인터넷이 누군가의 과거를 판단하기 위해 필요하다고 말하지만, 세상에 완벽한 사람이 어딨는가. 예를 들어 미국에는 종종 과거에 성인 비디오를 찍었다는 이유로 파면당한 선생님에 관한 뉴스 기사가 뜨기도 하는데, 만약 정말 돈이 궁해서 그럴 수밖에 없는 처지였더라도 그 사람을 용서해서는 안 되는 걸까? 한 번의 실수로 사람의 가치관이 평생 결정된다고 여기는 것이야말로 이상하다. 더 심각한 건 인터넷에 원치 않는 사생활이 타의로 인터넷에 퍼질 때이다. 요즘 들어 특히 보복성 음란물 범죄가 늘고 있는데, 희생자는 평생 극복하지 못할 정도의 트라우마를 겪을 것이다. 또 인생의 과오는 상업적으로 이용되기도 한다. 예를 들어 돈을 내면 머그샷 이미지를 검색 결과에서 지워주는 서비스가 있는데 비용이 상당하다. 이는 예전에 차별로 인해 과하게 체포당했던 역사가 있는 흑인을 두 번 죽이는 일이다.

물론 잊힐 권리를 법으로 인정하려는 시도가 없었던 것은 아니다. 당시 구글과 정부는 어떤 정보를 기록할 수 있는지 결정하기 위해 기나긴 싸움을 했다. 결과적으로 지금은 유럽 연합만 잊힐 권리를 인정한다. 그러나 인터넷에는 국경이 없기 때문에 링크 몇 번이면 법의 영향력이 사라지기 때문에 있으나 마나 한 법이 되어 버렸다. 법적 영향력이 미치는 인터넷 국경 문제는 이 글의 주제를 벗어나기 때문에 넘어가자. 구글은 인류의 문화를 기록할 때 중립성을 고수하기 위해 정보를 수정하거나 검열하지 않는다고 주장한다. 또 범죄기록은 공공의 안전을 위해 박제될 필요가 있다고 한다. 웃기는 건 인터넷에서 뭔가를 내려 달라고 하는 신고 대부분이 사생활에 관련된 것이고 겨우 5% 정도만이 범죄기록이라는 점.

만약 구글에 의해 만들어진 개인의 온라인 이미지가 있고 그걸 원치 않을 때 우린 어떻게 해야 할까? 개개인의 문제를 크게 보면 집단의 정체성 문제가 된다. 우리의 정체성은 계속해서 타인의 영향을 받게 되었다. 인터넷은 서로서로 편견으로 바라보는 정체성을 위한 전쟁터다. 이 문제를 해결하기 위해선 법조인의 관심이 필요하다(?).

인터넷에는 특정 집단 관련 키워드, 차별적, 상업적 정보가 난무한다. 그리고 이런 정보를 맘대로 가지고 노는 건 소수의 엘리트 기업이다. 정보독점이 주는 권력의 규제는 필요하다. 그러나 요즘 추세는 오히려 정부가 기업을 돕는 것 같다. 정부가 기업이 가진 정보에 의존하기 때문이다. 그 때문에 우리는 더더욱 인생의 새로운 시작을 위한 잊힐 권리를 기본권으로 주장해야 한다. 지금이야말로 사회적 망각을 긍정적이고 꼭 필요한 사회적 가치로 인식할 때이다.

분류의 문제

인종 분류는 18세기 특정 사회를 이해하기 위한 과학적 시도였다. 문제는 분류하는 집단이 자신을 스스로 꼭대기에 위치시키면서 자연스레 차별이 생기게 되었다는 데 있다. 19세기에는 한술 더 떠 생물학을 토대로 아예 분류와 차별을 정당화해버렸고 시민권을 뺏어가기 시작했다.

정보 정리와 분류는 자연스레 그것을 시행하는 집단의 권력을 유지하려는 성질을 띤다. 도서관이나 연구 기관의 정보 분류를 살펴보면 아직도 인종을 분류하는 서적이 많다. 이 분류 기준은 LCSH(Library of Congress Subject Headings)라는 미국의 한 기관에서 만들어졌는데 백인, 개신교, 중산층 등과 같은 지극히 서양의 관점에서 도서를 분류한다. 가부장적 분류도 있다. 예를 들어 여성 회계사를 여성 회계사라고 하기보다 회계사로서의 여성 같은 식으로 여성이 특정 직업을 갖는 걸 비정상으로 비춘다. 또 오리엔탈이라는 단어가 아시아를 표현할 때 등장한다던가 기독교가 종교 서적 상위에 있다든가 하는 점은 분류로 발생하는 차별을 잘 보여준다.

우리는 분류를 시작했던 과거의 잘못된 점을 감추고 무시하기보다 용서와 화해를 통해 차별을 해결해야 한다. 지식이 우리를 진보시킨다고 믿는다면 현대 교육이 실증을 중요하게 여기는 만큼 지식의 분류를 제대로 다시 할 필요가 있다.

생각

저자는 같은 듯 보이지만 다른 이슈를 이곳저곳 계속해서 언급한다. 이건 그만큼 문제가 서로 얽혀있다는 의미로 해석되지만 독자는 지루할 뿐이다. 분명 책에서 언급된 여러 가지 문제는 복잡해서 그 원인과 결과를 특정하기 어렵다. 누군가는 이 책이 논하는 기술과 연관된 사회, 윤리 문제가 일반적이고 광범위한 사회적 문제이기 때문에 기술과 지나치게 엮고 있다고 느낄지도 모르겠다. 다만 언급된 문제가 기술과 관련된 문제든 아니든 우리가 평화와 평등의 가치를 중요시하는 사회로 수렴하고 있다는 점을 미루어 봤을 때 윤리적 쟁점의 지평을 넓히고 싶은 사람에게 이 책을 추천한다. 나는 이 책을 읽으면서 수만 가지 생각을 했다. 단순히 알고리즘과 관련된 차별 문제를 생각하는데 그치지 않고, 우리가 일상에서 마주하는 모든 것 (인공지능부터, 모바일 앱의 간단한 GUI, 가정용 도구, 가구, 집의 구조 등)이 만드는 불편함이나 비윤리적 결과를 떠올렸다. 나는 이런 프로불편러 상태를 꽤 오랫동안 지속했는데, 지금도 일부가 남아 내게 비판적 시각을 제공한다. 다만 지금은 너무 과하게 올바른 것을 좇지 않으려 한다. 세상이 옳고 그름으로 보기 좋게 나뉘지는 않으니까.

내가 컴퓨터과학을 전공으로 선택한 이유중 하나는 내 소중한 취미중 하나인 음악을, 듣지 못하는 사람들이 즐길 수 있도록 하는데 도움이 될까 싶어서 였다. 내 어린 시절의 대의는 시간이 지나고 기술이 발전하면서 기술이 가져다줄 다른 가능성을 점치는 사이에 죽어버렸는데, 그때 박애 정신도 같이 잠깐 휴식기에 들어간 것 같다. 그러나 이 책을 읽고 요즘 기술(디자인)과 윤리가 펼쳐내는 회색지대를 돌아다니는 지금, 내게 다시금 뭔가 들끓는 듯하다. 예전의 순진한 도덕성과는 다른 무언가가. 단순히 과학 기술의 유용함과 유연함에 매료되어 공부하고 발명하는 사람들이 많다. 그러나 우리는 기술적 진보에만 신경을 쓸 게 아니라 기술이 복잡해지는 만큼 더 앞서서 준비해야 한다. 너무 당연한 말인지만 안타깝게도 당연한 말은 당연하기 때문에 아무도 관심을 가지지 않는 듯하다. 그러니까 내가 하려는 말은 저자의 주장처럼 더는 윤리 문제를 윤리학자들만 연구해서는 안 된다는 것이다. 자신이 기술을 다루는 사람일수록 시야를 넓히고 감수성을 키우고 사회 윤리에 관심을 가져야 한다. 기술이 만드는 대부분의 문제는 의도하고 생기는 건 아니지만 그게 면죄부가 될 순 없다. 복잡해지는 기술 속에서 우리는 잘못의 책임을 이리저리 떠넘기기만 하려는지도 모른다.

한국의 현재

저자가 비판하는 구글 검색 엔진은 2019년 기준으로 윤리적 문제를 다루는 데 있어 조금 발전한 것으로 보인다. 눈에 잘 띄지는 않지만, 검색창에 '부적절한 예상 검색어 신고' 버튼이 생겼다. 그리고 매우 광범위한 콘텍스트를 가지거나 편견이 많이 들어갈 수밖에 없는 검색 용어(예, 남자, 여자)의 예상 검색어는 아예 띄우지 않는다. 알고리즘이 만드는 차별 문제를 인정하고 검색 기능에 적극적으로 반영하겠다는 시도로 보인다. 또, 구글이 관리하는 유튜브는 아이들이 보기에 적합하지 않은 콘텐츠가 들어간 영상으로 수익을 올리지 못하게 광고를 달지 못하게(demonetize) 하는 등 부적절한 내용에 일정 수준의 제재를 가하고 있다. 하지만 검색 결과가 인터넷 기득권에 의해 편협하게 나타나는 문제는 여전하다. 또, 윤리적 기준을 자기들 입맛에 맞춰 상업성을 더 중시하는 경향도 여전히 보인다. 유튜브는 부적절한 영상이 있으면 삭제를 해야 하는데 플랫폼을 그대로 살리겠다고 광고 제한만 걸고 있다.

나는 구글을 옹호하지 않지만 그래도 내가 구글 검색엔진이 발전했다고 말할 수 있는 것은 다른 검색엔진 덕분이다. 요즘 구글의 사생활 침해가 이슈가 되면서 사생활을 침해하지 않는 덕덕고(duckduckgo) 검색엔진이 인기인데, 덕덕고는 사실 생긴 지 매우 오래되었다. 예전부터 구글의 필터 버블을 비판하며 팬층을 모았다. 그래서 나도 최근에 덕덕고를 사용해 보았는데 내 생각에 덕덕고는 아직도 '중립성'을 잘 지킨다. 마치 구글의 옛날 버전 같다. 아니면 덕덕고는 마이크로소프트사 빙(bing)의 검색 알고리즘을 쓴다고 하니 빙 검색엔진의 문제라고 봐도 괜찮을 것 같다. 여하튼 덕덕고는 예전 구글 검색이 가졌던 문제를 지금 적나라하게 보여준다. 덕덕고 검색창에 '남자'랑 '여자'만 입력해봐도 문제가 뭔지 알 수 있다.

여기서 샛길로 빠져보면 또 다른 문제를 찾을 수 있다. 잠깐 한국인의 입장에서 저자의 비판적 관점을 적용해보자. 덕덕고에 men이나 women을 입력하면 그렇게 부적절한 예상 검색어가 뜨지 않는다. 사람들이 많이 사용하는 서비스의 대부분은 서구권에서 만들었고, 서구권을 기준으로 먼저 업데이트된다. 그러니까 서비스의 윤리적 문제 해소를 위한 대책도 우리는 더 늦게 받는다. 예를 들어 유튜브가 부적절한 콘텐츠가 수익을 올리지 못하도록 제제를한 것은 사실 꽤 오래전부터 시행되었지만(최소 4년?). 이 정책은 한국엔 비교적 새로운 것이다. 근 몇 년간 한국의 아이들은 '구글이 지원을 빨리 하지 않은 탓'에 부적절한 콘텐츠에 더 많이 노출되었다고 볼 수 있다. 소비자, 생산자 문제에서 우리도 예외는 아닌 것이다. 정녕 한국인이 쓸만한 좋은 검색엔진은 없는 걸까?

한국 하면 네이버가 빠질 수 없다. 한국 대표 포털 사이트로 성장한 네이버의 검색엔진은 어떨까. 내가 보기엔 구글보다 심하면 심했지 덜하진 않은 것 같다. 한마디로 요약하자면 상업성이 포털을 아예 정복했다. 검색 결과가 대놓고 광고투성이다. 거기다 편협한 검색 결과도 있는 듯 하다. 당장 '고딩'을 검색창에 입력해 보라. 사실 한국은 네이버만 그런 게 아니고 대부분의 웹사이트 자체가 이러하다. 특히 뉴스 사이트 중 악질이 많다. 거기다 악성코드가 심겨 있는 광고를 싣고 있는 사이트도 많은데 이건 또 다른 이야깃거리다. 어쨌든 한국 사람들이 건강한 인터넷을 사용하는 날이 오려면 좀 더 많은 사람이 관심을 가져야 한다는 점은 분명하다.

마지막으로 조금은 동떨어진 듯 보이지만 주제와 전혀 무관한 건 아닌 얘기를 하고 싶다. 우리나라 온라인 커뮤니티는 차별을 전제로 하는 듯하다. 한국어와 영어로 된 커뮤니티만 봐온 나의 확증 편향일지도 모르지만 당장 한국의 대형 온라인 커뮤니티나 매스컴 사이트의 댓글만 봐도 얼마나 차별성 글이 가득한지 알 수 있다. 어쩌면 우리나라 사람들이 인터넷을 사용하는 방식에 문제가 있는 것 인지도 모르고, 어쩌면 한국어로 사고하는 사람들이 인터넷을 사용하면서 생긴 문제일지도 모른다. 우리나라만큼 차별적 신조어를 많이 가진 나라가 있을까 싶은 게 내 생각의 발단이다. 당장 한국어로 인종을 비하하는 단어들을 떠올려보면 흑형, 쪽발이, 양놈, 홍인, 코쟁이, 짱깨, 똥남아, 개슬람 등 많다. 우리나라의 글로벌 위상이 나날이 높아지고 외국인 이민자가 늘어가는 지금이야말로 감수성이 필요한 최적의 시기가 아닐까. 우리나라 사람들은 한국어가 사용되는 인터넷의 기득권자이고 그 권력의 상위에 있다는 점을 알아야한다. 타인종만 비하하면 다행이라 여길 정도로 우리는 서로를 욕하는 악질적 단어도 많이 만들었다. 불편한 사람이 있을지 모르지만 나열해보자면 메갈, 한남충, 꼰대, 맘충, 틀딱, 파오후, 성괴, 급식충 등이 있다. 누군가는 이를 비판하는 나를 꼰대라고 부를지도 모르겠다. 차별, 혐오 단어가 만들어지는 것 자체가 아주 큰 문제임을 느끼지 못하는 걸까? 비난의 대상을 자기 눈앞에 보이는 큰 집단으로 일반화 다고 단정 짓는 것도 큰 문제다. 우리는 더이상 온라인과 현실을 분리해서 보아선 안된다. 인터넷의 사회적 영향은 허상이 아니기 때문이다. 난 강남 살인사건이랑 찰스턴 총기 난사 사건이 본질적으로 같다고 여긴다. 그러니까 내가 하고 싶은 말은 그냥 우리나라 사람들이 감수성을 더 키워서 서로에 대한 혐오 감정이 좀 수그러들었으면 좋겠다.

해결책이 있을까?

몇몇 사람들은 보편적 검색엔진이 불가능하다고 여겨 자기 사람들의 콘텍스트에 맞는 검색엔진을 따로 개발하기도 했다. 네이버 지식인같은 서비스가 그런 해결책 중 하나라 볼 수 있다. 하지만 딱 보기에도 근본적인 해결책이 되지 못한다. 오히려 특정 사람들만 사용할 수 있는 서비스가 되어 되려 불평등을 야기할 수도 있기 때문이다. 저자 역시 그렇다 할 해결책을 제시하지는 못한다. 아마 기술적 측면에서 전문지식이 부족하기 때문이라 생각한다. 저자는 그림판에서 색깔을 선택하듯 자신에게 맞는 컨텍스트를 선택한 뒤 검색할 수 있는 검색엔진을 제안하는데 솔직히 말해서 실용성이 한참 떨어지는 대안이다. 다만 특정 사회적 이슈에 관심을 가지도록 한 게 저자의 목적이라면 더는 할 말이 없다. 위에도 잠깐 언급했지만 마이크로소프트에서 트위터의 데이터를 활용해 인공지능을 학습시킨 사례가 있다. 결과물은 인종차별적 나치주의에 빠진 괴물이었다. 내가 우려하는 점이 바로 이런 것이다. 어느 때보다도 데이터로 뭔가를 결정하는 일이 많아진 지금 우리는 너무 한쪽으로만 앞서가려는 게 아닐까 싶은 것이다. 불행 중 다행인 것은 사람들이 기계의 이러한 한계를 인정하고 공정한(Fair) 기계학습을 연구하고 있다는 사실이다. 한국에서도 공정한 AI의 연구가 활발해졌으면 좋겠다.

참조

Kwet, Michael. 2018. “Digital Colonialism: US Empire and the New Imperialism in the Global South.” SSRN Electronic Journal 60 (4): 5. https://doi.org/10.2139/ssrn.3232297.
Safiya Umoja Noble. 2018. Algorithms of Oppression : How Search Engines Reinforce Racism. New York: New York University Press, Cop.
Wikipedia Contributors. 2019. “Black Buck.” Wikipedia. Wikimedia Foundation. November 9, 2019. https://en.wikipedia.org/wiki/Black\_Buck.
김혜명. 2018. “흑인의 과학적 인종주의에 관한 고찰 :보아스학파를 중심으로.” 통합유럽연구 9 (2): 311–46. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE07538367&language=ko\_KR.
다큐프라임. 2019. “클립 상세 - 짐 크로우 법... | EBS클립뱅크.” EBS 클립뱅크. 다큐프라임. 2019. https://clipbank.ebs.co.kr/clip/view?clipId=VOD\_20140526\_A0019.
대학내일. 2018. “혐오 단어 사전.” 대학내일. 대학내일. March 29, 2018. https://univ20.com/84395.
위키미디어 프로젝트 기여자. 2009. “이세벨.” Wikipedia.Org. Wikimedia Foundation, Inc. August 19, 2009. https://ko.wikipedia.org/wiki/%EC%9D%B4%EC%84%B8%EB%B2%A8.
위키미디어 프로젝트 기여자. 2016. “필터 버블.” Wikipedia.Org. Wikimedia Foundation, Inc. November 26, 2016. https://ko.wikipedia.org/wiki/%ED%95%84%ED%84%B0\_%EB%B2%84%EB%B8%94.

vlwkaos

Web, Tech Ethics

다음 포스트