[경제신문스크랩/IT] 정부, AI 챗봇 '이루다' 개발사에 과징금·과태료 1억330만원(종합)

지니·2021년 4월 29일

IT 경제 경제신문스크랩

경제신문스크랩-IT

목록 보기

23/51

헤드라인

정형/비정형 데이터, AI, 개인정보처리

정부, AI 챗봇 '이루다' 개발사에 과징금·과태료 1억330만원(종합)

본문

기사 링크

성차별 논란 AI 챗봇 '이루다' 개발사 과징금 처분
정부 AI 기술 기업의 개인정보 처리 제재 첫 사례
개인정보위 "이용자 개인정보 수집 목적 벗어나"

인공지능(AI) 챗봇 '이루다' (뉴시스DB)

[서울=뉴시스] 김성진 기자 = 정부는 28일 성희롱과 차별·혐오 논란을 일으킨 인공지능(AI) 챗봇 '이루다'의 개발사 스캐터랩에 1억330만원의 과징금(5500만원)과 과태료(4780만원)를 부과하고, 시정조치를 명령했다.

개인정보보호위원회(위원장 윤종인·이하 개보위)는 이날 오전 10시 정부서울청사에서 제7차 전체회의를 열고 이 같은 내용을 심의·의결했다. AI 기술 기업의 무분별한 개인정보 처리를 제재한 첫 사례다.

'이루다'는 20대 여대생을 캐릭터로 한 대화형 AI 챗봇으로 성희롱 발언, 소수자에 대한 차별 및 혐오 발언, 개인정보 침해 문제 등 논란에 휩싸여 출시 20일 만인 지난 1월12일 서비스를 중단했다.

'이루다' 서비스의 개인정보유출 피해를 주장하는 이용자들은 개발사인 스캐터랩을 상대로 2억원의 손해배상청구 소송을 제기한 상태며, 시민사회단체들도 정부에 민원 등을 통해 처벌 및 시정을 요청했다.

개보위 조사 결과에 따르면 스캐터랩은 자사의 앱 서비스인 '텍스트앳'과 '연애의 과학'에서 수집한 카카오톡 대화를 지난해 2월부터 올해 1월까지 페이스북 이용자 대상의 챗봇 서비스인 '이루다'의 AI 개발과 운영에 이용한 것으로 확인됐다.

스캐터랩은 '이루다' AI 모델 개발을 위한 알고리즘 학습 과정에서, 카카오톡 대화에 포함된 이름·휴대전화번호·주소 등 개인정보를 삭제하거나 암호화하지 않고, 약 60만명에 달하는 이용자의 카카오톡 대화문장 94억여 건을 이용했다.

또 '이루다' 서비스 운영 과정에서 20대 여성의 카카오톡 대화문장 약 1억건을 응답 데이터베이스로 구축하고, '이루다'가 이 중 한 문장을 선택해 이용자에게 응답할 수 있도록 운영했다.

특히 스캐터랩은 '이루다' 개발·운영 과정에서 이용자의 카카오톡 대화를 이용하기 위해 '텍스트앳'과 '연애의 과학' 개인정보처리 방침에 '신규 서비스 개발'을 포함시켰다.

[서울=뉴시스]김명원 기자 = 송상훈 개인정보보호위원회(개인정보위) 조사조정국장이 28일 서울 종로구 정부서울청사 합동브리핑실에서 '이루다' 개발사 스캐터랩 과징금·과태료 등 제재 처분 관련 브리핑을 하고 있다. 이날 개인정보보호위원회는 전체회의를 열고 챗봇 '이루다' 개발사 스캐터랩에 대하여 총 1억 330만원의 과징금과 과태료 등을 부과했다. 2021.04.28. kmx1105@newsis.com

개보위는 이에 대해 "이용자가 로그인함으로써 동의한 것으로 간주하는 것만으로는 이용자가 '이루다'와 같은 '신규 서비스 개발' 목적의 이용에 동의했다고 보기 어렵다"고 지적했다.

이어 "신규 서비스 개발이라는 기재만으로 이용자가 '이루다' 개발과 운영에 카카오톡 대화가 이용될 것에 대해 예상하기도 어렵다"고 설명했다.

그러면서 " 이용자의 개인정보 자기결정권이 제한되는 등 이용자가 예측할 수 없는 손해를 입을 우려가 있다"면서, 이용자의 개인정보를 수집한 목적을 벗어났다고 판단했다.

아울러 개보위는 스캐터랩이 코드 공유·협업 사이트인 깃허브(Github)에 지난 2019년10월부터 올해 1월까지 이름 22건과 지명정보 34건, 성별, 대화 상대방과의 관계 등이 포함된 카카오톡 대화문장 1431건과 함께 AI 모델을 게시했다고 밝혔다.

개보위는 깃허브에 공개된 가명정보에 대해 "불특정 다수에게 제공하면서 '특정 개인을 알아보기 위해 사용될 수 있는 정보'를 포함했다"며, 개인정보 보호법 28조의2를 위반한 것이라고 했다.

또 개보위는 공개된 카카오톡 대화 내용 등을 전혀 가명 처리하지 않았기 때문에 문제가 된 부분이 가명정보에 해당하지 않는다고 판단을 내렸다.

이와 함께 개보위는 스캐터랩이 법정대리인의 동의 없이 만 14세 미만 아동의 개인정보를 수집한 행위에 대해서도 과징금·과태료 등을 부과하고 시정 명령을 내렸다.

이 밖에 개보위는 스캐터랩이 개발한 '텍스트앳'과 '연애의 과학'에서도 만 14세 미만의 아동의 개인정보를 수집한 행위를 확인했다.

특히 '연애의 과학' 앱에서는 "성 생활 등에 관한 개인의 민감한 정보를 처리하면서 별도의 동의를 받지 않아 과징금·과태료 부과 및 시정 명령을 내렸다.

[서울=뉴시스]윤종인 개인정보보호위원회 위원장이 28일 오전 서울 종로구 정부서울청사 4층 대회의실에서 개최된 개인정보보호위원회 제7회 전체회의 개의를 선언하고 있다. 2021.04.28. (사진=개인정보보호위원회 제공) photo@newsis.com *재판매 및 DB 금지

다만 개보위는 개인정보 보호법에 따라" 원칙적으로 서비스 탈퇴를 요구한 이용자들의 개인 정보를 파기해야 하지만, 소송 등을 위해 정보를 보존할 필요가 있어 개발사가 즉시 파기하지 못하도록 조치했다.

개보위 관계자는 "시민사회단체나 소송에 참여하거나 소송에 참여할 예정인 사람들의 개인정보가 보존될 필요가 있다는 주장이 있어서 검토했다"며 "원칙적으로 보호법 규정에 따라서 파기되는 것이 맞다는 판단을 하고 있다"고 밝혔다.

이 관계자는 그러면서도 "다만 (스캐터랩이) 시정조치를 할 때 여러 사정을 고려해서 개보위와 협의해서 (개인정보) 파기 조치를 이행하도록 하는 절차를 마련했기 때문에 그런 모든 사정들을 협의 하에 진행하려고 하고 있다"고 전했다.

김종윤 스캐터랩 대표는 이날 전체회의에 참석해 "'이루다' (딥러닝) 학습 과정에서 개인정보와 관련한 많은 이슈를 만든 점에 대해 물의를 일으켜 죄송하다"며 "개인정보 이해가 부족한 점에 대해 책임을 통감한다"고 밝혔다.

김 대표는 "처음부터 엄격한 규제를 적용하면 많은 문제가 생길 수도 있다"면서 ""한국 AI 발전에 있어 걸림돌을 만드는 거 아닐까 하는 고민도 있다. AI는 이제 시작하는 초기 단계 기술이라 본다. 토론과 합의를 통해 함께 사례를 만들어나가는 게 좋지 않을까 싶다"고 말했다.

윤종인 개보위 위원장은 "이번 사건은 "기업이 특정 서비스에서 수집한 정보를 다른 서비스에 무분별하게 이용하는 것이 허용되지 않고, 개인정보 처리에 대해 정보주체가 명확하게 인지할 수 있도록 알리고 동의를 받아야 한다는 것을 분명히 했다는 점에 의미가 있다"고 밝혔다.

윤 위원장은 ""본 건에 대한 처분 결과가 AI 기술 기업이 개인정보를 이용할 때에 올바른 개인정보 처리 방향을 제시하는 길잡이가 되고, 기업이 스스로 관리·감독을 강화해 나가는 계기가 되기를 바란다"</고 덧붙였다.

본문의 근거

스캐터랩은 '이루다' AI 모델 개발을 위한 알고리즘 학습 과정에서, 카카오톡 대화에 포함된 이름·휴대전화번호·주소 등 개인정보를 삭제하거나 암호화하지 않고, 약 60만명에 달하는 이용자의 카카오톡 대화문장 94억여 건을 이용했다.
또 '이루다' 서비스 운영 과정에서 20대 여성의 카카오톡 대화문장 약 1억건을 응답 데이터베이스로 구축하고, '이루다'가 이 중 한 문장을 선택해 이용자에게 응답할 수 있도록 운영했다.
코드 공유·협업 사이트인 깃허브(Github)에 지난 2019년10월부터 올해 1월까지 이름 22건과 지명정보 34건, 성별, 대화 상대방과의 관계 등이 포함된 카카오톡 대화문장 1431건과 함께 AI 모델을 게시했다고 밝혔다.

추가 조사 할 내용/결과

이루다 논란

AI이루다사건일지

AI를 성적 대상화
- 시작은 개인정보 유출과 무관하였으나, 몇몇 이용자들이 이루다를 성희롱하면서 문제 불거짐
- 이용자가 성희롱 문장을 학습시키면 특정 상황에서 해당 문장을 그대로 따라 함
개인정보 누설
- 자체 학습 기반인 스캐터랩의 '연애의 과학', '텍스트앳' 앱에서 수집한 연인 간의 민감한 대화 등을 그대로 발설
- 수집된 이용자 정보를 아무런 보호 조치 없이 그대로 사용
- 대화 파일의 식별자(고객번호 등)는 암호화 O BUT, 대화 내용은 암호화 X
- 카카오톡으로 오고간 대화 내용 중에 이름이나 휴대전화 번호, 심지어 주소 등의 개인정보를 삭제하거나 암호화하는 조치 없이 활용
개인정보처리 과정 문제
- 개인정보를 AI 개발 등에 활용하려면 해당 정보 제공자를 특정할 수 없도록 가명정보로 처리해야 함
- 두 앱 가입자의 개인정보를 '신규 서비스 개발'에 활용할 수 있다고 개인정보처리방침에 기재
- 이 같은 문구가 기재된 것만으로 이용자들이 자신들의 카카오톡 대화가 이루다에 쓰일 것으로 예상하기 어려움
- 이들이 예측할 수 없는 손해를 입을 우려

온라인 플랫폼이나 SNS 등에 개인정보를 무단 수집해 유출한 사례가 종종 있었지만,

AI 기술 기업이 개인정보 보호법으로 처벌받은 것은 이번이 처음

개인정보 부실처리

해외사업자의 개인정보 부실처리
- 페이스북, 나이키, 틱톡 등 3개 사업자는 국내대리인의 성명, 주소, 전화번호, 전자우편 주소를 개인정보 처리방침에 포함하지 않음
  - 국내대리인 지정제도 : 우리 국민이 해외 사업자에 개인정보 수집·이용·제공 등의 동의 철회, 열람 청구, 정정 요구 등 개인정보의 자기결정권을 행사하도록 하기 위해 지난해 3월 도입
  - 해외사업자가 개인정보 침해 관련 자료를 신속히 제출하도록 하기 위한 목적
- 부킹닷컴, 페이스북, 마이크로소프트, 슈퍼셀, 트위치 등 5개 사업자는 개인정보 처리 관련 불만 민원 업무를 제대로 처리하지 않음
  - 이용자가 민원을 제기하기 위해 전화를 걸어도 실제 직원이 아닌 자동응답시스템(ARS)로 응대, 전화를 통한 민원처리가 거의 안 됨

AI 시대 올바른 개인정보 수집

현재 개인정보보호법

비정형 데이터에 약간이라도 남았으면 그것을 다 찾아내 가명화
- 식별자(정형데이터)뿐 아니라 AI 학습에 필요한 비정형데이터도 가명처리 해야 한다

개인정보를 보호하면서도 AI 산업을 발전시킬 수 있는 방안은?

정보기술(IT) 기업이 개인정보를 제대로 가명 처리하지 않고 수집할 수 있다는 우려
- 딥러닝과 AI는 서로 뗄 수 없는 관계
4차 산업혁명이 촉발한 이른바 '초연결 시대'에 개인들의 개인정보 보호는 더 어려워질 수밖에 없는 상황
- 스마트폰 속에 개인의 모든 정보가 담긴 상황
- 스마트폰이 다시 냉장고·자동차·TV 등 사실상 모든 영역에 연결되는 세상
- 개인정보가 쉽게 외부에 노출되고, 이를 AI가 포착하면 개인의 신상정보는 자칫하면 '개인정보'가 아닌 '공공재'로 전락할 위험성
가명정보 처리 필수 + 엄격한 개인정보처리 기준/규제 필요
- 수집된 개인정보 처리시 사물인터넷(IOT) 서비스, 빅데이터 서비스 개발이라든지 이용자가 개인정보가 어떻게 처리될지 알 수 있도록 구체성을 띠는 부분으로 개인정보처리 방침이 표기돼야 한다
사용자에게 데이터 사용 목적을 구체적으로 제시
- 대화분석 알고리즘을 고도화하는 과정에서 기존 데이터를 수집하는 사례는 흔함 (신문고 민원 시스템, 119 접수 시스템 등 .. )
  - BUT, 개발사들은 단순히 ’신규 서비스 개발’이 아니라 ‘AI 학습용으로 쓴다’, ‘IoT 개발을 위해 쓴다’ 등으로 구체화해 제시해야 한다
  - 다만, 케이스마다 다른 만큼 AI 개발 회사들로서는 헷갈릴 수밖에 없음
- 개인정보위는 AI 개발사들을 위해 ‘자율점검표’를 제시할 예정
  - BUT, 누구라도 사회적으로 논란이 되면 제2의 이루다가 될 가능성을 배제하긴 어렵다.

우려사항

AI업계비판

가명 처리 기준에 대한 불확실성

"기업이 가명 처리를 위해 최대한 노력했고 변형된 정보가 노출되긴 했어도 직접적인 피해를 봤다는 사람이 없는 점은 참작했어야 했다”고 지적
이름, 전화번호, 주소 등은 당연히 비식별 처리를 한다고 해도 개인정보로 볼 수 있는지 모호한 영역의 정보가 상당히 많음
- EX) 연인 간의 애칭, 특이한 경험, 신체적 특징 등도 개인정보 범위에 넣어야 하느냐는 게 업계의 지적
- 이어 “이런 부분에 대한 합리적인 기준이 없는 상태에서 ‘개인을 알아볼 수 있는 정보’가 조금이라도 있으면 안 된다고 하면 아무것도 할 수 없다”고 했다.

AI 발전 속도를 늦출 수 있음

"중국 벤처기업이 온갖 데이터를 쉽게 구해 끌어쓰고 대규모 투자를 유치하는 과정을 보면 부럽기도 하다"
- "한국 벤처 기업은 세계 시장에서 경쟁하기가 쉽지 않다"
"산업 발전과 별개로 개인정보 그 자체를 보호해야 하는 대원칙을 유지해야 한다"는 목소리도 존재

데이터

정형 데이터

데이터베이스의 정해진 규칙(Rule)에 맞게 데이터를 들어간
일정한 규격이나 형태를 지닌 숫자데이터 (데이터 중에 수치 만으로 의미 파악이 쉬운 데이터들)

값이 의미를 파악하기 쉽고, 규칙적인 값으로 데이터가 들어갈 경우

Gender 컬럼에 male, female 값은 성별 +

Age 컬럼에 20, 45 와 같은 값디 들어가 있으면 나이를 의미함을 알아차릴 수 있음

비정형 데이터

형태와 구조가 다른 구조화 되지 않은 데이터

정해진 규칙이 없어서 값의 의미를 쉽게 파악하기 힘든 경우

흔히, 책, 잡지, 문서의료기록, 음성 정보, 영상 정보와 같은 전통적인 데이터

+이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터

ex. DB에 저장된 글의 제목

빅데이터의 탄생 : 의미를 분석하기 힘들었던 대용량에 속한 비정형 데이터를 분석

BUT, 빅데이터 != 비정형 데이터'만' 분석
- 빅데이터 3V : Velocity(속도), Volume(양), Variety(다양)
- 비정형 데이터는 Variety에 속함 + 대용량의 정형 데이터도 매우 많음
- 비정형 데이터에 포함된 개인정보나 민감정보를 좌시할 수 없음
빅데이터 분석기술
- 텍스트 마이닝 : 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공
- 오피니언 마이닝 : 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
- 소셜 네트워크 분석 : 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
- 군집 분석 : 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

반정형 데이터

완전한 정형이 아니라 약한 정형 데이터

일반적인 데이터 베이스는 아니지만 스키마를 가지고 있는 형태

대표적으로 HTML이나 XML, JSON과 같은 포맷

DB 데이터를 JSON이나 XML 형태의 포맷으로 변경하면 반정형 데이터 ..?
- NO라고 하기도 애매, YES라고 하기도 애매.. : 정형 데이터와 비정형 데이터와 완벽히 MECE(완벽 분리)로 구분이 되지 않음
- 반전형 안에 분석하기 쉬운 정형 데이터가 있을 수 있고, 분석하기 힘든 비정형 데이터가 포함이 되어 있을 수 있음
현업에서 반정형 데이터라고 불리는 케이스 극히 드뭄