이루다가 '혐오 논란' 휩싸인 이유... "단어 이해 못하고 헛소리"

사회

이루다가 '혐오 논란' 휩싸인 이유... "단어 이해 못하고 헛소리"

[스팟인터뷰] 김학준 데이터 전문가 "업체 부주의한 측면 있어, 가이드라인 논의 필요"

21.01.12 07:12l최종 업데이트 21.01.12 10:09l

박정훈(twentyrock)

본문듣기

원고료로 응원하기

공감21 댓글7

큰사진보기
▲ 이루다 홈페이지 캡처
ⓒ 스캐터랩	관련사진보기

인공지능(AI) 챗봇 '이루다'를 둘러싼 논란이 커지고 있다. 처음에는 누리꾼들이 이루다를 성희롱 대상으로 삼는 행태가 문제가 되었다가, 이후 '이루다'가 여성과 성소수자에 대한 혐오가 담긴 대답을 내놓는 것이 알려지면서 'AI의 차별과 혐오 재현'으로 문제가 확산되고 있다.

이루다는 스타트업 '스캐터랩'이 지난해 12월 22일 내놓은 서비스다. 이 회사에서 운영하는 '연애의 과학'이라는 앱을 이용해 수집한 연인간의 카카오톡 데이터 약 100억 건을 딥러닝 방식으로 이루다에게 학습시켜서 만들었다. 출시한지 2주만에 이용자가 40만 명이 넘는 등 인기를 끌고 있다.

그러나 이루다는 레즈비언에 대해서 '질 떨어져보이잖아'라고 답하고, 미투 운동에 대해서는 "오 절대 싫어 미치지 않고서야"라고 말하는 등 윤리적으로 문제가 있다는 지적이 속출하고 있다. 또 "너가 장애인이면?"이라면 질문에는 "어쩔 수 없이 죽어야지"라고 답한다든가, 흑인에 대해 "X나 싫어"라고 말하는 등 차별과 혐오를 자연스럽게 학습한 게 아니냐는 의혹도 거세지고 있다. '아이돌을 좋아하는 스무살 대학생 여성'으로 설정된 이루다가 수동적이고 위축된 여성상을 구현하고 있다는 비판도 나왔다.

이러한 논란에 스캐터랩은 11일 오후 이루다 서비스를 잠정 중단하고 개선 기간을 갖겠다고 밝혔다. 스캐터랩은 "이루다가 특정 소수집단에 대해 차별적인 발언을 한 사례가 생긴 것에 대해 진심으로 사과한다"라며 "이루다의 차별적 발언에 동의하지 않으며 그러한 발언은 회사의 생각을 반영하지 않는다"라고 밝혔다. 또한 '연애의 과학' 사용자의 개인정보 활용에 관련해서는 "명확히 인지할 수 있도록 충분히 소통하지 못한 점에 대해서 책임을 통감한다"라고 전했다.

<오마이뉴스>는 이루다 논란에 대해 11일 사회학 연구자 김학준씨와 인터뷰를 했다. 김씨는 <#혐오_주의> 등의 책을 공저한 사회학 전공자이면서, 동시에 데이터 분석업체 아르스 프락시아의 미디어분석팀장을 지낸 데이터 전문가다. 현재도 공공기관에서 빅데이터 분석 담당자로 일하고 있다.

그는 이루다에 대한 '과잉해석'은 삼가야 한다면서도, AI 기술의 개발자와 그 바깥 영역의 전문가들이 '윤리적 가이드라인'을 고민하는 작업을 이어나가야 한다고 밝혔다. 다음은 그와 나눈 일문일답을 정리한 내용이다.

"단어 제대로 이해 못 하는 이루다... 에러 쏟아내는 중"

큰사진보기
▲ 김학준씨가 이루다와 한 대화 내용. 장르를 이야기하니 바로 "음악"에 대한 이야기를 하고, <아파트가 어때서>라는 책을 언급하니 "아프다"로 받아들이고 위로를 한다.
ⓒ 김학준	관련사진보기

- 이루다가 '혐오발언'을 내놓는 근본적인 원인은 무엇이라고 보나.

"데이터는 숫자화 되어있는 '정형 데이터'와 숫자화되지 않은 '비정형 데이터'로 나눈다. 자연어는 비정형데이터고, 컴퓨터가 인간의 말을 이해할 수 있게 해석하는 작업을 해야 한다. 0, 1이 아닌 데이터를 0, 1로 만드는 것이다. 그런데 그게 잘 안 된다. 특히 한글 데이터셋의 역사가 짧고, 영어보다 양도 부족한 편이다. 띄어쓰기도 중구난방이다. 그래서 말 뭉치들이 정제가 잘 안되어 있다. 이루다에 '국민대표'라고 말하면 국민대라는 답이 돌아오고, '중앙대표'라고 말하면 중앙대로 답이 돌아오는 것은 그 때문이다. 아파트에 대해 이야기하니, 거기서 '아파'를 읽고 위로를 한다. 말을 이해를 못하고 헛소리를 하는 거다.

왜 그러냐면, 이루다는 시사 이야기를 주로 하는 사람이 아니라 관계나 연애에 대해 이야기하는 특수한 연령대의 사람들을 학습했기 때문이다. '연애의 과학'을 주로 이용하는 나이대가 아파트 이야기를 하진 않을 것 아닌가.

사실 이들이 수집한 데이터의 퀄리티는 떨어질 수밖에 없다. 연애라는 상황에서는 대화의 다양도가 떨어질 수밖에 없고, 말과 말의 길이도 다른 대화보다 비교적 길지 않다. 제 경험으로는 고품질 대화 데이터 얻는 것에는 난관이 많다. '연애의 과학'을 통해 100억 건을 모았다지만, 그렇게 많다는 생각은 들지 않는다. 요즘엔 훨씬 데이터가 큰 모델도 많다."

'연애의 과학'은 연인간의 카카오톡을 저장해서 보내면, 대화 패턴을 분석해 애정도를 보여주는 유료 서비스로서, 스캐터랩이 2016년부터 운영해왔다. 이루다가 특정 이름이나 주소를 말하는 사례가 발생하면서 '연애의 과학'이 카톡 대화를 통해 수집한 개인정보가 제거되지 않고 그대로 반영된 게 아니냐는 의혹이 제기되기도 했다.

- 혐오발언이 이루다가 아무렇게나 내놓는 '헛소리'의 일종이라는 건가?

"이루다는 단어들에 대한 이해가 높지 않다. 자신이 잘 모르거나 알지 못하는, 데이터베이스 사전에 없는 것에 대해선 '응' 혹은 '아니'라는 단순한 대답이나, 대답을 회피하는 전략(룰)을 세웠을 것이다. '레즈비언'에 대한 반응도 비슷하다고 본다. 이성애자 20대 여성과 남성 둘의 대화에서 '레즈비언'이라는 단어가 사전에 수집되기는 어려웠을 것이다.

사실 이루다는 베타 테스트를 한 지 6개월이 넘었다. 하지만 지금에서야 문제가 된 것은 당시에는 이루다가 원하는 '타깃층'에서 소비를 했기 때문이다. 갑자기 새로운 유입층들에게 온갖 질문이 들어오다 보니 준비되지 않은 답변들, 즉 '에러'를 막 쏟아낸다. 사람들은 거기서 혐오를 읽는 것이다. 하지만 단어를 겨우 담아내고, 방금 전에 했던 말도 기억 못하는 봇이다. 과잉해석을 경계해야 한다. 기표덩어리이고 기의는 없는 것이다."

김씨의 설명에 따르면 이루다와 같은 모델은 특정한 답을 얻기 위해 직전 또는 근처 데이터만을 참조한다. 그래서 이루다는 조금 전에 자신이 말했던 내용도 기억하지 못한다. 핵심적으로 '하고 싶은 말'이 있지도 않다.

- 업체는 이루다를 만들면서 이런 문제가 생길 것을 예상 못했을까?

"업체가 굉장히 부주의했다고 본다. 어떠한 파장을 불러올 것인지 예상하지 못했고, 그래서 윤리적 문제가 가시화됐을 때 어떻게 대응할 것인지도 대책을 마련하지 못한 것 같다."

이루다, 그 이후를 고민해야

큰사진보기
▲ 김학준씨가 이루다와 한 대화 내용. 출산이 "사람이 할 짓이 아니다"라고 하고, "아기"를 소름끼친다거나 "기능"에 문제가 있을 것 같다고 말하고 있다. 이와 같은 답변 구조가 소수자에 대한 질문에서도 동일하게 나온 것으로 보인다.
ⓒ 김학준	관련사진보기

큰사진보기
▲ 김학준씨가 이루다와 한 대화 내용. 전부 "소극적 부정"을 하다가 민감도가 높은 "북한"이라는 단어가 나오니 "흠?" "으음??"이라며 대답을 회피한다.
ⓒ 김학준	관련사진보기

- 문제는 이루다가 실제로는 단어 하나 제대로 해석하지 못하는 봇이라고 해도, 실제 이용자들은 애착을 가질수 있다는 점이다.

"이루다 같은 경우에는 친밀성을 가장했기 때문에 '여인친'(여자 인공지능 친구) 노릇을 하고 있고, 그렇게 되면 유저들이 이 봇이 하는 '아무말'에 영향을 받을 수밖에 없다. 실제 방금전에 했던 말도 모르는 단순한 모델이라고 해도 말이다.

실제 봇의 목표는 유저가 대화하는 상대가 기계라는 사실을 인지하지 못하도록 하는 것이 기술적 목표다. 그 과정에서 업체가 의도했든 안했든 10~20대 유저들이 이루다에 감정적으로 애착을 가질수 있다고 본다. 결국 이 부분은 AI 리터리시 교육 등을 통해서 걸러낼 수 있어야 한다고 본다."

- 이루다가 20대 여성을 수동적이고 방어적인 혹은 남성이 원하는 모습으로 재현하면서, 이루다가 남성에게 왜곡된 여성관을 심어줄 수 있다는 우려도 나온다.

"먼저 데이터를 수급할 20대 여성이 연애관계에서 자기 표현을 하는 방식을 학습함으로써, 일반적으로 알려진 '좋은 여자친구' 모델을 수행하는 측면이 있을 수도 있다. 만약 연애 이외의 다양한 관계에서 얻은 20대 여성의 말을 학습했다면, 전혀 다른 모델이 나왔을 것이다.

그리고 수동적이고 방어적인 태도도 문제가 됐는데, 학습의 결과이기도 하고 서비스 전달 전략의 문제이기도 하다. 전략적인 측면에선, 소극적인 대응을 하거나 회피하지 않으면 자기주장이 강한 유저들이 이용하지 않을 수도 있다는 점도 감안했을 것이다. 이 알고리즘에 대한 설명은 회사 측에서 충분히 해야된다고 본다."

- 데이터 수집과정에서 개인정보가 들어갔다는 사실에 대해서도 반발이 크다.

"'이름'이나 '주소' 등이 나온 걸 보면 개인정보까지 일부 노출되어 있었던 것으로 보인다. 현재 업체 측은 숫자 정보나 이름 등은 삭제했다고 하지만, 만약 공유하는 애칭이 있다고 할때, 바로 그들끼리만 사용하던 애칭으로 답할지도 모른다."

- 앞으로 이루다와 비슷한 문제가 더 발생할 수 있다는 우려도 생긴다. 사회적으로 어떤 논의가 필요할까.

"데이터 수집이나, 챗봇의 '대답 방식' 등에 대해 윤리적 가이드라인을 마련해야 하는데, 지금 갈 길이 멀다. 개발자들과 그 이외의 전문가들간의 공감대가 충분히 마련되지 않았다. 만나봤자 논의의 차원이 전혀 다른데 있으니까 대화가 안 된다.

앞으로 이런 챗봇 서비스에서 어떤 페르소나를 담고, 어떻게 브랜딩할지에 대해서 사회적인 고민을 이어가야 한다. AI 기술에 대한 사회적 기구가 마련되고, 개발자의 언어를 이해하고 있는 사람들이 연 다양한 행사에 사회학자나 철학자들이 결합하는 경우도 많아졌으면 한다.

그리고 이용자·비판자들 모두 인공지능 시스템이 어떻게 돌아가는지에 대해 이해하려고 노력하는 것이 생산적인 논의를 가능하게 만들 수 있다."

오탈자 신고

태그:#이루다, #이루다 혐오, #여성혐오