'이루다' 논란에 입 연 스캐터랩 "모든 서비스 전면 중단…개인정보 유출은 오해"



크게 크게 작게 작게 2021-01-12 오후 5:11:00

[뉴스토마토 이선율 기자] 인공지능(AI) 챗봇 ‘이루다’가 성희롱, 동성애 혐오 발언부터 개인정보 유출 문제까지 계속해서 논란이 되자 개발사인 스캐터랩이 백기를 들며 서비스 잠정 중단을 결정했다. 스캐터랩은 향후 서비스 개선을 약속하며 논란에 대한 공식 입장을 발표했다.
 
인공지능(AI) 챗봇 '이루다' 서비스는 12일 오전부터 순차적으로 중단돼 오후 6시부터는 전면 중단된다. 또한 이날 스캐터랩은 현재 제기되고 있는 문제점들과 기존에 계획 중이던 개선사항이 완비될 때까지 서비스 운영을 중단하겠다고 밝혔다.
 
‘이루다’는 스캐터랩이 지난달 23일 페이스북 메신저를 기반으로 출시한 AI챗봇으로 실제 스무살 대학생과 대화를 나누는 것 같은 자연스러운 대화 능력을 선보여 10~20대 사이에서 인기를 끌었다. 하지만 일부 이용자들이 이를 악용해 여성과 동성애에 대한 혐오 발언을 하는 사례가 나와 비판이 제기됐지만 회사 측은 책임을 회피하는 태도를 보여 논란을 더 키웠다. 
 
게다가 스캐터랩이 이루다를 개발하기 위해 회사의 다른 앱인 ‘연애의 과학’ 이용자들의 카카오톡 대화를 수집하는 과정이 부적절했다는 직원들의 제보가 최근 이어지면서 이용자들의 집단 소송이 예고되기도 했다.
 
AI챗봇 이루다 사진/스캐터랩
 
다음은 최근의 논란과 관련해 스캐터랩과 나눈 일문일답.
 
연애의 과학 데이터를 기반으로 이루다가 학습한 것이 맞나.
 
이루다는 핑퐁 데이터베이스를 통해 프리트레이닝 단계를 거쳤고, 이 단계는 연애의 과학 텍스트 데이터를 기반으로 학습이 진행됐다. 그러나 이 때 사용되는 데이터는 발화자의 이름 등 개인 정보가 삭제된 상태로, 발화자의 정보는 성별과 나이만 인식이 가능하다. AI는 프리트레이닝 단계에서 사람간의 대화 속에 존재하는 맥락과 답변의 상관관계만을 학습하게 되며, 이 때의 데이터는 외부로 노출되지 않는다.
 
이루다 서비스는 회원 정보와 연계돼 있지 않은 별도의 DB에 수록돼 있는 문장으로 이용자에게 응답하고 있다. DB는 1억개의 개별적이고 독립적인 문장들로 구성돼 있어, DB의 문장들을 조합해 개인을 특정하는 것은 불가능하다. 이루다는 이전 대화의 컨텍스트에 영향을 받아 개별 문장들 중 답변을 선택하게 되는데, 이 때 사용자가 과거 10턴의 대화에서 사용한 표현, 분위기, 말투를 비롯한 대화의 맥락에 크게 영향을 받는다. 이 때문에 사용자는 이루다가 개별화된 대답을 하고 있다고 느낄 수 있다.
 
연애의 과학 사용자 데이터는 사용자의 사전 동의가 이루어진 개인정보취급방침의 범위 내에서 활용했으나, 연애의 과학 사용자분들 중 AI 학습에 데이터가 활용되기 원치 않으시는 분들은 DB 삭제와 함께 앞으로 이루다의 DB에 활용되지 않도록 추가 조치를 진행할 예정이다.
 
 
개인정보보호를 위한 비식별화 조치들이 어떤 것들이 있었나. 향후 조치는 어떻게 이뤄질 예정인지.
 
이루다는 DB에 수록되어 있는 문장에서 적절한 답변을 선택해 응답하고 있다. 해당 DB에는 1억개의 문장이 개별적이고 독립적인 형태로 저장돼 있고, 이루다는 AI 알고리즘에 따라 가장 적절하다고 판단하는 문장을 선택해 답변하도록 설계돼, 루다의 답변 내용을 조합해 개인을 특정할 수는 없다.
 
개별 문장 단위의 대화 내용에서는 알고리즘에 의하여 비식별화 조치를 했다. 숫자와 영문, 실명 정보 등은 아래와 같이 기계적인 필터링을 거쳐 삭제했기 때문에 이루다의 최초 출시 당시부터 모두 삭제가 된 상태다.
 
향후에는 다음과 같이 더욱 고도화된 데이터 알고리즘 업데이트를 통해 대응할 예정이다. 실명 필터링 알고리즘을 강화해 민감할 수 있는 정보가 노출되지 않도록 업데이트하고, 한글로 작성된 주소라도 노출되지 않도록 주소 필터링 알고리즘 업데이트하고 대화 데이터 랜덤 변형을 통한 비식별화 조치를 강화한다. 또 민감정보 노출 방지 알고리즘을 전면적으로 개선할 것이다.
 
이루다의 대화 학습 및 답변 방법에 대해 구체적으로 설명해달라.
 
이루다는 이전 약 10턴의 대화(이용자와 상호 주고받은 10회의 대화 기록)를 기반으로 다음 답변으로 가장 적절한 것을 선택하는 법을 학습했다. 그렇기 때문에 이루다는 사용자와의 이전 대화의 맥락, 표현, 분위기, 말투, 대화 내용에 크게 영향을 받는다. 이루다에 혐오 단어 또는 특정 집단에 대한 비하 단어가 입력될 가능성은 서비스 출시 전부터 상정하고 있었다. 이에 대비해 다음과 같은 조치를 취했다. 먼저 키워드 중에서 표현 자체가 혐오 단어이거나, 특정 집단을 비하하는 단어들에 대해서는 무조건적인 제거를 하도록 설정을 했다.
 
특히, 베타 테스트 과정에서 이용자들이 입력한 질문들을 리스트업해 그 중 편향된 답이 나올 수 있는 질문이나 문장에 대해서는 예상 시나리오를 설정해서 미리 답변을 준비했다. 실제 서비스 과정에서 문제의 소지가 있는 질문이 등장했을 때는 이루다가 준비된 답변을 할 수 있도록 했다.
 
그러나 시나리오가 마련되지 않은 상황에서 이루다는 AI 알고리즘에 의한 판단으로 대답을 하게 된다. 이용자가 단어 그 자체로는 혐오적인 표현이 아닐 수 있지만, 맥락상 혐오·차별적인 답이 나올 수 있는 대화를 시도할 경우 이루다는 이용자와의 대화를 매끄럽게 이어가고, 이용자에게 공감하려는 과정에서 혐오, 차별 발언에 동조하는 것처럼 보일 수 있다.
 
현실적인 조치로 키워드 기반으로 대응을 했으나, 장기적으로는 AI 알고리즘을 더 많은, 정제된 데이터를 통해 학습시키고, 이를 통해 알고리즘이 옳고 그름을 배워나갈 수 있도록 하는 방안이 필요하다. 반면, 더 많은 양의 정제된 데이터를 통해 알고리즘을 학습시킬 수 있다면, AI가 스스로 윤리의식이나 도덕적 기준을 정립하고 적절한 판단을 내릴 수 있다고 본다.
 
사용자가 이루다를 임의로 학습시켜 편향을 학습하도록 하진 않는지.
 
사용자는 이루다를 실시간으로 학습시킬 수 없다. 이루다의 재학습은 분기별로 실시 예정이었고, 이루다는 오늘로 출시된 지 3주일된 챗봇으로 아직 출시 이후에 추가 업데이트가 이뤄진 상태가 아니다. 업데이트 시에는 사용자들이 대화한 데이터들을 수집한 후, 모델 업데이트를 하게 되는데, 이 과정에서 수집된 데이터들의 옳고 그름, 편향된 정보 여부 등의 레이블링 과정을 거친다. 이를 통해 AI 윤리 기준에 보다 부합하는 모델로 보정을 하게 된다.
 
저희가 실시한 베타 테스트가 2000명 정도의 사용자를 대상으로 진행됐던 반면, 정식 출시 이후 이루다에 80만명의 사용자가 몰리면서, 실제 서비스 출시 이후 우리가 사전에 대비한 것보다 더욱 넓고 다양하고 심각한 사용자 발화가 등장했다. 그러다보니 예상하지 못했던 이루다의 성적이거나 편향적인 대화가 드러나게 됐다. 이루다가 이번에 사용자와 대화하면서 불완전했던 데이터를 더욱 엄격한 레이블링 기준을 도입해 학습시킴으로써, 이루다가 사회 보편적인 가치를 담은 AI가 될 수 있도록 개선해나갈 것이다.
 
“사내 대화방에서 수집된 대화를 직원끼리 돌려봤다"는 증언이 나왔는데 이는 사실인가.
 
스캐터랩은 사용자들의 개인정보 보호를 회사의 중요한 사명으로 생각하고 있으며, 이를 위해 접근통제 조치 등 개인정보 보호법에 따른 제도를 마련해 시행 중에 있다.
 
특히 개인정보와 관련된 원 데이터에 접근할 수 있는 권한은 엄격하게 제한해 철저히 관리하고 있다. 그럼에도 불구하고, 위와 같은 회사의 방침을 위반한 불미스러운 행동이 있었다는 보도가 나왔다. 진상을 신속히 조사하고, 만에 하나 의혹이 사실로 드러나는 경우에는 관련자들에게 엄중히 책임을 묻고 조속히 필요한 조치를 하겠다.
 
해당 이슈를 인지함과 동시에 사내에서 자발적으로 진상조사위원회가 구성돼 조사를 진행하고 있다. 조사위원회에서는 과거부터 현재까지 지속되고 있는 스캐터랩 전 팀원이 참여하고 있는 카카오톡의 대화의 조사를 완료했으며, 당해년도 카카오 단톡에서는 해당 내용이 발견되지 않았다. 또 다른 사내 메신저 채널인 슬랙에 대해서는 다수의 대화 채널이 있는 관계로,  현재 계속해서 조사를 진행중인 상태입니다. 조사 결과는 투명하게 공개하겠다. 조사 결과가 나올 때까지 확인되지 않은 사실에 대한 근거 없는 보도는 자제해달라.
 
스캐터랩의 데이터 보안 환경은 어떤 수준인지.
 
스캐터랩은 망분리가 된 서버 환경 하에, 사내 보안 부문을 총괄하는 담당자를 지정해 관리하고 있다. 본사가 제공하고 있는 서비스 데이터들은 모두 철저히 분리되고 통제된 환경에서 관리되고 있다.  
 
연애의 과학의 원본 데이터는 지정된 한 명의 담당자(CTO)만이 접근할 수 있고, 핑퐁 데이터는 개인 식별 정보가 제거된 상태로 분리하여 별도 보관하고 있다. 또한, 데이터 점검이 필요할 경우에는, 데이터 샘플링을 통해 극히 일부의 데이터만으로 점검한다.
 
그렇기 때문에 일부 언론에서 제기한 사이버 공격으로 인한 역코딩, 리버스 엔지니어링 등을 통한 데이터 복구 및 개인정보 유출과 악용은 일어날 수 없다.
 
AI 챗봇 이루다는 앞으로 어떻게 되나.
 
스캐터랩은 사람들의 외로움을 덜어줄 수 있는 친구같은 AI를 만들고 싶은 비전을 가진 청년들이 모인 스타트업이다. 지금은 우리가 꿈꾸는 AI를 만드는 과정의 첫 걸음을 뗀 상태이고, 저희 팀은 아직은 배워야 할 점이 많다. 지금 모든 분들이 주시는 여러 의견들과 지적들을 겸허히 받아들여 서비스 개선에 반영하도록 하겠다. AI 윤리의 중요성에 대해서도 지금보다 더 열심히 고민하겠다. 또한 로봇3원칙, AI윤리 기준을 철저히 준수하며 AI 기술 개발업계 모두가 당면한 문제를 해결하기 위해 AI 인재분들과 머리를 맞대고 함께 고민해 해결책을 찾아가도록 하겠다.
 
스캐터랩 이끄는 김종윤 대표의 현재 심정은.
 
작은 스타트업 스캐터랩이 만든 이루다라는 AI에 많은 사용자가 몰리고 엄청난 언론의 주목을 받았던, 믿기 어려운 시간이었다. 급격한 성장 속에서 저희가 제대로 대처하지 못한 부분도 있었고, 미숙함이 적나라하게 드러나기도 했다. 저와 저희 팀도 스스로를 많이 돌아보게 되는 시간이었다. 지금 저희의 첫 걸음은 이렇게 멈췄지만 사람만큼 대화를 잘하는 친구 같은 AI를 만들겠다는 저희의 꿈을 멈추고 싶지는 않다. 이번에 이슈가 된 부분을 성찰의 기회로 삼아 기술적으로, 그리고 사회적으로 가치있는 스타트업으로 거듭나고 싶다. 많이 부족하고 거칠고 시행착오가 많지만, 저희가 이 꿈을 이어갈 수 있게 응원 부탁한다.
 
이선율 기자 melody@etomato.com
 

0 0