알고리즘 보도에 전문성 절실하다

News

2023년 03월 24일

점차 확대되는 공공 부문 인공지능에 차별, 편향 요소
의도치 않게 무고한 시민들에게 피해와 고통 남겨
알고리즘 투명성 강화 위해 언론의 기술 이해도 높여야

Share on Twitter Share on Facebook Share on LinkedIn Share by email

산업혁명 시대 인간 노동을 대체한 기계처럼 인공지능(AI)은 디지털화가 가능한 모든 영역에서 자동화를 주도하고 있다. 뉴스를 비롯한 지식정보, 콘텐츠 생태계뿐만 아니라 공공분야도 마찬가지다. 이미 세계 각국 정부는 디지털 첨단 기술인 인공지능을 앞다퉈 도입하고 있다.

인공지능의 자동화 능력은 필수 노동력을 보충하고 효율성을 끌어올린다. 정부의 예산 절감을 지원하고, 정책 소비자인 시민에게는 개선된 공공 서비스 혜택을 보장하는 도구로 쓰임새가 적지 않다. 적절히 적용될 수만 있다면 사람의 개입을 줄여 부정부패도 줄일 수 있다.

하지만 네덜란드에서 벌어진 사례처럼 부작용도 예고돼 있다. 네덜란드 정부는 복지 수혜금을 받아내는 사기 수법을 잡아내는데 인공지능을 도입했다. 그리고 몇 년간 인간의 업무를 대신하며 지원금이 필요한 시민들을 우롱하는 범죄행위자를 적발하기는커녕 무고한 시민들을 조사대상에 올렸다.

조사대상으로 지목된 이들을 판별하는 기준이 차별적이고 편향적이었기 때문이다. 사건이 공론화 되자 네덜란드 정부는 해당 인공지능의 사용을 중지시켰다. 심지어 당시 내각이 책임을 지고 사퇴하는 상황으로 이어졌다.

잘못된 데이터와 알고리즘은 시민 피해 일으킨다

이와 관련 와이어드(Wired)는 3월초 라이트하우스 리포트(Lighthouse Reports)와 공동으로 네덜란드 로테르담(Rotterdam)시에서 실제 사용된 알고리즘과 학습 데이터를 분석해 보도했다. '의심스러운 인공지능의 내부(Inside the Suspicion Machine)' 제하의 보도를 통해 "정부는 모호한 알고리즘을 바탕으로 수백만 명의 삶에 영향을 미치는 결정을 내리고 있다. 이 시스템 중 하나가 어떻게 작동하는지 공개한다"고 밝혔다.

“사기행위로 조사를 받은 사람들의 데이터로 인공지능을 학습시켜 잠재적 사기행위를 예측한다”. 네덜란드 정부가 인공지능을 적용할 때 강조한 이야기다. 논리적으로도 큰 문제가 없고, 기술적으로도 무리가 없어 보였다. 하지만 실제 적용을 통해 인공지능의 심각한 결함이 발견됐다.

문제의 원인은 기술, 제도, 설계를 한 사람 모두에게서 드러났다. 우선 인공지능 알고리즘은 사기 행각을 벌일 위험이 있는 대상을 선별하기 위해 나이, 성별, 자국 언어에 대한 구사력 등 사람의 특성이 담긴 데이터를 사용했다. 여기에 실제 대면 조사에 나선 사회복지사들의 코멘트 예를 들면 “낮은 자존감을 보임” 같은 데이터도 시스템에 입력됐다.

총 315개의 속성과 변수로 구성된 학습 데이터셋은 사적인 정보부터 목적과 관련성이 낮은 정보까지 다양한 데이터로 구성됐다.

  1. 개인이 통제할 수 없는 특성: 나이와 성별
  2. 개인의 사적인 사실관계: 마지막 연애 기간
  3. 개인의 주관적인 판단: 사회복지사가 남긴 코멘트
  4. 진부한 정보: 개인이 공공기관에 메일을 보낸 횟수
  5. 관련성 없는 정보: 스포츠 경기 참여 여부

구축된 데이터셋은 복잡한 알고리즘 구조에 따라 인공지능을 학습시켰다. 알고리즘은 GBM(gradient boosting machine)이라 불리는 머신러닝 기법으로 대량의 데이터 속에서 숨겨진 패턴을 찾아낼 때 활용된다. 특정 명제에 대해서 “예/아니오”로 구분해 나가는 계층적 분류법인 '의사결정나무'를 근거로 결과를 학습하는 기법이다.

상당히 복잡한 수학적 계산과 약 500여 개의 '의사결정나무'로 가중치를 조절하여 예측한다. 입력된 데이터셋의 각 속성들에 대해 “예/아니오”의 이진법적 분류를 진행하면서 약 3만여 명의 복지 수혜자들의 사기 가능성을 위험지수로 산출했다. 인공지능이 부여한 위험지수가 상위 약 10%에 해당하면 누구든 조사를 받을 수도 있는 것이다.

물론 인공지능이 목적에 맞게 작동한다면 손쉽게 숨어있는 범죄행위를 잡아내고 마땅히 필요한 이들에게 복지 혜택을 돌아가게 할 수 있다. 해당 인공지능을 개발 및 인도한 업체의 설명 또한 그러했다. 그러나 현실은 무고한 수혜자들이 잠재적 사기꾼으로 지목됐고, 수많은 피해자들이 고통을 받았다.

애초에 복지 수혜를 받는 이들은 사회적 취약계층에 해당하는 경우가 많아 당국의 이같은 조치에 제대로 대응하기는 어렵다. 인공지능과 데이터 기반의 의사결정은 이를 더욱 어렵게 만들었다. 왜 자신이 조사대상이 되었는지 이유를 알아내기 어렵고 의문을 제기하는 것도 쉽지 않았다. 환수된 지원금에 더해진 벌금은 생활고에 시달리던 이들을 더욱 궁지로 몰아넣었다.

데이터와 알고리즘에 차별과 편향 위험성 상존

이렇게 인공지능이 암담한 현실을 만들어낸 이유는 첫째, 기술의 불완전함에 기인한다. 인공지능의 기본적 뼈대는 알고리즘이다. 적절한 알고리즘을 사용하는 것이 중요하다. 그 선결 조건은 입력되는 ‘데이터’다. “쓰레기가 들어가면 쓰레기가 나온다(Garbage in garbage out)”이라는 말처럼 데이터 품질은 인공지능의 성능을 좌우한다.

네덜란드 당국에서 사용한 인공지능은 사용된 데이터도 열악했고 알고리즘도 부적합했다. 사용된 데이터셋을 한마디로 정의하면 “인간의 특성을 0과 1로 우겨넣은 기록”에 불과했다. 몇몇 특성들은 이진법 형식으로 코드화할 수 있겠지만, 대다수는 0과 1로 구분하기란 불가능하다. 더구나 이진법으로 구분할 수 있는 특성은 성별 등 애초에 차별적 요소일 확률이 높다.

가령 학습 데이터의 속성들 가운데 약 17%(54개)는 사회복지사들의 주관적인 평가였다. 판별 근거로 주관적 내용이 사용된다는 점도 문제지만, 더 심각한 것은 문장으로 구성된 데이터가 0과 1로 압축된다는 것이다. 내용이 긍정적이든 부정적이든 코멘트가 존재하면 1 아니면 0으로 분류됐다. 애초에 반영하려던 속성이 반영됐다고 할 수 없는 것이다.[1]

또 차별적 요인을 ‘추론’할 수 있는 속성들도 문제였다. 네덜란드는 인종과 같은 배경조건으로 사람을 차별하는 것이 불법이다. 하지만 네덜란드어 구사 능력을 묻는 속성들이 학습 데이터에 존재했다. 이 속성들은 언어구사력을 통해 인종을 추론할 수 있는 근거가 된다. 인종뿐만 아니라 함께 살고 있는 룸메이트의 숫자도 사용됐는데 '경제력'을 추론하는 데이터였다.

수집된 데이터 표본의 한계도 드러났다. 표본을 어떻게 수집하였느냐의 문제는 기존 설문조사 및 연구조사에서도 항상 결과의 품질과 신뢰도에 큰 영향을 미치는 조건이다. 로테르담시가 사용한 데이터는 도시의 복지 수혜자 가운데 27세 이하인 사람이 실제로는 대략 880명 정도 있지만 데이터엔 52명뿐이었다. 와이어드가 분석한 결과 나이는 알고리즘이 위험지수를 높이는 가장 유력한 속성 가운데 하나였다. 즉, 학습 데이터가 특정 집단을 거의 반영하지 못함에도 인공지능은 집단의 속성을 유력한 판별 변수로 삼았다.

이같은 데이터를 그대로 학습한 알고리즘도 문제였다. 와이어드가 모델을 재구축하고 싱글맘, 셰어링 하우스에 사는 아랍계 이민자 두 명을 임의로 생성해 시스템에 입력한 결과 '조사 대상자'로 분류했다. 유사한 조건을 가진 다른 사람들은 조사 대상에서 벗어날 수 있다는 의미이기도 하다.

성별, 인종, 파트너 보유 여부, 자녀 수, 언어(네덜란드어) 구현 여부, 주거환경(룸메이트의 수) 그리고 사회조사원의 주관적 코멘트는 중요한 판단 근거였다. 모두 객관적 판단과 거리가 멀다고 할 수 있다.

알고리즘의 주요 매커니즘인 '의사결정나무'에 의하면 하나의 조건(속성)에도 이후 사람을 판별하는 기준이 아예 달라졌다. 성별의 경우 남자와 같은 조건임에도 여자는 파트너와의 관계, 자녀 여부, 거주 환경 등을 묻는 속성이 위험지수 측정에 활용된다. 반면, 남자인 경우엔 언어 능력이나 재정적 상황이 판단 조건으로 활용되는 식이다.

기술을 다루는 사람의 태도가 결정적

둘째, 제도의 결함도 부작용을 낳았다. 기술에서 가장 큰 문제를 일으킨 데이터가 제도와도 얽혀 있다. 네덜란드는 성별이나 인종과 같은 배경조건으로 사람을 차별하는 것이 불법이다. 하지만 이러한 요인을 인공지능 학습 데이터로 변환시켜 사용하는 건 그렇지 않은 것으로 보인다. 즉, 마땅히 불법으로 간주돼야 하지만 사용처에 따라 규제되지 않는 '회색 영역(Gray area)'으로 작동했다.

불법을 걸러내기 위해서는 명분을 앞세우고 유사 불법 행위가 일어난 것이다. 물론 네덜란드 정부기관이 악당인 건 아니다. 현재 네덜란드 법원은 이를 바로잡기 위해 면밀히 검토하고 있다. 또 정부기관은 배경조건을 추론할 수 있는 데이터들을 제거하고자 다각도로 노력 중이다.

하지만 충분치 않았고 문제는 더욱 복잡하게 꼬일 가능성이 크다. 일단 인공지능 사용을 중지했지만 유사한 대체재를 찾으려고 하고 있다. 이미 '복지 사기' 행위뿐만 아니라 여러 공공분야에서 인공지능이 적용되고 있어 현황 조사와 문제 진단에 더 많은 시간이 걸릴 수 있다. 관련 기준을 엄격하게 적용할 수 있는 제도 마련에 관심이 필요한 이유다.

셋째, 알고리즘을 다루는 사람이 중요하다. 로테르담시가 사용한 인공지능에도 알고리즘이 차별적으로 판단하지 않는지 자체적으로 평가하는 코드가 포함돼 있었다. 하지만 누구도 해당 코드를 실행해보지 않았다. 유사한 코드를 돌려본 결과, 특정 배경조건을 가진 집단들이 위험지수 측정에 있어 과잉 혹은 과소 대표되고 있었다. 인공지능이 보유한 차별적 기준을 언제든 측정할 기회가 있었단 이야기다.

인공지능의 개발부터 학습, 그리고 실제 이용까지 사람이 개입할 수 있는 영역은 곳곳에 존재한다. 알고리즘 학습에 가장 큰 비중을 차지하는 데이터 수집 및 가공부터 결과물과 현실에 대한 비교 검토까지 인공지능을 활용한 작업 전반에 사람의 참여를 넓혀야 하고 정확한 테스트가 요구된다.

투명성, 효용성 위해 언론의 역할 커진다

네덜란드의 사례는 빙산의 일각에 불과하다. 현재 세계 각국 정부는 다양한 공공 서비스에 인공지능을 도입하고자 박차를 가하고 있다. 하지만 GDPR 등 개인정보와 기술에 의한 권리침해를 선도적으로 다루는 유럽권 국가에서도 그 부작용이 계속 이어지고 있다.

기업 등 민간 영역에서 문제가 발생하면 해당 서비스나 제품을 이용하지 않는다는 선택권이 개인에게 있다. 그러나 공공의 영역은 자칫 잘못하면 개인의 선택권이 배제될 수 있다. 네덜란드의 사례처럼 불법 행위와 관련된 조사이기에 개인이 선뜻 자신의 권리를 주장하기 어려운 조건이다.

2년여에 걸친 조사 끝에 와이어드와 라이트하우스가 내놓은 데이터 저널리즘은 인공지능의 그림자에 빛을 비췄다. 수십여개의 도시에 관련 보도를 위해 자료 요청을 한 결과 학습 데이터, 모델에 대한 파일, 사용된 코드들을 공개하는데 응한 도시는 로테르담시 뿐이었다.

수 개월 간의 공식 및 비공식 요청과 협상 끝에 로테르담시는 알고리즘과 학습데이터, 모델에 대한 성능평가, 그리고 당시 데이터 과학자들이 사용한 핸드북(handbook)을 제공했다. 사용된 인공지능의 알고리즘과 학습 데이터를 분석하고 시각화 할 수 있었던 데에는 공공기관의 협조가 있었던 것이다.

AI의 미래는 공공기관과 언론의 협력에 달려 있다

그동안 인공지능의 활용과 부작용에 대한 언론의 문제 제기는 실제 모델에 대한 구체적인 접근이 거의 불가능해 겉핥기식에 그쳤다. 이번 보도는 제공된 정보들을 토대로 근본적인 설계 과정의 선택, 입력된 데이터 변수, 각종 영향 등 인공지능 모델을 낱낱이 파헤쳤다. 기존 보도가 인공지능의 결과값을 근거로 패턴과 작동원리를 추론하는 정도였기에 각별한 사례라고 할 수 있다.

“We decided to give you maximum insight into the model, not only because of our desire to be an open and transparent organization but also to be able to learn from the insights of others.” —  ANNEMARIE DE ROTTE, ROTTERDAM'S DIRECTOR OF INCOME

로테르담시는 관련 데이터와 내용을 왜 언론사에 공유했을까? 알고리즘의 투명성 제고는 물론 외부 시각으로 개선점을 찾기 위해서라는 입장을 밝혔다. 인공지능을 사용하는 다양한 주체들의 참여를 이끌어내고 기술 사용의 책임과 투명성 제고를 위한 중요한 선례다. 인공지능을 도입하는 공공분야는 물론 민간영역에서도 뉴스조직의 역할과 관계를 설정할 때 참고할 만하다.

한국 정부는 ‘디지털 플랫폼 정부’ 구현을 목표로 인공지능 개발에 대규모 투자를 계획하고 있다. 출생률과 노동력 감소 같은 사회적 문제들을 풀어갈 때 알고리즘과 데이터 분석은 현실이다. 인공지능 시대에 공동체와 시민이 언론에 바라는 것은 통찰력이다. 언론은 기술의 ‘잠재력'에 일희일비하기보다는 ‘올바른 사용법’에 대한 질문을 던져야 한다. 인공지능 기술의 정확한 해석과 대안을 찾는 전문적인 보도 경쟁력을 갖춰야 한다.

  1. 1

    흔히 빅데이터에서 세상에 대해 관측한 데이터가 많아질수록 차원이 커지기 때문에 이해와 활용이 가능한 수준으로 변환하는 경우를 '차원 축소'라 한다. 하지만 이러한 데이터 코딩은 차원 축소라 부르기 어렵다.