인간의 관심이 AI 방향 좌우한다

News

2023년 02월 08일

잘못된 데이터 학습으로 편향과 차별 유발 우려
기업은 비용 부담 회피하고 법률 개선은 더뎌
챗GPT 시대 미리 대비하는 미디어 역할 중요

Share on Twitter Share on Facebook Share on LinkedIn Share by email

*상단의 이미지는 인공지능(DALL-E-2)이 생성한 이미지

“기계는 생각할 수 있는가?(Can machine think?)”

인공지능(AI)하면 제시되는 문장이다. 컴퓨터 과학의 아버지로 불리는 앨런 튜링이 1950년 발표한 논문 '컴퓨팅 기계와 지능(Computing Machinery and Intelligence)'을 시작하는 질문이기도 하다. 인공지능이 등장하기 전 그의 예측은 이제 머신러닝과 딥러닝을 거쳐 현실이 되고 있다.

기계로 인간의 지능을 모방하려는 시도는 인공지능의 새로운 지평을 연 ‘생성모델(Generative model)’에서 극적으로 나타난다. 대량의 데이터와 컴퓨팅 파워를 기반으로 탄생한 생성모델은 창작이라는 인간 행위를 모방해 관심을 모았다. 2022년 11월 공개된 오픈AI(OpenAI)의 '챗GPT(ChatGPT)’는 그 정점에 있다.

고도화된 인공지능의 잠재력은 무한대일 것이다. 하지만 인공지능은 인간의 어두운 면 또한 함께 흡수한 결정체다. 탄생 과정에서 투입된 어마어마한 '인간' 발 정보들과 그 결과물로 대두할 새로운 문제들은 인공지능 기술에 예측할 수 없는 그림자를 드리운다.

미디어 산업도 그 영향에서 벗어나기 어렵다. 텍스트와 이미지는 주요 정보 전달 수단 가운데 하나인데 인공지능이 미칠 영향은 거대하기 때문이다. 저작권 침해나 허위정보 확산 같은 문제들은 이미 폭넓게 다뤄지기 시작했다. 하지만 몇 개의 단어로 정의하긴 어려울 정도로 인공지능의 힘은 복잡하다. 그 피해 역시 여러 갈래로 퍼져나갈 수밖에 없다.

온라인 플랫폼과 쿠키리스에 대한 chatgpt 응답
온라인 플랫폼과 쿠키리스(Cookieless)에 대한 챗GPT의 질의응답

확률적으로 가까운 답은 함정이 숨어 있다

인공지능은 인간의 지식과 생각을 학습한다. 인간이 만들어 놓은 창작물들을 기계(인공지능 모델)의 성능 향상을 위해 일종의 양분으로 공급한다. 이 과정에서 옳고 그름을 판단하는 인간의 지능은 흡수되기 어렵다. 저작권 침해나 허위정보 확산과 같은 문제가 떠오르는 이유다.

성능이 고도화된 대형 인공지능 모델을 만들기 위해선 막대한 학습 데이터가 필요하다. 여기에 엄청난 모델 크기와 복잡성이 만나는데, 무엇을 기반으로 결과물을 만들어 낼지 정확히 파악하기 어렵다. 흔히 표현하는 인공지능의 '블랙박스'다. 더불어 막대한 자원과 자본을 투자한 기업 입장에선 학습에 활용한 데이터가 정당하고 합법적일지라도 섣불리 공개하기 어렵다. 저작권 침해가 발생함을 증명하려면 누구의, 어떤 창작물을 모방했는지 알아야 하는데 이것 자체가 어려울 수 있다는 뜻이다.

학습 데이터도 한계를 수반한다. 수집된 데이터 범위가 넓을수록 허위정보도 포함될 확률이 높고, 시간적 유한함이 존재한다. 정보의 정확성은 출처와 최신성에서 나온다. 아무리 많은 학습을 거쳤더라도 두 요소가 결여된 결과물은 의도와 상관없이 허위정보 확산으로 이어질 수 있다.

대다수 인공지능 모델이 확률을 기반으로 한다는 사실도 빼놓을 수 없다. 확률과 컴퓨팅 파워가 만나면 엄청난 가짓수 계산이 가능하다. 인공지능의 고도화도 압도적인 반복을 통해 가장 그럴듯한 답을 찾아내는 과정에서 비롯된다.

그런데 만약 애초에 존재하지 않는 것을 물어보면 어떨까? 인공지능이 내놓는 건 확률적으로 가장 '가까운' 답이다. 여기서 문제가 발생한다. 확률적으로 가장 가깝다고 해서 바로 사실이 되는 건 아니다. 인간의 관점에서 되려 사실과 멀거나 아예 다를 수 있다. 하지만 인공지능은 이를 판단할 지능이 없어 정답으로 내놓을 수 있다.

그렇다면 인공지능의 문제점은 극복 가능할까? 당장에는 뚜렷한 방안이 보이지 않지만 해답 또한 인공지능 안에 존재한다. 인공지능이 생성한 텍스트를 탐지하는 소프트웨어(이하 탐지도구)나 판별을 위한 워터마크는 대표적인 방법이다. "소프트웨어인 인공지능을 탐지하기 위해 또 다른 소프트웨어를 활용한다" 즉, '이이제이'처럼 기술을 이용해 기술을 잡는 그림이다.

탐지와 판별도구 넘어 인공지능 리터러시 필요

그동안 연구자들은 인공지능이 생성한 텍스트를 탐지하기 위해 특성들을 파악, 비교, 분석하는 소프트웨어 개발에 몰두해왔다. 얼마나 글이 자연스럽게 읽히는지, 특정 단어가 얼마나 빈번히 활용되는지, 그리고 구두점이나 문장 길이에서 나타나는 패턴은 어떠한지 등을 포착한다.

대형 언어모델은 보통 문장 다음에 올 단어를 예측하는 방식으로 학습하고, 일반적인 단어들을 사용할 확률이 높다. 영어를 예로 들면 부정확하거나 희소한 단어가 아닌 “the”, “it”, “is” 등을 사용한다. 인공지능과 인간의 글쓰기를 판별하는 실험에서 사람들은 이러한 '깔끔하고 완벽한' 글쓰기를 인간의 것으로 판단하는 경향이 있었다. 하지만 현실에서 인간이 작성한 텍스트는 오타로 가득 차 있고 각기 다른 스타일과 속어를 포함하는 등 믿을 수 없을 정도로 다양하다. 탐지도구에 적용하면 오타와 정확성이라는 패턴 차이로 인공지능과 인간의 구분을 만들 수도 있다.

탐지도구가 글쓰기 패턴의 차이를 탐지한다면 워터마크는 인공지능 텍스트에 식별자를 도입하는 방식이다. 인공지능 텍스트 탐지 워터마크는 사람 눈엔 보이지 않지만, 컴퓨터로 하여금 텍스트가 인공지능에 의해 작성됐는지 파악할 수 있게 해준다. 워터마크를 대형 언어모델 구축에 앞서 적용하면 학생들이 과제를 대필하거나 CNET의 AI 작성 기사 논란 등 다수의 문제를 잠재울 수 있다. 한 연구에선 이미 워터마크의 능력이 증명됐다. 메타의 오픈소스 언어모델인 OPT-6.7B가 생성한 텍스트들을 확신에 가깝게 탐지해냈다.

그러나 한계도 있다. 다수의 탐지 도구들은 구버전 모델들을 기반으로 만들어져 최신 대형 언어모델의 적수가 되긴 어렵다. 또 대부분 대량의 텍스트에서만 효과적으로 작동해 이메일 등 실제 환경에서 빛을 보기 어려울 수 있다. 더불어 대형 모델을 자원으로 활용하는 건 엄청난 컴퓨팅 파워가 필요하고, 제작자 측에 선 기업들이 굳이 도전할 이유도 없다.

워터마크도 비슷하다. 워터마킹은 구축 단계에서 대형 언어 모델에 내장돼야 작동한다. 그러나 기업들이 이를 수용할지 미지수다. 현재 오픈AI와 같은 대표주자가 워터마크를 포함해 인공지능 생성 텍스트 탐지법을 연구하는 것으로 알려져 있지만 아직은 베일에 가려져 있다. 기업 입장에선 엄청난 자원이 투입된 만큼 외부에 인공지능의 작동방식이나 학습방법 등 관련 정보를 많이 제공하지 않거나, 실제 모델에 대한 외부 접근성을 낮출 가능성이 있다.

결국 기술 오용을 막으려면 법제도와 규율 마련 등 사회적, 집단적 접근이 요구된다. 또 사용자 개인의 노력도 필요하다. 고도화된 인공지능을 구분하는 건 현실적으로 어려워 보이지만[1] 훈련을 거치면 사람도 인공지능 텍스트를 구분할 수 있다. 관련 실험에서 일종의 게임을 통해 테스트한 결과, 참가자들의 탐지 능력이 점진적으로 향상됐다. 많은 인공지능 생성 텍스트들을 보며 차이점을 구별하기 위해 노력한다면 개인도 인공지능과 사람을 구분할 능력을 배양할 수 있는 것이다. 일종의 '인공지능 리터러시'인 셈이다.

차별과 편향 막으려는 사람의 선택이 관건

인공지능은 텍스트 외에도 이미지와 영상에서 놀라운 성과를 거두고 있다. 단순 학습을 넘어 텍스트 내용을 놀라운 이미지들로 창작해 준다. 텍스트 투 이미지(text-to-image)기술을 활용한 구글의 이매진(Imagen)이나 오픈AI의 'DALL-E-2'는 이미 많은 사용자들에게 호응을 받고 있다. 생성모델 기반 인공지능이 만든 창작물은 편의성과 독창성으로 인기몰이 중이다. 고품질의 그림들이 텍스트 하나로 순식간에 만들어지는가 하면 기업은 브랜드 홍보를 위해 인공지능 기반의 독창적인 이미지를 선보이고 있다.

하지만 필터링 없는 인공지능 창작물에도 어두운 점이 드러난다. 2018년 디지털 리터칭 앱으로 처음 출시된 '렌사(Lensa)' 앱은 사람들의 셀카로 디지털 초상화를 생성하는 인공지능 기반 ‘매직 아바타’ 기능으로 이목을 집중시켰지만, 그 결과물은 편향과 차별에서 자유롭지 못했다.

여성, 특히 아시아계 사람이 앱을 사용하면 상당수는 성적으로 대상화된 이미지들을 돌려 받았다. 한 자료에 따르면 생성한 100여개 아바타 가운데 16개는 상의가 탈의된 모습이었으며, 또 다른 14개는 극도로 달라붙는 의상과 노골적으로 성적인 포즈를 취하고 있었다. 우주인, 용맹한 전사 등 사실적이고 멋진 이미지로 나타나는 남성 사용자에 대비되는 결과물이었다. 여기에 인종 차별 논란도 더해졌다.[2]

이렇게 차별과 편향이 발생한 건 렌사의 학습 데이터 영향이 크다. 렌사 앱의 인공지능 모델은 구글이나 오픈AI 모델과 기능은 유사하지만 오픈소스인 '스테이블 디퓨전(Stable diffusion)'을 사용한다. 이 모델은 대규모 오픈소스 데이터셋인 'LAION-5B'를 사용하여 구축됐다. 쉽게 말해 인터넷에서 거름망 없이 수집한 학습 데이터셋이 이를 학습한 인공지능이 생성하는 이미지에도 여과없이 나타나게 된 것이다.

물론 데이터만 탓할 순 없다. 인공지능 모델과 앱을 개발하는 기업의 선택에도 많은 것이 달려있기 때문이다. 어떤 데이터를 학습에 활용할지, 모델을 어떻게 조정할지, 그리고 편향 완화와 악용을 막기 위해 어떤 조치를 취할지 등 모든 것은 사람이 결정한다. 렌사의 앱도 마찬가지다. 기반이 되는 오픈소스 모델을 개발한 'Stability.AI'는 세이프티 필터를 함께 공개했지만 렌사가 이를 사용하지 않은 것으로 추측했다. 이 필터를 선택하지 않았더라도 렌사는 추가적인 조치를 취할 수 있지만 이를 시도하지 않았다. 이것 역시 기업의 선택이다.

기계의 눈이 사람의 일상을 학습하고 있다

렌사가 인터넷의 이미지를 활용했다면, 로봇 기술은 현실의 이미지와 영상을 수집한다. 자율주행 차량은 외부 환경과 상호작용하며 운행하는 방식의 자동차다. 이를 위해선 기계가 먼저 주변을 인식하고 대처법을 배울 수 있어야 한다. 여기에 활용되는 기술이 '컴퓨터 비전(computer vision)'이다. 말 그대로 컴퓨터 즉, 기계가 사람의 시야처럼 주변을 인식하고 판단하는 기술이다. 실내 IoT 기기 가운데 로봇 청소기도 이 기술을 적용했다.

로봇 기술도 인공지능처럼 발전을 거듭하며 현실을 인식하고 학습하는 단계에 이르렀다. 가령 로봇 청소기는 소파와 의자 등 온갖 가구에 들이박으며 자국을 남기던 과거와 달리 현재는 직접 보고 판단해 방향을 찾아가고 있다. 이제 사람의 눈에 거슬리는 일 없이 자동으로 청소를 해주는 기계로 업그레이드 된 것이다.

카메라가 달린 로봇 청소기
카메라가 달려 있는 로봇 청소기

하지만 사람의 눈이 아닌 기계의 눈엔 당신의 일상이 들어올 수도 있다. 2020년 베네수엘라의 긱(gig) 노동자들은 페이스북, 디스코드(Discord)와 같은 온라인 포럼에 일련의 이미지들을 게시했고, 큰 논란으로 이어졌다. 게시된 사진들은 다소 낮은 각도에서 포착한 일상적, 그리고 매우 사적인 집안 풍경들이었기 때문이다. 일부는 누구나 인터넷에 공유되길 원치 않을 사진들이었다.

해당 이미지들은 사람이 아닌 '아이로봇(iRobot)'의 룸바(Roomba) J7 시리즈 로봇 청소기에 의해 찍힌 것이었다. 전방 카메라를 포함한 로봇의 센서에 의해 수집된 오디오, 사진 그리고 영상 데이터는 스타트업 '스케일AI(Scale AI)'로 보내지고, 전세계 계약직 노동자들에 의해 레이블링 된다. 아이로봇 측은 논란이 된 이미지들이 2020년 룸바에 의해 촬영됐음을 인정했다.

다만 "해당 사진들을 촬영한 로봇들은 상용화된 기기가 아니고, 촬영 및 데이터 전송에 대해 동의를 받은 사람들에게만 주어졌다"고 해명했다. 또 '비디오 녹화가 진행 중'이라고 적힌 녹색 스티커를 부착했다고 덧붙였다.

룸바의 유출 사례를 통해 포착할 수 있는 문제는 두 가지가 있다. 하나는 당연히 개인의 사적인 일상을 유출시킨 개인정보 침해, 그리고 또 다른 하나는 업계가 인공지능 학습 데이터셋 확보를 위해 야기하는 노동력 착취이다.

제품 개선 이유로 브레이크 없는 데이터 수집

외부 환경을 학습하는 자율주행 차량과 달리 로봇 청소기와 같은 실내 기기들은 내부 환경을 학습해야 한다. 또한, 시스템화된 도로와 달리 가정집은 제각각 다른 모습을 갖고 있다. 기기를 제조하는 기업 입장에선 성능 개선을 위해 더 많은, 그리고 더 현실적인 데이터 수집이 필요한 이유이다.

개인정보 침해는 이러한 데이터의 수요에서 시작된다. 현실적으로 데이터를 더 많이 수집하기 위해 다수의 기업들이 일상 속 기기들을 활용한다. 예를 들면 시제품을 무료 혹은 대폭 할인된 가격에 나눠주거나 보상을 지급하고 체험단을 모집하는 식이다. 물론 기기 지급시 데이터 수집 등 관련 동의를 받아내곤 한다.

하지만 기기 이용과 데이터 수집에 참여하는 사람들이 룸바의 사례를 본다면 어떤 반응을 보일까? 아이로봇의 기기를 활용한 데이터 수집에 참여했던 여러 사람들은 모호한 동의조약에 의해 오도되고, 신뢰했던 기업에게 피해를 입었다. 긍정적 동기로 시작했지만 자신의 매우 사적인 정보가 제 3자에게 노출될 줄 알았다면 전적인 참여는 없었을 것이다.

무엇보다 가장 심각한 건 사람에 대한 접근이 쉬운 기기에선 개인의 얼굴이 노출 될 수 있다는 점이다. 가구와 집은 바뀔 수 있고, 신체의 다른 부분으론 개인을 쉽고 명확히 구분하긴 어렵다. 하지만 얼굴은 당신이 바꿀 수 없는 비밀번호와 같다. 일단 누군가가 얼굴의 '시그니처'를 기록하면, 그들은 사진이나 영상 등에서 개인을 식별하기 위해 '무기한'으로 활용할 수 있다.

얼굴 데이터 수집
기계에 의해 수집되는 사람의 얼굴 데이터

비단 로봇 청소기에만 국한된 일이 아니다. 스마트폰부터 스마트 스피커, 냉장고, 세탁기 등 흔히 IoT 기기라 칭하는 모든 제품이 해당될 수 있다. 이름처럼 스마트하게 행동하려면 인공지능이 필요하고, 인공지능 모델 학습을 위한 데이터가 필요하다.

다수의 기업들은 아이로봇처럼 혜택과 보상을 통한 참여를 유도해 현실적 데이터를 얻고자 한다. 그리고 마찬가지로 제품 사용 동의서를 통해 애매모호한 개인정보 정책을 들이민다. 예를 들면 데이터를 '공유'하는 것과 '판매'의 구별처럼 미묘한 차이를 이용하는 방식이다. 기업들이 데이터를 절대 판매하지 않겠다고 말하는 건 데이터 사용 및 분석을 위해 제 3자와 공유하지 않겠다는 의미는 아니다.

모호한 권한과 안내로 개인정보 보호는 뒷전

데이터 수집에 대한 광범위한 정의와 이를 뒤따르는 모호한 보호 정책은 대부분의 경우 이용자들이 수용하게 된다. 비전문가인 개인들이 이해하기 어려울 뿐더러 제품을 이용하기 위해선 거의 강제되기 때문이다. 사실상 모든 정책에는 '제품 및 서비스 개선'을 목적으로 데이터 사용을 허용하는 언어들이 들어가 있으며, 이 언어들은 "기본적으로 모든 것을 허용"할 정도로 광범위한 게 현실이다.

물론 기업들이 모든 데이터를 이용자에게서 습득하려고 하는 건 아니다. 실험 및 통제된 공간에서 인공적 데이터를 생성하거나 인공지능 자체를 활용해 데이터를 만들어 활용하는 경우도 있다. 또, 설령 이용자 데이터를 활용하더라도 철저하게 보안이 유지된 저장소와 접근 권한을 유지한다.

하지만 보다 현실적이고 방대한 양의 데이터 확보와 이를 처리하기 위한 비용 절감 등의 이유로 개인에 대한 보호는 뒷전으로 밀려난다. 여기서 두 번째 문제가 대두된다. 바로 인공지능 학습 데이터셋 구축을 위한 '데이터 주석처리(annotation)' 과정에서 발생하는 문제다.

컴퓨터 비전에 이용되는 이미지, 영상 데이터 등을 학습용으로 만들려면 데이터에 등장하는 사물과 사람을 구별하고 이름, 맥락 등 정보를 기록해야 한다. 이 과정을 데이터 레이블링(labeling) 혹은 데이터 주석처리 과정이라 한다. 인공지능은 현실의 정보를 사람처럼 인지 및 이해할 수 없다. 결국 인공지능이 알아 들을 수 있는 형식으로 데이터를 처리 및 전달해줘야 하는데, '처리' 과정은 인간 노동자의 몫이다.

데이터 주석처리 과정은 상당한 반복작업이 요구된다. 로봇 청소기를 예로 들면 실내 환경이 담긴 이미지에서 장애물이 될 요소들을 구별해 윤곽선을 치고 가구, 사람, 각종 물체 등 식별된 대상에 이름이나 맥락 정보 즉, '레이블'을 달아야 한다. 여기까진 별 다른 문제가 없어 보인다. 되려 새로운 산업으로서 일자리 창출도 가능해 보인다.

데이터 주석처리 작업을 위해 기업들이 선택하는 대표적인 방식은 '크라우드소싱'이다. 국내에도 데이터 레이블링을 아르바이트나 부업으로 하는 경우가 증가하고 있고, 관련 플랫폼들도 존재한다. 심지어 고용노동부의 공식 인증을 받은 교육과정도 있다.

저임 노동자의 데이터 주석처리의 위험성을 아는가?

하지만 문제는 막대한 처리량과 뒤따르는 비용에 있다. 인공지능의 성능이 향상되려면 많은 양의 데이터셋이 필요하고, 수천 수만 장이 넘는 이미지 속 수많은 물체들을 레이블링해야 한다. 아이러니하게도 이 작업은 인간밖에 수행할 수 없는데, 일반 제조업과 달리 데이터를 전달이 가능한 인터넷 접근성, 작업수행을 위한 최소한의 디지털 환경과 이를 다룰 능력 등을 보유해야 한다.

이러한 조건은 인건비 상승을 부추긴다. 이윤 극대화가 목표인 기업은 비용절감이 중요할 수 밖에 없다. 그래서 데이터 주석처리를 주업으로 삼는 기업들은 조건을 갖추고 있되 절박한 노동자를 찾기 시작했다.

세계 최악의 초인플레이션을 맞은 베네수엘라는 공교롭게도 가장 적합한 노동자다. 기본적인 조건을 갖추면서도 경제적 위기로 인한 절박함과 의존성으로 비교적 싼값에 노동력을 확보할 수 있기 때문이다.

경제위기 속에 구직난에 처한 이들에게 데이터 주석처리 노동은 생명줄이 될 수 있다. 그러나 비용 절감을 위해 기업들이 임의로 보상을 낮추거나, 계정이나 프로그램을 중단하는 식으로 노동자들이 반복적인 착취 구조에 노출된다.

또한 전 세계 무작위 노동자들에게 레이블링을 위해 전달되는 데이터는 관리가 허술할 수밖에 없다. 모든 인터넷 이용자들의 보안 수준이 같지 않고, 특히 경제가 열악할수록 개인 차원의 보안은 취약하다. 룸바의 사례처럼 개인정보 유출 가능성은 더 높아진다. 개개인의 노동자들이 악한 마음을 갖는다기보다는 이들의 의도와 상관없이, 그 과정 속에 데이터 유출이 만연하게 된다.

인공지능 적용 분야는 넓어지고 경쟁은 치열해지고 있다. 식료품부터 구직 플랫폼까지 인공지능을 도입한 디지털 서비스라면 학습 데이터셋이 필요하기에 베네수엘라의 사례는 처음도 마지막도 아닐 것이다. 현재 상황에서 전 세계로 뻗어있는 크라우드 소싱을 감독, 규제하기는 어렵다. 낮은 가격에 제공되는 편리한 온라인 서비스 등 잘 포장된 혜택을 받는 이용자들은 이러한 어두운 민낯을 알아채기 어려운 것이 현실이다.

언론은 인공지능의 명암에 관심 갖도록 안내해야

강력한 인공지능 모델의 등장은 노동대체의 두려움과 새로운 활용 가능성처럼 극명한 논쟁거리를 제시한다. 가장 중요한 과제는 "인공지능을 어떻게 올바르게 활용할 것인가?"이다. 언론사가 할 일은 스스로 이 파도를 잘 타며 나아가야 하고, 동시에 이 파도가 어디로 가고 무엇을 덮치는지 보고 알려야 한다. 예를 들면 저작권 및 개인정보 침해, 저널리즘 윤리 위배 등 인공지능이 일으키는 문제들은 종류도, 규모도 다양하다.

하지만 핵심은 문제의 원인과 해결이 모두 사람의 손에 달렸다는 점이다. '인공지능의 블랙박스'로 치부하기엔 많은 선택과 의사결정은 사람이 한다. 구글과 같은 인공지능 선두주자들이 인공지능 책임성에 대해 지속적으로 언급하고, 오픈AI가 챗GPT를 대중에게 공개한 것도 그 연장선상에 있다. 어차피 닥쳐올 문제라면 미리 알리고 경험해 올바른 방향으로 활용되도록 만들어 나가야 하기 때문이다.

알파고(AlphaGo)는 많은 사람들을 인공지능이라는 위세에 압도당하고 무기력하게 느끼게 했다. 생성모델을 비롯 인공지능이 그릴 미래는 사람이라는 것을 명확히 할 필요가 있다. 예를 들면 인공지능의 창작물을 구분하는 능력, 결과에 대한 피드백, 오용 및 악용에 대한 인지 및 공유 등 개인의 '관심'이 그 방향을 좌우한다. 유럽의 GDPR 미국의 CPRA 등 최근의 플랫폼 규제 움직임도 결국 개개인의 관심에서 비롯했다.

"Attention is all you need."

챗GPT를 포함 대부분의 첨단 인공지능의 기반인 트랜스포머(Transformer)를 처음으로 제시한 논문의 제목이다. 이 문장은 향후 인공지능이 나아갈 방향에 대한 인간의 선택을 관통한다. 사람들의 관심이 모이는 지점에 곧 기술이 나아갈 방향이 만들어지기 때문이다.

아직은 인공지능에 관심이 있는 사람들보다 없는 이들이 더 많다. 다만 영향은 거의 모든 이들에게 미칠 것이다. 이들이 관심을 갖고 선택을 하게 하려면 먼저 알려 인지시켜야 한다. 언론의 가장 중요한 역할이다. 다가올 파도가 무엇인지 어디로 가는지 쉬운 언어로 알려야 한다.

또한 저널리즘에 인공지능을 활용할 때는 책임감이 절대적으로 필요하다. 뉴스 생산 과정과 결과에서 나타날 문제들이 무엇인지, 그리고 어떻게 오용과 남용을 예방할 수 있는지, 어떤 정책을 도입해야 할지 끊임없이 고민해야 한다. 인공지능에는 아직 인간의 양심과 지능이 없다는 걸 명심해야 한다.

  1. 1

    한 실험에선 응답자들이 GPT-2가 생성한 가짜뉴스 가운데 약 66% 가량을 신뢰할 수 있다고 답했다. 또 다른 실험에선 훈련되지 않은 사람들이 GPT-3가 작성한 텍스트를 구분할 확률이 거의 무작위에 가깝다는 것이 드러났다.

  2. 2

    관련 기사를 작성한 저자는 백인인 여성이 이용한 것과 비교했을 때보다도 더 많은 숫자의 성적 대상화된 이미지를 받았다고 말했다. 심지어는 앱에서 자신을 '남성'으로 체크하더라도 여성의 누드 그리고 성적 포즈가 드러난 이미지를 돌려줬다고 언급했다.