새로운 검색 경험이 던지는 과제

2023년 02월 21일

챗GPT 기반 검색, 링크와 저작자 표시 드물다
대규모 말뭉치 가져가서 이익 추구는 시한폭탄
부정확한 검색 결과...언론사 역할 더 커진다

지난 20년 간 사람들이 정보를 찾는 방식인 검색이 다시 새로운 단계에 접어들었다. 오래도록 검색엔진은 형태소 분석으로 사용자가 입력한 검색어(키워드)가 들어있는 (문서 페이지의) 텍스트를 찾아서 보여줬다. 이후 인공지능(AI) 추천 기술과 검색을 결합해 사용자 친화적인 결과물을 제공했다. 연관주제 및 의도 기반(위치 포함) 검색이 그 사례에 해당한다.

지난해 11월 오픈AI가 개발한 챗GPT(ChatGPT)는 사용자의 검색 경험을 대화로 확장시키고 있다. 마치 인간에게 질문하고 답변을 이끌어내는 방식이다. 또 생성형 AI 모델은 스스로 학습하며 또 다른 검색 결과물을 제공할 수 있다. 무엇보다 더욱 개선된 자동화 번역 기술이 뒷받침하면서 언어 장벽도 넘었다. 수많은 사람들이 단 몇 개월 동안 이 색다른 검색 도구를 즐기자 크고 작은 테크 기업들도 '게임 체인저'를 다루듯 움직이고 있다.

검색 점유율 1위 사업자 구글은 2월 초 AI 챗봇 ‘바드(Bard)’를 내놓고 대화형 검색 서비스에 뛰어들었다. 마이크로소프트는 '빙(Bing)' 검색 엔진에 '챗GPT(ChatGPT)'를 탑재하는 파일럿을 내놓았다. "실제 질문을 하고, 완전한 답변을 얻고, 채팅을 통해 만들어 보세요"는 새로운 '빙'의 슬로건으로 등장했다. AI 기반 검색 플랫폼 ‘유닷컴’이 운영하는 ‘유챗(YouChat)’도 같은 방식이다.

대화형 검색엔진 특징

정보 출처 밝히지 않는 챗GPT 한계 부상

명령어의 구체성과 대화 역량이 중요해지면서 소셜미디어 링크드인에는 관련 능력을 가진 구인 정보가 게시되는 등 검색 고도화를 놓고 경쟁이 치열해지는 양상이다. 이 과정에서 인터넷 정보 생태계의 주요 참여자인 언론사의 위상도 흔들릴 수 있다. 생성형 AI가 콘텐츠 및 출처(소스)의 저작자 표시(attribution)에 불명확하기 때문이다.

현재까지 챗GPT와 바드는 답변에 포함된 자료의 출처가 어디인지 밝히지 않고 있다. '빙'은 일부 저작자 표시(링크)를 하지만 정작 출처 사이트로 유입시키는(funnel) 환경은 미흡하다. 실제 검색 결과물을 살펴보면 논문 주석처럼 작은 번호가 매겨진 숫자가 나오지만 사용자가 누를 가능성은 낮다. 출처가 표시된 작은 상자박스를 한번 더 클릭해야 저작자 웹사이트로 이동할 수 있는 등 사용자 환경(UX)이 매력적이지 않다. 유챗도 비슷하다.

급성장하고 있는 퍼플렉시티닷에이아이는 챗봇 답변에서 검색 결과에 출처를 함께 보여준다. 주요 언론사, 공공기관 같은 주요 출처에 명확한 브랜딩과 경로를 제공한다. 상대적으로 저작자를 존중하고 출처의 가치를 이해하고 있다는 평가를 받는다. (사용자 관점이나 저작자 관점에서나) 어느 것이 더 바람직한 것인지 아직 단정적으로 말하기 어렵다.

이 문제는 정보 생산자, AI 기반 검색을 장려하는 테크 플랫폼, 규제기관 및 정당 사이에 거친 협곡을 예고한다. 생성형 AI에 의해 검색 결과물이 본격적으로 노출되는 시점에는 저작권, 약관, 정확성, 비용 지불 등 또다른 문제로 이어질 수 있다.

챗GPT와 기존 검색 비교

언론사 트래픽, 저작권 위협하는 챗GPT

해외에서는 구글, 국내에서는 네이버-카카오 등의 검색 플랫폼과 언론 사이에 갈등은 검색 결과에 진입하고 노출 랭킹 등 결과물의 공정성과 저작권 대가 산정에서 벌어졌다. 기술 도구(AI)의 작동과정에서 어떤 일이 벌어지는지, 앞으로 어떻게 작동해야 하는지의 논의는 거의 없었다. 검색 제품의 정책변화에 저작권자의 참여나 이해를 구하는 절차도 부족했다.^[1] 대신 신속하게 움직였고 일방적으로 발표했다.

언론사들은 그동안 포털 검색엔진에서 얻은 트래픽이 사라질까봐 입을 닫고 있었다. 국내에서는 전재료나 광고수익으로 보전받고 있다. 그런데 이러한 관계모델이 검색엔진에서 언론사 사이트로 트래픽이 이동하지 않는 '제로 클릭'부터 '무임 승차', '헐값' 등의 비판을 자유롭게 한 것은 아니다. 결국에는 북미, 유럽 등에서 언론사-플랫폼 간 새로운 규칙을 형성하는 쪽으로 계약을 바꾸는 동기가 됐다.

1세대 생성형 AI 검색 환경이 펼쳐지면서 과거 검색사업자와 언론사 간 긴장과는 비교할 수 없을 정도로의 의문부호가 쌓이기 시작했다. 국제뉴스미디어협회(INMA)는 최근 리포트에서 "오픈AI가 인터넷에서 방대한 말뭉치(대부분 전 세계 출판사의 저작권이 있는 자료)를 스크랩한 사실은 알려져 있다"며 "연구 목적이거나 비상업적으로 사용할 때는 괜찮지만 상업적 이익을 얻으려고 할 때는 전혀 다른 문제"라고 지적했다.

분명한 저작자 표시, 링크, 언론사 보상 없이 수십년 치의 콘텐츠, 속보나 새로운 정보가 생성형 AI에 통째로 넘어가는 문제는 동의하기 어려운 상황이다. 챗GPT에서 보듯 정보에 대한 답변 심지어는 해석이 해당 페이지 안에서 구조적으로 완성되는 만큼 언론사를 비롯 저작권자 사이트로 이동하며 트래픽 발생은 거의 기대하기 어렵다. 생성형 AI 검색이 활성화될 경우 검색 트래픽을 잃을 수도 있다.

검색 환경 달라지면 시장 경쟁 양상 변할 수도

일단 언론사는 구글, 네이버 같은 기존 파트너의 전통적인 검색 서비스에 기대고 있다. 구글의 검색 표준은 전문성, 권위성, 신뢰성을 최우선시하고 있다. 네이버는 상당한 사용자 규모와 그에 비례하는 비즈니스를 일으키면서 (동의하지 않겠지만) 현실적으로 가장 따뜻한 보상을 다수 언론사에 제공하고 있다. 이 생태계를 유지해야 할 이유가 있다.

그런데 챗GPT는 이같은 공생의 줄거리를 밑에서부터 흔들 수 있다. 발등에 떨어진 불은 생성형 AI가 양산하는 콘텐츠다. 시나 논문, 그리고 기사까지 사용자가 원하는 것을 그럴 듯하게 생산할 수 있다는 것은 사실이다. 언론사의 뉴스를 기반으로 하는 검색 결과물인지를 알 수 없게 하는 것이 출발점이다.

이것은 완전히 독창적인 것도 아니다. 언론계에서 챗GPT에 대해 인간 기자의 역할, 정보 신뢰성 검증에 힘을 싣는 것도 그 한계를 겨냥하고 있다. 더구나 챗GPT 기반의 검색엔진 안내 페이지에서 종종 잘못되거나 부정확한 정보를 표시할 수 있다는 내용도 볼 수 있다. 이것은 신뢰할 수 있는 정보와 출처에 기반한 검색 서비스라는 종전의 명성에 배치된다.

AI가 저널리즘에 미치는 영향. 호세 미구엘(José-Miguel) 등 논문(2021) 재구성.

다만 챗GPT의 검색 엔진 대체 여부는 아직은 시기상조요 미지수다. 챗GPT라는 제품으로 건강하고 지속가능한 생태계를 보장하는 것은 그 제품을 만드는 사람들 그리고 시장 참여자 더 나아가 사용자의 이익과도 연결된다. 생성형 AI 진화 국면에서 핵심 과제 가운데 하나다.

사실(fact)을 검증하는 등 검색 완성도를 높이는 과제와 함께 규제 논의, 정치적 이해의 충돌로 인터넷 정보 생태계에 큰 전환점이 예상된다. 검색 사업자, 레거시 미디어도 공익성, 공공성에 초점을 두고 이 거대한 변화에 대응해야 한다. 특히 언론사 뉴스룸은 인공지능 기반의 콘텐츠 생산에 규칙을 마련하는 등 투명성 확보에 서둘러 나서야 할 것이다.

오픈AI가 챗GPT 구축에 사용한 뉴스 데이터 출처.

챗GPT 이후 예상할 수 있는 것들

언론사는 수혜주인가?: 2023년 1월 기준 현재 버전보다 500배 더 많은 매개변수를 사용하는 새로운 버전인 GPT-4가 곧 출시될 예정이다. 언론사, 출판사의 비중과 콘텐츠 사용이 급증할 수 있다. 복잡한 협상을 준비해야 한다.

검색 서비스 편의성 경쟁: 마이크로소프트는 빙 검색에 GPT를 도입했다. 구글도 비슷한 전략을 채택할 가능성이 높다. 정보를 검색하고 찾는 방식에서 UX 개선과 결과 정확성 향상을 기대할 수 있다.

콘텐츠 수준 제고: 정확한 정보 제공으로 사회적 신뢰를 형성하고 있는 언론사와 그 콘텐츠가 더 주목받을 것이다. 소셜미디어를 중심으로 허위조작정보가 범람하면서 정보 피로도가 높아진 상황에서 챗GPT 활성화는 양질의 콘텐츠 경쟁을 촉진할 수 있다.

AI SEO ChatGPT 뉴스 기자 생성형 AI Journalism 언론사 검색 인공지능 네이버 구글

1

오픈AI가 챗GPT 구축에 사용한 데이터 가운데는 다수의 언론사 뉴스도 포함된 것으로 보인다. 깃허브(GitHub) 내용을 공유한 프란시스코 마르코니(@fpmarconi)는 "언론사와 계약했는지는 알 수 없다"고 지적했다. 오픈AI 측이 데이터 스크랩 행위를 '공정 사용(fair use)'이라고 주장한 것과 관련 국제뉴스미디어협회(INMA)는 챗GPT 상용화는 언론사 저작권을 위반하는 것이라고 우려했다.