생태계 흔드는 '양산형' 웹사이트

News

2023년 07월 18일

손쉽게 디지털 광고 매출 노리는 미디어 증가
구글, 양산형 웹사이트 디지털 광고 90% 연결
조직 효율화 통해 AI 위기를 기회로 전환해야

Share on Twitter Share on Facebook Share on LinkedIn Share by email

현재 뉴스 산업의 생존은 광고에 뿌리를 두고 있고 미래는 디지털로 우거지고 있다. 세계신문협회(WAN-IFRA) ‘월드 트렌드 아웃룩 2022-2023’에 따르면 세계 주요 언론사 매출원으로 광고(47.7%)의 비중이 가장 컸다. 하지만 전체 매출 구조에서 디지털이 차지하는 비중은 점점 증가하고 있다. 미국 신문업계는 오는 2026년 디지털 부문 매출이 종이신문 분야 매출을 사상 최초로 뛰어넘는 시기가 올 것으로 전망하고 있다.

한국 신문업계의 여건도 비슷하다. 한국언론진흥재단 ‘2022 신문산업 실태조사’에 따르면 광고 수입이 60.6%로 절반을 상회한다. 그런데 종이신문과 디지털 부문의 성장세는 확연히 다르다. 2012~2021년 사이 매출액을 비교하면 종이신문 3.7%, 인터넷신문은 41.2% 증가했다.

사업체 수도 달라지고 있다. 2012년 절반 정도(55.8%)였던 인터넷 신문사 비중이 2021년 75.7%로 전통적인 신문사 비중(24.3%)보다 3배 이상 증가했다. 인터넷신문사의 사업체 수가 반드시 디지털 미디어 시장의 성과를 의미하는 것은 아니지만 생태계의 변화로 볼 만한 장면이다.

광고 싹쓸이하는 플랫폼, 전문 인터넷 매체에 치여

사실 내용적으로 보면 아직은 디지털 뉴스 미디어가 대세는 아니다. 세계적으로 뉴스업계 추이를 살펴보면 아직 종이신문 매출이 53.5%로 절반 이상을 점유하고 있다. 국내의 경우는 종이신문 부문 매출이 평균 80%가 넘는다.

이때문에 업계의 디지털 전환 속도와 수준에 의문을 갖는 시각도 있다. 진정한 디지털 전환은 아직 시작하지 못했다는 분석도 여전하다. 디지털 전용 상품과 유료 구독 등 수익 다변화도 소수의 글로벌 언론사를 제외하면 뚜렷한 돌파구를 찾지 못하고 있는 게 보다 냉정한 진단이다.

불완전한 디지털 비즈니스 모델도 원인으로 볼 수 있지만 그동안 가장 큰 비중이던 디지털 광고 매출 하락이 두드러진다. 구글, 메타, 아마존 등 대형 플랫폼 기업의 압도적인 지배력 탓이다. 최근 각국 주요 정부와 글로벌 유력 언론사들과 뉴스 콘텐츠 사용 대가 산정을 놓고 끊이지 않는 갈등이 계속되고 있다.

플랫폼 기업과 디지털 매출원을 놓고 경쟁하고 있다면 디지털 콘텐츠를 생산하는 다양한 미디어 채널들과의 경쟁도 더 치열해지고 있다. 인터넷에서 손쉽게 콘텐츠를 생산하는 전문 채널들이 속속 등장했기 때문이다. 이 가운데는 상품성이 높은 유료 콘텐츠만 다루는 채널도 있었지만 트래픽 기반으로 손쉽게 광고 매출만 노리는 '양산형[1]'도 폭증했다.

콘텐츠 베끼는 웹사이트, 디지털 광고 시장 잠식

양산형 웹사이트 등장 배경에는 '프로그래머틱 광고 시장'이 있다. 기존 사람의 손을 거치는 '광고 입찰'은 자동화된 시스템으로 대체됐다. 프로그래머틱 광고는 이름처럼 프로그램에 따라 광고의 입찰과 게시가 이뤄진다. 이용자가 웹페이지에 접속하면 광고주의 요구 등 일정 조건에 맞춰 해당 웹페이지에 관련 광고 입찰이 진행된다. 자연히 페이지뷰(PV), 순방문자수(UV), 체류시간(DT)처럼 트래픽에 기댈 수밖에 없다.

문제는 프로그래머틱 광고 자동화가 랜딩 페이지-최종적으로 보는 웹페이지의 가치와 상관없이 광고를 노출시키는 부분이다. 콘텐츠가 어떤 내용을 다루고 있든 트래픽 지표를 근거로 광고가 게시된다. 허위조작정보 즉, 가짜뉴스, 자극적인 연성기사, 저작권을 침해한 콘텐츠인지는 상관이 없다.

결과적으로 양산형 웹사이트가 광고 시장에서 힘을 갖는 게 현실이다. 스팸 혹은 정크 웹사이트로 불리는 양산형은 '닷컴' 시절부터 존재했다. 대표적인 형식은 ‘기사 스피닝(article spinning)’이다. 스피닝은 다른 웹사이트에서 생산된 오리지널 콘텐츠를 가져와 프로그램을 통해 자동으로 단어와 문장을 유사한 것들로 바꿔 새로운 콘텐츠로 둔갑시킨다. 이렇게 하루에도 수백 개 이상의 콘텐츠를 만들어 유통했다. 이들 콘텐츠에는 구글 애드센스와 같은 프로그래머틱 광고들이 따라붙었다.

프로그래머틱 광고만이 양산형 웹사이트의 수입원이 된 건 아니다. 트래픽 증가를 원하는 다른 웹사이트에 수익을 대가로 이용자 트래픽을 링크해주는 방식도 있었다. 이 가운데 정상적이지 않거나 의문스러운 웹사이트, 심지어 멜웨어(malware)나 피싱(phishing)사이트로 연결되는 경우도 흔했다. 이들도 대다수는 프로그래머틱 광고 매출을 노렸다.

기사 스피닝 + 피싱 웹사이트 (원본 기사와 비교)
'스피닝'으로 도용한 피싱 웹사이트(오른쪽 이미지). 기사 본문은 단어나 문장을 바꿔 게재했다. 피싱 기사는 그 자체가 커다란 이미지로 클릭하면 출처를 알 수 없는 웹사이트로 연결된다.

저품질 콘텐츠를 취급하는 '양산형'은 최소 비용으로 광고주 돈을 최대한 가로채는 모델이다. 한 조사 따르면 전 세계의 양산형 웹페이지가 광고 노출(ad impression)의 21%를 차지하고 있었다. 또 연간 약 130억 달러가 이들의 주머니로 흘러 들어가는 것으로 추정됐다.

광고주 관점에서 보면 그야말로 버려지는 돈이다. 언론사를 비롯 양질의 콘텐츠를 생산하는 디지털 채널에게도 안타까운 현실이다. 특히 저품질 콘텐츠에 파묻히는 이용자에게도 그 피해가 고스란히 전이된다.

광고 매출 노리는 한국어 저품질 웹사이트도 발견

생성형 AI 모델은 양산형 콘텐츠와 웹사이트를 증가시킬 것으로 예상된다. 그동안 콘텐츠를 생산한 인간 기자는 효율화 자동화를 촉진하는 AI 기술로 대체될 수도 있다. 콘텐츠를 유통하는 채널도 AI 기반으로 진화할 수 있다. 특히 양산형 웹사이트의 생산축을 담당하던 저임금 노동자도 대체[2]된다.

가짜뉴스·허위조작정보에 대응하는 스타트업 뉴스가드(NewsGuard)발표내용에 따르면 141개의 기업 브랜드는 AI 기반 양산형 웹사이트에 광고비를 지불하고 있는 사실을 모르고 있는 것으로 나타났다. 뉴스가드는 양산형 웹사이트를 매주 약 25개 가량 새롭게 발견하고 있다고도 밝혔다. 이 가운데는 한국어를 포함한 13개 언어로 된 331개의 웹사이트가 더 있었다.

뉴스가드 분석팀은 AI 기반 양산형 웹사이트에서 약 2개월 동안 393개에 달하는 메이저 브랜드 광고 게시를 확인했다. 여기엔 구글의 프로그래머틱 광고 상품도 한몫했다. 393개의 대형 브랜드 광고 가운데 356개가 구글에 의해 연결 및 게시됐다.

과거에 구글이 양산형 콘텐츠와 웹사이트를 배제하려 검색엔진에 새 알고리즘을 도입하고 정책을 마련한 게 무색할 정도였다. 구글은 생성형 AI 모델 바드(Bard)를 상품화 한 것을 고려하면 딜레마에 빠질 확률도 높다.

허위조작정보 하루 1,200개 생성하는 곳도 있어

AI 기반 양산형 웹사이트에 언론 산업이 주목할 이유는 충분하다. 수익은 물론이고 저널리즘 가치를 훼손할 가능성이 크기 때문이다. 이를 방치한다면 허위조작정보를 포함한 저품질 정보를 막기 어렵다. 뉴스가드에 따르면 한 웹사이트는 하루에 1,200여 개의 기사를 만들어 냈다. 매우 적은 비용으로 눈 먼 돈을 가로채는 수익 구조가 자명하면 시장에서 그러한 매체는 증가할 수밖에 없다.

뉴스 생태계를 위협하는 빅테크 플랫폼, 생성형 AI 모델은 콘텐츠 사용료나 협업 등 개선할 수 있는 여지가 있다.[3] 하지만 양산형 웹페이지는 관심권 밖이라 진짜 위협인지도 인지하지 못하는 상황이다. 협상과 교섭을 진행할 대상도 막막하다. 언론 산업의 본질인 콘텐츠 자체와 독자와의 접점인 공간에 가치 저하를 유발한다. 이 시장의 근간을 흔들 수 있다는 관점에서 체계적인 대비가 필요하다.

"AI가 AI 생성 정보 찾아낸다"지만 아직 허점 많다

더 우려스러운 대목은 뚜렷한 해결책이 보이지 않는다는 점이다. 그동안 인공지능(AI) 탐지 도구가 생성형 AI 기반 콘텐츠를 분별하는 도구로 점쳐졌다. AI를 사용해 AI가 생성한 콘텐츠를 잡아낸다는 그림이었다.

하지만 기대처럼 큰 성과는 거두지 못하고 있다. 약간의 변형이나 눈속임으로도 탐지 도구를 쉽게 피할 수 있었다. AI가 쏟아내는 콘텐츠를 일일이 사람이 검증하는 것도 사실상 불가능에 가깝다.

업계의 발등에 떨어진 불이나 다름없는 프로그래머틱 광고를 시장에서 아예 퇴출할 순 없다. 괜찮은 언론사 웹사이트의 수익 저하가 예고되기 때문이다. 이용자들도 더 낮은 품질의 광고나 역설적으로 더 많은 페이월을 마주하게 될 확률이 높다.

이런 상황에서 다시 운명적으로 맞닥뜨리는 건 다시 '기술'이다. 프로그래머틱 광고 시스템의 알고리즘을 개선하고 새로운 상황에 맞는 운영 정책을 가다듬는 것이 핵심이다. 예를 들어 구글은 이미 정책에서 양산형 콘텐츠 및 웹사이트 문제를 다루고 있으며, 적발 시 차단 혹은 제거하고 있다.[4] 하지만 뉴스가드 조사에 따르면 구글은 AI 기반 양산형 웹사이트에 게시되는 디지털 광고의 약 90%를 연결하고 있다.

핵심은 AI 기반 '양산형' 탐지다. 문제를 포착할 수 없다면 대응도 불가능하다. 일단 현재까지의 탐지 도구는 한계가 뚜렷했다. 웹사이트를 심층 분석하는 것으로 접근 방법부터 변화가 있어야 한다.

예를 들면 콘텐츠 출처인 웹사이트가 개설된 시기, 운영을 지속한 기간, 운영진의 유무, 구축된 웹사이트의 코드 리뷰 등 양산형 웹사이트가 띄고 있는 신호를 검증한다. 자동화 시스템으로 신호를 포착하고 사람이 한번 더 검수하는 프로세스다. 이렇게 되면 일일이 콘텐츠를 파악할 필요도 없다.

블룸버그, 탈-프로그래머틱 광고 전략 선택 이유

AI 탐지 도구 해법은 프로그래머틱 광고 시스템을 운영하는 기술기업들이 선택할 수 있다. 다만 콘텐츠와 광고 지면(공간)을 제공하는 미디어 기업의 해법은 다르다. 일부 언론사는 아예 프로그래머틱 광고에서 손을 떼기 시작했다.

대표주자는 블룸버그다. 블룸버그의 '탈프로그래머틱 광고 정책'은 올 1월 시작됐다. 스콧 헤이븐즈(Scott Havens) 블룸버그 미디어 CEO는 '독자 우선(Audience First)' 사고방식 전환을 강조했다. 이같은 조치가 독자, 브랜드, 광고주 모두에게 더 나은 생태계를 조성하려는 데 있음을 밝혔다. 블룸버그가 새 광고정책 도입을 결정하게 된 4가지 배경은 다음과 같다.

  1. 광고의 양과 ‘광고 호출(ad calls)’을 줄여 콘텐츠 소비와 플랫폼 속도를 개선
  2. 파트너사(광고주)들에게 독자들과 상호작용할 수 있는 ‘깨끗한’ 환경을 구축. 이를 통해 독자와의 직접적 관계 구축, 신뢰할 수 있는 퍼스트 파티 데이터, 정확한 타깃 독자에게 더 효과적으로 도달할 공간
  3. 광고비만 저렴하고 최적화되지 광고 캠페인을 펼치는 제3의 마케팅사가 아니라, 브랜드사가 직접 파트너사와 관계를 구축해 상호이익 증진
  4. 확보된 공간으로 자사 스튜디오의 글로벌 이벤트, 팟캐스트, 방송, 맞춤형 콘텐츠 등을 마케팅 추진. 자선사업과 각종 이니셔티브들도 홍보

개인정보보호 규제에 대응하는 개인화 서비스 관건

언론사가 자사의 디지털 공간을 설계하고 파트너사를 유치함으로써 프로그래머틱 광고로 발생하는 문제를 극복하려는 결정이다. 블룸버그는 이같은 시도로 브랜드 건전성을 끌어올리고 더 많은 독자와 참여를 유도해 궁극적으로 더 강력한 광고 비즈니스와 건강한 구독 비즈니스가 가능할 것으로 보고 있다.

특히 프로그래머틱 광고 회피만 목표로 한 것이 아니라 전략적인 밑그림을 가지고 있는 점도 흥미롭다. 블룸버그는 2022년 6월 ‘가입 플랫폼(registration platform)’을 열고 독자를 더 세밀하게 파악하는 것을 바탕으로 개인화 콘텐츠와 맞춤형 마케팅 활동을 펼치고 있다. 퍼스트 파티 데이터를 활용해 높은 정밀도와 성능으로 인사이트를 제공하는 블룸버그 오디언스 엑셀러레이터(audience accelerator)도 그 연장선상에 있다.

물론 블룸버그 전략은 브랜드의 영향력이 컸기에 가능한 선택이다. 블룸버그는 “그동안의 성과를 바탕으로 역동적이고 구체적인 방식으로 미래 브랜드 건전성에 투자할 수 있는 위치를 점할 수 있게 됐다”라고 밝혔다. 이미 유사한 선택을 한 파이낸셜타임즈도 비슷한 배경이 작동했다.

시야를 더 확장하면 유럽 GDPR, 미국 CCPA 등 더 강력해지는 개인정보보호 규제애플의 ATT처럼 규제에 대응하는 기업 정책도 감안해야 한다. 개인정보보호 강화 흐름에서는 일반적인 프로그래머틱 광고 접근이 차단될 가능성이 높다. 대응을 제대로 하지 못하면 언론사 웹사이트에 스팸 광고만 몰릴 수도 있다. 또 이용자 데이터에 기반한 타깃 마케팅에 나선 플랫폼 기업에 더 뒤처질 수 있다.

신뢰도 개선, 제품 수준 제고에 초점 맞출 때다

검색엔진으로 정보를 탐색한다고 할 때 키워드를 넣은 쿼리의 결과로 여러 콘텐츠와 웹사이트 링크가 제시된다. 여기서 독자의 선택 기준은 콘텐츠의 제목이 아니라 신뢰할 수 있는 정보 출처인 언론사가 될 수 있도록 해야 한다.

즉, 근본적인 해결책은 언론사 고유의 강점과 역할을 살리는 데 있다. 신뢰할 수 있는 정보 출처로 자리매김하는 것이다. 저널리즘의 가치를 강조하고 전문성 신뢰성을 가진 콘텐츠를 생산하는 게 필요하다.

여기에는 알고리즘 개선과 같은 기술적 접근도 필요하다. 좋은 콘텐츠가 우선적으로 노출되는 생태계는 플랫폼에게도 필요하기에 충분히 협업할 수 있다. 하지만 검색엔진이 언론사의 콘텐츠를 독자에게 우선적으로 추천할 근거는 언론사가 직접 마련해야 한다.

다만 현재의 시장 경쟁 환경은 신뢰성 만으로는 버티기 어렵다. ‘신뢰’는 저널리즘의 기본기이고 콘텐츠는 제품 역량이다. 오늘날 독자들이 알고 싶어하는 정보는 점점 다양해지고 통찰력이 풍부한 것들이다. 이것을 어떤 형식으로 풀어내는 지도 관건이다.

자원 재분배, 인력 재배치 등 구체적 실천해야

독자는 정보 니즈를 갖고 있고 누구보다 믿을 수 있는 정보를 원한다. 하지만 가짜뉴스와 허위조작정보를 전부 걸러낼 충분한 시간은 없다. 어떻게 믿을 수 있는 정보를 찾아야 할 지 방법을 모를 수도 있다. 원하는 정보를 흥미로운 방식으로 떠먹여 주고, 그 내용이 신뢰할 수 있는 것이라면 마다할 독자는 없다.

오늘날 언론사의 과제는 잃어버린 신뢰를 되찾는 것이고, 콘텐츠의 다양성과 전문성을 확보하는 것으로 볼 수 있다. 어쩌면 후자를 확보하는 과정에서 잃어버린 신뢰도 되찾을 수 있다. 당연한 이야기지만 스트레이트 보도나 연성기사가 아닌 완성도 높은 정보 콘텐츠가 쌓일 수 있다면 평판도 수익도 개선될 것이다.

다만 내부 자원이 부족한 현실에서 어떤 방법을 동원하느냐가 핵심이다. AI는 이 부분에서 뉴스조직에게 더 필요하다. 지금 AI 기술은 일반인들도 쉽게 쓸 수 있도록 장벽이 낮아지고 있다. 뉴스조직의 효율성을 높여서 취재 보도 역량에 집중해 좋은 제품을 만들 수 있는 기회로 삼아야 한다.

그러나 대형 미디어 기업을 제외하면 기술 투자나 혁신적인 실험을 하기 어려운 것이 사실이다. 개인정보보호 등 각종 규제는 바로 코앞의 현실이다. 가장 가능한 방법이 무엇인지 찾아내야 한다. 제대로 대응하려면 내부 자원 재분배, 인력 재배치 등 조직 정비는 피할 수 없다고 봐야 한다. 진짜 혁신이 예고된 시점이다.

  1. 1

    양산형 콘텐츠: 양산형 콘텐츠는 정보의 신뢰도나 품질과 상관없이 적은 비용으로 최대한 많은 양을 생산하는 콘텐츠들을 의미한다. 이용자 트래픽을 얻는 것을 목적으로 가짜뉴스, 허위정보를 생산하거나 기사 도용, 동일 기사를 말만 바꿔 복사하는 등의 사례가 여기에 해당한다.
    양산형 웹사이트: 양산형 콘텐츠를 통해 얻는 이용자 트래픽을 기반으로 디지털 광고 수익 등을 얻고자 만들어진 웹사이트. 영문권에선 광고만을 위해 만들어진 웹사이트라 하여 'MFA(Made for Advertising)'나 정크(junk), 스팸(spam) 웹사이트라 불린다.

  2. 2

    전문가 의견에 따르면 기존에 들어가던 비용에 약 5%만 있으면 충분하다. 위의 스피닝 기사 예시도 자동으로 기사를 수집, 변조해 도용한 것으로 추측된다.