한국 언론도 GPT 만들 수 있을까

News

2023년 04월 18일

온-오프 ‘묻지마 데이터’ 관행 여전, 오디언스 현황 파악 안돼
AI 시대 대비 디지털 자산 정비 시급
대형 신문사 중심 로그인월‧페이월 재시동, 데이터 투자 서둘러야

Share on Twitter Share on Facebook Share on LinkedIn Share by email

미국 경제 전문 미디어 블룸버그(Bloomberg)가 지난 3월 말 ‘블룸버그GPT’를 공개했다. 이름에서 쉽게 유추할 수 있듯, 생성형 인공지능(Generative AI) GPT를 블룸버그 식으로 내놓은 것이다. 사측에 따르면 40년 간 수집한 금융 관련 자체 문서를 기반으로 외부 데이터셋을 보강해 금융에 특화한 대형언어모델(LLM)로 만들었다. 이렇게 개발한 블룸버그GPT는 재무 데이터를 분석해 위험을 평가하고 회계 및 감사 작업 등을 자동화할 수 있다고 홍보한다.

챗GPT 등장 이후 글로벌 언론산업 전반이 충격과 위기감에 휩싸였을 때 한쪽에서 블룸버그는 활용 방안을 모색했다. 자사 강점인 금융 데이터를 십분 활용해 부가가치를 높이는 앞서가는 전략을 취했다.

*함께 보면 좋은 내용
언론사, 챗GPT 어떻게 할 것인가

물론 블룸버그는 보통의 언론사와 같은 잣대로 비교하기 어려운 ‘넘사벽’ 테크미디어 그룹이다. 데이터와 기술을 바탕으로 경제‧금융 뉴스를 비롯한 각종 인사이트를 제공하는데, 밑단에서 6000명 넘는 개발 인력이 서포트한다. 그럼에도 기술로 꿸 수 있는 양질의 구슬(데이터)을 오랫동안 대량으로 축적해 놓았다는 점은 여타 언론기업에도 중요한 화두를 던진다.

데이터는 디지털 생태계 필수 자산이다. AI 시대는 특히 중요하다. GPT와 같은 생성AI 모델 구축에도 핵심 요소가 바로 데이터다. 분야를 막론하고 전 산업군에서 양질의 데이터 확보에 안간힘을 쓰는 것도 이런 이유다. 개별 고객을 상대하는 B2C(Business to Consumer, 기업 대 소비자 간 거래) 비즈니스에서 소비자 데이터 확보는 기본 중의 기본이다. 오디언스(audience)를 대상으로 뉴스를 서비스하는 언론도 마찬가지다. 하지만 현재 한국 언론계 데이터 역량은 20세기에 머물러 있다고 해도 과언이 아니다. 기술과 전문인력이 뒷받침된다 치더라도 기반 데이터가 허술하기에 뉴욕타임스식 구독플랫폼 전략이나 블룸버그와 같은 AI모델 개발은 기대하기 어렵다.

“각 지국에 흩어져 있는 독자 정보를 취합한 데이터가 없다.”

몇 년 전, 한 종합일간지 간부에게서 들은 얘기다. 온라인 유료화를 주제로 대화를 나누던 와중 오프라인(종이) 신문 독자 현황을 묻자 돌아온 말이었다. 신문의 경우 가구 단위로 보는 것이 일반적이어서 정확히 누구 손에 닿는지까지 확인하긴 어려워도 최소한 가구 구독자에 대한 기초 정보는 있을 것이라 생각했는데 아니었다. 지국 현황조차 제대로 파악이 안 되니 발행부수 외 참고할 만한 백데이터가 없는 것이나 다름없다. 그리고 이어지는 말은 더 놀라웠다. “우리 신문사만 그런 게 아니라 다 그렇다.”

온라인 대비 생산‧유통 단가가 확연히 높은 종이신문 판매를 고수하면서 독자가 누구인지조차 모르는 깜깜이 관리 풍토가 언론계에서 여전한 셈이다. 독자를 모르니 독자 니즈(needs) 파악도 언감생심이다. 제품을 매개로 생산자와 소비자가 이토록 괴리된 산업이 언론 말고 또 있을까? 신문을 구독하는 독자들이 개인정보를 밝히기 꺼리고, 신문을 취급하는 각 지국도 데이터 관리에 서툴러서 어쩔 수 없었다는 변(辯)은 핑계로 들린다. 본사 차원에서 전국 유통‧판매망을 아울러 전수조사를 진행하거나, 소비자 데이터를 파악하려는 노력을 정기적으로 기울였다면 있을 수 없는 일이다.

온라인 뉴스 배달도 종이신문 현주소와 크게 다르지 않다. 오프라인 대비 오디언스 활동을 파악하는 것이 그나마 용이하지만, 언론사 차원에서 회원정보나 독자행동 데이터를 확보해 활용하는 경우가 드물다. 뉴스 소비자를 애써 유료고객으로 전환시키지 않아도 ‘매체 이름값’으로 광고를 끌어오고, 포털과의 제휴모델을 통해 충분히 돈이 벌리는 B2B(Business to Business, 기업 대 기업 간 거래) 비즈니스 관행이 뿌리 박혔기 때문이다. ‘온라인 전환’ ‘디지털 퍼스트(Digital First)’를 외친 십수년 간 언론들이 디지털상에서 자체적으로 유효 독자 내지는 잠재 고객 데이터 확보에 게을렀다는 점이 이같은 현실을 방증한다.

그나마 최근 1~2년 새 몇몇 중앙지를 중심으로 온라인 독자 데이터 확보 작업이 본격화되고 있다. 조선일보와 한국경제신문 등이 일정수 이상의 기사를 읽으면 회원가입을 유도하는 로그인월(login wall)을 도입했고, 중앙일보는 한 단계 더 나아가 프리미엄 콘텐츠를 보려면 돈을 내야 하는 페이월(pay wall) 모델을 선보였다. 디지털 광고시장에서 매체 비중이 줄면서 구독자 성장 없이는 언론의 지속가능이 힘들다는 현실 인식이 깔려 있다. 온라인 유료화가 보편화된 해외 언론계와 비교하면 너무도 늦은 행보지만, ‘구독’이라는 미디어 비즈니스의 본질로 돌아가서 고객 관점의 체질 변화를 꾀한다는 점에서 의미가 작지 않다.

솔루션은 고객 중심 사고를 뒷받침해 줄 조직과 역량을 갖추는 것이다. 지금은 대부분의 언론이 온라인 유료화 시행을 염두에 두고 뭉뚱그려 회원 데이터를 쌓고 있다. 오디언스와 그들 니즈를 먼저 파악해 팔릴 만한 제품으로 연결해야 하는데 순서가 바뀌었다. 그러니 무료회원을 유료독자로 전환시키는 힘이 약하다. 기껏 모은 독자 데이터도 개인정보 보유기간이 끝나면 상당 부분 휘발된다.

언론도 오디언스에 제대로 이음새를 만들어야 한다. 디지털 길로 간다면서 고객이라는 목적지가 없으면 모든 혁신과 전환은 연신 공회전만 일으킨다. 포털뉴스에 갇힌 한국 언론의 20년 여정이 그랬다.

일단 데이터 투자를 서둘러야 한다. 뉴스조직이 확보해야 하는 데이터로는 크게 고객의 일반정보 데이터와 이용 행동 데이터, 광고 데이터, 보유 자원 데이터 등이 있다. 기존/신규/잠재 고객이 누구이고, 무슨 뉴스를 소비하고, 어떤 서비스에 참여하고 어떤 제품을 기대하는지 지속적으로 테스트하고 피드백을 받는 구조부터 갖춰야 한다. 데이터를 모으는 언론의 성실한 행보를 이제는 만나고 싶다.