세계 언론사 데이터 저널리즘 현황
전담부서 갖춘 뉴스조직은 1/4에 불과
5년 미만 경력자가 응답자의 63% 달해
온라인 통한 독학 비중 압도적으로 높아
데이터 저널리즘의 기원은 1900년대 중반 등장한 컴퓨터 기반(computer-assisted) 보도에서 비롯한다. 지금은 언론사 소속 기자의 취재보도 과정에서 데이터 활용은 일반적으로 자리잡았다. 관련 경험과 지식을 공유하는 커뮤니티들도 증가하면서 일정한 수준에서 산업 현황도 파악할 수 있다.
데이터저널리즘닷컴(DataJournalism.com)[1]은 말 그대로 데이터 저널리즘에 초점을 맞춘 웹 사이트다. 데이터 저널리즘에 관심을 가진 사람들을 대상으로 필요한 자원와 도구, 온라인 교육, 그리고 커뮤니티 포럼 등을 무료로 제공한다. 아직 베타 버전인 데이터저널리즘닷컴은 2021년부터 전 세계 언론사 등을 대상으로 데이터 저널리즘 현황을 조사하고 있다. 이번 2022년 조사 내용을 바탕으로 데이터저널리즘의 현주소를 정리해 본다.
정규직 비중 높지만 짧은 경력 많아
‘데이터 저널리즘 현황조사 2022(The State of Data Journalism 2022)’는 전 세계 데이터 저널리즘 종사자들을 대상으로 인구통계학적 분포, 능력, 도구, 업무 및 프로젝트 등 산업 현황을 두루 살폈다. 데이터 저널리즘 전문 기자부터 프리랜서, 데이터 에디터, 교육자 그리고 학생까지 여러 종사자들을 최대한 다양한 커뮤니티들을 통해 접근했다.
먼저 데이터 저널리즘 종사자의 대다수는 정규직이었다. 정규직이 31%로 비중이 가장 많았고 시간제 근로자는 불과 5%에 그쳤다. 프리랜서는 풀타임(12%)과 파트타임(11%)이 각각 반으로 나뉘었다. 데이터 저널리즘을 다룬 기간은 응답자의 38%가 2년 미만, 3년에서 5년 사이가 25%로 다수가 5년 미만의 경력을 나타냈다. 학생들이 포함된 수라고 하더라도 상당히 높은 비율이다.
종사자들의 짧은 경력이 두드러지는 것으로 코로나19의 영향이 꼽힌다. 2021년도 조사에서도 응답자의 4분의 1가량이 팬데믹 상황에서 데이터 저널리즘에 뛰어든 것으로 파악됐다. 이번 조사에선 그 비율이 약 39%로 늘어났다.
허위정보와 가짜뉴스가 들끓었던 팬데믹 동안 데이터 기반 보도에 대한 수요가 늘어났기 때문으로 해석된다. 다만 2022년도는 팬데믹을 다루는 데이터 저널리스트들의 수는 감소하고 기후변화 등 다른 주제로 관심이 이전된 것이 눈에 띤다.
관련 분야를 어떻게 익혔는지 조사한 결과 약 61%가량이 온라인을 통한 독학으로 나타났다. 정규 교육에서도 온라인 코스(25%)가 고등교육 기관(20%)보다 많았다. 또한, 복수의 학습방식을 선택하는 응답자가 절반을 넘었으나, 약 35% 가량은 독학에만 의존했다. 경력이 늘어날수록 독학에 기댄 응답자의 비율이 감소하는 것을 볼 때 전문 교육이 더 확대될 필요가 있다.
데이터 저널리즘 조직에 대한 질문에선 부족한 점이 드러났다. 바로 데이터 전담 부서에 대한 것이다. 응답자 가운데 데이터 전담 부서에서 일하는 사람들은 25% 정도였고, 그 가운데 2/3 가량은 5명 미만 부서였다. 특히 전담 부서는 대형 뉴스조직에만 존재하는 것으로 나타났다. 전문성을 키울 수 있는 전담 부서 확보는 여전히 핵심 과제라고 할 것이다.
다양한 이해관계자 데이터 공개 필요
또 다른 문제는 데이터 확보다. 응답자들은 ‘양질의 데이터 접근’(57%)을 데이터 저널리즘 활성화에 가장 큰 이슈로 지목했다. 전국 단위 데이터보다 지역 단위 데이터가 접근과 품질 양면으로 모두 낮았고, 평가 영역별 차이가 아닌 국가 간 편차가 존재했다. 데이터 품질이 높은 국가는 접근성도 상대적으로 높고, 데이터 품질이 낮은 국가는 접근성도 낮았다.
데이터 확보에도 애로사항이 있었다. 데이터 저널리스트가 가장 많이 활용하는 데이터는 정부의 공공 데이터(약 71%)였다. 반면 정보공개청구(Freedom of Information Act, 이하 FOI)[2]데이터를 활용해본 응답자는 약 5분의 1에 불과했다. 데이터 저널리즘이 다루는 주제의 확장을 위해서도 다양한 데이터 확보를 위해 이해관계자 간 협력과 제도적 뒷받침이 필요해 보인다.
데이터의 한계는 국가별 정책, 조직 규모 등 여러 영향을 받지만 직접적 요인은 데이터 소유권과 접근법의 한계에서 비롯한다. 여러 분야의 데이터는 특정 기업, 조직에 귀속돼 있고, 공개를 꺼리는 경우가 태반이다. 스크랩과 FOI 데이터도 수집 기술과 방법론에서 난도가 높거나 장애물이 많다.
응답자 절반 "머신 러닝 역량 없다"
종사자 개개인 역량은 물음표가 남았다. 응답자는 자신의 저널리즘 역량을 높다고 인식(60%)했지만, 데이터 분석(78%), 데이터 시각화(77%) 역량은 ‘초보’나 ‘중급’정도로 다소 낮게 평가했다. 또한, 데이터 랭글링(wrangling)[3]과 스크랩핑(scrapping)[4]역량은 아예 없거나 초보라고 답한 응답자도 각각 65%, 71%에 달했다. 새로운 기술인 머신러닝은 역량이 없다고 응답한 사람들이 절반에 달했으며 ‘중급(16%)’과 ‘고급(6%)’은 소수였다.
데이터 저널리즘 종사자들은 역량 강화에 필요한 교육에 관심이 컸다. 가장 중요하게 생각하는 분야는 데이터 분석(71%)과 데이터 시각화(78%)였다. 데이터 랭글링(58%), 통계(50%), 데이터 스크랩핑(43%), 머신러닝(40%)이 뒤를 이었다. 수요에 비해 교육이 이뤄진 비율이 낮은 건 데이터 랭글링(13%), 머신러닝(14%), 데이터 스크랩핑(19%), 그리고 통계(24%)였다.
낮은 업무 생산성을 어떻게 해결할 것인가
데이터 저널리즘은 팬데믹을 거치며 빠르게 확산돼 왔지만 전담 부서 확충, 다양한 종류의 데이터 확보, 기술 및 역량 교육 강화 등 해결 과제도 쌓였다. 특히 낮은 생산성과 양질의 데이터에 대한 접근성 한계, 그리고 필요한 자원 부족이 시급하게 풀어야 할 이슈다.
관련 업무의 효율성은 제작 기간에서 단적으로 확인된다. 종사자들은 스토리가 하루 안에 완성되는 경우가 약 10%에 불과하다고 응답했다. 한 주(20%)에서 수 주(24%) 더 나아가 한 달 이상(25%) 걸린다는 응답 비율이 많았다. 단기간에 결과물을 만들 수 없는 데이터 저널리즘의 특성과 언론사의 경쟁 환경을 감안하면 데이터 저널리즘 관련 종사자와 부서는 애물단지로 전락할 수도 있다. 대형 언론사에서 전담부서를 유지하고 있지만 그 비율은 낮다.[5]
낮은 생산성은 데이터 접근성과 자원 부족 해소에 따라 개선될 수 있다. 다양한 데이터에 접근하는 것이 용이할수록 콘텐츠 품질과 다양성을 확보할 수 있고, 필요한 리소스 투입을 줄일 수 있는 도구 활용이 가능하다면 경쟁력 있는 콘텐츠 생산도 가능하기 때문이다. 내부적인 환경과 자원으로 막막하다면 외부 인프라를 활용하는 것도 훌륭한 방법이다. FOI 데이터 수집으로 만드는 스토리부터 비용 절감을 위한 오픈소스 도구, 기관과 커뮤니티에서 제공하는 무료 강의와 자원 등 참고할 대상은 분명 존재한다.
FOI로 데이터 확보해 의료체계 난제 해소
더마크업(TheMarkup)은 워싱턴포스트와 함께 미국의 장기이식 제도의 문제를 조명했다. 2020년 미국에 도입된 새로운 장기이식 정책은 기증자와의 물리적 거리를 근거로 대기자를 선정했던 기준을 바꿨다. 그간 이 정책을 지지하는 쪽은 거리 우선 방식이 불공평하다는 입장이었고, 반대자들은 가난한 주의 사람들이 기증받을 기회를 줄여 불평등하다는 논리를 폈다.
그런데 실제 데이터를 분석한 결과, 부유한 주의 간 이식 횟수는 증가한 반면, 상대적으로 가난한 주에선 감소하는 현상이 확인됐다. 또 기증된 간이 이송되는 거리가 늘어나면서 사용이 불가능해지거나 버려지는 경우도 증가했다. 이를 통해 기존 장기이식 시스템의 실패로 판단할 근거가 되기에 충분했다.
더마크업의 스토리는 데이터 수집과 분석, 한계점과 결과 등 제작과정 전반을 공개해 데이터 저널리즘 저변 확대에 기여한 사례다. 장기기증을 관장하는 미국 보건복지부(HHS) 산하 보건자원 및 서비스 관리국들에 여러 건의 자료공개청구로 이뤄졌다. 미국 질병통제예방센터의 데이터도 동시에 활용했다. FOI를 통해 데이터를 확보해 그간 가려졌던 문제를 들춰냈다는 점에서 인상적이다.
오픈소스 도구 활용으로 제작 비용 절감
워싱턴포스트의 시니어 그래픽 리포터인 케빈 사울(Kevin Schaul)은 지리적 정보 표현을 위한 맵박스(mapbox)를 구현할 수 있는 여러 오픈소스 도구들을 소개했다. 맵박스는 워싱턴포스트 데이터 저널리즘 보도에서 자주 사용되는데, 비싼 솔루션을 굳이 사용하지 않아도 되는 방법을 찾아낸 것이다.
개발된 오픈소스 도구를 활용하는 방식은 비용절감을 위해 좋은 방안이다. 다루는 주제와 데이터에 따라서는 수준 높은 분석 도구 및 기술이 필요하지만 대부분의 데이터 저널리즘 보도는 오픈소스 도구들로도 충분히 구현할 수 있다. 접근가능한 도구들을 어떻게 조합하고 활용하느냐는 조직과 종사자에게 결정적인 과제로 볼 수 있다.
데이터 저널리즘 현황 조사를 진행한 데이터저널리즘닷컴은 참고할 스토리, 온라인 교육 영상과 코스, 팟캐스트, 그리고 데이터 저널리즘 핸드북을 제공하고 있다. 데이터 저널리즘 커뮤니티로 유명한 핵스해커즈(Hacks/Hackers)도 중요한 참고 채널이다.
국내 데이터 저널리즘 네트워크는 안녕한가?
시시각각 변하고 있는 기술 동향은 데이터 저널리즘에도 적지 않은 영향을 미친다. 팬데믹을 기점으로 관련 종사자와 희망자가 늘어나고 있는 것은 고무적이다. 데이터 저널리즘에 필요한 분석 도구, 시각화, 머신러닝 등 역량 강화는 계속 해결해야 하는 과제다. 언론사에서 데이터 저널리즘에 대한 지속적인 관심과 투자를 모으는 것도 마찬가지다.
FOI를 활용한 양질의 데이터 접근, 오픈소스 도구 개발과 활용, 무료 교육과 전 세계를 아우르는 커뮤니티 구축 등 데이터 저널리즘의 저변을 확대할 수 있는 잠재력은 형성돼 있다. 관건은 데이터 탐색 및 데이터 접근을 위한 방법론 탐구 등 기술과 지식 공유의 사례들을 데이터 저널리즘 종사자들이 능동적으로 만들어가는 부분이다.
국내도 역시 다른 국가들과 비슷한 상황이다. 대형 언론사들을 제외하면 데이터 전담 부서를 유지하기 어렵고, 양질의 데이터 확보도 여의치 않다. 정보공개포털, 정보공개센터 등 FOI를 위한 창구도 있지만 미흡한 편이다. 노력이 이어지곤 있지만 온라인 교육 코스나 오픈소스 도구, 그리고 활성화된 커뮤니티도 찾아보기 어렵다[6]. 데이터저널리즘닷컴의 현황 조사에서도 한국 언론사 응답자는 불과 4명이었다.
일부 대형 언론사와 지상파 방송사를 중심으로 '기초의원 의정감시 통합데이터셋 구축', '소멸의 땅, 지방은 어떻게 사라지나' 등처럼 데이터 저널리즘 사례가 이어지는 것은 희망적이다. 2018년 여러 전문가들이 모여 시작된 한국데이터저널리즘어워드도 그 과정에서 출범했다. 앞으로는 학계, 연구자, 관련 기업을 비롯 독자까지 아우르는 열린 커뮤니티 구축과 해외 네트워크 연계 등으로 나아가야 한다. 언론사 종사자들은 자신들의 사례를 알리는 것부터 적극적으로 시작해야 한다.
-
1
데이터저널리즘닷컴은 데이터 저널리즘이 탄력적인 뉴스룸 구축을 위한 초석이 될 것이라는 믿음 아래, 유럽 저널리즘 센터( European Journalism Centre)가 10년 간 쌓아온 데이터 저널리즘 프로그램 경험을 토대로 설립됐다.
데이터 저널리스트들을 위한 자원과 자료, 온라인 영상 코스, 그리고 커뮤니티 포럼을 제공하며 가입만으로 참여가 가능하다.
-
3
데이터 랭글링(wrangling)이란 다양한 출처의 데이터들을 통합하고 정제하는 과정을 거쳐 쉽게 접근하고 분석할 수 있도록 하는 일련의 과정들을 일컫는다.
-
4
데이터 스크랩핑(scrapping)이란 웹페이지를 포함한 다양한 디지털 자료들로부터 여러 데이터들을 수집해 오는 것을 의미한다.
-
5
500명 이상 조직 가운데 36%에 불과
-
6
국내에서 무료로 공개된 교육 자료로는 뉴스타파의 데이터 저널리즘 스쿨에서 공개한 유튜브 영상이, 커뮤니티는 한국데이터저널리즘 어워드를 주최한 데이터저널리즘 코리아가 존재한다.