[조기조의 초정보화 시대의 문화예술 경영론] 알고도 모르는 그대, 데이터

의사결정을 하기 위해서는 정보가 있어야 한다. 승부를 겨루는 싸움에서 적을 알고 나를 알면 백번을 싸워도 위험하지 않을 것이란 말이 있다. 정보가 있어야 작전이 가능한 것이다. 작전이 서면 전투 수행에 필요한 물자 보급(획득과 조달)을 구상하는 것이다. 물론 사람을 뽑아 교육, 훈련시키는 일은 말할 것도 없다. 이래서 군에서는 인사, 정보, 작전, 군수지원을 중요하게 생각한다. 개인이나 가정, 직장이나 국가도 끊임없이 의사결정을 해야 한다. 그러려면 정확한 정보가 있어야 한다.

정보란 의사결정에 유용한 데이터들의 집합이다. 데이터들을 수집하여 가공하면 의사결정에 쓸 수가 있다. 그러니 데이터를 가공하는 것도 중요하고 데이터를 많이 수집하는 것도 중요하다. 가공한다는 말을 분석한다, 처리한다, 등으로 잘 쓰는데 데이터들의 특성이나 대표치, 경향과 추세 등을 찾기도 하니 통계적 분석을 하는 경우가 많다. 우리는 사람들의 뜻을 알고자 할 때 여론 조사를 한다. 설문지를 잘 만들고 조사하여 많은 사람들의 응답을 통계처리하면 각 문항별 평균이나 특성치를 알 수 있다. 많이 쓰는 방법이다. 일정 기간마다 반복하면 추세를 알게 될 것이다. 이러한 추세는 하나의 경향을 발견하는 것이니 지식이 되고 지속적으로 활용하다보면 지혜롭게 살 수 있는 것이다. 그러면 데이터를 수집, 가공하여 의사결정에 유용한 정보를 만들고, 그 정보들로부터 추세나 경향을 발견하면 지식이 되고 우리가 지식을 잘 이용하여 지혜롭게 살 수 있다는 논리가 성립하는 것이다.

스마트폰의 보급으로 사진이나 동영상을 찍어 대량으로 소통하니 데이터는 엄청나게 늘어난다. CCTV도 한 몫 한다. 사람들이 검색하고 재생산하는 량도 늘고 있다. 그래서 빅 데이터(big data)란 말이 등장했고 그 특성을 보면 V3에서 V4, V5로 발전하고 있다. V3는 대량의(Volume), 다양한(Variety) 데이터가, 급속히(Velocity) 늘어난다는 것이고 하나 더는 데이터가 진실하고 정확해야(Veracity) 한다는 것이다. 더러는 데이터는 가치가 있어야 한다고 Value를 들고, 타당한 것이어야 한다고 Validity를 든다. 심지어 유용하지 않은 데이터는 곧 사라진다며 휘발성(Volatility)을 강조하기도 한다.

이제 기술적인 이야기를 하자. 데이터(data)는 데이텀(datum)의 복수형이지만 단수처럼 쓴다. 예를 들어 홍길동이라는 사람(실체)을 구성하는 것은 이름, 생년월일(또는 주민등록번호), 전화번호, 주소 등이 기본이고 필요에 따라 출신학교, 직장, 가족관계 등을 추가할 수 있을 것이다. 이렇게 하면 홍길동은 어디 사는 누구인지 확실해 진다. 여기서 이름, 주소, 등이 데이터인데 이를 기술적으로 데이터 항목(item)이라 하고 이 항목들이 모여 하나의 아이덴티티(정체성)를 형성하는데 이는 파일에서 엔터티(entity; 실체)라 하고 하나의 레코드(record)가 된다.

조직에 맞는 데이터의 수집과 저장, 관리
비용이 적게 드는 검증된 방법 찾아야

데이터들을 조직화해서 관리하는 기본이 파일이다. 파일은 쉽게 가로, 세로로 조직된 표라고 보면 된다. 명부를 작성하거나 목록, 명세서가 전부 파일의 전형적인 모습이다. 이런 것은 ‘관계형 데이터베이스’를 만들 때 기본이 된다. 이 부분은 어려우면 몰라도 된다. 그런데 파일에서 데이터 항목(아이템)을 딱 떨어지게 규정하지 못하는 것이 있다. 이런 것은 비정형적인 내용에 생긴다. 조직화하기 어려워서 별도로 저장해야 한다. 세상에는 이런 것들이 많아서 저장하고 관리하는 것이 번거롭다. 저장은 하겠지만 필요할 때 쉽게 찾아서 쓰는 것이 불편하다. 이런 것들은 한글워드로 파일을 만드는 것처럼, 만들기는 하지만 저장해 놓은 여러 파일에서 내가 원하는 내용을 찾는 것이 불편하다는 개념이다.

여러 개의 파일을 더 조직화한 것이 데이터베이스이다. 여러 파일들을 관리하면 중복되는 항목이 많아진다. 그래서 중복을 최소화하고 누락도 없게 하며 추가, 삭제, 수정 등을 할 수 있도록 하는 것이 필요하다. 이런 개개의 파일(데이터베이스)을 공통의 항목으로 연결하면 필요한 데이터를 찾아 쓰게 되는 것이다. 그런데 조직이 너무 커지면 하나의 데이터베이스로는 부족하여 더 큰 것이 필요하다. 대기업이나 정부를 생각해 보라. 데이터 량이 많기도 하지만 다양한 다른 형태의 많은 데이터를 관리해야 한다. 그래서 여러 개의 데이터베이스로 된 데이터 마트나 데이터 웨어하우스(창고)가 등장하였다.

여러 개의 데이터베이스들을 묶어 만든 ‘데이터 웨어하우스’보다 더 큰 데이터 레이크(호수 같은)는 메모리가 너무 커지고 관리가 어려워졌다. 메모리(저장장치)의 성능이 좋아지고 가격이 낮아졌지만 그래도 많은 비용이 든다. 정형화된 데이터 외에도 다양한 형태의 데이터를 끌어 모았더니 필요한 것을 찾아내는 것이 어렵고 더 불편해 졌다. 그래서 물리적으로 한데 끌어다 담지 말고 데이터베이스들을 그대로 두고 가상적으로 묶어 연결하자는 가상화(virtualization)의 필요성이 생긴 것이다. 그러면 메모리 비용도 적게 들 것이다. 그것을 우리는 데이터 패브릭(fabric)이란 말로 부르게 되었다. 패브릭(fabric)이란 직물이다. 실로 엮어 만든 옷감이다. 잘 짜인 조직, 구성을 의미하는 것이다.

데이터 패브릭에서 중요한 것은 가상화와 카탈로그 기술이다. 데이터 가상화는 다양한 데이터를 복사하거나 물리적 이동 없이 두고 하나의 데이터로 빠르게 통합하는 기술이다. 데이터 카탈로그는 메타데이터(meta data; 책의 목차나 분류기준 같은)를 수집해 데이터를 품질에 따라 분류하는 것이다. 머신러닝을 이용해 카탈로그를 뒤져 데이터의 위치, 속성, 크기 등을 알 수 있도록 가상화 층을 연결해 데이터를 가져오는 기술이다. 이해하기 어려우면 인공지능 빅스비를 시켜 간단한 문제를 해결하는 것과 같은 것이라고 알면 된다. 나는 가끔 빅스비에게 잔심부름을 많이 시킨다. 빅스비는 내 스타일을 알고 적응하고 있다. 서툰 경상도 발음을 잘 알아들어서 고맙고 정이 들었다.

결론이다. 수집, 저장한 많은 데이터 중에서 신속하게 의사결정을 할 수 있도록 필요한 것을 빨리 찾아서 정보로 제공하는 것이 중요하다. 데이터는 항상 무결(無缺)해야 하고 안전하게 보관해야 한다. 그러면서 데이터의 수집과 저장, 관리 비용이 적게 드는 방법을 찾아야 하는 것이다. 그 방법은 검증된 것 중에서 우리 조직에 적절한 것을 택하는 것이다.

조기조 한국도박문제예방치유원장, 경남대학교 명예교수, 경영학 박사 다른기사 보기