하둡 창시자가 본 빅데이터의 진화와 윤리

더그 커팅 클라우데라 수석아키텍트

컴퓨팅입력 :2018/05/09 15:48

“미래를 다루는 영화를 보면 데이터를 수집하는 사람은 악당으로 나온다. 데이터 일을 하는 나는 악당이 아니라 좋은 사람이고 되고 싶다. 데이터는 사회를 진일보시키는 이점을 줄 것이다. 그러기 위해 데이터 활용을 위한 신뢰를 구축해야 하고, 윤리적 책임을 고민해야 한다.”

클라우데라코리아(대표 강형준)는 9일 서울 삼성동에서 기자간담회를 열고 ‘머신러닝과 애널리틱스 미래를 지원하는 빅데이터 기술의 진화와 데이터의 윤리적 사용’에 대해 발표했다.

‘하둡의 아버지’이자 클라우데라 수석 아키텍트인 더그 커팅이 발표자로 나섰다. 더그 커팅은 빅데이터 기술이 발전해 온 지난 10여년을 돌아본 뒤 데이터 사용에 대한 윤리와 책임을 고민해야 할 시점이라고 강조했다.

더그 커팅 클라우데라 수석 아키텍트

더그 커팅은 “기업은 이제 하둡과 다양한 오픈소스로 이뤄진 플랫폼으로 여러 사업부와 다양한 사일로 데이터를 통합해, 비즈니스나 사용자에 대한 단일 뷰를 갖게 됐다”며 “최근 몇년간 이 플랫폼에 인공지능(AI) 기술까지 올라갔고, 퍼블릭 클라우드를 통해 많은 사람, 다양한 조직 곳곳에서 새 시스템으로 새로운 문제를 빠른 속도로 해결해 나가게 됐다”고 말했다.

그는 “우리는 이제 디지털 트랜스포메이션이 이뤄지는 미래로 함께 나아가고 있으며, 모든 기업의 의사결정이 데이터를 중심으로 이뤄지게 될 것”이라며 “디지털 데이터가 사회 전반에 스며들며 점점 더 개선할 수 있도록 하고 있는 시점에 우리는 앞을 내다보고 데이터 관련 기술이 어떤 이득을 줄 것이고, 어떤 위해를 줄 것인지를 미리 생각해봐야 한다”고 강조했다.

오늘날 세계는 디지털 변환 시대를 맞이하고 있다. 그 시발점이 하둡 기술이었다는 점도 확실하다. 그 하둡 기술을 만든 당사자는 이제 새로운 디지털 시대, 데이터가 가져다줄 이익을 더 높이려면 윤리적 책임을 고민해야 할 때라고 진단한다.

그는 “미래를 다루는 영화를 보면 데이터를 수집하는 사람은 항상 악당으로 나온다”며 “데이터 관련 일을 내가 하고 있지만, 나는 악당이고 싶지 않고, 좋은 사람이 되고 싶다”고 말했다.

그는 “데이터를 통해 우리가 무엇을 하는지 더 잘 이해할 수 있게 되고, 운영 전반을 개선하고, 시스템을 최적화하고, 사회를 더 좋은 사회로 만들어 갈 수 있다”며 “교육, 의료, 기후변화, 빈곤퇴치 등에서 데이터가 줄 이점이 매우 크다”고 설명했다.

데이터 분석을 하면, 아동 교육의 맞춤화를 달성할 수 있다. 의료 분야도 개인의 건강을 한층 더 증진할 수 있다. 그러나 이런 시스템을 만드려면 데이터 수집이란 전제가 필요하다. 아동의 데이터, 개인 의무 기록, 개인 정보 등을 수집해야 하는 것이다. 사회 전반의 문제를 해결하고 더 나은 세상을 만들기 위해 데이터를 가능한 많이 수집해야 하는데 사회에서 이를 거부하면 ‘좋은 일’ 자체를 구상할 수 없게 된다.

그는 “데이터 수집은 많은 가치를 갖지만, 데이터 수집 기관이나 사람을 신뢰할 수 있어야 한다”며 “데이터 암호화나 익명처리로 특정 데이터가 누구에 해당하는지 모르게 하는 등의 기술도 있지만 그것으로 충분치 않다”고 지적했다.

커팅은 “인류는 역사를 통해 구체적이고 상세한 사회제도를 구축하고 개선해왔다”며 “금융시스템, 법제도, 의료치료 등과 마찬가지로 데이터 관련해서도 문화적 기법을 구축해야 한다”고 강조했다.

그는 데이터 활용을 극대화하고 좋은 일에 쓰이게 하려면 신뢰를 구축하는 게 가장 중요하다고 밝혔다. 그리고 신뢰 구축을 위한 4가지 요소이자 원칙을 발표했다. 조직과 개인간에 데이터가 어떻게 사용될 것인지에 대한 기대치 조정(투명성), 데이터 관리를 위한 모범 사례 수립(베스트 프랙티스), 경계 설정, 정부 또는 업계 주도의 감독 및 규제 마련(검증) 등이다.

조직은 데이터로 무얼 하는지 사전에 분명히 파악해야 데이터 수집에 대한 사람의 신뢰를 얻을 수 있다고 설명한 커팅은 “사람은 예기치 못한 방식으로 자신의 데이터가 사용되는 걸 보면 놀라워하고, 싫어하므로, 이런 효과가 없도록 사전에 어떻게 데이터를 쓸 것인지 투명하게 알려줄 필요가 있다”고 말했다.

이어 “두번째로 산업계에서 데이터 관리 방법, 암호화, 익명화 방법, 특정 데이터 마스킹 등의 베스트 프랙티스를 분명하게 마련해야 한다”며 “세번째로 허용되는 것과 허용해선 안되는 것 사이의 선을 분명히 그어야 한다”고 강조했다.

그는 “개인정보 노출 금지, 주소나 사생활 노출 금지 같은 사안은 이미 잘 알려진 사실이지만, 어떤 정보는 나중에 가서야 해서 안되는 것이었다고 알게 되기도 한다”며 “네번째는 검증으로, 어떤 기관이나 조직이 대외적으로 데이터 활용방안을 밝혔으면, 말한 대로 하는지 검증할 수 있어야 한다”고 말했다.

개인정보를 재배포 안 한다고 해도 정말로 재배포를 안하는지 체크할 수 있는 감독이 필요하다고 덧붙인 그는 “정부 감독기능도 있지만 더 좋은 방법은 산업별 자율규제이며, 금융업계나 증권거래소, 의사, 회계사, 변호사도 신뢰도 구축을 위해 자율규제와 감사를 하고 있는데 데이터 신뢰에도 이런 검증이 요구된다”고 밝혔다.

미국의 경우 연방무역위원회가 소비자를 공정하게 대우해야 한다는 측면의 가이드라인을 발표했다. 유럽은 GDPR이란 소비자 개인정보 보호에 대한 법을 이번달부터 시행한다. 소비자의 데이터 권리를 존중하도록 하는 법안이 세계 곳곳에서 시도되고 있다.

더그 커팅은 정부 차원의 노력 외에 민간 차원의 노력이 절실하다고 강조했다. 상황의 변화에 정부는 느리게 움직이지만, 민간은 더 발빠르게 움직일 수 있다는 것이다.

그는 “내가 종사하는 산업은 기술에 투자하고 사람에게 기술을 제공하는 산업이다”라며 “그래서 데이터 신뢰도 문제를 많은 이가 인식하도록 하는 노력을 기울여야 하며, 그것이 우리 산업 전체의 책임이고 의무”라고 밝혔다.

커팅은 데이터 과학을 위한 윤리 강령 마련에 대해 몇가지 조언을 내놨다. 일단, 신뢰 구축에 많은 시간이 필요하고, 어려운 과정을 거쳐야 한다는 전제를 깔았다.

그는 “기업이나 조직의 데이터 사용을 외부의 제3자가 감사하는 게 필요하다”며 “현재는 외부인에 의한 데이터 활용 감사가 실시되지 않고 있는데 기업이 이에 대해 많은 생각을 하고 채택하기를 바란다”고 말했다.

데이터 윤리를 고민하는 기업과 담당자에게 스스로 묻고, 남의 의견도 폭넓게 들으라는 조언도 했다. “우선 자기 자신에게 ‘남이 내게 이런 걸 해도 나는 괜찮을까’하는 질문을 하는 것이 가장 중요한 기준이 된다”면서 “다음으로 사람마다 기대치 다르고, 생각이 다르니 남에게도 똑같은 질문을 물어보고 답을 듣는 게 좋다”고 말했다.

그는 “가장 윤리적 방향이 무엇인지 파악하는 일은 확연하지 않은 경우가 많아서 이런 질문을 해보는 게 중요하다”며 “윤리적이라고 하는 건 흑백으로 가르는 게 아니라 보통사람이 기대하는 것에서 벗어나냐 아니냐를 보고, 그 기대치에서 벗어나지 않게 하는 것”이라고 덧붙였다.

데이터의 시대를 열어 젖힌 공로자 중 한명인 더그 커팅은 앞으로 10년, 20년 뒤 하둡과 빅데이터가 사회 전반에 좋은 영향을 미쳤다는 평가를 듣길 기대한다고 밝혔다. 그는 “앞으로 수년 안에 빅데이터 정책을 설정하면 어떤 기술이나 데이터를 사용하든 전반적으로 긍정적 영향이 도출되게 하는게 우리가 해야할 일”이라며 “머지 낳아 빅데이터 관련 윤리 협약이나 표준이 나와 오랜 기간 사용될 것인데. 그게 나오기 전인 현 시점에서 빅데이터에 대한 최상의 정책이 뭔지 잘 생각해야 10년, 20년 후에 자부심을 느끼게 될 것”이라고 말했다.

관련기사

그는 윤리 마련의 합의 도출을 위해 산업 발전이란 인센티브를 모든 이해당사자가 합의해야 한다고 밝혔다. 또, 어느나라서도 합의될 수 있는 윤리를 위해 보편적 인권을 시작점으로 삼는 게 좋겠다고도 했다.

“데이터가 줄 가치를 잘 활용하려면 윤리 강령이 필요하다”면서 “데이터에 대한, 사용자에 대한 신뢰가 필요한데, 좋은 윤리 강령이 없으면 신뢰할 수 업고. 그렇게 되면 데이터를 쓰지 못하게 해 데이터의 이점을 누리지 못하게 될 것”이라고 강조했다.