‘데이터 과학’의 입문자들이 꼭 알아야 할 것들

SHARE

최근 빅데이터(Big data)에 대한 관심이 커지면서, 데이터를 다루는 과학, 일명 데이터 과학에 대한 관심도 덩달아 높아졌다. 많은 전문가들이 데이터 과학에 대해서 이야기하고, 책들도 많고, 전문가들도 많다. 하지만, 데이터 과학을 제대로 이야기 하는 사람들은 그리 많지 않은듯 하다. 이에 데이터과학에 대한 연재를 시작하기에 앞서, 데이터 과학이라는 것을 처음 접하게 되면서 생길 수 있는 의문들에 대해서 이야기 하고자 한다.

“데이터를 다룬다”는 것의 의미

데이터과학(Data Science)이라는 용어 자체가 익숙하지 않다고 하더라도, 많은 사람들이 데이터 과학과 관련된 용어들을 많이 들어 봤을 것이다. 몇가지만 예를 들자면, Data Science(데이터 과학), Big Data (Analysis)(빅 데이터(분석)), Business Analytics(비즈니스 분석), Quantitative Analysis(정량 분석), Statistics(통계학)와 같은 것들이다. 그리고 이러한 용어들 사이에는 어감상(?)의 차이가 존재한다. 우선 이러한 용어상의 유사점과 차이점을 이해하기 위해서는 “데이터를 다룬다”라는 말의 의미를 이해 할 필요가 있다. 데이터를 다룬다는 의미는 다음과 같은 프로세스:

  1. 어떠한 현상(혹은 대상)들을 수치화 할 수 있는 데이터의 형태로 변환하여,
  2. 이를 체계적으로 저장하고,
  3. 이론적 바탕(및 방법론)을 통해,
  4. 입수되어 저장된 데이터를 효율적 분석 하여,
  5. 이를 보기 쉬운 형태로 보여주는

형태를 가진다. 이전에 언급된 어떤 용어를 쓰더라도 데이터를 다루는 방법은 위의 프로세스를 크게 벗어나지 않는다. 여기서 중요한 것은 어떤 이름을 사용하던지 위의 프로세스를 ‘모두 거쳐야지만’ 의미를 갖는다는 것이다. 하지만 어떤 용어를 쓰느냐에 따라서 집중하는 프로세스 항목이 다르다. 사용하는 용어에 따라 강조되는 부분이 다르다는 것이다. 데이터 과학 분야를 정의하기가 어려운 이유가 여기에 있다. 이러한 중요도의 차이는 데이터를 다루는 분야에 대한 배경지식이 다양하다는 것을 의미하는 동시에, 다양성으로 인해 데이터 과학 분야의 본질을 이해하기 어렵게 만든다.

통계학의 측면에서는 이론적 바탕과 입수된 데이터를 분석하는 방법론을 주로 다루는 반면(3번에 해당), 전산학에서 말하는 데이터 과학은 효율적인 데이터 저장 및 분석 자체에 초점을 맞춘다.(2번, 4번) 경영학과에서 배우는 Quantitative Analysis는 방법론에 대한 계략적인 소개(2번)와 함께, 계측이 불가능한 사회현상들을 어떻게 계측가능한 형태로 변환시킬까와 같은 내용들을 다룬다(1번). 가장 대표적인게 BSC(Balance Score Card)나 소비자조사(Survey)같은 것이 여기에 해당한다 하겠다. 또한, 가설검증(그 중에서 모델링 파트)이나 상관 관계 분석도 바로 어떤 현상들을 수치화 하여 분석하는 것에 해당한다. 이렇게 분석된 데이터를 보여주는 대표적인 방법이 바로 차트나 그래프(도표)들인데, 막대그래프라든지, 파이그래프라든지, 이런 것들은 분석된 데이터를 보기 쉽게 보여주는 예에 해당 한다(5번). 최근에 텔레비전에서 이야기하는 빅데이터 분석(Big Data Analysis)으로 연관검색어를 보여주고 하는 것들은 엄밀히 말하자면 분석(Analysis)이 아니라, 시각화(Visualization)를 의미 하며, 통상적으로 해외에서 말하는 빅데이터 분석과는 의미가 다르다. 통상적으로 알려진 빅데이터 분석은 데이터 과학이 강조하는 부분들(2번, 4번)에 가깝다. 

about-data-science-fastcampus

데이터를 다루는 분야가 다양한 이름을 가지게 된 가장 큰 이유 가운데 하나는 앞서 말했듯이 서로 강조하는 부분이 다르기 때문인데, 이는 각 용어들의 ‘태생이 다른 것’과도 관련이 있다. 조금만 정리를 하면 다음과 같다:

  . 데이터 과학(Data Science) from 전산학(Computer Sciences)

  . 통계학(Statistics) from 응용수학(Applied Mathematics)

  . 계량분석(Quantitative Analysis) from 통계학 혹은 사회과학(Social Sciences)

  . Business Analytics from 경영학

  . 빅데이터 (Big Data) from 마케팅 (용어)

위의 태생을 보면 각 용어 별로 어느 항목들이 중요한지 감이 올 것이다. 이 중 빅데이터라는 것이 언론에서 뜨면서 데이터를 다루는 분야가 각광받기 시작했는데, 사실 빅데이터라는 것은 데이터를 다루는 분야라기 보다는 크기가 너무 커서 일반적인 컴퓨터 하드웨어나 소프트웨어로는 다루기가 어려운 데이터를 의미한다. 용어 자체는 크게 의미가 없음에도 불구하고 너도 나도 띄우는 용어가 되어 버린게 참으로 아이러니라 하겠다. 그리고 데이터의 사이즈가 커지면서 통상적으로 사용하는 하드웨어나 소프트웨어 알고리즘으로 많은 양의 데이터를 다루기가 어려운 상황이 발생했다. 이를 극복하기 위해 컴퓨터 하드웨어(클라우드 컴퓨팅 및 분산 컴퓨팅등을 포함)를 개선하거나, 소프트웨어(DB알고리즘, 연산 알고리즘, 검색 알고리즘등을 포함)를 개선 해야 하는데, 이러한 내용들을 전반적으로 다루는 학문 분야가 바로 전산학(그중에 데이터 과학)이다. PC와 인터넷의 발달로 전산관련 학과(전산과, 컴퓨터공학과)가 최근에 인기가 더욱 올라간 이유도 빅데이터란 단어의 인기 때문이라 하겠다.

데이터 과학의 요소들

그 중에서도 데이터 과학에 대해서 이야기해보려 한다. 위에서도 언급했듯이, 데이터 과학은 데이터를 다루는 분야 가운데 하나이며, 주로 ‘데이터를 다룬다는 의미’들 중 전산학, 즉 ‘컴퓨터’와 관련된 부분들이다. 그리고 데이터 과학을 구성하는 요소는 크게 1) 데이터의 저장 및 입/출력(I/O), 2) 데이터의 분석 3) 분석된 정보의 시각화로 나눌수 있다. 물론 이 요소 중에 가장 주가 되는 것은 데이터분석이다. 그리고 이러한 데이터 분석을 하기 위해서 데이터 분석 도구들을 얼마나 잘 사용하느냐가 중요해졌다.

불과 몇 십년 전(1970년대 이전), 즉 컴퓨터가 발전하기 전까지만 하더라도 데이터를 저장, 입/출력 하는 것은 가장 어려운 일 가운데 하나였다. 예를 들어 10개의 속성(attribute)을 가지는 1,000개의 데이터를 생각해보자. 조금 더 쉽게 이야기하자면, 학생 1,000명의 이름을 포함한  9개 과목의 성적을 처리한다고 생각 해보라. 가장 손쉽게 접할 수 있는 엑셀(MS-Excel)을 사용한다고 하면, (일단 성적을 엑셀 시트에 입력하고  나면) 크게 문제 되지 않는다. 아이들의 평균은 얼마인지, 가장 잘한 아이는 누구인지, 가장 못한 아이는 누구인지, 과목별로 잘하는 아이는 누군지, 과목별로 못하는 아이는 누구인지 등등 당신이 원하는 대부분의 정보들을 소프트웨어 도구를 통해 얻을 수 있다. 하지만, 컴퓨터가 없던 시절에는 이러한 작업을 모두 손(과 머리)로 해야 했다. 평균을 구하는 건 그나마 쉽다고 하지만, 과목별로 가장 잘 한 학생과 못한 학생을 찾는다든지, 둘 사이에 격차를 찾는 다든 하는 류의 검색은 굉장한 시간과 노력을 필요로 한다. 세월이 흘러(1980년대 이후) 컴퓨터(정확하게는 엑셀과 같은 spreadsheet 혹은 DB 소프트웨어 팩키지)가 등장하면서 데이터의 입/출력에 관하여 비약적인 발전을 하게 된다. 그리고 이러한 컴퓨터의 발전은 보다 복잡한 통계적 이론들을 하나씩 적용할 수 있도록 만들었는데, 이 시기에 데이터들을 전문적으로 분석하기 위한 전용 소프트웨어들(SAP, SPSS, Minitab)이 상용화 되었다.about-data-science-fastcampus

 

2000년대를 지나면서, 데이터의 양이 비약적으로 커지게 된다. 데이터의 저장이나 처리가 하나의 컴퓨터에서 실행하는 것이 불가능할 정도로 커진 데이터는 보다 큰 용량과 성능을 요구하는 동시에, 보다 효과적인 처리 방식을 요구하게 되는데, 이에 따라 다양한 분야들이 데이터 과학이라는 이름으로 접목되기 시작하였다. 네트워크 컴퓨팅(혹은 클라우드 컴퓨팅), 분산 컴퓨팅, 병렬 컴퓨팅 등이 대표적이다. 물론, 이러한 분야는 데이터 과학과 직접적인 관련은 없는 분야이지만, 최근 빅데이터를 포함한 데이터과학이라는 용어가 인기를 끌면서 물타기(?)가 가능한 분야들 이라 하겠다. 뿐만 아니라, 데이터 분석을 위한 프로그래밍 언어(R) 및 라이브러리 패키지(하둡, 구글Analytics등)들의 사용 능력이 중요하게 되었다.

세월이 흐르면서, 데이터 과학 기술의 비약적인 발전으로 많은 변화가 생기긴 했지만, 데이터분석을 하는데 있어서 여전히 기본이 되는 분야는 바로 통계학(Statistics)이다. 통계학이 여전히 중요한 이유는 데이터 분석에서 가장 중요하게 다루는 데이터 분석 기법의 근간이기 때문이다. 데이터 과학의 데이터 분석에서 통계학의 범위를 벗어나는 것은 검색(Search)정도 일 것이다. 이를 제외한 데이터 분석의 나머지 분야 들은 아무리 기술적인 발전을 했다하더라도 통계학의 이론적인 바탕을 벗어나지 않는다. 데이터 과학이라는 것을  “전공” 한 사람들 입장에서는 불만을 가질지는 모르겠지만, 데이터과학과 통계학이 크게 차이가 없다고 보는 이들이 많다. 이와 관련한 내용은 위키피디아에도 다음과 같이 언급이 되어 있다.

“Many academics and journalists see no distinction between data science and statistics(많은 학자들과 언론인들은 데이터 사이언스와 통계학을 따로 구분하지 않는다.)”.

이러한 이야기는 농담이 아니며, 데이터 과학을 제대로 하기 위해서 통계학을 반드시 배워야 하는 이유이기도 하다. 그리고, 통계학이라는 학문은 당신의 생각하는 것보다 배워야할 범위가 넓다. 통계학 자체의 범위가 넓다기보다는 통계학같은 응용 학문을 학습하기 위해서는 이에 바탕이 되는 학문(수학)의 지식이 필요하다는 말이다. 더구나, 통계학은 데이터과학(특히, 데이터 분석)을 하는데 있어서 이론적 바탕이 되는 학문이다. 바탕이된다는 말의 또 다른 의미는, 통계학 자체가 가지는 이론적 바탕 뿐 아니라 ‘한계’들도 그대로 데이터 과학에 적용이 된다는 것을 의미한다. 이러한 태생적 한계를 깨닫기 위해서는 단순히 해당 학문분야만 알아야 하는 것이 아니라, 그와 인접한 학문들도 알아야만 한다.

연재를 시작하면서

서점을 가거나 인터넷을 뒤져보면 데이터 과학에 대한 책들과 자료들이 넘쳐난다. 본 연재에서는 데이터 분석용 프로그래밍 언어를 가르친다거나, SAP이나 SPSS와 같은 소프트웨어 팩키지를 다룬다거나, (빅)데이터를 입수하는 구글 Analytics의 사용법같은 것을 다루지 않는다. 그러한 내용들은 이미 많은 자료들이 나와 있으며, 본 저자 말고도 기고나 강의를 해줄 전문가들이 넘치고 넘칠 것이다. (물론, 그 중에 통섭적인 인사이트를 가진 전문가를 찾기는 쉽지가 않겠지만 말이다.) 내가 연재에서 다루고자 하는 것은 데이터 과학이 가지는 태생적인 한계에 대한 것이다. 단순히 데이터 과학에서의 한계가 아니라, 데이터의 속성이 가지는 한계라든지, 데이터 분석의 이론적 기초가 되는 통계학이 가지는 한계에 대한 것이다.  더 나아가, 실제 데이터 과학을 적용하는데 있어서, 이러한 태생적인 한계들이 어떻게 나타날 수 있는지에 대한 이야기를 같이 나누고자 한다.


데이터 사이언스 교육의 선두주자, 패스트캠퍼스 데이터 사이언스 >>> [클릭]

*본 콘텐츠는 패스트캠퍼스와 객원 필진 Amang Kim님의 협력 하에 제작되었습니다.

Facebook Comments