본문 바로가기
:: Notes/Books

[데이터사이언스] 데이터 전처리 대전

by 메모밍 2020. 11. 22.

 

'데이터' 라는 말은 이제 뭐랄까 포켓몬스터 중 하나인 '메타몽' 같은 존재랄까? 어디에 가져다놔도 이상하지 않은 단어가 되었다. 정말 그야말로 데이터의 시대다. 내가 어떤 직무에 있던지간에 데이터를 다룰 수 있는 사람과 아닌 사람은 시작점 부터가 다르다고 생각한다. 단순히 그런 분야가 있지가 아니라 한국에서 '영어'가 갖는 위치처럼 반드시 알아야하는 분야라고 생각한다.

 

내가 이 책을 고른 가장 큰 이유는 같은 로직을 수행하는데 R, Python, SQL을 함께 다뤘다는 점이다. 사실 이 세 언어는 각자 할 수 있는 일이 다르다. 단순히 기호에 맞게 선택하는 것이 아니라 내가 하려고하는 일에 맞는것을 선택해야한다. 그런데 그러려면 세 언어를 기본적으로 다룰수 있어야하는데 각 언어별 시중의 서적을 보면 내가 원하는 곳까지 가려면 너무 많은 지식을 알아야한다. 예를들어 파이썬으로 데이터 전처리를 하고 싶어서 파이썬 기초 서적을 찾아보면 데이터 전처리보다는 파이썬 프로그래머가 되기 위한 기초를 다지는 것에 초점이 맞춰져 있는식이다. 이런 측면에 이책은 데이터 전처리를 배우고자 하는 사람들에게 추천할 만한 책임에 틀림없다.

 

이 책만으로 데이터 과학 또는 데이터 분석 업무를 할 수 는 없다. 데이터를 전처리 하는 것 만으로 해당 데이터를 분석하고 활용했다고 할 수는 없으니까. 다만 데이터 전처리 없이는 데이터 분석과 활용 역시 불가능하다. 모든 데이터는 전처리가 필요하다. 내가 필요한 데이터만 뽑아내는 것이 아니다. 데이터 전처리는 각 상황마다 매우 다양하지만 편향을 보고 중심 데이터를 파악하며 누락 된 데이터를 처리하고 이상치를 거르는 등의 작업들이다. Garbage in Garbage out 이라는 말이 있듯이 좋은 데이터가 있어야 좋은 결과가 나온다. 

 

흔히 데이터를 가지고 해야할 일을 분석과 예측으로 나누는데 전처리가 충분하지 않으면 데이터를 보는 눈이 좁아진다. 한쪽으로 쏠린 데이터를 가지고 모집단의 데이터라고 생각하고 결과를 낼수도 있고 예측 모델의 정확도나 정밀도가 많은 차이가 있기도 한다. 특히 최근 많은 관심을 받고 있는 머신러닝/딥러닝의 경우 데이터를 어떻게 전처리 했는가 자체만으로 하나의 논문이 나오기도한다. 전처리라는 과정 자체가 결과에 미치는 영향이 크다는 것이다. 문제는 모든 데이터는 전처리를 거치지만 데이터 전처리만을 다룬 책이 없다는 것이다. 그냥 파이썬을 다룰 수 있고, R을 다룰 수 있다면 전처리를 따라오는 것이라고 생각하는 것 같다. 틀린말은 아니지만 데이터 전처리는 기술적인 분야다. 많은 경험이 필요하다. 데이터마다 다르고 하려는 일마다 처리해야하는 방식이 달라진다. 한 마디로 정리하기가 어렵다. 그런데 그 어려운 것을 이  책은 시도한다.

 

다학적인 분야이므로 이 책에서는 정확성을 위해 책에서 다루려고하는 데이터셋을 구분 지어 설명한다. 멀티미디어 데이터는 제외하며, 수치, 문자, 논리값 데이터만 가지로 처리한다. 대상독자는 신입 데이터 직군 종사자 또는 데이터 분석 업무에 관심이 있는 초심자로 한 마디로 데이터 전처리에 관심이 있는 사람이 처음 접하기에 좋은 책이다. 책의 목차도 깔끔하지만 특히 좋은점은 전처리 각 단계에서 베스트트랙티스가 무엇인지를 구분 지어 설명한다는 점이었는데 각 언어마다 좋은 방법이 무엇인지 알려줘서 불필요한 접근을 크게 줄여준다. 초보자에게는 매우 필요한 부분이 아닐까. 

 

이 책을 다 읽고 흥미가 생기면 개인적으로 '통계학'을 배워보는것을 추천한다. 기초 통계부터 회귀모형, 클러스터링, 나아가 머신러닝, 딥러닝까지 책에서 다루는 내용이 모두 사용되기 때문이다. 그만큼 많이 사용할 법한 내용들이 담겨있고 이론에서 끝나기 보다 실제 구현에서 필요한 내용이 많다. 데이터 분석에 관심이 있다면 이 책은 읽어보기를 추천한다. 데이터 전처리에 대한 막연함을 어느정도 해소하고 앞으로 공부가 필요한 방향까지 생각해 볼 수 있는 시각을 제공할 것이다.

댓글0