본문 바로가기

데이터분석(Data analysis)

어떤 그래프가 좋을까? - 데이터분석

 

안녕하세요!!

 

오늘은 데이터를 시각화할 때 가장 고민거리인 그래프 선택 방법에 대해 알아보려고 합니다.

 

그래프 종류는 매우 다양하기 때문에 해당 데이터를 잘 표현해주는 그래프를 선택해주어야 하는데요.

 

데이터마다 특성이 존재하므로 그에 맞는 그래프는 어떤 것이 있을지 확인해보도록 하겠습니다.

 

그래프 추천에 앞서 데이터 특성 확인을 위해 몇 가지 통계용어에 대해 알아보겠습니다.

 

데이터는 크게 범주형과 연속형이라는 변수로 나뉘어집니다.

 

범주형은 이산형 변수라고도 불리며, 어떠한 데이터를 한 그룹으로 묶어 범주화시킨 데이터를 말합니다.

 

대표적으로 성별, 지역, 연령대 등이 있습니다.

 

연속형은 수치 변화에 대해 의미를 담고 있는 데이터를 말합니다.

 

대표적으로 신용점수, 키, 몸무게 등이 있습니다.

 

이러한 범주형과 연속형의 데이터를 X축과 Y축으로 구분하여 도형화하는 것을 그래프라 합니다.

 

따라서 그래프를 만들 때는 현재 집계하는 데이터가 범주형 변수인지 연속형 변수인지 구분해야 합니다.

 

데이터 차원 특성에 따라 Z 축까지 구현된 그래프가 있으나 3차원 이상 그래프를 이해하기 위해서는 그에 따른 전문성이 필요하므로 특정 산업을 빼곤 잘 사용하지 않습니다.

 

다음은 그래프의 종류에 대해 알아보겠습니다.

 

그래프의 종류는 다양하지만 사용빈도가 높은 대표적인 그래프는 막대그래프, 원형 그래프, 분산형 그래프, 선형 그래프이며, 거의 모든 데이터는 이 4가지 그래프로 시각화할 수 있습니다.

 

먼저 막대그래프부터 보겠습니다.

 

막대그래프는 bar형 그래프라고도 불리며 주로 범주형 변수의 크기를 확인할 때 사용됩니다.

 

따라서 X축이 범주형, Y축이 연속형 변수를 사용합니다.

 

 

위 그래프를 보시면 성별이라는 범주형 데이터와 나이라는 연속형 데이터가 사용된 것을 확인할 수 있습니다.

 

만약 연속형이 두 가지인 데이터를 막대그래프로 표현을 하려면 X축을 범주형으로 바꿔주어야 합니다.

 

다음은 원형그래프를 보시겠습니다.

 

원형(pie)그래프는 데이터 총합의 비중이 100%인 데이터를 시각화하는 데 사용됩니다.

 

 

해당 변수의 비중이 어느 정도인지 확인할 때 주로 사용되며, 변수의 개수가 많다면 원형 그래프로는 정보전달성이 떨어짐으로 다른 그래프로 시각화하는 것을 추천 드립니다.

 

다음은 분산형그래프입니다.

 

분산형(scatter)그래프는 2가지 연속형 변수를 시각화할 때 사용되는 그래프로 산포도 그래프라고도 불립니다.

 

 

위 그래프를 보면 연령과 건강 관심지수라는 2가지 연속형 변수가 사용된 것을 확인할 수 있습니다.

 

분산형 그래프의 최대 장점은 Target데이터가 어느 포지션에 위치하고 있는지 바로 확인 가능하다는 겁니다.

 

예를 들면 건강기능식품으로 마케팅을 하고자 할 때, 분산형 그래프로 시각화를 한다면 마케팅 대상을 한눈에 확인할 수 있을 겁니다.

 

마지막으로 선형그래프를 보시겠습니다.

 

선형(linelinear)그래프는 연속형 변수의 시계열을 표현할 때 사용됩니다.

 

그래프 예시입니다.

 

 

어떤 상품의 월별 판매량을 시계열로 표현해봤습니다.

 

1년 중 어느 시기에 판매량이 가장 적고, 많은지 한눈에 확인할 수 있습니다.

 

선형그래프는 상품의 특성을 고려하여 판매전략을 취할때 유용하게 사용됩니다.

 

위 그래프는 한 가지 데이터로 시계열을 표현했으나 다수의 데이터를 시계열로 시각화하여 비교할 수 있습니다.

 

데이터를 정확하게 집계하는 것도 중요하지만 그것을 시각화하여 정보전달을 하는 것 또한 매우 중요합니다.

 

정확한 데이터를 잘못 해석하여 다른 방향으로 의사결정을 하게 되면 그것만큼 치명적인 게 없겠죠.

 

이상 오늘의 포스팅을 마치겠습니다.

 

감사합니다.