[Explained] Tableau에서 히스토그램을 만드는 방법

태블로(Tableau)에서 대규모 데이터 세트를 다루고 있는데, 막대 차트로는 데이터 시각화가 충분하지 않거나, 차트에서 의미 있는 통찰력을 얻기 어려우신가요? 그렇다면 히스토그램을 활용하여 찾고 있던 통찰력을 시각적으로 표현해 보세요.

태블로와 같은 비즈니스 인텔리전스(BI) 도구의 차트와 그래프는 비즈니스 데이터나 일반 설문조사 데이터에서 나타나는 기본적인 패턴을 시각화하는 데 유용합니다. 만약 데이터 세트가 방대하고, 개별 데이터 포인트가 여기저기 흩어져 있다면, 개별 데이터 포인트를 직접 시각화하는 대신, 비슷한 값들을 묶어 몇 개의 ‘버킷’으로 만들고, 이를 통해 전체적인 분포를 파악하는 것이 효과적입니다.

이러한 상황에서 히스토그램이 빛을 발합니다. 태블로는 자동 및 수동 방식으로 통계적으로 유의미한 데이터 시각화 도구를 제공합니다. 태블로보다 더 직관적이고 유용한 히스토그램을 만들 수 있는 BI 도구는 찾기 어려울 것입니다.

이 글을 끝까지 읽으시면, 태블로에서 멋진 히스토그램을 만드는 데 필요한 모든 지식을 얻으실 수 있습니다.

히스토그램이란 무엇일까요?

히스토그램은 차트의 X축과 Y축 모두에 숫자 데이터를 사용하여 데이터의 분포를 나타내는 통계적 시각화 도구입니다. 특정 범위 또는 ‘빈(bin)’ 내에 속하는 값들의 빈도 또는 개수를 막대 형태로 보여줍니다.

막대는 가로 또는 세로로 배열할 수 있으며, 데이터 세트와 시각화 목적에 따라 달라집니다. 각 막대의 높이는 해당 범위 내 데이터가 나타나는 빈도에 비례합니다.

히스토그램은 데이터의 모양과 패턴을 시각적으로 파악하는 데 도움을 줍니다. 이를 통해 추세, 이상치, 중심 경향 등을 쉽게 식별할 수 있습니다.

일반적으로 통계 및 데이터 분석에서는 히스토그램을 사용하여 데이터 세트의 특성을 탐색합니다. 시각화된 데이터는 다양한 수준의 지식을 가진 모든 사람들이 이해하고 해석하기 쉽기 때문입니다.

간단히 말해, 히스토그램은 데이터의 시각적 요약을 생성하거나, 데이터 기반의 스토리를 만들어 정보에 입각한 의사 결정을 내리고 데이터에서 의미 있는 통찰력을 도출하는 데 유용한 도구입니다.

데이터 분석 및 시각화에서 히스토그램의 중요성

데이터 분석에서 히스토그램이 왜 중요한지 아래에서 살펴보세요.

  • 히스토그램은 데이터 분포를 이해하고, 패턴, 중심 경향 및 잠재적인 이상치를 파악하는 데 도움이 됩니다.
  • 또한, 예기치 않은 급증이나 격차를 보여줌으로써 데이터의 오류나 이상 현상을 식별하는 데 유용합니다.
  • 데이터 전처리 방법 (예: 적절한 빈 크기 선택, 데이터 변환 식별)을 결정하는 데 도움을 줍니다.
  • 동일한 데이터 세트 또는 관련된 여러 데이터 세트의 히스토그램을 겹쳐서 비교할 수 있습니다.
  • 히스토그램은 데이터 분석에 근거한 의사 결정에 명확하고 시각적인 증거를 제공합니다.
  • 기술적인 지식이 부족한 사람이나 비즈니스 이해 관계자도 히스토그램을 통해 만들어진 데이터 스토리를 쉽게 이해할 수 있습니다.

히스토그램의 기능을 이해했으니, 이제 언제 이 강력한 데이터 시각화 도구를 사용해야 하는지에 대한 질문이 남습니다. 다음 데이터 분석 및 시각화 사례를 살펴보세요.

위의 막대 차트는 X축에 제품 이름을, Y축에 해당 제품의 판매액을 표시합니다. 샘플 데이터 세트에는 1849개의 제품이 있습니다.

이 시각화에서 볼 수 있듯이, 한 화면에 모든 제품을 표시하는 것이 불가능하며, 화면 밖에 있는 다른 제품을 보려면 계속 스크롤해야 합니다.

데이터 시각화의 기본 원칙은 전체 데이터를 논리적으로 한 화면에 표시해야 한다는 것입니다. 따라서 판매액을 기준으로 제품을 그룹화하여, 예를 들어 $10, $20, $30 등의 카테고리로 묶는 것이 더 효과적일 수 있습니다.

위의 히스토그램에서처럼, 판매액 버킷에 모든 제품을 배치하면 데이터 포인트 수가 1849개에서 279개로 줄어들고, 모든 데이터가 한 화면에 표시됩니다. 스크롤할 필요가 없습니다.

히스토그램을 만들 때 태블로를 선택해야 하는 이유

태블로는 여러 가지 강력한 이유로 히스토그램을 만드는 데 이상적인 선택입니다. 첫째, 기술적인 사용자뿐 아니라 비기술적인 사용자도 쉽게 사용할 수 있는 사용자 친화적인 인터페이스를 제공합니다. 이를 통해 빠르고 편리하게 히스토그램을 만들고 데이터와 상호 작용할 수 있습니다. 또한, 다양한 데이터 소스와의 연결을 지원하므로 폭넓은 프로젝트에 적합합니다.

태블로는 다양한 사용자 정의 기능을 제공하여, 사용자의 필요와 선호도에 맞춰 히스토그램을 맞춤 설정할 수 있습니다. 태블로에서 생성된 시각적으로 매력적인 결과물은 데이터 시각화의 효과를 높여줍니다.

또한, 공유와 협업이 원활하게 이루어지기 때문에 팀워크와 지식 교환을 촉진할 수 있습니다. 강력하고 활발한 사용자 커뮤니티를 통해 풍부한 지원과 리소스를 쉽게 이용할 수 있습니다.

요약하자면, 태블로의 사용자 친화성, 데이터 통합, 사용자 정의, 상호 작용성 및 강력한 커뮤니티 지원은 태블로를 히스토그램 생성에 가장 적합한 도구로 만듭니다.

태블로에서 히스토그램을 만들기 위한 필수 조건

태블로에서 히스토그램을 만들려면, 분포를 시각화할 값이 포함된 데이터 필드가 하나 이상 필요합니다. 기본 데이터 요구 사항은 다음과 같습니다.

데이터 필드

히스토그램에 사용할 데이터 필드가 필요합니다. 이 필드는 분석하려는 변수를 나타냅니다. 예를 들어, 판매 데이터의 히스토그램을 만드는 경우, 여러 제품 또는 특정 기간 (몇 년 또는 몇 달) 동안의 판매액 데이터가 필요합니다.

데이터 비닝

또한, 데이터 세트에 측정값의 범위를 만들어야 합니다. 태블로에서 측정값은 데이터에서 모니터링하는 지표입니다. 예를 들어, 데이터 세트에 다양한 제품의 판매 데이터 열이 포함되어 있다면 이는 측정값입니다. 판매액 구간을 만들어 비슷한 판매액을 가진 제품들을 같은 그룹으로 묶을 수 있습니다.

빈도 또는 개수

또한 각 구간 내의 데이터 포인트의 빈도 또는 개수를 나타내는 필드가 필요합니다. 태블로의 COUNTD 또는 COUNT 함수를 사용하여 이를 생성할 수 있습니다.

연속성

측정값의 구간은 연속적이어야 합니다. 그렇지 않으면 히스토그램이 막대 그래프처럼 각 막대가 분리되어 표시됩니다. 하지만 태블로에서는 한 번의 클릭으로 불연속형 측정값을 연속형 측정값으로 변환할 수 있습니다.

데이터 컨텍스트

데이터에는 충분한 컨텍스트와 메타데이터가 있어야 합니다. 날짜나 타임스탬프, 카테고리 등 분석에 도움이 될 수 있는 관련 정보가 데이터에 포함되어 있는지 확인해야 합니다.

태블로에서 히스토그램을 만드는 방법

외부 데이터 세트를 사용하여 태블로 히스토그램을 만드는 방법에는 두 가지가 있습니다. 하나는 Show Me를 이용한 자동 방식이고, 다른 하나는 수동 방식입니다. 아래에서 두 가지 방법에 대한 설명을 확인하세요.

#1. Show Me를 사용하여 태블로에서 히스토그램 만들기

Show Me는 연결된 데이터를 이용하여 한 번의 클릭으로 다양한 데이터 시각화를 생성할 수 있는 태블로 기능입니다. 데이터 구조가 적절하고 깔끔할 경우, 의미 있는 시각화를 빠르게 생성할 수 있습니다.

데이터 소스 연결

이번 실습에서 사용할 데이터 소스를 가져오는 방법은 세 가지가 있습니다. 내장된 데이터 세트를 사용하거나, 외부 서버에 연결하거나, Excel 또는 CSV 파일에서 데이터를 가져올 수 있습니다. 아래 지침을 참조하세요.

  • PC 또는 Mac에서 태블로 데스크톱 앱을 엽니다.
  • ‘가속기’ 중 하나를 클릭하여 미리 만들어진 데이터 세트를 태블로로 가져옵니다.
  • 또는, 파일 섹션에서 Microsoft Excel, Microsoft Access 등을 클릭하여 데이터 소스에 연결합니다.
  • 또는, 서버 섹션의 연결 도구 중 하나를 클릭하여 클라우드 또는 온프레미스 SQL 서버에 저장된 외부 데이터 세트를 태블로 작업 영역과 연결합니다.

측정값 선택

  • 데이터 세트를 연결하면, 태블로에 새로운 빈 워크시트가 나타납니다.
  • 태블로 앱의 ‘가속기’를 사용하여 연습하는 경우, 태블로 하단 메뉴에서 ‘새 워크시트’ 버튼을 클릭합니다.
  • 새로운 빈 워크시트가 열립니다.
  • 왼쪽 탐색 창에서 원하는 측정값을 워크시트 이름 위쪽의 ‘열’ 영역으로 끌어서 놓습니다.

Show Me를 사용하여 히스토그램 채우기

이제 태블로 데스크톱 앱의 오른쪽 상단에 있는 ‘표시’ 메뉴를 클릭합니다. 태블로의 데이터 시각화 메뉴가 나타납니다.

여기서 ‘히스토그램’ 옵션을 클릭하면 태블로가 자동으로 히스토그램 시각화를 생성합니다.

#2. 태블로에서 수동으로 히스토그램 만들기

경우에 따라 자동 생성된 히스토그램이 원하는 통찰력을 제공하지 못할 수도 있습니다. 데이터 분석 전문가라면, 히스토그램을 포함한 시각화를 수동으로 만드는 방법을 알아야 합니다. 아래 지침을 따르세요.

태블로 작업 공간에 데이터 세트 연결

앞서 언급한 단계를 따라 데이터 세트를 태블로에 연결했다면, 다음 단계로 넘어갈 수 있습니다.

측정값을 사용하여 구간 만들기

태블로의 ‘샘플 슈퍼스토어’ 데이터를 사용하고, ‘제품 이름’ 측정값에 대한 ‘판매액’ 측정값을 기준으로 새 워크시트에 히스토그램을 만든다고 가정해 봅시다.

  • 태블로 데이터 패널의 테이블 메뉴에서 ‘판매액’ 측정값을 선택합니다.
  • 마우스 오른쪽 버튼을 클릭하고 ‘만들기’에 커서를 올려놓습니다.
  • ‘구간’을 선택합니다.
  • ‘구간 편집’ 대화 상자에서 ‘구간 크기’ 필드에 값을 입력합니다.
  • ‘확인’을 클릭하여 구간 생성 과정을 완료합니다.
  • 이제 데이터 패널에서 생성된 ‘구간’을 ‘열’ 영역으로 끌어다 놓습니다.
  • ‘판매액 구간’을 마우스 오른쪽 버튼으로 클릭하고, 상황에 맞는 메뉴에서 ‘연속형’을 선택합니다.

필드 ‘행’에 다른 측정값 추가

이제 데이터 패널에서 ‘제품 관계’ 계층을 확장하고 ‘제품 이름’ 측정값을 찾습니다. 이 측정값을 빈 워크시트의 ‘행’ 영역으로 끌어다 놓습니다.

그런 다음, ‘행’ 창에서 ‘제품 이름’ 측정값을 마우스 오른쪽 버튼으로 클릭하고, ‘측정값 > 개수’를 선택합니다.

축하합니다! 태블로에서 기본 히스토그램을 성공적으로 만들었습니다.

로그 스케일 적용

얻은 히스토그램이 충분히 명확하지 않을 수 있습니다. 히스토그램을 보다 사용자 친화적으로 만들기 위해 Y축과 X축 모두에 로그 스케일을 적용할 수 있습니다. 다음 단계를 따르세요:

  • Y축을 마우스 오른쪽 버튼으로 클릭하고 ‘축 편집’을 클릭합니다.
  • ‘척도’ 섹션에서 ‘로그 스케일’ 확인란을 선택하고, ‘축 편집’ 대화 상자를 닫습니다.
  • X축 데이터에 대해서도 동일한 작업을 반복합니다.
  • 태블로 상단 메뉴에서 ‘마크 레이블 표시’ 아이콘을 클릭하여 각 구간의 항목 수를 시각화합니다.

이제 판매액과 제품명 데이터 시각화를 명확하게 보여주는 히스토그램이 완성되었습니다.

색상에 더 많은 측정값 추가

‘마크’ 버튼에 색상, 크기, 레이블, 세부 정보 및 도구 설명과 같은 여러 측정값을 추가하여 히스토그램으로 더 많은 데이터를 시각화할 수 있습니다. 방법은 다음과 같습니다.

  • ‘배송 상태’ 측정값을 ‘색상’ 탭으로 끌어다 놓습니다.
  • 이제 히스토그램에 배송된 주문이 3가지 색상으로 구분되어 표시됩니다.

태블로에서 히스토그램을 만드는 모범 사례

정확하고, 깔끔하며, 통찰력 있는 태블로 히스토그램을 만들기 위해 다음과 같은 팁과 요령을 고려해 보세요.

  • 히스토그램을 만들기 전에 태블로에서 막대 차트로 시작하는 것이 좋습니다. 꺾은선 그래프나 산점도와 같은 다른 차트 유형은 히스토그램을 만드는 데 적합하지 않으므로 차트 선택이 중요합니다.
  • 논리적이고 적절한 빈 크기로 시작해야 합니다. 태블로에서는 자동으로 기본값을 제안하며, 대부분의 경우 이 값은 적절합니다. 하지만 시행착오를 통해 데이터 세트에 가장 적합한 빈 크기를 찾을 수도 있습니다.
  • X축(빈)과 Y축(빈도 또는 개수)에 모두 명확하게 라벨을 지정해야 합니다. 또한, 단위와 제목이 유익한지 확인하세요.
  • 데이터가 심하게 치우쳐 있거나 이상치가 있는 경우, 로그 스케일이나 기타 변환을 사용하여 분포를 더 잘 표현하는 것을 고려해야 합니다.
  • 색상과 스타일을 사용하여 히스토그램을 시각적으로 매력적으로 만들 수 있습니다. 특정 데이터 포인트나 카테고리를 강조하려면 색상 구분을 활용하세요.
  • 빈 크기 속성에 슬라이더를 도입하여 빈 크기를 빠르게 변경하고, 다른 빈 크기가 데이터 세트의 어떤 특별한 정보를 나타내는지 확인해볼 수 있습니다.
  • 중요한 데이터 포인트나 임계값을 강조하려면 주석이나 참조선을 추가하세요.
  • 시각화를 사용하거나 수정할 다른 사람이 이해할 수 있도록 주석이나 설명을 덧붙여 시각화를 문서화하세요.

결론

이제 태블로를 사용하여 히스토그램을 만드는 방법을 이해하셨습니다. 태블로에서 히스토그램을 생성하는 자동 및 수동 방법을 모두 배웠습니다. 여러분의 데이터 세트를 사용하여 위에서 설명한 방법을 시도해 보고, 태블로의 강력한 데이터 분석 및 시각화 기능을 경험해 보시기 바랍니다.

다음으로는 Power BI에서 데이터 모델링이 어떻게 수행되는지에 대한 글을 읽어보실 수도 있습니다.