Home [Data] [빅데이터를 지탱하는 기술] 정리하기 - 1-4 BI 도구와 모니터링
Post
Cancel

[Data] [빅데이터를 지탱하는 기술] 정리하기 - 1-4 BI 도구와 모니터링

개요

안녕하세요.

이번 글에서는 “빅데이터를 지탱하는 기술” 이라는 책의 1장 4절, “BI 도구와 모니터링”을 정리했습니다.


스프레드시트에 의한 모니터링 - 프로젝트의 현재 상황 파악하기

애드 혹 분석이 데이터를 살펴본다면 모니터링(Monitoring)은 계획적으로 데이터 변화를 추적해나갑니다.

프로젝트의 수입과 지출을 모니터링하는 예시를 생각해보겠습니다.

점포에서 상품을 판매하고 있으며, 그 결과 얼마나 이익이 나오는지 알고 싶어 합니다.

현재 상황은 수입이 증가하고 있으나 이익률이 점차 감소 중입니다.

 2017년 1월2017년 2월2017년 3월
수입599006330072400
지출443004750056500
이익156001580015900
이익률26%25%22%

다음 표는 왜 이익이 증가하지 않았는지 조사한 내역입니다.

상품 구매가 증가하면서 이익률 개선 없이 매출만 증가하고 있습니다.

 2017년 1월2017년 2월2017년 3월
구매170002000029000
인건비123001230012300
그외152001520015200
지출 합계443004750056500

데이터 집계로부터의 어떤 조치를 취해야할지는 명확하지 않습니다.

숫자의 의미를 이해하려면 그 배경이자 숫자로 표현하기 힘든 사전지식이 필요합니다.

예상과 다른 움직임이 있다면 행동이 필요한데 이 때 사람의 판단이 필수적입니다.

우선 전체 숫자로부터 현재 상황을 파악하고 이로부터 얻어낸 통찰에 따라 세부 사항을 확인한다면 데이터를 이해할 수 있습니다.


데이터에 근거한 의사 결정 - KPI 모니터링

프로젝트의 현황을 파악하기 위한 숫자로 업계마다 KPI(Key Performance Indicator)가 자주 이용됩니다.

다음은 업계별 KPI의 예시입니다.

  • 웹 서비스의 KPI

    약칭정식 명칭의미
    DAUDaily Active User서비스 이용한 1일 유저 수
    계속률Customer Retention서비스를 계속해서 이용하고 있는 유저 비율
    ARPPUAverage Revenue Per Paid User유료 고객 1인당 평균 매출
  • 온라인 광고의 KPI

    약칭정식 명칭의미
    CTRClick Through Rate광고 표시 횟수에 대한 클릭 비율
    CPCCost Per Click1회 클릭에 대해 지불한 광고비
    CPACost Per Acquisition1건의 고객 취득을 위해 지불된 광고비

KPI 모니터링에서 확인하고 싶은 것은 그것이 행동 가능(Actionable)한 것인가의 여부입니다.

이러한 행동 가능한 숫자를 만들기 위해서는 그것이 좋은지 나쁜지 판단 기준이 필요합니다.

여기서 행동을 결정할 때 객관적 데이터를 근거하여 판단하는 것을 데이터 기반 의사결정(Data-Driven Decision Making)이라고 합니다.

월간 보고서 - 스프레드시트에 의한 보고서 작성과 그 한계

다음은 목표와 실적을 모니터링하기 위한 월간 보고서를 만드는 예시입니다.

“수입과 지출의 파악”라는 목표를 수립했다고 가정하겠습니다.

 2017년 1월2017년 2월2017년 3월
목표   
매출600007000080000
원가율30%30%30%
   
실적   
매출599006330072400
원가율170002000029000
원가율28%32%40%
   

스프레드시트는 위와 같은 보고서 작성에 이용됩니다.

원시적이지만, 수작업으로 숫자를 입력하는 유연성 정도는 존재하죠.

하지만 다음과 같은 2가지 단점이 존재합니다.

첫번째로 “보고서에 입력하는 숫자를 어디선가 계산해야 한다”는 점입니다.

이를 위해서 준비된 것이 데이터 웨어하우스이며, 거기서 실행되는 배치 처리입니다.

이 과정은 워크플로로 자동화할 수 있습니다.

두번째는 “상세한 내역 조사”입니다.

위의 예시에서는 상품별 매출과 원가를 바로 확인할 수 있어야 변화의 원인에 도달할 수 있습니다.

이 단점을 해소하고자 BI 도구를 사용합니다.


변화를 파악하고 세부 사항 이해하기 - BI 도구의 활용

BI 도구가 어떤 것인지 알고 싶다면 실제로 사용해보는 것이 가장 좋습니다.

사용한 적이 없다면, 무료 사용판 BI 도구 통해 경험할 수 있습니다!

명칭종류경로
Tableau Public데스크톱 + 웹 서비스https://www.tableau.com/ko-kr
Qlik Sence데스크톱 + 웹 서비스https://www.qlik.com/ko-kr/
Microsoft Power BI데스크톱 + 웹 서비스https://powerbi.microsoft.com/ko-kr/
구글 Looker Studio웹 서비스https://support.google.com/looker-studio/answer/6283323?hl=ko

여기서는 Tableau Public을 사용해보겠습니다.

Tableau Public은 로그 등 간단한 주제의 데이터 분석에 적합합니다.

분석 항목을 화면상에서 선택하면 그래프가 자동으로 생성됩니다.

다음 그림은 Tableau 페이지의 샘플 데이터 중 “슈퍼스토어 매출”을 시각화한 예시입니다.

Tableau Public 시각화 [그림 1] Tableau Public 시각화

분석하고자 하는 항목을 화면에서 선택하면 그 내용에 따라 그래프가 자동 생성됩니다.

BI 도구는 고속의 집계 엔진을 내장해 수백만 레코드 정도의 스몰 데이터라면 순식간에 그래프를 그려줍니다.

BI 도구로 읽어 들일 정보를 늘림으로써 시각화할 수 있는 범위가 넓어집니다.

다음 그림은 상품의 카테고리를 색상, 상품의 판매 금액을 크기로 추가한 예시입니다.

색깔과 판매 금액 [그림 2] 색깔과 판매 금액

모니터링의 기본 전략 및 BI 도구 - 정기적인 보고서에 의한 변화 파악과 재집계

데이터 모니터링의 기본 전략은 정기적인 보고를 통해 중요한 변화 파악하는 것입니다.

변화 원인을 알고 싶은 경우에는 원인이 되는 데이터를 재집계를 반복하면서 자세히 살펴봅니다.

원하는 집계 결과를 위해서는 ‘시각화하기 쉬운 데이터’를 만들어야 합니다.

BI 도구는 “스스로 데이터를 살펴보기” 위한 소프트웨어입니다.

집계의 단면을 다양하게 전환하면서 원하는 정보 탐색를 찾아낼 수 있습니다!


수작업과 자동화해야 할 것의 경계 판별하기

위에서 생성한 월간 수입 지출 보고서를 BI 도구로 작성한다면 어떻게 될까요?

숫자를 정리한 데이터만 있다면 다음과 같은 화면을 만들 수 있습니다.

BI 도구로 지출 내역 표시하기 [그림 3] BI 도구로 지출 내역 표시하기

하지만 BI 도구도 한계가 있습니다.

베이스가 되는 데이터는 다음과 같은 형태로 존재해야하지만 이렇게 정리된 데이터는 거의 없습니다.

일자대분류소분류금액
2017/1/1수입점포 판매59900
2017/1/1지출구입17000
2017/1/1지출인건비12300
2017/1/1지출기타15000
2017/2/1수입점포 판매59900
2017/2/1지출구입17000
2017/2/1지출인건비12300
2017/2/1지출기타0
2017/3/1수입점포 판매59900
2017/3/1지출구입0
2017/3/1지출인건비15000
2017/3/1지출기타12300

제대로 설계된 데이터가 없다면, 자신의 생각과 딱 맞는 화면을 생성하기 불가능합니다.

수작업으로 할 수 있는 것은 수작업으로 해두기

대기업이라면 해당 분야의 전문가가 데이터 웨어하우스의 테이블 설계하고, 보고서 작성에 필요한 데이터를 배치 처리로 집계하며, BI 도구의 화면을 만듭니다.

하지만 전문가가 아니라면 위의 과정은 매우 어렵습니다.

자신이 알고 싶은 정보를 자신만 보고자 한다면, 외형 고려 없이 기존의 데이터를 사용해 화면 만드는 것만으로 충분합니다.

예를 들어, 월간 보고서 같이 일관성이 높다면 각 화면에서 숫자를 가져와 스프레드시트에 수동 입력 하는 것이 더 쉬습니다.

자동화하려는 경우에는 데이터 마트를 만든다

자주 업데이트 되는 데이터나 다수에 공유되는 데이터는 차례대로 자동화해 나갑니다.

시각화 바탕 되는 데이터를 SQL 또는 스크립트 사용해 생성하고 이 데이터를 BI 도구로 읽습니다.

구체적으로는 다음 방안을 생각해볼 수 있습니다.

  1. BI 도구에서 직접 데이터 소스에 접속
    • 장점: 시스템 구성 간단
    • 단점: BI 측에서 지원하지 않는 데이터 소스에는 접속 불가
  2. 데이터 마트 준비하고 BI 도구로부터 열기
    • 장점: 어떤 테이블도 생성 가능
    • 단점: 데이터 마트 설치 및 운영에 시간 소요
  3. 웹 방식의 BI 도구 도입하여 CSV 파일 업로드
    • 장점: 스크립트로 자유롭게 데이터 가공
    • 단점: 데이터 생성 및 업로드에 프로그래밍 필요

마무리하며

이번 글에서는 BI 도구와 모니터링에 대해 살펴보았습니다.

모니터링은 계획적으로 데이터 변화를 추적하는 것입니다.

대표적인 모니터링인 KPI 모니터링의 경우, 해당 지표가 행동 가능(Actionable)한 것인가의 여부를 추적합니다.

스몰데이터라면 스프레드시트만으로도 가능하지만, 보고서의 숫자를 계산해야하고 상세한 내역의 조사가 어렵다는 단점이 있습니다.

이를 해결하기 위해 BI 도구를 활용합니다.

구체적으로는 BI 도구에서 직접 데이터 소스에 접속하거나, 데이터 마트를 준비하고 BI 도구로 열거나, 웹 방식의 BI 도구를 도입하여 CSV 파일을 업로드할 수 있습니다.

이 책에서는 두번째 방법인 “데이터 마트를 준비하고 BI 도구로 열기”를 중점적으로 설명한다고 합니다!

이 글이 조금이나마 도움이 되셨으면 합니다.

감사합니다. 😀


참고 문헌

  • 니시다 케이스케, 빅데이터를 지탱하는 기술, 제이펍, 2018
This post is licensed under CC BY 4.0 by the author.

[Python] Python 특수 메서드

[Network] 로드 밸런싱(Load Balencing)

Comments powered by Disqus.