개요
- [빅데이터를 지탱하는 기술] 정리하기 시리즈
- 1장 빅데이터의 기초 지식
- 2장 빅데이터의 탐색
안녕하세요.
이번 글에서는 “빅데이터를 지탱하는 기술” 이라는 책의 1장 4절, “BI 도구와 모니터링”을 정리했습니다.
스프레드시트에 의한 모니터링 - 프로젝트의 현재 상황 파악하기
애드 혹 분석이 데이터를 살펴본다면 모니터링(Monitoring)은 계획적으로 데이터 변화를 추적해나갑니다.
프로젝트의 수입과 지출을 모니터링하는 예시를 생각해보겠습니다.
점포에서 상품을 판매하고 있으며, 그 결과 얼마나 이익이 나오는지 알고 싶어 합니다.
현재 상황은 수입이 증가하고 있으나 이익률이 점차 감소 중입니다.
2017년 1월 | 2017년 2월 | 2017년 3월 | |
---|---|---|---|
수입 | 59900 | 63300 | 72400 |
지출 | 44300 | 47500 | 56500 |
이익 | 15600 | 15800 | 15900 |
이익률 | 26% | 25% | 22% |
다음 표는 왜 이익이 증가하지 않았는지 조사한 내역입니다.
상품 구매가 증가하면서 이익률 개선 없이 매출만 증가하고 있습니다.
2017년 1월 | 2017년 2월 | 2017년 3월 | |
---|---|---|---|
구매 | 17000 | 20000 | 29000 |
인건비 | 12300 | 12300 | 12300 |
그외 | 15200 | 15200 | 15200 |
지출 합계 | 44300 | 47500 | 56500 |
데이터 집계로부터의 어떤 조치를 취해야할지는 명확하지 않습니다.
숫자의 의미를 이해하려면 그 배경이자 숫자로 표현하기 힘든 사전지식이 필요합니다.
예상과 다른 움직임이 있다면 행동이 필요한데 이 때 사람의 판단이 필수적입니다.
우선 전체 숫자로부터 현재 상황을 파악하고 이로부터 얻어낸 통찰에 따라 세부 사항을 확인한다면 데이터를 이해할 수 있습니다.
데이터에 근거한 의사 결정 - KPI 모니터링
프로젝트의 현황을 파악하기 위한 숫자로 업계마다 KPI(Key Performance Indicator)가 자주 이용됩니다.
다음은 업계별 KPI의 예시입니다.
웹 서비스의 KPI
약칭 정식 명칭 의미 DAU Daily Active User 서비스 이용한 1일 유저 수 계속률 Customer Retention 서비스를 계속해서 이용하고 있는 유저 비율 ARPPU Average Revenue Per Paid User 유료 고객 1인당 평균 매출 온라인 광고의 KPI
약칭 정식 명칭 의미 CTR Click Through Rate 광고 표시 횟수에 대한 클릭 비율 CPC Cost Per Click 1회 클릭에 대해 지불한 광고비 CPA Cost Per Acquisition 1건의 고객 취득을 위해 지불된 광고비
KPI 모니터링에서 확인하고 싶은 것은 그것이 행동 가능(Actionable)한 것인가의 여부입니다.
이러한 행동 가능한 숫자를 만들기 위해서는 그것이 좋은지 나쁜지 판단 기준이 필요합니다.
여기서 행동을 결정할 때 객관적 데이터를 근거하여 판단하는 것을 데이터 기반 의사결정(Data-Driven Decision Making)이라고 합니다.
월간 보고서 - 스프레드시트에 의한 보고서 작성과 그 한계
다음은 목표와 실적을 모니터링하기 위한 월간 보고서를 만드는 예시입니다.
“수입과 지출의 파악”라는 목표를 수립했다고 가정하겠습니다.
2017년 1월 | 2017년 2월 | 2017년 3월 | |
---|---|---|---|
목표 | |||
매출 | 60000 | 70000 | 80000 |
원가율 | 30% | 30% | 30% |
… | |||
실적 | |||
매출 | 59900 | 63300 | 72400 |
원가율 | 17000 | 20000 | 29000 |
원가율 | 28% | 32% | 40% |
… |
스프레드시트는 위와 같은 보고서 작성에 이용됩니다.
원시적이지만, 수작업으로 숫자를 입력하는 유연성 정도는 존재하죠.
하지만 다음과 같은 2가지 단점이 존재합니다.
첫번째로 “보고서에 입력하는 숫자를 어디선가 계산해야 한다”는 점입니다.
이를 위해서 준비된 것이 데이터 웨어하우스이며, 거기서 실행되는 배치 처리입니다.
이 과정은 워크플로로 자동화할 수 있습니다.
두번째는 “상세한 내역 조사”입니다.
위의 예시에서는 상품별 매출과 원가를 바로 확인할 수 있어야 변화의 원인에 도달할 수 있습니다.
이 단점을 해소하고자 BI 도구를 사용합니다.
변화를 파악하고 세부 사항 이해하기 - BI 도구의 활용
BI 도구가 어떤 것인지 알고 싶다면 실제로 사용해보는 것이 가장 좋습니다.
사용한 적이 없다면, 무료 사용판 BI 도구 통해 경험할 수 있습니다!
명칭 | 종류 | 경로 |
---|---|---|
Tableau Public | 데스크톱 + 웹 서비스 | https://www.tableau.com/ko-kr |
Qlik Sence | 데스크톱 + 웹 서비스 | https://www.qlik.com/ko-kr/ |
Microsoft Power BI | 데스크톱 + 웹 서비스 | https://powerbi.microsoft.com/ko-kr/ |
구글 Looker Studio | 웹 서비스 | https://support.google.com/looker-studio/answer/6283323?hl=ko |
여기서는 Tableau Public을 사용해보겠습니다.
Tableau Public은 로그 등 간단한 주제의 데이터 분석에 적합합니다.
분석 항목을 화면상에서 선택하면 그래프가 자동으로 생성됩니다.
다음 그림은 Tableau 페이지의 샘플 데이터 중 “슈퍼스토어 매출”을 시각화한 예시입니다.
분석하고자 하는 항목을 화면에서 선택하면 그 내용에 따라 그래프가 자동 생성됩니다.
BI 도구는 고속의 집계 엔진을 내장해 수백만 레코드 정도의 스몰 데이터라면 순식간에 그래프를 그려줍니다.
BI 도구로 읽어 들일 정보를 늘림으로써 시각화할 수 있는 범위가 넓어집니다.
다음 그림은 상품의 카테고리를 색상, 상품의 판매 금액을 크기로 추가한 예시입니다.
모니터링의 기본 전략 및 BI 도구 - 정기적인 보고서에 의한 변화 파악과 재집계
데이터 모니터링의 기본 전략은 정기적인 보고를 통해 중요한 변화 파악하는 것입니다.
변화 원인을 알고 싶은 경우에는 원인이 되는 데이터를 재집계를 반복하면서 자세히 살펴봅니다.
원하는 집계 결과를 위해서는 ‘시각화하기 쉬운 데이터’를 만들어야 합니다.
BI 도구는 “스스로 데이터를 살펴보기” 위한 소프트웨어입니다.
집계의 단면을 다양하게 전환하면서 원하는 정보 탐색를 찾아낼 수 있습니다!
수작업과 자동화해야 할 것의 경계 판별하기
위에서 생성한 월간 수입 지출 보고서를 BI 도구로 작성한다면 어떻게 될까요?
숫자를 정리한 데이터만 있다면 다음과 같은 화면을 만들 수 있습니다.
하지만 BI 도구도 한계가 있습니다.
베이스가 되는 데이터는 다음과 같은 형태로 존재해야하지만 이렇게 정리된 데이터는 거의 없습니다.
일자 | 대분류 | 소분류 | 금액 |
---|---|---|---|
2017/1/1 | 수입 | 점포 판매 | 59900 |
2017/1/1 | 지출 | 구입 | 17000 |
2017/1/1 | 지출 | 인건비 | 12300 |
2017/1/1 | 지출 | 기타 | 15000 |
2017/2/1 | 수입 | 점포 판매 | 59900 |
2017/2/1 | 지출 | 구입 | 17000 |
2017/2/1 | 지출 | 인건비 | 12300 |
2017/2/1 | 지출 | 기타 | 0 |
2017/3/1 | 수입 | 점포 판매 | 59900 |
2017/3/1 | 지출 | 구입 | 0 |
2017/3/1 | 지출 | 인건비 | 15000 |
2017/3/1 | 지출 | 기타 | 12300 |
제대로 설계된 데이터가 없다면, 자신의 생각과 딱 맞는 화면을 생성하기 불가능합니다.
수작업으로 할 수 있는 것은 수작업으로 해두기
대기업이라면 해당 분야의 전문가가 데이터 웨어하우스의 테이블 설계하고, 보고서 작성에 필요한 데이터를 배치 처리로 집계하며, BI 도구의 화면을 만듭니다.
하지만 전문가가 아니라면 위의 과정은 매우 어렵습니다.
자신이 알고 싶은 정보를 자신만 보고자 한다면, 외형 고려 없이 기존의 데이터를 사용해 화면 만드는 것만으로 충분합니다.
예를 들어, 월간 보고서 같이 일관성이 높다면 각 화면에서 숫자를 가져와 스프레드시트에 수동 입력 하는 것이 더 쉬습니다.
자동화하려는 경우에는 데이터 마트를 만든다
자주 업데이트 되는 데이터나 다수에 공유되는 데이터는 차례대로 자동화해 나갑니다.
시각화 바탕 되는 데이터를 SQL 또는 스크립트 사용해 생성하고 이 데이터를 BI 도구로 읽습니다.
구체적으로는 다음 방안을 생각해볼 수 있습니다.
- BI 도구에서 직접 데이터 소스에 접속
- 장점: 시스템 구성 간단
- 단점: BI 측에서 지원하지 않는 데이터 소스에는 접속 불가
- 데이터 마트 준비하고 BI 도구로부터 열기
- 장점: 어떤 테이블도 생성 가능
- 단점: 데이터 마트 설치 및 운영에 시간 소요
- 웹 방식의 BI 도구 도입하여 CSV 파일 업로드
- 장점: 스크립트로 자유롭게 데이터 가공
- 단점: 데이터 생성 및 업로드에 프로그래밍 필요
마무리하며
이번 글에서는 BI 도구와 모니터링에 대해 살펴보았습니다.
모니터링은 계획적으로 데이터 변화를 추적하는 것입니다.
대표적인 모니터링인 KPI 모니터링의 경우, 해당 지표가 행동 가능(Actionable)한 것인가의 여부를 추적합니다.
스몰데이터라면 스프레드시트만으로도 가능하지만, 보고서의 숫자를 계산해야하고 상세한 내역의 조사가 어렵다는 단점이 있습니다.
이를 해결하기 위해 BI 도구를 활용합니다.
구체적으로는 BI 도구에서 직접 데이터 소스에 접속하거나, 데이터 마트를 준비하고 BI 도구로 열거나, 웹 방식의 BI 도구를 도입하여 CSV 파일을 업로드할 수 있습니다.
이 책에서는 두번째 방법인 “데이터 마트를 준비하고 BI 도구로 열기”를 중점적으로 설명한다고 합니다!
이 글이 조금이나마 도움이 되셨으면 합니다.
감사합니다. 😀
참고 문헌
- 니시다 케이스케, 빅데이터를 지탱하는 기술, 제이펍, 2018
Comments powered by Disqus.