7. 데이터 준비 심화
7.1 피벗
사람이 보기 편하게 작성해놓은 데이터는 컴퓨터가 이해하기 어렵다.
그래서 태블로에 '데이터 해석기 사용' 이라는 기능이 있으며, 이 기능을 사용하면 태블로 스스로가 파악하여 어느정도 데이터를 정리하여 불러온다.
하지만 태블로가 완벽히 정리할 수는 없으므로 간단하게 정리해보자.
→ Regions 열 추가 & 합계 행, 빈 행 제거
여전히 사람이 보기 편한 데이터로 컴퓨터가 인식하기 편한 데이터의 형식이 되려면 컬럼명인 연도가 열로 와야한다. 이를 해결하기 위해서는 피벗 기능을 사용하면 된다.
→ 피벗을 원하는 열을 드래그하여 선택 후 우클릭 > 피벗
7.2 메타데이터 그리드
메타데이터 그리드는 모든 열을 분리해서 보고 정보를 얻을 수 있게 해준다.
또한 열의 이름이나 열 그 자체로 일부 작업을 해준다.
7.3 상대적 비율 비교
연도 별 각 지역의 자동차 판매량 비율을 확인해보자.
연도 별로 전체 자동차 판매량이 중요하지 않기 때문에 다음과 같이 지역 별 상대 비율을 확인할 수 있는 차트를 그리면 된다.
→ 판매량 합계 우클릭 > 테이블 계산 추가 > 계산 유형 : 구성 비율 / 테이블(아래로) 선택
7.4 지리 데이터 오류 수정
지도 그래프 우측 하단에 ‘0개의 알 수 없는 항목’이라는 것이 뜨면 지리 정보가 없는 데이터가 있다는 뜻이므로 확인하여 수정하면 된다.
(수정이 불가하면 항목을 제거하는 등 여러 방안이 있음)
태블로가 위치를 인식하지 못하는 데이터들은 직접 지정해주면 된다.
8. 클러스터, 사용자 지정 영역, 디자인 기능
8.1 과제 개요
📢 우리는 ‘WeWashUSleep’이라는 세탁물 픽업 서비스 회사에서 일하는 데이터 사이언티스트이다.
규모가 작은 회사라 큰 도시에서는 대기업들과 경쟁하기 어렵다. 그래서 회사의 전략은 작은 도시에서 광대한 네트워크를 형성하는 것이다.
우리는 이미 강한 입지를 보유한 140개의 지점이 있고, 최근에는 10개의 새로운 도시에도 지점을 개설했다. 그리고 회사에서 판매권역을 2개로 나누었다.
당신의 과제는 총 2가지이다.
1) 2개의 판매권역 중에 어디가 더 실적이 좋은지 알아내라.
→ ‘도시별 평균 수익’, ‘도시별 평균 마케팅 비용’, ‘도시별 평균 ROMI(마케팅 투자 수익 : 수익/마케팅 비용)’ 3가지 지표 중 2가지가 더 뛰어난 판매권역을 말함
2) 새로운 위치 10곳에서 마케팅 비용을 투자할만한 가치가 가장 큰 곳을 알아내라.
8.2 데이터
파일 형식이 다른 2가지의 데이터 파일을 사용한다. (크로스 데이터셋 조인할 예정)
StartupExpansion.xlsx
US-Cities-Population.csv
8.3 [과제1] 2개의 판매권역 중에 어디가 더 실적이 좋은지 알아내라.
각 판매권역 (Sales Region)에 속한 도시들의 실적을 확인하고자 한다.
태블로가 각 판매권역에 속한 도시들을 하나의 지리적 객체로 인식해서 집단화하길 원한다.
하지만, 아래의 지도는 도시 별 평균 수익을 나타내고 있다.
우리가 알고 싶은 것은 파란색 영역 (Region 1), 주황색 영역 (Region 2)에 속한 도시들의 평균 수익이다.
그렇게 하기 위해서는 태블로에서 사용자 지정 영역을 만들면 된다.
① 태블로의 그룹 기능 사용
② 지리적 역할을 활용하기
✅ ① 태블로의 그룹 기능 사용
→ Ctrl 누리고 원하는 지역을 클릭 후 옵션 선택 / 또는 우클릭 후 그룹 클릭
✅ ② 지리적 역할을 활용하기
→ Sales Region 필드 우클릭 > 지리적 역할 > 만들기 원본 > State 클릭
지도에 평균 매출액, 마케팅 비용, 마케팅 투자 수익을 기재해보자.
→ 기재하고자 하는 필드를 레이블로 드래그 후 레이블 수정하면 됨
👇 최종 시각화 결과 👇
Region 1과 2의 수치들을 한 눈에 확인할 수 있다.
▶ Region 1의 평균 수익과 마케팅 투자 수익이 Region보다 조금 높다.
8.4 [과제 2] 새로운 위치 10곳에서 마케팅 비용을 투자할만한 가치가 가장 큰 곳을 알아내라.
✅ 클러스터링
태블로에서 k-means 클러스터링 알고리즘을 활용하여 군집화를 해준다.
→ 분석 > 모델 > 클러스터링을 시트에 드래그
✅ 크로스 데이터셋 조인 : 파일 형식이 다른 데이터끼리 조인
이 회사는 사람을 상대로 서비스를 제공하기에 회사가 얻을 수 있는 영업 실적이 서비스를 이용하는 고객수에 비례한다고 할 수 있다.
한 도시에서 나오는 세탁물의 양은 그 도시 인구와 직접적인 관련이 있다.
▶ 그렇기에 도시 별 인구 통계량 데이터를 함께 확인해보자.
새롭게 추가된 인구 정보를 군집화 시 고려한 변수로 추가해보자.
태블로는 이 3개의 변수를 보면서 유사성에 따라 어떤 클러스터 그룹으로 묶을지 판단한다.
그리고 그 결과를 2차원 차트에 색상으로 표현해준다.
각 클러스터 별로 인구 수를 확인해본 결과, 클러스터 별 인구수의 차이가 있었으며 수익이 가장 낮은 주황색 클러스터의 인구수가 가장 적었다.
이를 통해 인구가 수익에 영향을 준다는 가설을 검증할 수 있다.
각 클러스터 별 추세선을 추가하여 확인해보았다.
→ 분석 > 추세선
클러스터링 | 기울기 | 분석 |
주황색 클러스터 | 0.94 | 마케팅 비용으로 1달러 투자 시 수익 94센트 (적자) |
파란색 클러스터 | 7.32 | 마케팅 비용으로 1달러 투자 시 수익 7.32달러 (흑자) |
빨간색 클러스터 | 3.17 | 마케팅 비용으로 1달러 투자 시 수익 3.17달러 (흑자) |
▶주황색 클러스터에 속한 지점들이 투자 수익이 높게 예상되기 때문에 투자할 가치가 높다.
9. pdf 파일, 공간파일 연결, 도구설명
9.1 [과제 1] 개요
📢 뉴욕 도시 공원의 안전 문제
지금 우리는 뉴욕 도시 공원에서 발생하고 있는 범죄 사건을 분석하는 지역 사회 포럼에 고용되었다.
공원을 안전하게 만들기 위한 로비 활동을 지원하기 위함이다.
사람들의 시선을 끌 수 있는 시각화 기술을 사용해서 뉴욕 도시 공원에 경찰 순찰대가 더 많이 투입되게 해야 한다.
뉴욕 경찰서에 접수된 사건들 중 2018년 1분기동안 뉴욕 도시 공원에서 발생한 범죄 사건을 분석할 수 있는 권한이 있다.
데이터를 받았지만, 데이터가 PDF서식이다.
참고 : 센트럴파크는 자료에 포함되지 않는다.
결과는 지도를 사용해서 보여줘야 하고 실제 공원 배치도와 크기, 도시 분포도가 포함되어야 한다. 또한 알맞은 툴팁과 자치구별 필터링을 사용해야 한다.
9.2 pdf 파일 연결하기
📌 데이터 : P1-nyc-park-crime-stats-q1-2018.pdf (뉴욕 도시 공원 별 범죄 현황)
PDF 파일 클릭 > 업로드 > 다른 파일 형식과 동일하게 설정 진행 (ex. ‘데이터 해석기로 정리됨’ 활용)
[+] 필요하지 않은 컬럼은 모두 제거
9.3 공간 파일에 연결하기
✅ 공간 파일 종류
Shapefiles | .shp (Shape format) .shx (Shape index format) .dbf (Attribute format) → 폴더에 적어도 이 3개의 유형은 있어야 태블로 안에서 사용할 수 있음 |
MapInfo tables | .TAB .DAT .MAP .ID → 폴더에 적어도 이 4개의 유형은 있어야 태블로 안에서 사용할 수 있음 (대체 파일 : .MID / .MIF) |
KML | .kml |
GeoJSON | .geojson |
태블로 내부에 없는 지리적 역할을 따로 사용해야 하는 경우가 있다. (ex. 학교 구역, 댐, 공원 등)
태블로에서 사용자 지정 공간 파일로 바로 연결해서 형상을 지도로 가져올 수 있는 기능을 제공한다. (위의 4개의 공간 파일만 해당됨)
✅ 공간 파일 데이터
📌 데이터 : NYC Parks and Public Spaces.shp
→ 공간 파일 클릭 > shp 파일 업로드
워크시트에 ‘기하 도형’ 필드를 드래그하면 공원 지도가 그려진다.
[+] 범죄 현황 데이터에 있는 Name311 필드를 세부정도로 드래그하면 지도 내 공원의 이름이 보여진다.
9.4 공간 파일에 결합하기
공간 파일과 pdf 데이터를 연결하고 데이터 통합 및 데이터 완성도를 살펴보자.
Join을 통해 지도에 범죄 통계 관련 추가 정보를 가져오자.
→ pdf 파일을 연결한 스키마에 공간파일 추가 연결 > inner join 설정
[+] pdf 데이터와 공간 파일 내 데이터 중 연결되지 않는 데이터가 있기에 해당 데이터들 제거
→ left join해서 연결되지 않은 데이터 확인 > 데이터 필터 편집에서 특정 데이터 추가
❗❗❗ ⛑ [Troubleshooting] join시 대문자, 소문자도 통일 필요
join이 되지 않은 이유 : join할 컬럼의 내용은 동일하나 대소문자가 다르기 때문
→ 대소문자 섞인 컬럼에 UPPER[컬럼명]으로 설정 필요
👇 최종 join된 데이터 👇
9.5 [과제 1] 최종 시각화
결과는 지도를 사용해서 보여줘야 하고 실제 공원 배치도와 크기, 도시 분포도가 포함되어야 한다.
또한 알맞은 툴팁과 자치구별 필터링을 사용해야 한다.
9.6 [과제 2] 개요
📢 뉴욕 주의 급여 분석
태블로에서 시각화 작업을 통해 뉴욕 주 내에 있는 산업들의 평균 급여를 분석해야 한다.
- 자치군별 평균 연 급여를 지도로 나타내기
- 자치군별 상위 5개 수익 산업
- 자치군별 평균 연 급여 시계열 분석
여러 시트에 그래프를 나눠서 보여주지 말고 대시보드에서도 보여주지 말아야 한다.
지도를 탐색할 때 팝업 차트를 이용해서 정보가 1개의 시트 안에 다 들어가야 한다.
📌 데이터 : P1-quarterly-census-of-employment-and-wages-annual-data-beginning-2000.csv
9.7 단계/점프라인 차트
- 둘 중에 어디에서 증가폭이 더 큰지 쉽게 알 수 있다.
- 영향이 있는 부분을 찾거나 개별적인 값을 비교할 때 유용하다.
→ 마크 > 경로 > 단계/점프라인
9.8 [과제 2] 최종 시각화
1. 자치군별 평균 연 급여를 지도로 나타내기
2. 자치군별 상위 5개 수익 산업
3. 자치군별 평균 연 급여 시계열 분석
지도를 탐색할 때 팝업 차트를 이용해서 정보가 1개의 시트 안에 다 들어가야 한다.
팝업 차트 이용하기 위해서는 도구 설명 마크를 사용하면 된다.
→ 도구 설명 > 삽입 > 시트 > 해당 시트 클릭
👇 최종 시각화 결과물 👇
💡 회고
✔ 마무리하며..
오늘은 이 강의를 다 끝내고 새로운 강의를 듣고 있을 줄 알았는데, 이 강의를 다 들으니 하루가 다 갔다..!
오늘 강의에서는 강의와는 다르게 되지 않는 부분들이 제법 있어서 헤맨다고 시간을 많이 허비했다.
그리고 위에서도 기재해두었지만 Troubleshooting도 있었다. 조원이 알려주어서 금방 해결하였는데, 이미 다른 사람들도 이걸로 꽤나 씨름했던 것 같다.
✔ 유익한 점 & 배운점
이 강의에서 좋은 점은 과제 스토리가 있으며 이에 맞춰 데이터를 시각화 및 인사이트를 도출할 수 있다는 것이다.
그룹핑을 통해서 원하는 지역의 평균 값을 알 수 있으며 클러스터링, 추세선을 통해 분석까지 할 수 있다는 사실이 새로웠다.
그리고 공간 파일이라는 개념을 처음 알게 되었으며, 이로써 다양한 공간들을 시각화할 수 있어서 굉장히 편리한 기능임을 알게 되었다.
마지막으로 '도구 설명'을 활용하여 각 지역 별 데이터를 팝업으로 확인할 수 있다는 점을 알게 되었다.
다음 태블로 강의가 있지만, 이 강의만으로도 태블로의 기능이 굉장히 다채롭고 많음을 깨달았다.
모든 기능을 내 머릿속에 넣지는 못하지만 그래도 TIL로 정리해놓은 것을 보며 태블로를 사용하면 되지 않을까 😎
▼ 내 Tableau Public ▼
송아람 - Profile | Tableau Public
송아람's Tableau Public profile. View interactive data visualizations published by this author.
public.tableau.com
'웅진X유데미 STARTERS > TIL (Today I Learned)' 카테고리의 다른 글
[스타터스 TIL] 21일차.Tableau 고수되기 (2) - 애니메이션, 세부 수준 계산 (LOD), 고급 매핑 기술 (0) | 2023.03.07 |
---|---|
[스타터스 TIL] 20일차.Tableau 고수되기 (1) -그룹, 집합, 테이블 계산, 데이터 소스 필터 (0) | 2023.03.07 |
[스타터스 TIL] 18일차.Tableau 완벽 실전 교육 (2) - 데이터 블렌딩, 대시보드, 스토리 (1) | 2023.03.02 |
[스타터스 TIL] 17일차.Tableau 완벽 실전 교육 (1) - 막대그래프, 시계열 데이터, 지도, 산점도 (0) | 2023.02.28 |
[스타터스 TIL] 16일차.데이터 드리븐 디자인씽킹 (3) (1) | 2023.02.27 |