ilovechoonsik
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 9주차 학습 일지 본문

1. 이번 주에 어떤 것을 배웠나요? 겪은 시행착오/어려운 점은?
1.1 프로젝트 발표
📌 1번 대시보드

GooglePlayStore의 전반적인 현황 파악!
1. 카테고리 별 Install 수
: 설치 횟수가 많은 카테고리를 파악할 수 있다. Install 수로 해당 카테고리의 시장 규모를 파악할 수 있다.
2. 전체 앱들의 Rating 분포
: 플레이 스토어에 존재하는 모든 앱들의 Rating 분포를 확인할 수 있다.
: 기존 플레이 스토어에 존재하는 앱들에 대한 사용자들의 전반적인 평가를 확인하는 것으로 평가 목표치를 설정할 수 있다.
3. 전체 앱 Paid vs Free 비율
: 플레이 스토어에 존재하는 모든 앱들의 Paid, Free 비율을 확인할 수 있다. - 시장 진입 시 유료화 여부 고려에 도움을 준다.
4. Content Rating 별 평균 다운로드 수 & 앱 개수
: 이용 연령 등급 별 다운로드 수와 앱 개수를 확인할 수 있다. 어느 연령대의 고객들이 많으며, 평균 다운로드 수(수요)에 대해 앱 개수(공급)가 얼마나 되는지 알 수 있다.
5. 카테고리 별 Sentiment 비율
: 카테고리 별로 유저의 반응 수, 긍/부정 반응 비율을 확인할 수 있다. → 리뷰 수가 많으며 긍정적인 리뷰가 많은 긍정적인 카테고리 시장으로 진입을 고려할 수 있다.
📌 2번 대시보드

1. 앱 개수 및 설치 횟수
: 카테고리별 앱의 개수와, 앱의 설치 횟수를 시각적으로 표현하였다. 이를 통하여 수요와 공급의 현황을 파악할 수 있다.
2. 어플 당 평균 설치횟수
: 카테고리별 앱의 전체 설치 횟수에서 앱의 개수를 나눈 값이다. 앱 하나당 평균적으로 어느 정도의 고객을 수용하는지 볼 수 있으며, 시장의 포화도를 직관적으로 볼 수 있다.
3. 최근 업데이트 후 경과일
: 카테고리별 최근 업데이트부터 지금까지의 경과일 중앙값을 볼 수 있다. 관심 분류가 지속적으로 서비스 업데이트를 진행해야 하는 환경인지, 아닌지를 판별해 배포자의 개발역량에 맞춰 2차 창작 매개체를 선정할 수 있다.
수식
현시점 - 최근 업데이트 날짜 (기간)
1) 기준 날짜 설정
- 대시보드를 만든 시점의 날짜 설정 : 2018-10-01
- → 2018년 8월이 데이터의 마지막 날이므로 해당 날짜 이후의 날짜로 설정함
- 기준 날짜 필드 만들기
- 그 전에 Last Updated 필드의 타입을 ‘날짜’로 변경하기
// 기준 Date DATE('2018-10-01')
2) 기간 구하기 (days)
- 현 시점 (기준 날짜, 2018-10-01)을 기준으로 최근 업데이트한 날짜까지의 기간을 확인
- 필드 만들기
// Day_diff
DATEDIFF('day',[Last Updated], [기준 Date])
4. 워드클라우드
: 현재 보고 있는 카테고리가 어떤 특성을 지니고 있는지 키워드를 통해 확인할 수 있다. 자신이 다룰 1차 창작물의 특성을 어떤 장르와 카테고리가 잘 담을 수 있을지 판단하는 과정에서 활용된다.
📌 3번 대시보드

1. 앱 개수
: 중반 리스트에서, 점수가 70점 이상인 애플리케이션이 몇 개인지 나타내는 지표이다. 벤치마킹할 어플의 개수이자, 동시에 경쟁사의 개수로 생각할 수 있다.
2. Median Rating
: 선택한 카테고리 혹은 장르의 평점 중앙값을 노출한다.
3. Type별 비율
: 카테고리 혹은 장르의 앱 중 유료앱이 어느 정도 되는지 알 수 있다.
4. Content Rating별 비율
: 해당 카테고리 혹은 장르가 어떤 연령대를 기준으로 보통 서비스되는지 알 수 있다.
5. 리스트
: 카테고리, 장르 별 앱을 자체적으로 산정한 점수 기준에 따라 나타냈다. 점수 기준 70점 이상인 애플리케이션이 벤치마킹으로 추천하는 어플로 순위가 매겨진 채 노출된다.
(점수 산정 기준: 리뷰 점수에 비례, 최근 업데이트 후 경과일에 반비례. 리뷰 개수 최소치로 고려.)
수식
최종 Score
- Score 필드 만들기
- 고려사항 : Rating(평점), Day_diff(기간), Reviews (리뷰수)
- 평점과 리뷰 갯수가 높고 많을 수록, 업데이트 경과일이 짧을수록 Score ↑
// Scores
IIF(NOT ISNULL(MAX([Rating])),
(MAX([Rating]) / MAX([Day_diff]) + (MAX([Reviews]) / 50000000000)) * 1000
, 0)
6. 참고할 앱의 Sentiment
: 리스트에 있는 앱들의 Sentiment를 탐색할 수 있도록 하였다. 리스트 내부 앱들의 판단기준을 보조할 수 있다.
: 또한 좌측의 파이 차트에서 Sentiment의 비율을 나타냄으로써 현재 서비스되고 있는 앱들에 대한 전반적인 평가를 알 수 있다.
📌 PPT














1.2 피드백 (종합)
(1) 아이디어 및 스토리 + 발표
📌 무료 → 유료 전환 프로젝트 좋았다~
📌 목표는 좋고 신박, 근데 모르고 봤으면 이해가 안 갔을 듯! 정확히 뭐를 하는지 의뢰인지, 넘겨주는 건지 현황목표에서 조금 더 명확히 언급할 필요가 있음! ex) 저희는 -다 그래서 이렇게 상황을 설정했다를 강조
📌 대시보드 개요에서 ~게 보여줬다! 고 딱딱 짚고 넘어가는 게 좋다~ 막대그래프로 뭐 이렇게 저렇게 했다 길게 늘어뜨리는 건 좋지 않음
📌 실무에서는 동일한 대시보드 사용하는 경우가 있지만 해커톤에서는 다양하게 보여주는 게 메리트 있을 거 같다!
📌 앱 리스트 설명할 때 사진 넣은 거 괜찮았다!, 근데 설치 기준 설명이 미흡
📌 PPT는 정갈하게 만들고 대시보드는 칙칙하지 않게 만들기
(2) 수식
📌 스코어를 짤 거면 Score Model 넣으면 좋다! 때에 따라 다르긴 한데 복잡한 경우 무조건 넣는 게 좋다
📌 LOD 식을 넣었을 때는, 간결하게 사용하고 설명할 때, 어디 차원을 고정했고 이런 식으로 디테일하게 들어가기
📌 경과일 좋았음, 토큰화 stopwords 중요스코어 수식 이해 어려움, 수식 괄호가 많을 경우 수식 하나하나 짚어가며 설명 시연 좋음
📌 수식 설명할 때 사진은 별로~ 직접 작성해서 쓰기!
📌 나누기 되어 있으면 보기 힘들 수 있다~ 이거 함수 만드는 프로그램? 사용해서 깔끔하게 만들기
(3) 그래프 및 대시보드 디테일
📌 Ratio 사용 시 → 레이블 꼭 넣기
📌 영어 이해 못 할 수도 정확히 설명 그냥 한국어로 !, 대시보드 2 상단 그래프 지저분함 게임 필드명 가려짐
📌 이중 축 사용 추천하지 않음! 범위가 너무 다름 특히 열 VLOD 가 카테고리일 경우 더 그렇다! 아래가 카테고리인데 라인? 요건 좀…
📌 엑셀로 EXPORT 되는 거 버튼 너무 좋다
📌 리스트 대시보드 같은 경우에는 전체를 넣는 게 좋을 거 같다!
📌 영어 뻔한 거 말고는 많이 쓰지 말기!
📌 대시보드에서 타입이 뭐고 색이 뭔지 설명하는 부분이 있었는데, 이건 실무를 진행해야 하는 실무진 분들께 설명할 때 사용!
📌 그래프에 필드 값 크기 적당하게 조절하기!
📌Scatter plot은 마크 크기 고려하기!
1.3 Tableau Desktop Specialist
(1) 태블로 자격증 종류
1. 태블로 데스크탑 스페셜리스트 : 비교적 난이도 쉬움, 기간 x
2. 태블로 데이터 애널리스트 : 난이도 어려움, 2년 기간에 250불
(2) 시험 형식
전부 이론, 45개 문제, 객관식, 60분
보안 프로그램이 버벅거릴 수 있는데, 채점자에게 더 달라고 요구할 수 있다.
(3) 문제 유형
1. 데이터 준비 25% - JOIN-Realation Ship 차이 설명해라~
2. 데이터 탐색 및 분석 35% - 어떤 차트 만들 때 차원 몇 개 필요하냐~
3. 인사이트 공유 25%
4. 태블로 개념 및 이론 이해 15%
실무에 유용한 게 2
많이 틀리는 게 1,4 → 암기 위주! tds 파일 왜 쓰는지 등
1.4 Tableau Desktop Specialist 기출 간단 정리
Domain 1 : Connecting to and Preparing Data
1. 태블로 파일은 어디서 찾을 수 있고 저장되는지!
Documents - My Tableau Repository - Shape
2. 추출을 해서 좋은 점?
support laged data sets
help improve performance
support additional functionality??? - 추출을 하지 않으면? count distinct가 안 된다~ 거의 출제 안 되기는 함
provide offline access to your data set - 오프라인에서도 사용 가능!
3. 추출은 두 가지
tds, tdsx 들이 왜 사용되는지? 장점?
atds, tdsx는 groups, sets, calculated fields, bins, number formats and sort order 등이 저장되지만? 만들어 놓은 시각화는 전부 사라짐!
그럼 언제 사용할까? : 식들만 공유하고 싶을 때
조건 : 데이터 셋을 첨부시키지 않는 통합된 패키지 파일이 아님.
내가 x에게 넘긴다? 그럼 x가 데이터 셋이 있거나 cloud에 접속할 수 있어야 하고
DB에서 데이터 끌어올 수 있는 권한 즉, ACCESS가 있어야 함!
4. twb, twbx?
내 시각화 공유하고 싶을 때 twb, twbx 보내면 댐
베스트는? 당연 twbx
tds가 좋은 건 시각화 공유 안 하고 식들만 공유할 수 있는 거
5. JOIN VS Relationship (블렌딩은?)
주황색으로 연결되는 게 JOIN이 아님
JOIN : merge 되는 새로운 데이터 셋이 생성
→ 집계 전 테이블 창조
→ JOIN은 MAX 32개까지 가능
Relationship : 계약 관계!
→ LOD를 지키고 필요할 때만 끌어오는 것
→ LOD는 JOIN 시 행이 여러 개 더 생김으로 결과가 달라질 수 있음
→ 내가 이 친구를 연결하고 싶을 때만 필드 명 동일한 거 찾아서 끌어오는 것
Relationships : dynamic, flexible, noodels라고 불림
6. Add Joins and unions
JOIN : Column이 증가
UNOIN : Row가 증가
→ UNION 조건 : Column 이름이 같아야 한다
7. Creating Blends
: LEFT JOIN과 동일하기 때문에 → Primary, Secondary가 중요하다!
Primary-Secondary가 중요한 JOIN은 OUTER
화살표 표시 - 프라이머리, 세컨더리 - 주황
링크 주황색 - 링크가 되어 있다는 뜻
필요 없으면 끌 수 있음
8. Rename a data field
시험 때는 태블로 킬 수 없기 때문에 순서, 작동되는 간단한 것들 써 놓는 거 좋음
특히 필드 이름 바꾸는 부분은 출제 빈도 수가 높다
(1) 데이터 원본에서 더블클릭해서 필드 이름 변경 double click the filed
(2) 아래 클릭하고 이름 바꾸기
(3) 시트에서 이름 바꾸기 → 엑셀 시트에서 실제로 바뀌지는 않음



9. Assign an alias to a data value
별칭은 무조건 차원에서만 만들 수 있다! measure에서 절대 만들 수 없음
만드는 두 가지 방법
(1) 왼쪽 탭에서 우클릭 - 별칭 편집
(2) 드래그 - 드롭되어 있는 차원 우 클릭 후 별칭 편집


10. Dimension and measure
(1) numeric → measure
(2) qualitabtive data → dimension
(3) measure에서 dimension 바꿀 수 있나? 가능!
- LOD에 영향을 줄 수 있는 건? 오직 Dimension
- discrete filed는 파랑! → 드래그 드롭 하면? header


Domain 2: Exploring and Analyzing Data
1. Create a line chart
- date - discrete에는 week number가 없다!
- date default chart = line chart
2. Create a scatterplot
- 원하는 차원을 세부사항에 넣어서 세분화할 수 있다! 쪼개기 가능
- 트렌드 라인 추가 가능
3. Create a dual axis chart / Create a combined axis chart
- dual axis chart / combined axis chart 차이?
dual aixs는 그냥 이중축, combined axis는 막대사탕 차트 같이 모양 바꿔서 결합하는 거!
근데 같냐고 물어보면? 같다~
- 자주 하는 실수 : 1. 축 동기화를 하지 않아 숫자 실수, 2. 이해를 어렵게 만듦
4. Create a map using geographic data
- filed 맵, symbol 맵 차이? 차이는 크기가 있냐 없냐 차이!
- symbol 맵은 size, color 같이 있을 수 있고
- 그냥 맵은 color로만 조정할 수 있다!
- geocoding?
실무에서 쓰는 데이터는 더러운 경우가 있다 → 어디선 서울, 서울특별시
그래서 때에 따라 위경도 수동 타이핑, 클릭해서 맞추는 법 있다.
한국 데이터를 갖고 있는데 언어가 영어면 미국으로 지역이 설정되는 경우가 있다. → Edit Location으로 맞춰줄 수 있다.
5. Organize dimensions into a hierarchy : 계층화의 장점
- 정렬해서 보기 편하다
- 쉽게 추가 제거할 수 있다.
- 계층이 맵에 줄 수 있는 장점! → city, state 등이 겹쳐서 ambiguous라고 나오는 경우가 있다! → 계층을 설정해 주면 자동으로 인식을 해서 이 문제를 해결해 줄 수 있다
6. Add a filter to the view
- 필터는 디폴트로 해당 시트에만 영향을 줌
- date filter는 원하는 연도만 선택 가능
- 모든 필터는 원래 independent 하다! 그렇지만 컨택스트 필터가 추가되면 나머지는 dependent!!!
7. Sorting and manual sort : 정렬하는 방법을 고르라는 문제가 나올 수 있음
- 위 메뉴 바에 asc, desc 버튼
- 그래프의 경우 header 옆에 버튼
- dimeansion 우 클릭 후 sort에서 조절
- manual sort는 다른 sort에 의해 변하지 않는다.
8. histogram
- 분포를 확인하기 위해 사용
- only need 1 measure to create a histogram
9. Trend lines offer 5 options!! 외우기
a. linear
b. logarithmic
c. expotential
d. polynomial
e. Power
10. reference lines 3 options 외우기
a. table
b. pane
c. cell
Domain 3 : Sharing Insights
1. Viz animation (2020.1에 생김)
a. format - animation
b. workbook default - 모두 적용 가능
c. separte sheet 따로 적용 가능
d. simultaneous animation - default! 실플하고 빠르다
e. sequential animation - 콤플렉스 차트를 스텝바이 스텝으로 보여주고 싶을 때, 오래 걸림
f. Unsupported browser and features - 무조건 외우기
- 인터넷 익스플로어 뺀 나머지 모든 웹브라우저에서 작동함!!!!!!!!
- map, polygon, and density marks in web browser!!! - 얘네는 웹 브라우저에서만 작동 안 함
- 1,2번이 가장 중요
2. 대시보드 레이아웃
- Tiled, Floating
a. 필터나 카테고리를 위에 줄이 두 개가 있는 곳을 잡고 웁직임
b. 대시보드 레이아웃을 디바이스를 이용해서 바꾸기
1 디폴트 레이아웃이 좋음 왜냐하면 디바이스를 정하는 순간 어느 디바이스에서도 설정한 레이아웃으로 보임
2 Size phone에서는 fit width 사용을 추천함
c. Fixed size, range, automatic 배치
2. 대시보드 액션
a. Hover, menu, select
b. Go to URL! (Hyperlink 삽입)
3. Creating Story
a. a story is a sequence of visualizations that work together to convey information
b. 하나의 스토리에는 하나의 시트 or 대시보드만 가능
c. Each individual sheet in a story is called a story point
Domain 4: Tableau Server
1. Tableau Online
a. 돈 내고 만들 수 있는 서버! 회사가 돈 내고 사는 private한 공간
장점 : 데이터 소스 관리자를 1명 두고 편하게 관리할 수 있다. → 데이터 뽑아서 올리면 연결된 모든 대시보드 데이터 바뀜
a. 데이터 소스 관리 및 작업자 관리 유용
b. DB 데이터 관리 유용 데이터 변경 유용
2. 파일 형식 *
twb - 통합문서 : 통합문서가 공유할 수 있게 다운로드가 되는 것 → 시각화 있고 데이터가 없다
→ 데이터가 밑에 다 blank 처리되어 있다 (껍데기만 존재)
twbx - 패키지 통합문서 → 데이터와 시각화 전부 추출해 오는 것
1-둘 다 똑같은 csv 파일이 있고, 권한이 있다면? 데이터 파일만 연결하면 되기 때문에 twb 나쁘지 않다
2-모든 컬럼이 같다는 전재하에 twb 낫밷
3-태블로 공식 뭐시기 에서는 무조건 twbx를 선호
tde, hyper - 추출 : hyper가 더 큰 추출 만들고, 빠른 추출 가능
→ 두 개 기능 똑같다! tde 특정 버전에서 업그레이드된 게 hyper
우측 사진에서 보이는 추출!
추출했을 때, 내 컴퓨터에 로컬하게 저장되는 게 tde, hyper
연결-추출로 바꾸고 시트 누르면 저장하라고 나오는 형식
추가로
추출 사용에 체크되어 있다면? 이미 tde or hyper가 있는 거

tds - 실제 데이터가 아니라 우리가 만든 계산된 필드, 그룹, 속성 변경 등이 그대로 저장이 된다!
→ 데이터 원본 파일이 붙어있지 않음, 때문에 동일한 파일이 있어야 함.
→ 시각화는 제외됨으로 이미 정제가 된 식, 속성, 그룹을 갖고 팀이 전부 다른 시각화 하고 싶을 때 사용!
tdsx - (tds + hyper, tde)
→ tds를 포함할까요? 문제 나올 수 있는데, 맞다! tds의 모든 걸 포함
→ 데이터는 포함되어 있지만 시각화는 사라져 있다.
→ 둘의 차이는 원본 데이터 파일이 있고 없고 (hyper, tde 포함 여부)
tde, hyper 동일한 데이터로 여러 개 만들 수 있는지?
→ 이름만 바꾸면 만들 수 있다.
data > 연결된 데이터 > Add to Saved Data Sources
배운 점 요약 및 시행착오/어려운 점
📌 프로젝트
지난주에 작성한 레이아웃을 토대로 대시보드 + PPT까지 제작을 완료했다 데이터 부족 + 도전적인 주제로 걱정이 컸는데, 능력 있는 팀원분들 덕분에 괜찮은 아웃풋이 나온 거 같고 대단히 감사했다!!🥰 그리고 많은 대시보드를 접하고 피드백받으며 목적에 따라 사용하면 좋을 대시보드 레이아웃과 디자인을 배울 수 있어서 유익했다!
아쉬웠던 점은 대시보드 1번에서 연령 등급 별 Installs 상위 카테고리 TOP 5를 꽉 찬 바 차트/구성 비율로 구현하는데 실패했다는 점, 또 모든 기능이 차원 필터를 기반으로 제작되었기 때문에 뒤늦게 수식을 추가하며 기능을 추가하기 어려웠던 점이다..
이런 아쉬웠던 점을 기반으로 내게 부족한 점을 파악할 수 있었는데, 빠르게 수식을 만드는 능력이 부족하고 강화해야 한다는 점 + 시간적인 압박이 존재하는 프로젝트에서는 초장에 기반을 잘 다져야 하며 모든 부분을 꼼꼼하게 기록하며 수행해야 한다는 점이다!!!🐿️
📌 태블로 자격증
처음 자격증을 공부하며, 태블로에서 당연하게 여기고 사용했던 모든 기능들을 텍스트로 마주하니 느낌이 색달랐다. 같은 기능인데 다양한 위치에서 사용할 수 있는 녀석들, 어려운 개념 등등 헷갈리는 것들을 머릿속에 딱딱한 텍스트로 이해하고 집어넣는데 어려움이 있었고 시간이 생각보다 오래 걸렸다ㅠㅠ 그래도 이론적인 기반을 다지고 가면 좋겠다고 생각했었는데 이번에 자격증을 공부하며 이 부분을 해소할 수 있어서 좋았다ㅎㅎ 딱 한 가지 큰 문제가 있었다면 금주에 시험에 응시하지 못했다는 사실이다! 주말에 시험 신청하면서 내 여권을 펼쳐봤는데 만료일이 쓱 지나 있었다.. 사전에 철저히 알아보고 준비했어야 했는데 그러지 못한 스스로가 너무 한심해져서 벙쪄있다 여권 재발급을 신청했다. 여권아 다음 주까지 꼭 나와줘야 해😭
차주는 SQL을 배우는 시간이지만 준비했던 태블로 관련 내용들을 잊어버리지 않게 틈틈이 복습해야겠다!
2. 앞으로 적용해야겠다고 느낀 점이 있다면 무엇이고, 어떻게 해보면 좋을까요?
2.1 프로젝트 수행 시 고려할 사항들
1. 데이터 확인, 컬럼 이해 100% 해야 하고 어떤 게 조인할 수 있는 컬럼들 인지 확인, 메인 테이블도 확인
2. 테이블 조인 맵 만들기 (조인 컬럼 다 쓰기, 무슨 조인 쓰는지) -> 실수 절대 금지, 미리 where 절 등등
3. Join 후 행 개수 확인 필수
4. 태블로에 import
- 옵션 1: SQL 조인 테이블 엑셀 x CSV 변환 후 가져오기
- 옵션 2: 관계 설정
5. 추출 단계 (추출 후 시트로 넘어가기)
- 간단한 건 데이터 원본 필터 걸기 -> 엑셀에 기입
- .hyper 파일 이름, 날짜 제목에 적고 (조원 이름 적어도 됨)
- location 설정 필수
- 위 3개를 꼭 엑셀에 모두 기입
6. 데이터 검증 단계 -> 행, 컬럼, 별칭, 계층 모두 확인
7. 데이터 시각화
3. 현재까지의 학습 평가 및 다음 학습을 위한 다짐/목표를 공유해 주세요.
3.1 학습 평가
📌 태블로 수식 작성 능력 및 목적에 맞는 적절한 차트 구현 능력 부족📊
📌 발표 능력 부족 🗣️
3.2 다짐 및 목표
🔥 캐글 데이터로 SQL+태블로 사이드 프로젝트 진행🐹
🔥 진행한 프로젝트 발표 연습🐿️
🔥 자격증 취득🎖️
#유데미, #유데미코리아, #유데미부트캠프, #취업부트캠프, #부트캠프후기, #스타터스부트캠프, #데이터시각화 #데이터분석 #태블로
'STARTERS 4기 🚉 > 학습일지 😛' 카테고리의 다른 글
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 11주차 학습 일지 (0) | 2023.04.23 |
---|---|
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 10주차 학습 일지 (0) | 2023.04.16 |
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 8주차 학습 일지 (0) | 2023.04.02 |
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 7주차 학습 일지 (0) | 2023.03.26 |
유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 6주차 학습 일지 (0) | 2023.03.19 |