웅진X유데미 STARTERS 69

[스타터스 TIL] 48일차.SQL 실전 트레이닝 (4) - 제품/카테고리 매출 지표 분석, ABC 분석

1. 제품/카테고리 매출 지표 분석 - 전체 제품 매출 순위 및 매출 비율 - 카테고리 별 제품 매출 순위 및 매출 비율 1) ERD로 활용할 테이블 확인 → order_details와 products의 unit_price는 다름! 왜 다른지 파악할 필요가 있음 → 어느 나라에서 온 제품인지도 파악할 수 있음 (suppliers) 2) 임시 테이블을 만들기 💡 각 테이블의 어떤 컬럼들을 사용할지 먼저 생각해보기 - orders : 주문번호, 고객번호, 주문일, 연, 월, 일, 분기 - order_details : 제품번호, 판매단가, 수량, 할인율, 매출액 - categories : 카테고리ID, 카테고리명 - products : 제품ID, 제품명, 마스터단가, 단종여부 - suppliers : 공급자I..

[스타터스 TIL] 47일차.SQL 실전 트레이닝 (3) - CTE, 윈도우 함수

1. 복잡한 데이터셋 다루기 1.1 복잡한 데이터셋을 다루기 위한 방법 개념 장점 단점 ETL 스냅샷 테이블 - 쿼리 결과를 테이블에 저장 - 예약된 시간에 백그라운드에서 실행 복잡한 로직 없이 테이블에서 원하는 쿼리 바로 실행 - 실시간 데이터 보기 어려움 - 저장 후 데이터 변경 어려움 - 엔지니어의 도움 필요 VIEW 쿼리 결과를 가상테이블로 생성하여 사용 실시간성 보장 - 데이터베이스 쓰기 권한 필요 - 유지 보수 필요 임시테이블 temporary table - 현재 세션동안 유지되는 테이블 - create, insert 구문을 통해 생성 - 복잡한 로직 없이 테이블에서 원하는 쿼리 바로 실행 - 성능 데이터베이스 쓰기권한 필요 공통테이블 표현식 CTE 쿼리 결과에 이름을 붙여 테이블처럼 사용 쿼..

[스타터스 TIL] 46일차.SQL 실전 트레이닝 (2) - 컬럼 연산자, 날짜/시간형 데이터, 다중 행 함수

1. 데이터 추출 1.1 컬럼 추출 ✔ customer 테이블의 country, city 데이터를 유니크하게 추출하고 country 오름차순, city 내림차순으로 정렬하기 SELECT DISTINCT country, city FROM customers ORDER BY country, city DESC; ✔ customer의 company_name 컬럼을 오름차순 정렬하여 상위 3개만 추출 SELECT company_name FROM customers ORDER BY company_name LIMIT 3; 1.2 컬럼 연산자 1) 산술 연산자 order_detail의 주문금액 계산하여 tot라는 컬럼으로 추가하기 SELECT * , unit_price * quantity * (1-discount) AS ..

[스타터스 TIL] 45일차.SQL 실전 트레이닝 (1) - 데이터 분석, 테이블파악

1. 데이터 분석 1.1 문제 정의 1.2 지표 설정 및 분석 계획 ✅ 분석 업무는 질문에서 시작한다. → 질문에 답하기 위한 분석 지표 설정 - 지난 달에 비해 신규 고객이 얼마나 많이 유입되었는가? - 월 별 판매 추이가 어떠한가? - 이탈 고객과 충성 고객의 패턴차이가 있는가? ✅ 질문에 답하기 위한 데이터는 어디에서 나오고 어디에 저장되는가? - 데이터 웨어하우스 (data warehouse) - 사용자의 의사결정에 도움을 주기 위하여 기간 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스를 말한다. 1.3 데이터의 종류에 따른 특성 1) 업무 데이터 - 갱신형, 정합성↑, 정확도↑, 정규화 - 기업의 비즈니스 결과로 생성된 데이터 - 마스터 데이터(정보 데이터..

[유데미 스타터스 취업 부트캠프 4기] 데이터분석/시각화(태블로) - 9주차 학습 일지

9주차 교육에 대한 회고 (4L) 이번 주는 월요일에 팀 프로젝트 마지막 준비를 하고, 화요일에는 팀 프로젝트 발표를 진행하였다. 그리고 화요일 오후부터 본격적으로 태블로 자격증 (Tableau Desktop Specialist) 공부를 시작하였다. 팀 프로젝트가 마무리되고, 다른 팀의 발표를 보는데 정말 잘했다는 생각이 들었다. 그러다 문득, 다른 팀의 대시보드를 보면서 동일하게 구현을 해보면 많은 것을 배울 수 있다는 생각이 들었다. 가장 다양한 그래프를 시각화한 팀의 대시보드를 다운받아 열심히 따라서 구현을 하고 있는데, 정말 많은 도움이 된다. 왜 이렇게 그래프를 구현했을까라는 생각이 들 때, 그 팀의 팀원에게 물어보고 새로운 것들을 배웠다. 다음 주부터 SQL이 진행되지만, 해커톤에서는 태블로를..

[스타터스 TIL] 44일차.태블로 실전 트레이닝 (20) - 태블로 자격증 공부 (Test 1, Test 2)

1. Test 1 1. In order to avoid any confusions, what should you do after creating a Dual-axis chart? → Synchronise the axis 혼란을 피하기 위해 이중 축을 만든 후에는 반드시 '축 동기화'를 해주어야 한다. 2. Data granularity refers to the level of detail for a piece of data, wherever you are looking. 데이터 세분성은 데이터에 대한 세부 수준을 나타낸다. 3. You have cleaned a data source properly, created some calculated fields and renamed some columns. Y..

[스타터스 TIL] 43일차.태블로 실전 트레이닝 (19) - 태블로 자격증 공부 (Test 4, Test 5)

1. Test 4 1. Which of the following is not a Trend Line Model? ✔ 태블로 추세선 종류 1. Linear Trend Line (선형) 2. Logarithmic Trend Line (로그) 3. Exponential Trend Line (지수) 4. Polynomial Trend Line (다항식) 5. Power Model (거듭제곱) 2. It is possible to change the Geographic Role of a dimension - 차원의 지리적 역할로 변경이 가능하다. - 지리적 역할은 필드의 각 값을 위도 및 경도 값과 연결한다. 3. Tableau can create worksheet-specific filters - 워크시트에 필..

[스타터스 TIL] 42일차.태블로 실전 트레이닝 (18) - 태블로 자격증 공부 (Test 3)

1. Test 3 (✅ 표시는 틀린 문제...🥴) 1. Creating a scatter plot requires a minimum of how many measures? → 2 Scatter plot을 만들 때 최소 2개의 measure(측정값)이 필요하다. 2. Which one of the following is a dimension? → Measure Names - Dimension : Measure Names - Measure : Number of records, Longitude, Latitude 3. Which of the following options best describe measures? → They are numeric, quantitavtive Measure : numerical..

[스타터스 TIL] 41일차.태블로 실전 트레이닝 (17) - 팀 프로젝트 발표, 태블로 자격증 공부

1. 팀 프로젝트 피드백 1.1 다른 조 - 데이터 클리닝은 70%를 차지하기 때문에 매우 중요함!!!!!!!!!!!! - 모든 대시보드가 동일한 것이 실무에서는 많이 사용되긴 하지만 여기서는 대시보드를 다양하게 만드는 것이 좋음 - LOD 식을 간단하게 피피티에 넣기 + 식을 하나씩 짚어주며 발표하기 - ex. 어떤 차원을 고정하여 어떠한 식으로 고정하였습니다. - 표준화 정의 가장 중요함! - 왜 내가 이것을 기준으로 삼았는지, 왜 이 숫자가 대시보드에 있는지 설명 필요 - 카테고리 전체는 넣는 것이 좋음 - Score를 산정한다면 Score Model을 꼭 말해줘야 함! - 워터폴 차트 잘 쓴 듯함 - 이중축은 최대한 지양하기 - 타임라인 형식이면 써도 되지만 카테고리 형식이면 안 쓰는 것이 좋음 ..

[스타터스 TIL] 40일차.태블로 실전 트레이닝 (16) - 팀 프로젝트

1. 팀 프로젝트 대시보드 준비 1.1 앱 리스트 구성 App Rank Category/Genres Ratings Reviews Day_diff 최종 Score 1.2 업데이트 경과일 현 시점에서 최근 업데이트 날짜를 뺀 기간을 나타내었다. 1) 기준 날짜 설정 - 대시보드를 만든 시점의 날짜 설정 : 2018-10-01 → 2018년 8월이 데이터의 마지막 날이므로 해당 날짜 이후의 날짜로 설정함 2) 기준 날짜 필드 만들기 그 전에 Last Updated 필드의 타입을 ‘날짜’로 변경하기 // 기준 Date DATE('2018-10-01') 3) 경과일 구하기 (days) 현 시점 (기준 날짜, 2018-10-01)을 기준으로 최근 업데이트한 날짜까지의 기간을 확인 // Day_diff DATEDIF..