[2과목] 데이터 분석 기획
1. 데이터 분석 기획의 이해
분석 기획
분석기획: 과제를 정의하고, 의도하는 결과를 도출할 수 있도록 적절하게 관리하는 방법을 사전에 계획하는 일련의 작업
분석과제를 직접 수행하는 것은 아니지만, 어떠한 목표(what)를 달성하기 위해(why), 어떠한 데이터를 가지고 어떤한 방식으로 수행할지(how)에 대한 일련의 계획 수립하는 것
분석기획을 위해서는 해당 문제 영역에 대한 전문성, 수학/통계학적 지식, 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가져야 함
분석 대상과 방법
분석의 대상과 분석의 방법에 따라 4가지로 나눌 수 있음
- Optimiztion: 분석의 대상 o, 분석의 방법 o
- Insight: 분석의 대상 x, 분석의 방법 o
- Solution: 분석의 대상 o, 분석의 방법 x
- Discovery: 분석의 대상 x, 분석의 방법 x
목표 시점 별 분석 기획 방안
당면한 분석 주제의 해결 (과제단위) | 지속적 분석 문화 내재화(마스터 플랜 단위) | |
---|---|---|
1차목표 | speed&test | accuracy&deploy |
과제의 유형 | quick&win | long term view |
접근 방식 | problem solving | problem definition |
데이터 분석 방법론을 정의할 때 필요한 4가지
- 절차
- 방법
- 도구와 기법
- 템플릿과 산출물
데이터 기반 의사결정
경헙과 감에 의한 의사결정 -> 데이터 기반의 의사결정
기업의 합리적 의사결정을 막는 장애요소
- 고정 관념
- 편향된 생각
- 프레이밍 효과: 문제의 표현방식에 따라 동일한 사건임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상
방법론의 적용 업무의 특성에 따른 모델
- 폭포수 모델 (Waterfall) : 단계를 순차적으로 진행하는 방법 (기존 IT와 SW개발 방식), 문제가 발견되면 피드백 과정을 수행
- 프로토타입 모델 (Prototype): 폭포수의 단점을 보완하기 위해 점진적으로 시스템을 개발하는 방식. 고객의 요구를 완벽하게 분석하기 위해 일부분을 유선 개발하여 사용자어ㅔ게 제공한 후 성능을 평가하여 결과를 통한 개선작업을 수행하는 모델
- 나선형 모델 (Spiral): 반복을 통해 점증적으로 개발하는 방법. 처음 시도하는 프로젝트에 적용이 용이하지만 관리를 잘 못하면 복잡도가 상승
KDD(Knowledge Discovery in Databases) 분석 방법론
프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터마이닝 프로세스.
1) 데이터셋 선택 (Selection): 데이터 베이스에서 분석에 필요한 데이터를 선택한느 단계, 데이터마이닝에 필요한 목표데이터를 구성 2) 데이터 전처리 (Preprocessing): 분석 대상용 데이터 셋에 포함되어 있는 잡음, 이상치, 결측치를 식별하고 제거하거나 처리하여 데이터 셋을 정제하는 단계, 추가로 데이터가 필요한 경우 데이터 선택 프로세스 실행 3) 데이터 변환 (Transformation): 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하는 단계, 학습용 데이터와 검증용데이터로 데이터를 분리 4) 데이터 마이닝 (Data Mining): 분석목적에 맞는 데이터마이닝 기법을 선택하고 적절한 알고리즘을 적용, 필요에 따라 전처리와 변환 프로세스를 다시 실행 5) 데이터 마이닝 결과 평가 (Interpretation/Evaluation): 데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치성을 확인하는 단계
CRISP-DM (Cross Industry Standard Process for Data Mining) 분석 방법론
계층적 프로세스 모델로 4개 레벨로 구성됨
1) 단계 (Phases): 2) 일반화 태스트 (Generic Task): 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위 3) 세분화 태스크 (Specialized Tasks) 4) 프로세스 실행 (Process Instances): 데이터마이닝을 위한 구체적인 실행을 포함
예를 들어 데이터 정제라응 일반화 태스크는 범주형 데이터 정제화 연속형 데이터 정제와 같은 세분화 태스크로 구성됨
CRISP-DM의 프로세스
단방향이 아니라 단계간 피드백을 통해 단계별 완성도를 높이게 되어 있음
- 업무이해: 비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하는 단계 ex) 업무 목적 파악, 상황 파악, 데이터마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해: 데이터를 수집하고 데이터 속성을 이해하는 단계, 데이터에서 인사이트 발견 ex) 데이터 수집, 데이너 분석, 데이터 품질 확인, 데이터 탐색
- 데이터 준비: 분석 기술에 적합한 데이터를 편성하는 단계 ex) 분석용 데이터 셋 선택, 데이터 정제, 데이터 통합, 분석용 데이터 선택
- 모델링: 알고리즘을 선택하고 파라미털르 최적화하는 단계, 과적합 문제를 확인 ex) 모델링 기법 선택, 모델 작성, 모델 평가
- 평가: 모델링 결과가 프로젝트 목적에 부합하는지 평가 ex) 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개: 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계, 모델의 유지보수 계획 마련 ex) 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰
빅데이터 분석 방법론
빅데이터 분석의 계층적 프로세스
1) 단계 (Phase): 프로세스 그룹을 통해 완성된 단계별 산출물이 생성됨, 각 단계는 버전관리를 해야함 2) 태스크 (Task): 각 단계는 여러 개의 태스크로 구성됨, 태스크는 단계를 구성하는 단위 활동 3) 스텝 (Step): 입력 자료, 처리 및 도구, 출력자료로 구성된 단ㅇ위 프로세스
빅데이터 분석 방법론 5단계
1) 분석기획 (planning): 2) 데이터 준비 (Preparing): 3) 데이터 분석 (Analyzing): 4) 시스템 구현 (Developing): 5) 평가 및 전개 (Lesson Learned):