CRISP-DM 가 몬데?
데이터를 체계적인 절차와 효율적인 처리로 활용하기 위해선 '데이터 분석 방법론'의 수립이 중요합니다.
데이터 분석 방법론에는 대표적으로 KDD, CRISP-DM, SEMMA 등의 분석 방법론이 있습니다.
이 중에서 CRISP-DM은 전세계에서 가장 많이 사용되는 데이터 마이닝 방법론이에요.
CRISP-DM은 다음과 같은 프로세스입니다.
특징은, 단계별 피드백을 통해 완성도를 높여가는 것 .ᐟ .ᐟ .ᐟ
아래의 패턴이 한 번만 돌아가는게 아니라, 일반적으로 3~4번 반복하며 프로젝트를 완성하게 됩니다. (물론 케바케)
Step 1. Business Understandning : 무엇이 문제인가?
데이터 분석할 때, 우리의 자세는 "엇, 왜 그러지?"
왜냐? 데이터 분석의 시작은 문제 정의 부터이므로... 근데 문제 정의가 제일 어렵지 않나요?
CRISP-DM 프로세스를 보면 문제 정의는 데이터를 파악하며 비즈니스 문제를 파악하기도 합니다.
1) 비즈니스 문제 정의
2) 데이터 분석 방향 및 목표 설정
3) 초기 가설 수립 : x이면 y이다.(여기서 x와 y는 정보입니다.)
Step 2. Data Understandning
데이터를 이해한다고? 어떻게?
데이터를 파악하기 위해,
평균, 중앙값, 분산 등과 같이 데이터를 정량적으로 요약 묘사하는 기술통계 기법이나, 추론과 예측을 기반으로 데이터를 파악하는 추론통계 기법을 사용할 수 있습니다.
쉽게 말해, 시각화나 통계량을 이용해 데이터의 패턴이나 숨겨진 속성을 파악함으로써 인사이트를 얻는 과정은 기술 통계인 것이고, 'x이면 y일 것이다.'라는 가설을 세우고 이를 검정해나가는 과정은 추론 통계인 것입니다.그럼 EDA는 기술통계, CDA는 추론통계라고 할 수 있겠죵? (EDA, CDA 간단한 설명은 바로 아래 ! ▼)
1) 원본 식별
2) 데이터 파악 : EDA & CDA
① EDA (탐색적 데이터 분석)
: 데이터 수집 > 시각화 > 패턴 파악 > 인사이트 도출
: 산점도, 상관계수, 히스토그램, 막대그래프, 상자그림, 모자이크 그래프 등
② CDA (확증적 데이터 분석) → a.k.a. 전통적 분석 기법
: 가설 설정 > 데이터 수집> 통계 분석 > 가설 검정
: 유의성 검정, 상관분석, t-test, ANOVA, 카이제곱 검정 등
Step 3. Data Preparation
여러분, 분석에서 데이터 전처리 과정이 제일 중요하다는 사실을 알고 계십니까?
전처리 작업이 제대로 되어있지 않은 데이터는 일관되지 않거나 불완전하기 때문에 (소위 지저분한 데이터인 상태) 분석 결과의 정확성과 신뢰성이 떨어지기 때문입니다. 특히 특정 모델에는 꼭 ! 처리해주어야 하는 cleaning 과정이 있는데요. 만약 하지 않는다면..? 모델 자체가 돌아가지 않기도 합니다.
데이터 분석가들은 데이터 정제 과정을 데이터 분석의 60%, 많게는 80%의 시간을 소요해야한다고도 하죠.
그러나 데이터 정제 과정은... 귀찮기도.. 어렵기도... 합니다. 특히 도메인을 기반으로 해야하기 때문에.... 어려워요. 힝
그래서 전처리가 뭐가 있냐구용? 짧게 말하면 요런 것들이 전처리 과정입니다. 분석가의 판단에 따라 적절하게 데이터가 정제되는데요. 물론 모든 과정을 매번 다 진행해야하는 것은 아닙니다. 알잘딱깔센으로~ 정제를 해줍니다.
1) 데이터 결합 : 필요한 데이터셋을 조인 혹은 요약하기
2) 결측치 처리, 이상치 처리/탐지
3) 중복 제거
4) 데이터 정규화
5) 데이터 변환 : log 변환 등 통계적 처리
6) 데이터 정렬
7) 문자형 데이터 처리
8) 그 외 더 많아요. 아주 끝도 없지.
Step 4. Modeling
데이터 정제가 완료되었다면, 이제 모델링을 진행해줍니다. 원하는 분석 방향에 따라, target의 형태에 따라 적절한 model을 선택해서 예측/분류를 진행해줍니다. Ensemble을 이용해서 여러 모델을 사용해도 좋습니다.
각 모델의 Hyper parameter tuning 을 적절하게 해주는 것이 중요한데요, 적절하게 튜닝될수록 모델의 성능이 올라갑니다.
Step 5. Evaluation
문제가 해결되었는가?
기술적인 평가와 비즈니스 관점의 평가를 거쳐, 해당 분석 절차가 문제 해결을 이끌었는지 확인합니다. 문제가 해결되지 않았다면, Step 1으로 이동해서 다시 진행해주어야 합니다. (눈물을 머금꼬...)
1) 모델의 해석 결과가 비즈니스 목표가 충족되었는가? 문제가 해결되었는가?
2) 결과의 수용 여부 판단
3) 분석 과정 평가, 모델링 과정 평가, 모델의 적용성 평가 수행
Step 6. Deployment
드디어 완성된 모델을 업무에 적용하기 위한 단계입니다. 지속적인 모델 관리와 업무 적용을 위해 철저한 계획이 수립되어야 하겠죠?
1) 전개 계획 수립, 프로젝트 보고서 작성
2) 모델 관리 및 AI 서비스 구축, 모니터링 및 유지 보수 계획 수립
뿅
'KT AIVLE SCHOOL > review' 카테고리의 다른 글
Pandas에서 결측값(NaN) 처리하기 (21) | 2023.10.30 |
---|---|
Data Scaling (데이터 스케일링) (46) | 2023.10.24 |