* 내가보려고만드는 빅데이터분석기사 정리본 ◠‿◠* 빅데이터분석기사 시험 대비용 코드 (실제 분석보다 단순화)* 데이터마님 블로그를 참고하여 작성하였습니다. 0. 순서작업형 2유형 분류 문제 풀이 순서는 아래와 같이 고정해놓음 (총 8단계)데이터 불러오기이상치 및 결측치 확인하고 변수 정리💥 결측치는 채워넣고, 이상치는 그대로 두기범주형 데이터 더미화· 라벨인코딩(LabelEncoder) - 순서형 변수· 원핫인코딩(get_dummies) - 명목형 변수· 계산량 문제만 없다면, 회귀에서 원핫인코딩이 안전데이터 분할학습평가분류모형 평가지표: MSE, RMSE, MAE, MAPE, R^2예측트리모형: RandomForestRegressor트리모형이 가장 무난하기 때문.제출1. Baseline Code8단..
빅데이터분석기사

* 내가보려고만드는 빅데이터분석기사 정리본 ◠‿◠* 빅데이터분석기사 시험 대비용 코드 (실제 분석보다 단순화)* 데이터마님 블로그를 참고하여 작성하였습니다. 저 지금 시험 이틀 전 벼락치기입니다 헉헉; 렛츠기릿 ( ੭ ・ᴗ・ )੭🔥⭐ 0. 순서작업형 2유형 분류 문제 풀이 순서는 아래와 같이 고정해놓음 (총 8단계)데이터 불러오기이상치 및 결측치 확인💥 결측치는 채워넣고, 이상치는 그대로 두기범주형 데이터 더미화 · 라벨인코딩(LabelEncoder) - 순서형 변수 · 원핫인코딩(get_dummies) - 명목형 변수· 분류모형은 뭘쓰던 상관 없음. 특히 트리기반 모형에선 더더욱 상관없음!데이터 분할학습평가분류모형 평가지표: accuracy_score, f1_score, recall_score, p..
* 내가보려고만드는 빅데이터분석기사 정리본 ◠‿◠* 데이터마님 블로그 참고하여 작성하였습니다~~1. 상관계수상관계수 종류는 크게 3가지 : 피어슨 / 스피어만 / 켄달pandas 기본 기능 corr() 안의 method 옵션에 따라 원하는 상관계수 구하기 ① 피어슨 - 두 변수 간 선형 관계 측정 * 피어슨 기본 가정: 정규분포이며, 연속형 데이터에 적합df['변수1'].corr(df['변수2']) ② 스피어만 (순위) - 두 변수 간 단조 관계** 측정 * 스피어만 기본 가정: 정규분포가 아니거나, 순위형 데이터에 적합 ** 단조 관계: 두 변수 간 변화 방향이 일관된 관계 (반드시 선형일 필요x, 두 변수가 같은 방향으로 가냐~를 보는 관계임)df['변수1'].corr(df['변수2'..