KT AIVLE SCHOOL/review

결측값 - 데이터셋에서 값이 누락된 항목 - 판다스에서는 결측값을 NaN (Not a Number)으로 표현함 - 다른 표현으로는, Null, NA, None 등이 있음 - 처리 방법 : 결측치 제거 / 결측치 대체 / 결측치 표시 결측치 확인 isnull() / isna() : 결측치 위치 확인 df.isnull() #위치 확인 df[df.isnull()] #셀 값 확인 df.isnull().sum() #개수 확인 notnull() / notna() : 결측치 아닌 위치 확인 df.notnull() #위치 확인 df[df.notnull()] #셀 값 확인 df.notnull().sum() #개수 확인 1. 결측치 제거 결측치가 너무 너무 많다 ? → 변수 삭제 (axis=1) df.dropna() #결..
Data Scaling? 데이터 스케일링은 "데이터의 범위를 조정하는 방법" 입니다. feature을 대상으로 진행하기 때문에, feature scaling이라고 부르기도 해요. (일반적으로 target에는 scaling을 적용하지 않기 때문) 데이터 스케일링은 다양한 크기와 범위의 feature를 비슷한 수준으로 맞추어 모델의 성능을 향상시키기 위해 사용합니다. 특히 거리 기반 또는 기울기 기반의 알고리즘에서 데이터 포인트 간 거리나 기울기를 계산해야 하므로, 모든 feature간 동일한 scale을 맞추어 주는 것이 중요합니다. 이럴 때 쓰면 좋다-! • k-NN : 데이터 포인트와 가장 가까운 k개의 이웃을 찾을 때, feature간 scale 차이가 크면 거리 계산에 왜곡 발생. • k-Means..
CRISP-DM 가 몬데? 데이터를 체계적인 절차와 효율적인 처리로 활용하기 위해선 '데이터 분석 방법론'의 수립이 중요합니다. 데이터 분석 방법론에는 대표적으로 KDD, CRISP-DM, SEMMA 등의 분석 방법론이 있습니다. 이 중에서 CRISP-DM은 전세계에서 가장 많이 사용되는 데이터 마이닝 방법론이에요. CRISP-DM은 다음과 같은 프로세스입니다. 특징은, 단계별 피드백을 통해 완성도를 높여가는 것 .ᐟ .ᐟ .ᐟ 아래의 패턴이 한 번만 돌아가는게 아니라, 일반적으로 3~4번 반복하며 프로젝트를 완성하게 됩니다. (물론 케바케) Step 1. Business Understandning : 무엇이 문제인가? 데이터 분석할 때, 우리의 자세는 "엇, 왜 그러지?" 왜냐? 데이터 분석의 시작은 ..
하웅이
'KT AIVLE SCHOOL/review' 카테고리의 글 목록