본문 바로가기
자격증/AICE🎓

[AICE] 데이터 전처리

by 무명오리 2023. 9. 17.

데이터 확인 : 육안

head(), tail()

 

통계적 특성 확인 : 수치 데이터, 수학적 특성

describe() : count(유효데이터수), mean(값평균), std(표준편차), min(최소값), 25%(1사분위값), 50%(2사분위값, 중위값), 75%(3사분위값), max(최대값) 확인 가능 (수치형 데이터만 불러옴)

 

Table 정보 확인 : 컬럼 수, 데이터 타입

info()


결측치(missing value)

데이터분석시 좋은 성능의 AI 모델을 만들기 위해 반드시 처리해야!

 

0은 결측치인가?

NO!

 

1. 실무자의 견해가 많이 반영되는 단계

2. 시간이 많이 투자되어야 함

3. 결측치를 제거하는 것은 가장 쉽게 처리할 수 있지만, 막대한 데이터 손실 동반

4. 단순 대체할 경우, 데이터에 편향(bias)이 생길수도

 

제거하기

- listwise : 최대치의 정보손실 발생

- pairwise : 매번 샘플이 달라 분석을 비교할 수 없음  df.dropna(how="all")

 

채우기

- 값 대체하기 : 평균값/중앙값/최빈값으로 대체

- 예측하기: 상관관계, 예측모델 등으로 예측하여 대체

결측치를 정보 손실 없이 빠르게 채울 수 있지만, 모든 결측치가 동일한 값을 가질 수 있음

채워진 값에 의해 평균, 중앙값, 상관관계 등에 영향

 

df.fillna('standard') : 지정한 값으로 채우기

df.fillna(method='backfill' or 'ffill')

df.interpolate() : 같은 간격으로 채우기

df.dropna() : 결측치가 있는 레코드를 제거

 


 

(뒷부분은 날라감... 슬픔.....)

 

 

 

 

'자격증 > AICE🎓' 카테고리의 다른 글

[AICE] 딥러닝  (0) 2023.09.20
[AICE] 머신러닝  (0) 2023.09.19
[AICE] Matplotlib 활용  (0) 2023.09.15
[AICE] Pandas 이해 및 활용  (0) 2023.09.13
[AICE] AI의 이해  (0) 2023.09.07