데이터 확인 : 육안
head(), tail()
통계적 특성 확인 : 수치 데이터, 수학적 특성
describe() : count(유효데이터수), mean(값평균), std(표준편차), min(최소값), 25%(1사분위값), 50%(2사분위값, 중위값), 75%(3사분위값), max(최대값) 확인 가능 (수치형 데이터만 불러옴)
Table 정보 확인 : 컬럼 수, 데이터 타입
info()
결측치(missing value)
데이터분석시 좋은 성능의 AI 모델을 만들기 위해 반드시 처리해야!
0은 결측치인가?
NO!
1. 실무자의 견해가 많이 반영되는 단계
2. 시간이 많이 투자되어야 함
3. 결측치를 제거하는 것은 가장 쉽게 처리할 수 있지만, 막대한 데이터 손실 동반
4. 단순 대체할 경우, 데이터에 편향(bias)이 생길수도
제거하기
- listwise : 최대치의 정보손실 발생
- pairwise : 매번 샘플이 달라 분석을 비교할 수 없음 df.dropna(how="all")
채우기
- 값 대체하기 : 평균값/중앙값/최빈값으로 대체
- 예측하기: 상관관계, 예측모델 등으로 예측하여 대체
결측치를 정보 손실 없이 빠르게 채울 수 있지만, 모든 결측치가 동일한 값을 가질 수 있음
채워진 값에 의해 평균, 중앙값, 상관관계 등에 영향
df.fillna('standard') : 지정한 값으로 채우기
df.fillna(method='backfill' or 'ffill')
df.interpolate() : 같은 간격으로 채우기
df.dropna() : 결측치가 있는 레코드를 제거
(뒷부분은 날라감... 슬픔.....)
'자격증 > AICE🎓' 카테고리의 다른 글
[AICE] 딥러닝 (0) | 2023.09.20 |
---|---|
[AICE] 머신러닝 (0) | 2023.09.19 |
[AICE] Matplotlib 활용 (0) | 2023.09.15 |
[AICE] Pandas 이해 및 활용 (0) | 2023.09.13 |
[AICE] AI의 이해 (0) | 2023.09.07 |