[AICE] 데이터 전처리
데이터 확인 : 육안 head(), tail() 통계적 특성 확인 : 수치 데이터, 수학적 특성 describe() : count(유효데이터수), mean(값평균), std(표준편차), min(최소값), 25%(1사분위값), 50%(2사분위값, 중위값), 75%(3사분위값), max(최대값) 확인 가능 (수치형 데이터만 불러옴) Table 정보 확인 : 컬럼 수, 데이터 타입 info() 결측치(missing value) 데이터분석시 좋은 성능의 AI 모델을 만들기 위해 반드시 처리해야! 0은 결측치인가? NO! 1. 실무자의 견해가 많이 반영되는 단계 2. 시간이 많이 투자되어야 함 3. 결측치를 제거하는 것은 가장 쉽게 처리할 수 있지만, 막대한 데이터 손실 동반 4. 단순 대체할 경우, 데이터에 편..
2023. 9. 17.
[AICE] Matplotlib 활용
plt.figure() : 시각화 그림을 푯기할 영역 지정 plt.plot() : 시각화 차트 및 값 지정 plt.show() : 시각화 출력 plt.plot() : 선 그래프 - 시간따른 변화 plt.scatter(x, y) : 산점도 - 두 값 간의 상관관계 plt.hist() : 히스토그램 - 수치형 데이터 분포(빈도, 빈도밀도, 확률 등) plt.hist(df["col명"], bins="빈도") plt.boxplt(x) : 박스 그래프 - 수치적 자료(최소값, 제 1사분위값, 제 2사분위값, 제 3사분위값, 최대값) df.boxplot(by="group화 할 값" , column="박스 그래프로 나타낼 값") plt.bar(x, height) : 범주형 데이터의 수치 요약(일반적으로 가로, 세로,..
2023. 9. 15.