DeseoDeSeo
[Machine Learning] 탐색적 데이터 분석, 모델링 본문
탐색적 데이터 분석
(Exploratory Data Analysis , EDA)
: 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정
ex)
▽ a컬럼 int 데이터 , 0/1
▽ b컬럼 int데이터, 0/1
▽ a and b컬럼 int데이터, 0/1
▽ 결측치 x, 이상치 x 을 확인함.
< 모델링 >
모델 불러오기
: 분류하는 모델 중 knn 모델을 불러오기
< sklearn(scikit-learn, 싸이킥 런) 머신러닝 패키지 >
: 머신러닝에 사용되는 도구를 담은 패키지,
- 지도/ 비지도 / 강화, 분류/회귀, 평가 공식(기능), 데이터 전처리 하는 기능 들도 담겨있음.
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
모델 객체 생성
+ 하이퍼 파라미터 (Hyperparameter)
: 모델의 구조와 학습 과정을 조절하는 매개변수들로 모델의 성능과 학습 속도에 영향을 미친다.
최적의 값을 찾는 것이 중요하다.
< knn에서는 n_neighbors가 하이퍼 파라미터(사람이 설정하는 값) >
- 사람이 설정하는 하이퍼 파라미터에 따라 결과가 바뀜.
- 예측이 잘되는 값이 있고 안 되는 값도 있음.
모델 학습
fit(훈련용문제, 훈련용 답) : 모델이 학습할 때 사용하는 함수
knn_model.fit(X_train, Y_train)
모델 예측
pre =knn_model.predict(X_test)
pre # 예측 결과를 담은 변수
#예측이 실제 정답과 항상 같지는 않음. 예측이 틀릴 수 있음(오류가 있을 수 있음.)
모델 평가
accuracy_score() - 예측이 실제값과 비교했을 때, 몇개나 잘 맞췄는지 표현하는 점수 (척도)
accuracy_score(Y_test, pre)
- 1.0 * 100 = 100% 전체 다 맞춘 상황.
- accuracy_score() : 0~1로 출력됨.
- 1에 가까울 수록 잘 맞춤.
'Python' 카테고리의 다른 글
[Python] pandas 추가 (0) | 2023.08.25 |
---|---|
[Machine Learning] BMI 학습 (0) | 2023.08.25 |
[Crawling] 이불 판매 리뷰 수집 (0) | 2023.08.25 |
[ Machine Learning ] Ex01_and연산_학습하기 (0) | 2023.08.24 |
[ Machine Learning ] 머신러닝 (1) | 2023.08.24 |