관리 메뉴

DeseoDeSeo

[Machine Learning] 탐색적 데이터 분석, 모델링 본문

Python

[Machine Learning] 탐색적 데이터 분석, 모델링

deseodeseo 2023. 8. 25. 17:13
탐색적 데이터 분석
(Exploratory Data Analysis , EDA)
:  수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정

ex) 

▽ a컬럼 int 데이터 , 0/1

 b컬럼 int데이터, 0/1

 a and b컬럼 int데이터, 0/1

 결측치 x, 이상치 x 을 확인함.

 

< 모델링 >

모델 불러오기
:  분류하는 모델 중 knn 모델을 불러오기

 

< sklearn(scikit-learn, 싸이킥 런) 머신러닝 패키지 >

: 머신러닝에 사용되는 도구를 담은 패키지, 

 - 지도/ 비지도 / 강화, 분류/회귀, 평가 공식(기능), 데이터 전처리 하는 기능 들도 담겨있음.

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

 

모델 객체 생성

 + 하이퍼 파라미터 (Hyperparameter)

    :  모델의 구조와 학습 과정을 조절하는 매개변수들로 모델의 성능과 학습 속도에 영향을 미친다.

        최적의 값을 찾는 것이 중요하다.

 

  <  knn에서는 n_neighbors가 하이퍼 파라미터(사람이 설정하는 값) >

 

  • 사람이 설정하는 하이퍼 파라미터에 따라 결과가 바뀜.
  • 예측이 잘되는 값이 있고 안 되는 값도 있음.

 

모델 학습
fit(훈련용문제, 훈련용 답) : 모델이 학습할 때 사용하는 함수
knn_model.fit(X_train, Y_train)

 

모델 예측
pre =knn_model.predict(X_test)
pre # 예측 결과를 담은 변수 
#예측이 실제 정답과 항상 같지는 않음. 예측이 틀릴 수 있음(오류가 있을 수 있음.)

모델 평가
accuracy_score() - 예측이 실제값과 비교했을 때, 몇개나 잘 맞췄는지 표현하는 점수 (척도)
accuracy_score(Y_test, pre)
  • 1.0 * 100 = 100% 전체 다 맞춘 상황.
  • accuracy_score() : 0~1로 출력됨. 
  • 1에 가까울 수록 잘 맞춤.

'Python' 카테고리의 다른 글

[Python] pandas 추가  (0) 2023.08.25
[Machine Learning] BMI 학습  (0) 2023.08.25
[Crawling] 이불 판매 리뷰 수집  (0) 2023.08.25
[ Machine Learning ] Ex01_and연산_학습하기  (0) 2023.08.24
[ Machine Learning ] 머신러닝  (1) 2023.08.24