목록Python (43)
DeseoDeSeo
해당 열을 인덱스로 지정 데이터프레임.set_index("열 이름", inplace=True) ex) dataframe.set_index(" " , inplace=True) 데이터 프레임_정렬 데이터프레임.sort_values("열 이름", ascending=True) ascending=True 오름차순 ascending=False 내림차순 번호 매기기 df['no'] = range(1,len(df)+1)
감성 분석? ○ 특정 주제에 대한 글의 감성과 태도를 파악하는 것( 긍정/ 부정) Q : 영화 리뷰 데이터를 활용해서 긍정, 부정 감성 분석을 진행해보자! 텍스트 데이터를 다루는 방법에 대해서 이해해보자! 파일 불러오기 from sklearn.datasets import load_files import numpy as np import pandas as pd data_url = './Data/aclImdb/train/' rv_train = load_files(data_url, shuffle=True) rv_train ➤ bunch 객체 : 머신러닝 자료구조 중 하나로 딕셔너리처럼 사용가능 key:value 데이터 추출을 위해 key값을 활용하기 리뷰데이터의 키 값 확인하기 rv_train.keys() #..
⛤ 머신러닝(기계학습)의 종류 1. 지도학습 : 정답이 있는 데이터를 학습 하고 예측하는 과정 - 분류 : 정답데이터의 형태가 범주형. (ㅂㅂ) - class : 정답데이터로 선택할 수 있는 개수( 정답 데이터의 개수) - 회귀 : 정답데이터의 형태가 연속형. (ㅎㅇ) 2. 비지도학습 : 정답이 없는 데이터를 학습하고 예측 - 3. 강화학습 : 보상을 주면서 정답으로 가까워지게끔 학습하는 방법, ex) 알파고 1.knn(최근접 이웃모델) 하이퍼파라미터( 이웃의 수) 2.의사결정나무(decision tree) 앙상블 1. 보팅 2. 배깅 ( ex)랜덤포레스트, 서로 같은 모델이 모여져있음) ------------------------병렬적 모델-------------------- 3. 부스팅( 연속적 연산..
Logistic Regression : 선형 회귀 방식을 분류에 적용한 알고리즘 ➜ 분류에 사용됨. 하지만 선형 회귀 계열 ! ○ 주요 매개변수(Hyperparameter) ○ LogisticRegression( C, max_iter ) - 규제 강도의 역수 : C ( ➜ 값이 작을 수록 규제가 강해짐) - 최대 반복횟수 : max_iter ( ➜ 값이 크게 잡아 줘야 학습이 제대로 됨. ) - 기본적으로 L2 규제 사용, 중요한 특성이 몇개 없다면 L1규제를 사용해도 무방 ( ➜ 주요 특성을 알고 싶을 때는 L1규제를 사용하기도 함) 선형 모델 방식을 분류에서 사용하는 이유? - 선형 모델은 간단한 함수식을 사용하므로 학습 및 예측 속도가 빠름 - 매우 큰 데이터 세트와 희소(sparse)한 데이터 세..
⛧ 선형모델(회귀) 평가 지표 : 여러 머신러닝 모델들을 사용했을 때 성능지표를 보고 모델을 비교하고 판단함. ( 정량적인 지표가 중요 ) MSE(Mean Squared Error) : 0 ~ 무한대 ➜ 예측 값과 실제 값의 차이에 대한 제곱을 평균한 값. R2 score : 결정계수, 회귀 모델이 데이터에 얼마나 잘 맞는지 평가하는데 사용됨. ➜ 모델의 독립변수에 의해 설명되는 종속변수의 분산 비율 ( 1에 가까울 수록 완벽하게 맞는 것. ) -1 : 모델이 설명을 잘 못하는 경우 1 : 모델이 잘 설명한 경우, 모델이 좋다고 판단됨. 규제(Regularization) 선형 모델 : 선형모델의 과적합을 방지하기 위한 방법 과적합된 모델 ➜ 너무 복잡하게 적용되어 일어남. 따라서 현재 특성을 줄이거나 특..
입력 데이터를 완벽하게 설명하는 것을 불가능. ➜ 오차가 가장 작은 선형함수를 찾아야함. 오차가 가장 작은 선형함수를 찾는다는 것? ➜ 평균제곱오차(MSE)가 가장 작은 선형함수를 찾는다. 평균제곱오차(MSE)가 가장 작은 선형함수 ➜ 최적의 선형 함수 ミ★ 평균제곱오차가 가장 작은 선형함수를 찾는 방법 수학 공식을 이용한 해석적 방법(공식으로 해결) 장점: 적은 계산으로 구함 ➜ 한번에 최적의 선형함수를 찾음. 단점 : 공식이 완벽하지 않을 경우 잘못 찾을 수도 있고 공식을 고칠 수 없는 문제 경사하강법 점진적으로 오차가 작은 선형함수를 찾아가는 방법(오차를 수정) 장점) 잘못 찾았을 때 수정 가능 단점) 점진적으로 찾아가므로 계산량이 많음.(➜ 시간이 오래걸림) ➤ 문제정의 보스턴 주택 가격데이터를 ..