목록분류 전체보기 (102)
DeseoDeSeo
req : 파이썬에서 브라우저의 역할을 대신 함. 클라이언트(사용자) : 특정url에 정보를 요청 서버(웹페이지) : 요청받은 값에 대한 정보를 클라이언트에게 제공 - > 이미지, 동영상, 글자,화면이 html문서로 넘어옴. ( Python의 requests가 하는 건 중간에 넘어오고 있는 html문서 가져오기) import requests as req req 를 통해서 네이버 정보를 요청 ( 괄호 안에는 매개변수 = 무엇을 가지고 올지 적음) response : 응답 코드를 넘겨 받음. (200, 300 : 통신에 성공했습니다.) (400: 클라이언트 요청의 문제가 있다.) (500: 서버의 문제가 있다.) res = req.get("http://www.naver.com") # html의 코드가 넘어온..
- 광범위하게 분산된 방대한 양의 자료를 쉽게 볼 수 있도록 도표나 차트 등으로 정리하는 것. ( 산점도, 막대그래프. 원 그래프, 히스토그램..) import matplotlib.pyplot as plt y = [ 2, 4, 6 ] plt.plot(y) plt.show() x라는 변수 축 범위 지정하지 않으면 자동으로 지정됨. x와 y의 변수개수가 같지 않으면 오류가 난다. plot- 선 그래프(Line plot) 비슷해보이지만 x축의 범위가 다르다. y = [ 2, 4, 6 ] x= [1,2,3] plt.plot(x,y) plt.show() line style (= ls) character description - solid line style -- Dashed line styl..
import pandas as pd c15 = pd.read_csv('2015.csv', encoding='euc-kr', index_col='관서명') c16 = pd.read_csv('2016.csv', encoding='euc-kr', index_col='관서명') c17 = pd.read_csv('2017.csv', encoding='euc-kr', index_col='관서명') c15[c15['구분']=='발생건수'].sum(axis=1) 년도별 발생 건수의 합계 total15 =c15.loc[c15['구분']=='발생건수','살인':].sum(axis=1) total15 total16 =c16.loc[c16['구분']=='발생건수','살인':].sum(axis=1) total16 drop 실행..
concat (= 물리적인 느낌, 인덱스나 컬럼으로 양 옆이나 위 아래로 붙임 ) merge ( = 공통적인 데이터를 기준으로 병합) import pandas as pd df1 = pd.DataFrame({'a':['a0','a1','a2','a3'], 'b':['b0','b1','b2','b3'], 'c':['c0','c1','c2','c3']}, index = [0,1,2,3]) df2 = pd.DataFrame({'a':['a2','a3','a4','a5'], 'b':['b2','b3','b4','b5'], 'c':['c2','c3','c4','c5'], 'd':['d2','d3','d4','d5']}, index = [2,3,4,5]) df3 = pd.DataFrame({'a':['a3','a4'..
승객 데이터 읽어오기 import pandas as pd train = pd.read_csv('train.csv', index_col='PassengerId') train 상위 5개 데이터 추출 train.head() - 891개의 행, 11 컬럼.(?!) # 891명의 정보가 들어있음. - 여기서 행의 개수와 아래서 count의 개수를 보면 age, cabin, embarked의 개수가 891개로 일정하지 않기에 결측치가 존재함을 알 수 있음. train.shape 각 컬럼별 데이터의 개수 확인 train.count() 승객 중 성별 인원수, 선실별 인원수, 사망/생존별 인원수, 나이별 인원수 구하기 train['Sex'].value_counts() 등급 별 인원 수 train['Pclass'].val..
score.mean() population_number = pd.read_csv('population_number.csv', encoding='euc-kr', index_col='도시') population_number 2015년 values의 개수 # value_counts하면 해당 숫자가 몇번씩 등장하는지 알 수 있음. (= 횟수) # 결측치(Nan)는 제외하고 숫자를 세어준다. population_number['2015'].value_counts() 2010년 values의 개수 ? population_number['2010'].value_counts() 정렬(sort) - sort_index : 인덱스 값을 기준으로 정렬 - sort_values: 데이터 값을 기준으로 정렬 가나다 순으로 정렬됨..