
DataFrame Grouping import numpy as np import pandas as pd my_dict = {'학과': ['컴퓨터', '체육교육과', '컴퓨터', '체육교육과', '컴퓨터'], '학년': [1, 2, 3, 2, 3], '이름': ['홍길동', '김연아', '최길동', '아이유', '신사임당'], '학점': [1.5, 4.4, 3.7, 4.5, 3.8]} df = pd.DataFrame(my_dict) display(df) ########################################################### # 학과를 기준으로 grouping # Series를 grouping하는 개념 dept = df['학점'].groupby(df['학과']) displ..

Random seed 고정 0 이상 10 미만의 정수형 난수를 균등분포로 추출해서 6행 4열짜리 DataFrame 생성 index와 column은 따로 지정하지 않는다. 결측치 NaN 일반적으로 NaN은 결측치 취급한다. 결측치 처리 법 중 하나: 결측치가 들어가 있는 행 삭제 편하고 좋지만, 다른 열에 존재하는 데이터까지 날아가게 된다. 만약, 결측치가 몇개 안된다면 삭제하는게 좋을 수 있다. 그러나 일반적으로는 결측치를 다른 값으로 대체해서 사용한다. 평균값, max, min 등등 다른 값으로 대체 결측치 제거 import numpy as np import pandas as pd from datetime import date, datetime, timedelta # column과 index를 설정한다..

DataFrame의 결합 (Merge) Database Table의 join 기능 두 개의 DataFrame을 연결시켜서 새로운 DataFrame을 만든다. 학번을 기준으로 JOIN => 학번이 같은 것만 뽑혀서 나온다. INNER JOIN : INTERSECT FULL OUTER JOIN : UNION LEFT OUTER JOIN : (df1-df2) + INTERSECT RIGHT OUTER JOIN : (df2-df1) + INTERSECT import numpy as np import pandas as pd data1 = {'학번': [1, 2, 3, 4], '이름': ['이지안', '박동훈', '이순신', '강감찬'], '학년': [2, 4, 1, 3]} data2 = {'학번': [1, 2, ..

DataFrame이 제공하는 함수들 (집계함수, 통계기반 함수..) 기댓값 (expected value) 어떤 확률을 가진 사건을 무한히 반복했을 때, 얻을 수 있는 값의 평균으로 기대할 수 있는 값. ### 주사위 1개를 던지는 사건을 무한히 반복했을 때의 기댓값은? import numpy as np result = np.random.randint(1,7,(1000000,)) print(result.mean()) # 3.50021.. 편차 (deviation) 확률변수 x와 평균 (기댓값)의 차이 편차를 이용하면 데이터의 흩어진 정도를 알기 쉽다. 편차의 합은 0 편차의 가장 큰 단점은, 데이터가 흩어진 정도를 하나의 숫자로 표현하기 힘들다는 것이다. 분산 (variance) 데이터의 흩어진 정도를 알..

DataFrame에 대한 이야기 describe() import numpy as np import pandas as pd data = {'이름' : ['이지은', '박동훈', '홍길동', '강감찬', '오혜영'], '학과': ['컴퓨터', '기계', '철학', '국어국문', '컴퓨터'], '학년': [1, 2, 2, 4, 3], '학점': [1.5, 2.0, 3.1, 1.1, 2.8]} df = pd.DataFrame(data, columns=['학과', '이름', '학점', '학년'], index = ['one', 'two', 'three', 'four', 'five']) display(df) # DataFRame 안에 있는 숫자연산이 가능한 column에 한해, # 기본분석함수 적영한 수치값들을 Da..

Pandas의 DataFrame Python Dictionary를 가지고 만든다. dictionary로 DataFrame을 생성할 때 데이터의 개수가 맞지 않으면 Error 발생 dictionary로 key가 DataFrame의 column으로 들어가게 된다. DataFrame은 Series의 집합으로 구성된다. (각각의 colum이 Series) Python Dictionary로 DataFrame 만들기 import numpy as np import pandas as pd # dictionary data = {'name' : ['아이유', '김연아', '홍길동', '강감찬', '이순신'], 'year' : [2015, 2019, 2020, 2013, 2017], 'points': [3.5, 1.5, 2..

Pandas Pandas는 ndarray(NumPy)를 기본 자료구조로 이용한다. 이 ndarray를 가지고 Pandas는 두개의 또 다른 자료 구조를 이용한다. Series,DataFrame 1) Series 동일한 데이터 타입의 복수개의 성분으로 구성되는 자료구조 -> 1차원 2) DataFrame 엑셀/ Database의 Table과 같은 개념 여러개의 Series로 구성되어 있다 -> 2차원 Pandas 설치 후 진행 : conda install pandas Pandas의 Series import numpy as np # ndarray arr = np.array([-1, 4, 5, 99], dtype=np.float64) print(arr) # pandas의 Series s = pd.Series(..