티스토리 뷰

멀티캠퍼스 AI과정/04 Pandas

Pandas 04 - DataFrame 결합 Mearge (Join)

jhk828 2020. 9. 15. 10:17

DataFrame의 결합 (Merge)

Database Table의 join 기능

두 개의 DataFrame을 연결시켜서 새로운 DataFrame을 만든다.

학번을 기준으로 JOIN => 학번이 같은 것만 뽑혀서 나온다.

INNER JOIN : INTERSECT
FULL OUTER JOIN : UNION
LEFT OUTER JOIN : (df1-df2) + INTERSECT
RIGHT OUTER JOIN : (df2-df1) + INTERSECT

import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학번': [1, 2, 4, 5],
         '학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

df1 = pd.DataFrame(data1)
display(df1)
df2 = pd.DataFrame(data2)
display(df2)

#####INNER JOIN #############
result = pd.merge(df1, df2, on='학번', how='inner')
display(result)

result = pd.merge(df1, df2, on='학번', how='outer')
display(result)

result = pd.merge(df1, df2, on='학번', how='left')
display(result)

result = pd.merge(df1, df2, on='학번', how='right')
display(result)

Merage - 여러가지 경우에 대한 사용법..

컬럼명이 다를 경우

# 만약 컬럼명이 다르다면
import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}
data2 = {'학생학번': [1, 2, 4, 5],
         '학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)
################################

result = pd.merge(df1, df2,
                  left_on='학번', 
                  right_on='학생학번', how='inner')
display(result)

DataFrame의 column과 index를 이용한 range

import numpy as np
import pandas as pd

data1 = {'학번': [1, 2, 3, 4],
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

df1 = pd.DataFrame(data1)
display(df1)

# 학번을 index로 사용
df2 = pd.DataFrame(data2,
                  index=[1, 2, 4, 5])
display(df2) 
############################################

result = pd.merge(df1, df2, 
                  left_on='학번', 
                  right_index=True, 
                  how='inner')
display(result)

# result.loc[2] # 2번 X key error, 표기된 인덱스 기반
display(result.iloc[2]) # 숫자 인덱스 기반
display(result.loc[3])

# DataFrame의 index를 이용한 merge
import numpy as np
import pandas as pd

data1 = {
         '이름': ['이지안', '박동훈', '이순신', '강감찬'],
         '학년': [2, 4, 1, 3]}

data2 = {'학과': ['CS', 'MATH', 'MATH', 'CS'],
         '학점' : [3.4, 2.9, 4.5, 1.2]}

# 학번을 index로 사용.
df1 = pd.DataFrame(data1,
                  index=[1, 2, 3, 4])
df2 = pd.DataFrame(data2,
                  index=[1, 2, 4, 5])
display(df1)
display(df2) 

############################################

result = pd.merge(df1, df2, 
                  left_index=True, 
                  right_index=True, 
                  how='inner')
display(result)

Concatenation (연결)

Series를 1차원, 2차원으로 연결하는 방법

Series는 1차원 vector 형태이다.
연결하는 방법은 2가지 방법이 있다.
행방향 연결, 열 방향 연결

# concatenation(연결)
import numpy as np
import pandas as pd

s1 = pd.Series([0, 1], index=['a', 'c'])
s2 = pd.Series([4, 3, 2], index=['b', 'c', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

print(s1)
print(s2)
print(s3)

# Series는 1차원 vector 형태이다.
# 연결하는 방법은 2가지 방법이 있다.
# 행방향 연결, 열 방향 연결

display(pd.concat([s1, s2, s3], axis=0)) # Series를 1차원으로 연결

display(pd.concat([s1, s2, s3], axis=1, sort=True))

DataFrame 연결

# DataFrame 연결
import numpy as np
import pandas as pd

df1 = pd.DataFrame(np.arange(6).reshape(3, 2),
                  index = ['a', 'b', 'c'],
                  columns = ['one', 'two'])
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2),
                  index = ['a', 'b'],
                  columns = ['three', 'four'])
display(df1)
display(df2)
###################################################
# 인덱스 기준으로 붙는다.
# axis=1
result = pd.concat([df1, df2],
                    axis=1,
                    sort=True) # column 정렬
display(result)

# axis=0
# ignore_indes=False,  # 인덱스 다시 설정x
# sort=True => column 정렬
result = pd.concat([df1, df2],
                    axis=0,
                    ignore_index=False,  
                    sort=True)
display(result)

# axis=0
# ignore_indes=True,  # 인덱스 다시 정렬
# sort=True => column 정렬
result = pd.concat([df1, df2],
                    axis=0,
                    ignore_index=True,  
                    sort=True)
display(result)

저작자표시 비영리 변경금지 (새창열림)

'멀티캠퍼스 AI과정 > 04 Pandas' 카테고리의 다른 글

Pandas 04 - DataFrame Grouping (0)	2020.09.15
Pandas 04 - 결측치 처리 (0)	2020.09.15
Pandas 03 - DataFrame 집계함수, 통계기반 함수, 정렬, apply와 lambda (0)	2020.09.15
Pandas 02 - DataFrame describe(), indexing, 행/칼럼 추가, 삭제 (0)	2020.09.11
Pandas 02 - DataFrame (2차원) (0)	2020.09.09

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

즐거운사람의블로그

티스토리 뷰

Pandas 04 - DataFrame 결합 Mearge (Join)

DataFrame의 결합 (Merge)

학번을 기준으로 JOIN => 학번이 같은 것만 뽑혀서 나온다.

Merage - 여러가지 경우에 대한 사용법..

컬럼명이 다를 경우

DataFrame의 column과 index를 이용한 range

Concatenation (연결)

DataFrame 연결

'멀티캠퍼스 AI과정 > 04 Pandas' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역