파이썬 관련해서 중복값 질문합니다!
본문
여기 위의 csv파일을 보시면 addr과 w_tot값으로 중복값 전처리를 하려고 합니다.
만약 위에서 본 것처럼 w_tot값 이후의 칼럼들의 값들이 같다면
emd_nm을 한글 오름차순으로 정리하여 한 셀로 통합하려고 합니다.
ex) 두정동과 신부동 인접지역 -> 두정신부인접지역 한 뒤 그 이후 숫자값을 넣고 싶습니다.
또한 어떤 지역은 인접지역이 3~4개가 겹치는 경우가 있어서 그 인접지역 또한 오름차순으로 정리를 하고자 합니다. 혹시 도와주실 수 있나요?
import pandas as pd
data1= pd.read_csv('csvfilename.csv', encoding= "cp949")
df1 = data1.loc[data1['sig_nm']=='천안시서북구'] #천안시 값만 추출위해 필터링 작업함
df2 = data1.loc[data1['sig_nm']=='천안시동남구']
result = pd.concat([df1,df2])
result
result1 = result.drop_duplicates(['w_tot','emd_nm']) # 같은동에서 같은인구인 경우를 삭제한게 1
dup = result1.duplicated('w_tot',keep=False) # 다른동에서 같은 인구라면 True
result2 = pd.concat([result1,dup],axis=1) #굳이 없어도 됨
result2.rename(columns={0:'duplicated'}, inplace=True)
result2.to_csv("2019_08_인접지역파일.csv",encoding= 'cp949')
result3 = result2.loc[result2['duplicated']==False]
으로 이 셀을 도출했습니다.
그 이후 과정이 막혀 질문드립니다!
답변 1
유튜브에 보면 파이썬 판다에 대한 강의가 많이 있습니다.
냑 커뮤니티에서 주로 활동하시는 분들은 PHP, HTML5등인데,
파이썬을 많이 없습니다.
과제같은데, 조금 더 노력해 보고, 마지막으로 막히는 부분에 대해서 질문을 부탁드립니다.