분석 목적
서울의 각 지역구 가격 및 지역구 특징을 파악하려는 목적으로 서울시 아파트 거래 특성 EDA 워크플로우를 작성해보려고 합니다. EDA란 Exploratory Data Analysis 의 약자로, 탐색적인 자료 분석을 의미합니다. 탐색적 자료분석은 데이터를 불러오고 데이터의 모양 및 타입을 확인하고 기본적인 통계분석, 데이터 가공, 데이터 시각화를 통해 데이터가 갖고 있는 여러 특징을 알아내는 분석방법입니다. 이제 데이터를 탐색하러 가보도록 하겠습니다 ~!
분석 데이터
우리나라의 집값 데이터셋은 한국부동산원(한국감정원)과 KB부동산에서 제공하는 데이터 2가지가 가장 유명한데요. 저는 KB부동산에서 제공하는 데이터를 이용했습니다.
(월간)KB주택가격동향(2019.01)_통계표.pdf
(월간)KB주택가격동향(2021.03)_통계표.pdf
(월간)KB주택가격동향_시계열(2021.03)_A지수통계.xlsx
또한 서울열린데이터광장에서 가져온 통계자료를 이용했습니다.
서울시 (구별) 아파트 월별 거래량.csv
서울시 (구별) 아파트 월별 매매(평방미터당)가.csv
서울시 사업체현황(조직형태별동별) 통계.csv
서울시 주민등록인구 (구별) 통계.csv
서울시 의료기관 (구별) 통계.csv
서울시 유통업체현황 (구별) 통계.csv
서울시 공원 (1인당 공원면적) 통계.csv
서울시 사설학원 및 독서실 통계.csv
서울시 사업체 및 종사자 밀도 (동별) 통계.csv
서울시 사업체 현황 (사업대분류별동별) 통계 .csv
위의 서울시 관련 자료는 가공하여 아래와 같은 형태의 자료로 만들었습니다.
이외에 지도에 매매가를 표시하기 위해 github.com/PinkWink/DataScience/blame/master/data/02.%20skorea_municipalities_geo_simple.json 에서 가져온 지도 json 데이터를 아래 이름으로 바꾸어 사용했습니다.
skorea_municipalities_geo_simple.json >> seoul_geo.json
워크플로우 작성
1. 분석을 진행하는 현재(2021년 3월) 기준 32평(105.79제곱미터) 집을 산다면 지역별로 얼마정도가 있어야 구매할 수 있는지 알아보겠습니다.
데이터1 : (월간)KB주택가격동향(2021.03)_통계표 68쪽 아파트 ㎡당 평균가격 표.
* 32평 매매가 산정 방식 : 아파트 ㎡당 평균가격 x 105.79 로 계산
데이터2 : seoul_geo.json
지도 json 파일의 속성부분에 32평 지역구별 매매가를 추가하여 지도를 그렸습니다.
2021년 3월 기준 서울시의 지역구별 32평당 매매가를 지도에 표시해보았습니다.
위의 가장 비싼 2개 구에 가까운 지역일 수록 집값이 높은 것을 볼 수 있습니다. 구별 집값을 예측하고자 한다면 강남구 서초구와 가깝다면 위치적인 프리미엄이 있다고 가중치를 둘 수 있을 것 같습니다. 또 아래 바 그래프에서 상위 가격 1~10위 지역들은 모두가 한강 인접 지역구였네요. 1차적으로는 강남구 서초구 인접 프리미엄, 2차적으로는 한강 프리미엄을 충분히 느낄 수 있는 지도 시각화였습니다.
구별 평균 가격을 보니 강남구,서초구,송파구가 1,2,3위를 차지하여 각각 22억4천만원, 18억9천만원, 15억3천만원이 있어야 집을 살 수 있었고
가장 적은 돈으로 집을 살 수 있는 지역은 금천구 중랑구 도봉구로 각각 6억9천만원, 7억8백만원, 7억3천만원을 준비해야 주택을 구입할 수 있었습니다.
2. 2010년부터 시간에 따른 지역구별 집값 변화는 어땠을까요?
낮은 가격에서 출발해 시간이 흐르면서 다른 지역구에 비해 가치가 크게 상승, 추월하는 경우가 있는지 살펴보도록 하겠습니다.
데이터 1 : (월간)KB주택가격동향_시계열(2021.03)_A지수통계.xlsx 의 매매APT 탭,
* 해당 데이터는 2019년 1월 각 지역구 아파트 평균 매매가를 100으로 두고 시간이 지남에 따라
2019년 1월 대비 가격지수 변화만을 기록한 표.
데이터 2 : (월간)KB주택가격동향(2019.01)_통계표.pdf 85페이지 아파트 ㎡당 평균가격
서울시 지역구별 월별 아파트 32평 매매가 산정방식 : 데이터 1 x 데이터 2 x 105.79(㎡) 로 산출
지역구별 집값 그래프를 살펴보니 1,2위인 강남구 서초구와 같은 고가 지역구들을 따라잡을 수 있는 신흥 지역구는 없는 것 같습니다. 3,4위인 용산구 송파구도 다른 지역과의 차이가 뚜렷하게 존재합니다. 너무 많은 돈이 필요한 4개의 지역구를 제외하고 바로 다음 가격대의 지역구들을 5위부터 11위까지 좀 더 살펴보도록 하겠습니다.
2-1. 서울시 중간 가격의 지역구들의 매매가를 기간별로 나눠 자세히 비교해보도록 하겠습니다.
중위 가격 지역구 7개를 보면 다소 가격대가 붙어있습니다. 각 지역구 사이의 추월현상도 존재하니 비슷한 조건에 있는 중위 가격대의 지역구를 구매할 계획이 있다면 순위 변동을 파악하고 어떤 곳이 최근 강세지역으로 바뀌고 있는지 트렌드를 읽어낼 수도 있겠습니다. 10년 간 별로 순위 변동이 없다가 추월현상은 2016년 중반, 2018년 초반, 2020년 초반, 2021년 초반에 두드러지고 있습니다.
최근 5년 데이터만 놓고 보니 2016년에는 중구가 가장 높은 매매가의 지역이었으나 2021년에는 가장 낮은 가격으로 바뀌었네요. 그렇다면 5년동안 원래 가격 대비 상승률이 가장 높은 구는 어디일까요?
2-2. 5년간 상승률이 가장 높았던 지역구와 5년간의 부동산 뉴스 워드클라우드
영등포구의 5년간 상승률이 무려 60%가 넘는 수치를 기록했습니다. 그 간 어떤 일이 있었는지 살펴보면 좋을 것 같네요.
데이터 : 네이버 부동산 뉴스 우리동네 이야기 (기간 : 2016.03 ~ 2020.12)
영등포구는 노후된 지역이긴 하나 여의도 근처의 중심지인 만큼 직주 근접의 메리트가 있습니다. 뉴스 워드클라우드에 노후화 및 정비, 도시 조경, 개발 관련 언급이 많은 걸 보니 그간 개발에 대한 이슈가 제기되면서 영등포구의 장점을 잘 살려 가격이 올랐을 가능성이 높겠네요.
2-3. 1년간 상승률이 가장 높았던 지역구와 1년간의 부동산 뉴스 워드클라우드
동작구가 1년간 다른지역에 비해 가파른 17% 가량의 상승률을 보였습니다. 1년간 부동산 뉴스에서 많이 언급된 내용이 무엇이 있었는지 살펴보면 좋을 것 같네요.
신혼부부, 대학생 등 젋은층이 많이 사는 동네인 만큼 분양, 어린이집 등 2040을 위한 인프라 및 공동체 관련 언급이 눈에 띕니다.
3. 서울시 구별 집값과 연관있는 변수는?
데이터1 : 서울열린데이터광장에서 가져온 통계자료 가공본 (2019년 1월기준)
데이터2 : (월간)KB주택가격동향(2019.01)_통계표.pdf 85페이지 아파트 ㎡당 평균가격
* 서울시 지역구별 2019년 1월 기준 아파트 32평 매매가 산정방식 : 데이터 2 x 105.79(㎡) 로 산출
데이터1에 데이터2를 합쳐(열병합) 사용했습니다.
2021년 4월 현재 서울시 열린데이터광장에 올라온 가장 최신 자료가 2019년 기준의 통계자료입니다. 서울 자치구별 특성과 매매가의 상관관계를 보기 위해 Correlogram 을 그려보았습니다. 매매가를 제외한 x변수끼리도 서로 연관성이 보이기도 합니다. 우선은 맨 왼쪽 한줄만 놓고 보면 진한 색상의 블럭이 매매가와 관계가 깊은 변수들입니다.
집값에 영향을 주는 요인을 +, - 별로 골라본다면 전체평균연령,공원율이 낮을수록 집값이 높았고, 사업체수(회사법인),사업체종사자수, 학원수, 전체병원수가 많을수록 집값이 높은 현상을 보였습니다.
4. 비슷한 특징을 가진 지역구별로 군집화를 진행해보겠습니다.
데이터 : 3번의 상관계수분석에서 살펴보았던 데이터1과 동일한 데이터
* 변수 종류 : 매매가_32평 사업체수 사업체종사자수 개인사업체수 회사법인사업체수 학원수_학교교과교습 세대 전체평균연령 인구수합계 인구밀도명당㎢ 행정구역면적㎢ 세대당인구 65세이상고령자수 대형유통업체수 대형유통업체판매면적 대형유통업체건물연면적 전체병원수 전체병상수 종합병원수 공원율(%) 공원면적_1인당 도시공원면적_1인당생활권공원면적
집값 선두주자인 강남3구 강남구 서초구 송파구가 하나로 묶여있고 중구 종로구가 하나로 묶여있고 나머지 지역에서는 두 덩어리로 나누어지는 것을 볼 수 있습니다. 이러한 군집을 만들기 위해 새로 만든 PCA축 2개가 보이는데요. Dim1이 지역을 구분하는데 36.9%의 공헌을 했고 Dim2가 22.2%의 공헌을 했음을 나타냅니다. 해당 축에 영향을 미치는 변수들을 따로 그래프로 그려보았습니다.
Dim1 기준 변수의 공헌도 순위는 전체 병원수, 사업체 종사자수, 회사법인사업체수, 전체사업체수 순서입니다.
Dim2 기준 변수 공헌도는 65세 고령자수, 인구수합계, 세대, 한사람당생활권공원면적 순입니다.
즉 강남3구는 65세이상 고령자수가 많고 인구수합계와 세대가 많으며 생활권공원면적이 꽤 있고 그에 비해 병원수나 사업체수가 적은 것으로 보이며 중구, 종로구는 병원수 사업체종사자수 회사법인수, 사업체수가 많은데 비해 65세이상 고령자수와 인구수합계가 비교적 적다고 볼 수 있습니다. 나머지 지역은 위에서 언급한 변수의 내용이 모두 많은 것으로 나타납니다. 다만 축 Dim1, Dim2가 지역을 구분하는 공헌도 50%를 넘지 않는 것을 보아 변수들을 가지고 모든 부분을 설명할 수는 없다는 점을 염두에 두고 보아야 하겠습니다.
일반적으로 생각했을 때 강남구 서초구 송파구는 소득 또는 재산이 많은 사람들이 살고 질 높은 교육 중심 아파트가 밀집한 지역으로 알려져 있습니다. 그리고 중구 종로구는 좁은데 비해 기업사업체 밀집지역이라는 특징이 있고 초록색과 하늘색은 각각 강남에 가까운, 강북에 가까운 지역이 다수 포함되어 있는 것을 볼 수 있습니다. 지역 위치 변수를 넣지 않았는데도 군집화에서 이렇게 구분해주는게 흥미로웠습니다.
5. 전세가가 매매가대비 비싼 지역은?
데이터 : (월간)KB주택가격동향_시계열(2021.03)_A지수통계.xlsx 의 아파트매매 전세비 탭 데이터 이용
자산가치보다 실거주 가치가 높은 지역순으로 보여줍니다. 종로구가 실거주가치가 자산가치 대비 높고 용산구가 재개발을 앞두고 있어서 그런지 실거주 가치가 자산가치대비 낮은 것을 볼 수 있습니다.
6. 거래량
데이터 : 한국부동산원 부동산거래현황 > 아파트 거래현황 > 월별 행정구역별 > 서울시 전체 2010~2021년 데이터
거래량은 주기적으로 감소 및 증가하고 있습니다. 일종의 주기가 보이는데 어느 계절에 거래량이 많은지 살펴보겠습니다.
10년 전체를 다 그려놓으니 추세를 알기는 쉽지 않았습니다.
2013년을 제외하고는 봄 가을인 3월 10월에 거래량이 많았네요. 간혹 6월에도 치솟는 거래량을 볼 수 있었습니다.
최근 5년 데이터를 보면 3월 10월이 아닌 여름철 거래가 훨씬 활발해졌습니다. 이 현상이 딱 계절 때문이라고 하기는 어려울 수 있습니다. 인기있는 거래시기가 뚜렷하지 않기도 하고 갑작스럽게 급증하는 거래 징후가 나타나는 걸 보면 오히려 금리 변화라던지 정부의 부동산 정책과 연결해서 볼 때 더 의미 있을 것 같습니다.
지금까지 서울 지역구별 아파트 거래 특성에 대한 EDA 분석이었습니다. 감사합니다 :)
'데이터 분석' 카테고리의 다른 글
데이터 분석을 주제로하는 교육 시스템 프로세스 (0) | 2021.06.11 |
---|---|
ARIMA와 VAR모형을 이용한 서울시 전체 집값 예측 (1) | 2021.04.29 |
전도체 재료 특성 예측해보기 (1) | 2021.04.09 |
BA로 Random Forest를 이용하여 Lotto No를 예측해보자. (4) | 2021.03.24 |
BA로 입문자도 가능한 내 집 주변에서 가장 가까운 미술관 찾기 (4) | 2021.03.12 |