파이썬과 엑셀을 활용해서 산업 지수 간의 상관관계를 분석하는 방법을 알아보고 싶으신가요?
요즘 경제 상황이 워낙 널뛰기를 해서, 어떤 산업에 투자해야 할지 고민이 많으시죠?
어려운 경제 지표나 복잡한 통계 분석 없이, 파이썬과 엑셀만으로 산업 지수들의 관계를 쉽게 파악해보고 싶다면 이 글을 주목해 주세요!
특히, R로 분석을 해보셨던 분들이라면 파이썬으로 넘어오는 과정에서 좀 더 쉽게 이해하실 수 있도록, R과 비교 분석하는 내용을 담아봤어요.
파이썬 기반 산업 지수 상관관계 분석: R과 비교하며 배우는 엑셀 데이터 활용법
왜 파이썬으로 상관관계 분석을 할까요?
요즘 데이터 분석 분야에서 파이썬이 정말 인기가 많잖아요?
사실, 예전에는 R이 통계 분석에 더 많이 쓰였지만, 파이썬이 갖고 있는 다양한 장점들 때문에 점점 더 많은 사람들이 파이썬을 선택하고 있어요.
특히, 파이썬은 데이터 처리, 시각화, 머신러닝 등 다양한 분야에서 활용 가능하고, 쉬운 문법과 방대한 라이브러리 덕분에 초보자도 배우기 쉽다는 게 큰 장점이에요.
R로 분석을 하던 분들이 파이썬으로 넘어오면서 어려움을 느끼는 부분도 있지만, 익숙해지면 파이썬의 편리함에 푹 빠지실 거예요.
저도 예전에는 R만 고집했었는데, 파이썬을 써보니 확실히 훨씬 간편하고 효율적이더라고요.
물론, R에도 장점이 있지만, 오늘은 파이썬을 이용해서 산업 지수 상관관계 분석을 해보면서 파이썬의 매력을 느껴보는 시간을 가져볼게요!
R과 비교 분석: 엑셀 데이터 불러오기 및 전처리
자, 그럼 본격적으로 파이썬을 이용해서 상관관계 분석을 해보기 전에, 먼저 데이터를 준비해야겠죠?
이번 예제에서는 R에서 자주 사용하는 데이터를 활용해 볼 거예요.
물론, 여러분이 분석하고 싶은 산업 지수 데이터를 엑셀 파일로 저장해서 불러와도 똑같이 적용 가능하답니다.
우선, 쥬피터 노트북을 켜고, 파이썬에서 라이브러리를 이용해서 엑셀 파일을 불러올 거예요.
import pandas as pd
# R의 airquality 데이터를 엑셀 파일로 저장한 것을 불러오기
airquality = pd.read_excel('E:/Desktop/airquality.xlsx')
# 월과 일 정보 삭제
df = pd.DataFrame(airquality, columns = ['Ozone', 'Solar.R', 'Wind', 'Temp'])
df
코드를 실행하면, 엑셀 파일에서 'Ozone', 'Solar.R', 'Wind', 'Temp' 컬럼만 추출해서 라는 데이터프레임에 저장하게 돼요.
데이터프레임을 출력해 보면, 153개의 행과 4개의 열로 이루어진 데이터가 출력될 거예요.
자, 이제 데이터를 불러왔으니, 분석에 필요 없는 정보는 제거하고, 결측치도 처리해야겠죠?
R에서도 마찬가지였지만, 데이터 전처리는 분석 결과의 정확성을 높이는 데 정말 중요하답니다.
파이썬으로 상관관계 분석: 피어슨 상관계수 계산
자, 데이터 전처리까지 마쳤다면 이제 본격적으로 상관관계 분석을 시작해볼까요?
파이썬에서는 함수를 사용해서 상관관계를 쉽게 계산할 수 있어요.
corr = df.corr(method = 'pearson')
corr
코드를 실행하면, 데이터프레임의 모든 변수들 간의 피어슨 상관계수를 계산해서 출력해 줍니다.
근데, 잠깐! 혹시 R로 계산한 결과와 값이 다르다는 걸 눈치채셨나요?
혹시 이유가 뭘까요? 바로 결측치 때문이에요.
파이썬의 함수는 기본적으로 결측치를 처리하지 않고 계산하기 때문에, R과 결과가 달라질 수 있어요.
그럼, 어떻게 해야 R과 같은 결과를 얻을 수 있을까요?
바로 결측치를 제거해주면 됩니다!
# 결측치 제거
df_drop_row = df.dropna()
df_drop_row
# 결측치를 제거한 후 상관계수
corr2 = df_drop_row.corr(method = 'pearson')
corr2
결측치를 제거하고 다시 상관계수를 계산하면, R에서 계산한 결과와 완벽하게 일치하는 것을 확인할 수 있을 거예요.
이제 엑셀 데이터를 가지고 파이썬으로 상관관계 분석을 하는 게 좀 더 익숙해지셨나요?
산업 지수 상관관계 시각화: seaborn으로 pairplot 및 히트맵 그리기
상관관계 분석 결과를 표로만 보는 것보다 시각적으로 확인하는 게 훨씬 직관적이고 이해하기 쉽겠죠?
파이썬에서는 과 라이브러리를 이용해서 다양한 그래프를 그릴 수 있는데요, 오늘은 을 이용해서 과 히트맵을 그려볼 거예요.
먼저, 을 그려볼게요. 은 데이터프레임의 모든 변수 조합에 대한 산점도를 한꺼번에 보여주는 그래프인데요, 변수들 간의 관계를 한눈에 파악하기에 정말 유용해요.
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
# 상관관계 플롯 작성
g = sns.pairplot(df_drop_row, kind = 'reg', markers = '+')
코드를 실행하면, 데이터프레임의 모든 변수 조합에 대한 산점도가 출력될 거예요.
옵션으로 를 추가하면, 각 산점도에 회귀선도 함께 그려주고, 옵션은 산점도 마커를 '+' 모양으로 바꿔주는 역할을 합니다.
하지만, 상관계수가 많은 경우 표를 보는 것보다 히트맵으로 시각화하는 게 더 보기 편할 때가 많아요.
의 함수를 이용하면, 상관계수를 색깔로 표현한 히트맵을 쉽게 그릴 수 있어요.
# 상관관계 heatmap
plt.figure(figsize = (6, 5))
sns.heatmap(data = corr2, annot = True, fmt = '.2f', linewidths = .5, cmap = 'Reds')
코드를 실행하면, 상관계수 데이터프레임을 히트맵으로 표현해 줍니다.
옵션은 히트맵에 상관계수 값을 표시해주고, 옵션은 소수점 둘째 자리까지 표시해 줍니다.
옵션은 셀 간의 경계선을 표시해주고, 옵션은 빨간색 계열의 색상을 사용해서 히트맵을 그려줍니다.
산업 지수 상관관계 분석 결과 해석 및 활용
상관관계 분석 결과 해석
자, 이제 상관관계 분석 결과를 해석해볼까요?
위에서 그린 히트맵을 보면, 과 사이에 양의 상관관계가 강하게 나타나는 것을 확인할 수 있어요.
즉, 기온이 높아질수록 오존 농도도 높아지는 경향이 있다는 것을 의미하죠.
반대로, 과 사이에는 음의 상관관계가 나타나는데, 이는 바람이 강해질수록 오존 농도가 낮아지는 경향이 있다는 것을 의미합니다.
산업 지수 상관관계 분석 활용
이러한 상관관계 분석 결과는 다양한 분야에서 활용될 수 있어요.
예를 들어, 주식 투자를 할 때, 특정 산업 지수와 다른 산업 지수 간의 상관관계를 분석하여 포트폴리오를 구성할 수 있고,
경제 정책을 수립할 때, 경제 지표들 간의 상관관계를 분석하여 정책의 효과를 예측할 수도 있어요.
자동차 산업 지수 | 0.8 | IT 산업 지수와 높은 양의 상관관계를 가지고 있어, IT 산업이 성장하면 자동차 산업도 함께 성장할 가능성이 높음 |
건설 산업 지수 | -0.5 | 금리와 음의 상관관계를 가지고 있어, 금리가 상승하면 건설 산업은 위축될 가능성이 높음 |
산업 지수 상관관계 설명
표 1. 산업 지수 상관관계 예시
물론, 상관관계 분석만으로는 인과관계를 파악할 수 없다는 점을 기억해야 해요.
두 변수 간에 상관관계가 있다고 해서, 한 변수가 다른 변수의 원인이라고 단정 지을 수는 없다는 거죠.
하지만, 상관관계 분석은 다양한 변수들 간의 관계를 파악하고, 추가적인 분석을 위한 중요한 정보를 제공해 줄 수 있다는 점에서 큰 의미를 가진답니다.
마무리
오늘은 파이썬과 엑셀을 활용해서 산업 지수 상관관계 분석을 해보았는데요, 어떠셨나요?
R로만 분석을 해보셨던 분들에게도 파이썬이 그리 어렵지 않다는 것을 느끼셨기를 바랍니다.
파이썬은 데이터 분석 뿐만 아니라 다양한 분야에서 활용될 수 있는 정말 매력적인 도구에요.
앞으로 파이썬을 활용해서 더욱 다양하고 흥미로운 데이터 분석을 해보고 싶으시다면, 꾸준히 공부하고 연습하는 것이 중요하답니다!
자주 묻는 질문 (FAQ)
Q1. 파이썬으로 상관관계 분석을 하는데 꼭 엑셀을 사용해야 하나요?
A1. 엑셀 말고도 CSV 파일, 텍스트 파일 등 다양한 형식의 데이터를 파이썬으로 불러와서 분석할 수 있어요.
라이브러리에서 제공하는 다양한 함수들을 활용하면, 원하는 형식의 데이터를 쉽게 불러와서 처리할 수 있답니다.
Q2. 결측치를 처리하는 방법에는 어떤 것들이 있나요?
A2. 결측치를 처리하는 방법은 크게 삭제, 대체, 보간 등이 있어요.
데이터의 특성과 분석 목적에 따라 적절한 방법을 선택하는 것이 중요해요.
오늘 예제에서는 간단하게 결측치 행을 삭제했지만, 실제 분석에서는 더욱 다양한 방법들을 고려해야 할 수도 있어요.
Q3. 산업 지수 상관관계 분석 결과를 어떻게 활용할 수 있나요?
A3. 산업 지수 상관관계 분석 결과는 투자, 경제 정책 수립, 시장 예측 등 다양한 분야에서 활용될 수 있어요.
예를 들어, 주식 투자를 할 때, 상관관계가 높은 산업 지수들을 함께 투자하는 포트폴리오를 구성할 수도 있고,
경제 정책을 수립할 때, 경제 지표들 간의 상관관계를 고려하여 정책의 효과를 예측할 수도 있답니다.
키워드
파이썬,엑셀,데이터분석,상관관계분석,산업지수,피어슨상관계수,통계분석,데이터과학,쥬피터노트북,시각화,seaborn,matplotlib,R,RStudio,투자,경제,데이터전처리,결측치,히트맵,pairplot,pandas,numpy,scipy,데이터사이언티스트,금융,경제지표
'파이썬엑셀' 카테고리의 다른 글
파이썬 엑셀로 지수 데이터 전처리 끝내기: 초간단 가이드 (0) | 2024.11.09 |
---|---|
파이썬 엑셀로 지수 상관관계 분석: R과 비교 분석! (0) | 2024.11.09 |
파이썬 엑셀로 상관계수 분석 마스터하기: 초보자도 OK! (0) | 2024.11.09 |
파이썬 엑셀로 쉽게 활용하는 지수 데이터 API 활용법! (0) | 2024.11.08 |
파이썬 엑셀로 가상화폐 자동매매 봇 만들기: 초보자도 가능할까? (0) | 2024.11.08 |