카테고리 없음

데이터마이닝 2주차 보고서 python으로 구현 (공분산과 상관계수 관계)

관형이 2024. 3. 21. 20:57

서론: 학기 중에 따로 딥러닝 이론과 심층 구현 공부할 시간을 내기가 정말 힘듭니다.

 

따로 공부할 시간을 내기 힘들거 같아서, 현재는 공모전과 프로젝트(보아즈 ADV)만 진행 중이고 , 완료되면 티스토리에 작성할게요..

일단 데이터와 관련된 내용이니 보고서라도 하나 작성해봅니다. (python으로 구현해서 품.)

 

 

2주차 보고서 주제

주제

 

 

 

공분산, 상관계수?

공분산과 상관계수가 무엇인지 먼저 알아야한다.

 

 

[1일 1 캐글] Default of Credit Card Clients Dataset, PCA 이용

1일 1 캐글 프로젝트 첫 날이다. 첫날은 간단한 것부터 시작하려고 한다. 위의 데이터에서 상관 분석을 통해 상관 관계를 시각화 하고, 그것을 바탕으로 상관도가 높은 부분은 PCA분석으로 차원을

hyeong1197.tistory.com

 

내가 예전에 작성한 글 참고 (이 부분 정리해 놓음.)

 

 

+ 추가적으로 데이터 마이닝 시간에 학습한 것

 

분산과 공분산?

분산은 한 변수 내 (x), 공분산은 두 변수 이상 퍼짐 정도나 연관성 나타냄 (x, y)

 

-> 통계학개론 공부할 때, 분산은 한 데이터 내부에서 퍼짐 정도 공분산은 2개의 엑셀 데이터 비교할때  사용했음.2개 이상의 데이터 (엑셀 표) 주어지면, 그것의 퍼짐 정도를 확인하기 힘드니, 공분산 이용하는 듯

 

 

표준 편차 (모분산)

모분산 표준편차

 

n-1로 나누는 이유가 모분산의 표준 편차를 구하려는 의도인지 처음 알았다.

파이썬에는 모분산 표준편차를 나타내는 함수가 없어서, 처음에 값이 다르게 나왔지만 현재는 수정함.

 

 

 

파이썬 (주제 하나씩 구현)

 

 

각 load와 데이터 값을 array로 채워주고 dataframe을 만들었음.

결과

 

  1. 데이터
  • scatter plot 그리시오

 

 

  • A,B에 대한 공분산과 상관계수를 계산하시오. (편차 n-1로 나눴을때 값인지는 모르겠음) → 해결

 

이게 소수점이 너무 길어지니, 값이 작아지면 0 이나 inf가 떠서 진짜 짜증났음.

평균 값이 정수로 나오는 듯 해서 굳이, float형 자료구조를 사용할 필요가 없다고 느낌.

int로 바꿔주니 문제 해결 됨. 

 

 

표준편차

 

처음엔, 단순 표준편차 구하는 함수 사용하려고 하는데, 직접 구하는 표준편차와 약간의 차이 발생

-> 내 생각: 기존 표준편차 구하는 공식은, 모분산 표준편차가 아님. 그래서 값이 다른 듯

 

함수로 만들어버림.

 

 

  • 두 변수 A와 B에 대한 공분산과 상관계수를 계산하시오

공분산
상관 계수

 

 

2. Z-Score 방법을 이용하여 표준화한 후 수행

 

 

  • 데이터 scatter plot을 그리시오

Z-Score scatter plot

  • 두 변수 A와 B에 대한 공분산과 상관계수를 계산하시오

공분산
상관계수

-> 양의 상관관계, 공분산과 상관계수가 동일하다.

 

3. 표준화 전후 Scatter plot 상 차이점을 기술하시오.

 

→표준화 이후 평균이 0, 표준편차가 1인 분포를 갖게됨. (범위가 달라짐)

 

4.표준화 전후 공분산과 상관계수 관계의 차이점과 그 이유를 기술하시오.

공분산 / 각표준편차의 곱: 상관계수 (공분산 표준화)

공분산은 크기만 나타냄, 정도를 따질수 없다.

z-square로 변환과 동시에 표준편차는 1이되니

변환 후 공분산 = 상관계수가 됨.