안녕하세요 Davey 입니다. 오늘 포스팅할 내용은 머신 러닝시 사용하는 기술 통계량 및 추정량에 대해서 설명 드리겠습니다. 머신 러닝 작업을 위한 기초 지식인 통계학과 머신 러닝시 이용해야 하는 자료의 Type에 이어 설명 드리겠습니다.
저도 머신 러닝시 사용하는 기술 통계량 및 추정량에 대해서 공부하는 입장이기 때문에, 혹 잘못된 정보를 전달하는 게 있으면 댓글로 남겨주시면 감사 드리겠습니다. 그럼 하나 하나 설명 드리도록 하겠습니다.
1. 모집단의 수치화 Part 1 (중심 경향값)
: 여러 모집단의 정보를 나름대로, 분석을 해서 수치화를 시켜야 그 분석 값을 가지고, 머신러닝을 하실 수 있습니다. 분석 값 중에 한 Type인, 중심 경향 값은, 어떤 평균값을 찾아서, 그 값을 기준으로 잡고 머신러닝을 하는 것입니다. 이렇게 중심 경향 값으로 분류 되는 값은 아래와 같이 3개로 정리 할 수 있습니다.
1) 평균값 (Mean)
: 전체 수치를 더한 값에 전체 수치 개수를 나눈 값입니다.
2) 중앙값 (Median)
: 수치의 크기의 값을 정렬 시켜보면 위치적으로 중앙에 있는 값을 알 수 있는 데, 그 값을 중앙 값이라고 함
3) 최빈값 (Mode)
: 여러 수치 중에 가장 많이 존재하는 값
- 위 3가지의 수치들을 분석하실 때 아래 사항도 참조 하시면 도움 되실 겁니다.
1) 모집단의 데이터를 수치화 하여 그래프로 표현했을 때, 그래프가 대칭일 경우에는 평균값 과 중앙값이 같습니다.
2) 중앙값은 위치적으로 중앙에 있는 값이지만, 평균 값은 모든 수치를 더해서, 그 수치의 개수로 나눈 값이기 때문에, 큰 값이 있는 방향으로 더 기울어지는 현상을 보임
2. 모집단의 수치화 Part 2 (산포도 - 퍼진정도)
: 1번의 중심 경향값과는 달리, 얼마나 수치가 퍼져 있는 정도를 나타내주는 수치라고 생각하시면 됩니다.
1) 분산 (Variance)
: 분산의 정도를 수치적으로 표현한 것입니다. 아래 수식 참조 부탁 드립니다.
2) 사분위수 범위 (Inter quartile range)
: 전체 관측값을 크기 순으로 정렬 했을 때 중앙에 위치한 50%의 관측치가 가지는 범위입니다. 즉, 중앙에 위치한 값을 위주로 분석할 때 사용하는 범위입니다.
3. 모집단의 수치화 Part 3 (분포도)
1) 정규 분포
: 가장 대표적으로 많이 사용하는 분포도로써, 위치는 평균에 의해 결정이 되고, 솟은 모양과 배치 모양은 분산에 의해 결정이 됩니다.
2) 왜도 (Skewness)
: 모집단의 수치값이 분포되는 데 이 분포의 비대칭 정도를 나타내주는 게 왜도입니다. 여기에서 뾰족하게 솟은 부분을 기준으로 더 길게 늘어 지는 부분의 방향에 따라, Left Skewness or Right Skewness 로 나뉘게 됩니다.
3) 첨도 (Kuurtosis)
: 모집단의 수치값의 분포는 정규 분포와 동일하게 대칭이 되는 그래프에서, 양쪽 끝 부분의 비중의 측도를 나타내주는 것이 첨도(Kuurtosis) 입니다.
표본값(Sample)의 통계량과 추정량
: 모집단의 데이터를 수치화 시킨 값과 비교 분석하기 위해서 표본값도 통계량과 추정량으로 분석해서 산출하게 되는데, 아래와 같이 정리 할 수 있습니다.
1) 표본 평균
: 평균값과 동일한 식으로 산출합니다.
2) 표본 분산 (Sample Variance)
: 표본값을 산포도식으로 구하게 되면, 모집단이 커지거나 작아 질수록 표본 분산 값에 영향을 주기 때문에, 아래와 같이 N 대신 N-1로 구하게 됩니다. 이 부분은 저도 좀 더 공부해보고, 다른 포스팅을 준비할 때 설명 드리도록 하겠습니다.
이상입니다. 역시, 그냥 코드만 보고, 유튜브나 강의에서 하라는 식으로만 할 때하고는 느낌 자체가 틀리네요. 하나 하나 더 깊게 들어간다라는 느낌이 든다고 해야하나.. 그래도 이해하려면 좀 더 많은 시간이 걸릴 듯합니다. 일단 어느 정도는 개념을 잡았으니, 계속적으로 공부해 나갈려고 합니다. 이 포스팅이 조금이나마 도움이 되셨으면 합니다. 어렵다고 포기하지 마시고, 4차 혁명을 맞이해서 같이 공부해서 같이 성장해 나가시죠! 감사합니다.
제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다.
[참조 자료 : fastcampus 머신러닝과 데이터 분석 A-Z 올인원 패키지 강의 자료 참조]
[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]
'파이썬 (Python) > 딥러닝 (Deep Learning)' 카테고리의 다른 글
Python opencv 이용하여 이미지 Hue, Saturation, Value 값 구현 심화학습 (0) | 2021.03.05 |
---|---|
Python opencv 이용하여 이미지 Hue, Saturation, Value 값 구현하는 방법 (0) | 2021.03.05 |
Python 파이썬 머신 러닝(Machine Learning) 기초 - 통계학, 머신 러닝 자료 Type (0) | 2021.03.01 |
머신 러닝(Machine Learning) - 선형 회귀 모델링 + Tensorflow 패키지 (1) | 2021.03.01 |
머신 러닝(Machine Learning) - 선형 회귀 모델링 + Scikt-learn 패키지 이용 방법 (0) | 2021.02.28 |
댓글