사용자:Leedonghoon111/연습장

 [중심경향과 분산도] 

기술통계와 추론통계

편집

• 기술통계 : 분석대상 데이터 그 자체.
• 추론통계 : 분석한 데이터를 토대로 다루지 않은 데이터의 특성도 추정.
• 기술통계는 추론통계의 사전단계로도 중요 : 분석대상 데이터의 통계량을 일단 파악해야 추론 할 수 있음.

중심경향

편집

• 중심경향(Central Tendency): 어떤 특성을 전형적이고 일반적인 수준에서 보여줄 수 있는 값.
– 평균(산술평균)
– 중위수
– 최빈값

평균(산술평균)

편집

Mc(합한 전체 집단의 평균치) = (N1M1 + N2M2 + ··· + NnMn)/(N1 + N2 + ··· + Nn)
Nn : 집단 n의 사례수, Mn : 집단 n의 평균
• 개별사례 값의 총합/사례수
• 가장 일반적이고 널리 쓰임
• 문제 : 극단값이 있는 경우

순위 이름 소속 재산
1 정몽준 새누리 2조227억6천만원
2 고희선 새누리 1266억원
3 김세연 새누리 1145억9천만원
4 박덕흠 새누리 538억7천만원
5 현영희 무소속 193억9천만원
6 윤상현 새누리 186억1천만원
7 성완종 선진 152억
8 정의화 새누리 140억7천만원
9 강석호 새누리 140억3천만원
10 심윤조 새누리 97억8천만원

19대 국회의원 평균재산은?
• 19대 국회의원(299명) 평균재산? 95억 6천만 원
– 평균이면 상위 10위권대
• 500억원 자산가 제외 : 18억 3,295만 원

중위수

편집

• 사례중 제일 중간을 차지하는 값
• 사례가 짝수인 경우 가장 중간의 두개값의 평균이 중위수

최빈값

편집

• 사례의 속성값 중 가장 출현빈도가 높은값(수)
• 명목척도에 의한 측정된 속성에 대해 활용

다음 경우에는 : 1, 1, 1, 2, 4, 6, 6, 8, 9, 10
• 평균? 4.8
• 중위수? 5
• 최빈수? 1

분산도

편집

• 사례가 대체로 중심경향으로부터 얼마만큼 거리를 두고 있는가? : 밀집 or 분산
• 평균을 사용할 경우, 분산수준은 표준편차와 분산으로 알아볼 수 있음.

분산과 표준편차

편집

• 편차(사례값-평균) : 수학 및 통계학에서 편차는 자료값 또는 변량과 평균의 차이를 나타내는 수치이다. 편차를 살펴보면 자료들이 평균을 중심으로 얼마나 퍼져 있는지를 알 수 있다. 자료값이 평균보다 크면 편차는 양의 값을, 평균보다 작으면 음의 값을 갖는다. 편차의 크기는 차이의 크기를 나타낸다.
[네이버 지식백과] 편차 [deviation] (수학백과, 2015.5, 대한수학회)

• 분산(편차제곱의 총합/사례수) : 분산은 확률분포 또는 자료가 얼마나 퍼져 있는지를 알려 주는 수치이다. 분산은 음의 값을 가질 수 없으며 분산이 크면 클수록 확률분포는 평균에서 멀리 퍼져 있고 0에 가까워질수록 평균에 집중된다. 분산의 단위는 확률변수 또는 자료 단위의 제곱이다. 따라서 분산의 제곱근은 확률변수 또는 자료와 같은 단위를 갖는다. 분산의 제곱근은 표준편차라고 하며 역시 평균으로부터 얼마나 퍼져 있는가를 알려주는 수치로 사용된다.
[네이버 지식백과] 분산 [variance] (수학백과, 2015.5, 대한수학회)

• 표준편차(분산의 제곱근) : 표준편차는 자료의 값이 평균으로부터 얼마나 떨어져 있는지, 즉 흩어져 있는지를 나타내는 값이다. 자료의 값들의 평균을 알아도 얼마나 흩어져 분포되어 있는지에 따라 자료의 특징은 완전히 달라진다. 아래의 학생 A와 B의 과목별 성적 평균은 70점으로 동일하지만, 각 과목별 성적의 분포는 완전히 다르다.
[네이버 지식백과] 표준편차 [standard deviation, 標準偏差] (두산백과)

<학생 A의 성적>

과목 국어 영어 수학 평균
점수 69 71 70 70

<학생 B의 성적>

과목 국어 영어 수학 평균
점수 50 70 90 70

A학생은 모든 과목이 평균 70점에 아주 가까이 분포하지만 B학생은 국어,수학 성적이 평균과 20점이나 떨어져있다. 이 경우 A보다 B의 표준편차가 더 크다.