기초통계학 [자료의 요약, 상자그림] - 고홍 교수

o 통계학은 자료수집을 하는 과정에 따라 기술통계학과 추론 통계학으로 나누어진다.

- 기술통계학 : 자료를 정리 요약하고 자료의 특징을 파악
- 추론통계학 : 표본자료를 사용하여 모집단 전체에 대한 특성을 추측하고, 모집단의 대한 일련의 의사결정방법을 연구.

o 자료의 구분 : 사칙연산 가능 여부에 의한 구분

-질적자료 (비계측자료) -> 사칙연산이 불가능
 - 범주형 자료라고도 함
 - ex) 혈액형, 성별, 학력, 종교, 직업 등

- 양적자료 (계측자료) -> 사칙연산 가능
 - 합계,평균,최댓값,최솟값,분산 등으로 자료를 요약,정리 할 수 있음을 의미함
 - 질적자료보다 간결하진 않지만 정보는 더 많다.

- 시계열자료 : 시간의 변화에 따름
- 횡단면자료 : 동일 시간대

o 정의

- 모집단: 통계적 자료를 얻을 수 있는 원소 전체의 집합
- 표본: 모집단의 부분집합
- 모수: 모집단의 특성을 나타내는 수치
- 통계량: 표본자료로 부터 얻어진 표본의 특성치

* 일반적으로 모수는 그리스 문자, 통계량은 영어의 알파벳으로 표기





o 모집단, 모수 ----> 표본추출 ----> 표본, 통계량
                   <----     추론   <----

o 자료의 구분: 측정척도에 의한 구분
 - 명목자료, 순서자료, 수치자료 (등간,비율척도 등 )








o 상자그림 ( Box plot )

- 2개 이상일 시 비교 가능
- 관련 용어정리
 - 스텝 : 사분위편차의 1.5배
 - 안 울타리 : 각 사분위수에서 1스텝 바깥쪽 값
  - 아래쪽 안 울타리: Q1 - 1 * 스텝
  - 위 쪽 안 울타리 : Q3 + 1 * 스텝
- 바깥 울타리 : 각 사분위수에서 2스텝 바깥쪽 값
 - 아래쪽 바깥 울타리: Q1 - 2 * 스텝
 - 위 쪽 바깥 울타리: Q3 + 2 * 스텝
- 인접값 : 안 울타리 안쪽에 있으면서 안 울타리에 가장 가까운 관측값

Comments