Business statistics

2. basics of statistics

뉴욕킴 2024. 5. 5. 22:35
  1. 모집단과 표본:
    • 모집단(population)은 조사하고자 하는 전체 대상이나 개체들을 의미합니다. 예를 들어, 대통령 선거에 대한 대중 의견 조사의 경우, 대한민국의 성인 유권자가 모집단이 될 수 있습니다.
    • 표본(sample)은 모집단의 일부분을 나타냅니다. 무작위로 선택된 표본은 모집단을 대표할 수 있어야 합니다.
    • 모집단은 유한하거나(특정 비행기에 탑승한 모든 승객) 무한할 수 있습니다(지속적인 병행 공정에서 생산된 모든 콜라).
  2. 모수와 통계량:
    • 모수(parameter)는 모집단에서 수집된 수치 정보를 나타냅니다. 모집단의 특성을 반영합니다. 예를 들어, 모집단의 평균 연령이나 인구 수 등이 모수가 될 수 있습니다.
    • 통계량(statistic)은 표본에서 얻은 수치 값입니다. 이 통계량은 모집단의 특성을 반영합니다. 예를 들어, 표본의 평균 연령이나 표본의 크기가 통계량이 될 수 있습니다.

모집단과 표본, 그리고 모수와 통계량 사이의 관계를 이해하는 것은 통계 분석에서 매우 중요합니다. 모집단에 대한 완전한 정보를 얻는 것은 어렵고 비용이 많이 들 수 있기 때문에, 대부분의 경우 표본을 사용하여 모집단에 대한 추론을 수행합니다. 적절한 표본 추출 방법을 사용하여 통계적 추론을 수행하면, 모집단에 대한 정보를 효과적으로 파악할 수 있습니다.

 

예시: 후보 김씨에 대한 선호도를 어떻게 알 수 있을지

각 데이터는 실제 개별 유권자 조사 결과를 나타냅니다. 각 데이터는 객체와 속성으로 구성됩니다. 여기서 객체는 측정 대상이고, 속성은 그 대상의 특성입니다. 예를 들어, 유권자는 객체이고, 성별, 주소 등이 속성입니다. 이 속성의 값은 각기 다를 수 있습니다.

이러한 객체는 속성 값의 조합에 의해 구별되어야 합니다. 즉, 어떤 속성의 값이 같더라도 다른 속성의 값은 다를 수 있습니다. 이 조합은 각 객체를 구별하는 데 사용될 수 있습니다.

예를 들어, 한국 유권자의 국적을 고려해보겠습니다. 이 국적은 한국인 유권자만이 적격이므로, 모든 유권자의 국적 값은 동일할 것입니다. 따라서 이 속성은 모든 객체에서 동일한 값이므로 데이터 정의에 이 속성을 포함하는 것은 무의미할 것입니다.

데이터 유형은 측정 수준에 따라 더 세분화될 수 있습니다. 측정 수준에 따라 값을 몇 가지 범주로 분류할 수 있습니다. 이것이 바로 명목, 서수, 간격, 비율 등의 척도입니다. 명목 및 서수 척도는 종종 질적 데이터로, 간격 및 비율 척도는 양적 데이터로 분류됩니다. 

 

1) Nominal scale of Measurement(명목척도)

명목 척도는 데이터를 라벨로 분류할 때 사용됩니다. 예를 들어, 색상이나 국적과 같은 라벨이 있습니다. 이러한 라벨은 순서나 순위를 나타내지 않으며 수학적 연산이 불가능합니다.

예를 들어, 색상을 말할 때, 빨간색, 분홍색, 노란색과 같은 색상 종류가 있을 수 있습니다. 
이러한 각 색상 종류는 명목 척도의 예시일 수 있습니다. 이 빨강, 분홍, 파랑은 라벨입니다.
또한 어떤 종류의 대학이 존재할까요? 이 경우 여성 대학, 유신 대학 등이 있을 수 있습니다. 
이것들은 대학의 라벨입니다. 국적도 명목 척도가 될 수 있습니다. 
미국, 한국 등이 그러한 라벨일 수 있습니다. 이러한 라벨은 각각에 고유한 특성이 있습니다. 
라벨 간에는 순서가 없습니다. 또한 수학적 연산을 수행할 수 없습니다. 
예를 들어, 빨간 라벨과 분홍 라벨을 더할 수 없습니다. 그렇지 않으니까요? 
이것은 단순히 이름일 뿐이라서입니다. 그리고 그에 대한 다른 수학적 연산도 할 수 없습니다. 
명목 척도의 특성입니다.

 

2) Ordinal scale of Measurement(서수척도)

서수 척도는 데이터를 순서나 순위로 분류할 때 사용됩니다. 예를 들어, 계급 계층 구조나 인원 크기와 같은 것들이 있습니다. 이러한 데이터에는 순서가 있지만 수학적 연산은 불가능합니다.

 이 측정 척도는 명목 척도 데이터 사이에 순서나 순위가 있습니다.
 예를 들어, 군대의 계급 계층 구조가 있습니다. 최하위 계급은 이등병입니다.
 그 다음은 이등병 일등병입니다. 그리고 그 위로 이등병 이등병 등이 있습니다.
 명목 데이터 사이에는 순서가 있습니다. 인원 크기는 어떨까요? 
 작음, 중간, 큼과 같은 크기에는 순서가 있습니다. 
 데이터에 라벨이 있지만 각 라벨에는 순서나 연결이 있습니다. 
 그러면 이러한 데이터를 서수로 분류할 수 있습니다. 
 명목 척도와 서수 척도는 질적 데이터의 예입니다. 이제 양적 데이터로 넘어갑시다.

 

3) Interval scale of Measurement(간격척도)

간격 척도는 서수 척도 데이터의 측정값 사이에 정규 간격이 있는 경우에 사용됩니다.(ex.온도)

간격 척도는 서수 척도 데이터의 측정값 사이에 정규 간격이 있는 경우에 사용됩니다.
예를 들어, 시력이나 학점을 생각해보세요. 
시력의 경우 좌안 1.5, 우안 1.0 같은 값이 있을 수 있습니다. 
이것은 간격이 있는 측정값입니다. 또한 학점의 경우 3.0에서 3.1까지의 간격이 동일합니다. 
서수 척도처럼 간격 척도에도 의미가 있습니다.
그러나 서수 척도와는 달리 간격 척도는 데이터 간의 간격을 계산할 수 있습니다. 
예를 들어, 작은 크기와 중간 크기 사이의 간격 또는 중간 크기와 큰 크기 사이의 간격을 생각해보세요. 
이 간격은 의미가 있습니다.

 

4) Ratio scale of Measurement

비율 척도는 두 측정값 사이의 관계가 의미 있는 숫자적 척도입니다. 예를 들어, 몸무게, 키, 나이, 거리, 가격 등이 있습니다. 이러한 데이터는 절대적인 값이 있으며 수학적 연산이 가능합니다.

이 측정은 두 간격 척도 데이터 측정 사이의 관계가 의미가 있는 숫자적 척도입니다. 
예를 들어, 몸무게, 키, 나이, 거리, 가격 등이 있습니다. 이것은 간격 척도와 매우 유사합니다. 
하지만 이것은 0이 의미 있는 것으로 정의됩니다. 즉, 비율 척도는 절대적인 것입니다.
예를 들어, 키의 경우 0은 실제로 높이가 없다는 것을 의미합니다.
새로 태어난 아기의 경우 나이가 0인 것은 아직 아무런 가치도 없다는 것을 의미합니다. 
비율 척도는 더 복잡하고 구체적인 척도입니다.

 


데이터의 특성을 요약하는데 사용되는 측정값에는 중심 경향성과 퍼짐이 포함됩니다.

  1. 중심 경향성: 데이터 값이 어디에 집중되어 있는지를 나타내는 측정값입니다. 주로 평균, 중앙값, 최빈값 등이 사용됩니다.
  2. 퍼짐(변이): 데이터 값이 얼마나 퍼져 있는지를 나타내는 측정값입니다. 이는 데이터의 분산, 표준편차, 범위, 사분위수 범위 등으로 표현될 수 있습니다.

중심 경향성은 데이터의 대표값을 파악하고, 퍼짐은 데이터의 분포나 변동성을 이해하는 데 도움이 됩니다.

 

 

  • 평균(mean): 모든 데이터 값을 더한 후 데이터의 개수로 나누어 계산됩니다. 데이터의 대표값을 계산하는 데 가장 널리 사용되며, 주로 샘플 또는 모집단의 대표값을 파악하는 데 사용됩니다.

→  이상치가 있을 경우 평균은 왜곡될 수 있습니다.

 평균은 모든 데이터 값을 더한 후 데이터 개수로 나누어 계산됩니다. 
 하지만 이상치의 영향을 받을 수 있어서 평균은 이상치에 민감할 수 있습니다. 
 예를 들어, 야구 선수의 홈런 개수 데이터에서 특정 연도에 이상치가 있을 경우, 
 평균이 왜곡될 수 있습니다.

 

  • 중앙값(median): 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값을 나타냅니다. 이상치에 민감하지 않으며, 데이터가 대칭적이지 않은 경우에 유용하게 사용됩니다. →  이상치에 영향을 받지 않습니다.( 이상치가 있을 경우 중앙값은 이상치의 영향을 받지 않습니다. 중앙값은 항상 데이터를 동일한 비율로 두 부분으로 나누기 때문에 이상치의 영향이 덜합니다.)

예를 들어, 데이터가 3, 4, 6, 8일 때 중앙값은 5가 됩니다. 만약 데이터가 짝수 개일 때는 중간에 위치한 두 값의 평균을 계산하여 중앙값을 구할 수 있습니다. 예를 들어, 데이터가 3, 3, 5, 7, 8, 9일 때 중앙값은 (5 + 7) / 2로 6.5가 됩니다.

중앙값은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값을 나타냅니다. 
중앙값은 이상치에 영향을 받지 않으며, 데이터의 분포를 보다 안정적으로 파악할 수 있습니다.

 

  • 최빈값(mode): 데이터에서 가장 자주 등장하는 값을 나타냅니다. 범주형 데이터의 대표값을 찾을 때 주로 사용되며, 데이터의 분포를 파악하는 데 도움이 됩니다.

예를 들어, 데이터가 2, 2, 4, 5, 5, 5, 7일 때 최빈값은 2와 5입니다.

중앙값은 데이터를 크기 순서대로 정렬했을 때 중간에 위치한 값을 나타냅니다. 중앙값은 이상치에 영향을 받지 않으며, 데이터의 분포를 보다 안정적으로 파악할 수 있습니다.

 

 

 

데이터의 중심 경향성을 이해할 수 있으며, 이상치의 영향을 최소화하고 안정적인 대표값을 얻기 위해 다양한 방법을 고려해야 합니다.

 


 

 

데이터의 분포를 설명하는 데 도움이 됩니다. 분산, 표준 편차 및 사분위 범위가 일반적으로 사용됩니다.

 

1) Variance(분산) : 데이터 집합의 각 데이터 포인트가 평균으로부터 얼마나 멀리 떨어져 있는지의 정도를 측정하는 지표

분산은 데이터의 퍼짐 정도를 나타내는 지표로, 각 데이터가 평균에서 얼마나 멀리 떨어져 있는지를 제곱하여 평균한 값입니다. 이는 데이터가 얼마나 넓게 분포되어 있는지를 나타냅니다. 편차를 제곱하는 이유는 음수와 양수의 합이 0이 되는 것을 방지하기 위함입니다. 이러한 분산 값이 클수록 데이터가 넓게 퍼져 있고, 작을수록 데이터가 집중되어 있다고 볼 수 있습니다.

 

 

2) Deviation(편차): 각 데이터 포인트가 평균값으로부터 떨어진 정도를 나타내는 값

편차는 데이터 점과 평균 간의 차이를 나타내는 주요 개념입니다. 이는 평균에서 각 개별 데이터 점을 뺀 값으로 계산됩니다.

 

3) Quartile(사분위수)

위란 최소값과 최대값의 차이를 의미하며, 데이터의 퍼짐 정도를 나타냅니다. 이후에는 사분위수라는 개념을 살펴보게 되는데, 이는 데이터 세트를 정확히 4개의 동일한 그룹으로 나누는 3개의 지점입니다. 이때 2번째 사분위수(Q2)는 데이터 세트를 정확히 2개의 동일한 그룹으로 나누는데, 이는 중앙값과 같습니다.

사분위수를 이용하여 중간 50%의 데이터를 나타내는 중간범위(interquartile range, IQR)를 계산할 수 있습니다. 이는 제 1사분위수(Q1)와 제 3사분위수(Q3) 사이의 차이로 정의되는데, 이는 데이터 세트의 중간 50%의 범위를 나타냅니다. 데이터를 계산하기 전에는 데이터가 올바르게 정렬되어 있어야 하며, 이를 통해 사분위수 및 중간범위를 쉽게 계산할 수 있습니다.