Chắc chắn đây cũng là thắc mắc của nhiều người, tại sao trong thống kê khi tính độ lệch chuẩn của tổng thể toàn bộ (population standard deviation) và độ lệch chuẩn của mẫu lấy từ một số ít mẫu của tổng thể (sample standard deviation) lại chia cho n và (n-1) lần lượt?

Thông thường, mọi người có thể hiểu lý do vì sao độ lệch chuẩn của tổng thể chia cho n, bởi vì có tổng cộng n dữ liệu.

Vậy tại sao khi tính độ lệch chuẩn của mẫu thì mẫu số lại phải trừ đi 1, tức là chia cho (n-1)?

Cường biết rằng câu trả lời của mình không thể làm hài lòng tất cả mọi người, nhưng trước khi bạn nghi ngờ, hãy đọc hết bài viết này nhé!

Trước khi trả lời câu hỏi này, Cường muốn mọi người thử suy nghĩ xem, khi cùng một giá trị chia cho n và (n-1), liệu kết quả chia cho (n-1) có lớn hơn không? Câu trả lời là chắc chắn, bởi vì độ lệch chuẩn của mẫu là giá trị ước lượng cho độ lệch chuẩn của tổng thể. (Bạn hỏi Cường tại sao lại là "ước lượng"? Vì đây là "lấy mẫu". Ví dụ như toàn bộ trường có 500 học sinh, lấy mẫu 50 học sinh, lấy chiều cao để đại diện cho chiều cao của tất cả học sinh trong trường, tức là sử dụng chiều cao của 50 người để ước tính chiều cao của 500 người. Mặc dù 50 người có thể đại diện cho toàn bộ học sinh trong trường, nhưng chắc chắn sẽ có một chút khác biệt so với việc tính toán chiều cao của 500 người thực tế, nghĩa là hai kết quả sẽ không hoàn toàn giống nhau).

Độ lệch chuẩn tính từ mẫu cuối cùng không phải là độ lệch chuẩn thực tế của tổng thể, nghĩa là độ lệch chuẩn của mẫu là một giá trị không chắc chắn, tức là nó là một giá trị ước lượng. Nói chung, một kỹ sư cẩn trọng khi ước lượng thường có xu hướng bảo thủ hơn, đặc biệt khi liên quan đến an toàn, khi anh ta không thể tính toán chính xác một giá trị, anh ta sẽ chọn giá trị nghiêng về hướng tệ hơn để đảm bảo an toàn, tức là cố tình ước lượng cao hơn độ lệch chuẩn của tổng thể để đề phòng, tránh xảy ra sai sót gây tổn thất. Do đó, chia cho mẫu số nhỏ hơn (n-1) có thể giúp chúng ta đạt được điều này. Độ lệch chuẩn càng lớn có nghĩa là khả năng của quá trình càng kém, chia cho (n-1) sẽ làm cho giá trị lớn hơn.

Thực tế, nếu số lượng mẫu càng lớn, thì sự khác biệt giữa việc chia cho n và (n-1) sẽ càng ít lại. Nói cách khác, sự "thay đổi về lượng" sẽ không quá lớn, nhưng lại có sự thay đổi về "chất" giữa "ước lượng thiên lệch" (biased estimation) và "ước lượng không thiên lệch" (unbiased estimation). Do đó, thông thường khi tính toán độ lệch chuẩn của mẫu, chúng ta yêu cầu số lượng dữ liệu phải ít nhất lớn hơn 25, hoặc lớn hơn 30, dĩ nhiên dữ liệu càng nhiều càng tốt, chỉ là để đạt được sự cân bằng giữa tính thực tiễn và chi phí kinh tế nên mới đề xuất một số lượng như vậy. Vì vậy, công thức tính độ lệch chuẩn của mẫu chia cho (n-1), chỉ khi chia cho (n-1) thì kết quả mới là "ước lượng không thiên lệch".

Những điều trên chủ yếu là dành cho những người không muốn quá căng thẳng đầu óc, vì như vậy dễ giải thích lý do tại sao độ lệch chuẩn của mẫu phải chia cho (n-1), nhưng những người học thống kê có lẽ sẽ không đồng ý với luận điệu này, vậy nên…

Đối với câu hỏi tại sao độ lệch chuẩn của mẫu phải chia cho (n-1)? Một cách chính thống hơn là sử dụng khái niệm "bậc tự do" (Degree of Freedom) để giải thích lý do tại sao phải chia cho (n-1), nhưng điều này thực sự khá trừu tượng, có lẽ nhiều người sẽ không hiểu, ngay cả Cường đôi khi cũng không hiểu rõ lắm!

Bởi vì mỗi dữ liệu trong tổng thể đều là một dữ liệu độc lập có thể thay đổi tự do, nên bậc tự do lấy là n không có vấn đề gì. Tuy nhiên, khi sử dụng mẫu để ước tính tổng thể, phải đảm bảo tính "ước lượng không thiên lệch", vì giá trị trung bình mẫu x̄ (X-bar) cơ bản đã có thể được tính toán từ n dữ liệu mẫu được lấy ra, nên chỉ cần biết (n-1) dữ liệu mẫu, dữ liệu còn lại có thể được suy ra thông qua x̄ (X-bar), dữ liệu đó trở nên bị giới hạn, trở thành dữ liệu mất bậc tự do, do đó bậc tự do trở thành (n-1). Đại khái là như vậy, thực ra Gấu Công Việc cũng chưa hiểu rõ lắm đâu.