Mục đích chính của biểu đồ tần suất (Histogram)

Biểu đồ tần suất chủ yếu được sử dụng để:

  1. Ước tính khả năng của quá trình (Process Capability): Giúp xác định khả năng kiểm soát quá trình sản xuất.
  2. Tính tỷ lệ sản phẩm không đạt yêu cầu (Defect Rate): Đo lường mức độ lỗi trong sản phẩm.
  3. Điều tra sự pha trộn của nhiều nhóm khác nhau: Phát hiện sự hiện diện của nhiều nhóm dữ liệu khác nhau trong cùng một bộ dữ liệu.
  4. Phát hiện dữ liệu giả (Fake Data): Kiểm tra xem có sự xuất hiện của dữ liệu không hợp lệ hay không.
  5. Kiểm tra tính phù hợp của giới hạn kiểm soát thiết kế đối với quá trình thực tế: Đánh giá sự phù hợp giữa các giới hạn kiểm soát được thiết kế với quá trình sản xuất thực tế.
  6. Thiết lập giới hạn đặc tả và so sánh với giá trị tiêu chuẩn: Đưa ra các quy định và giới hạn đặc tả, sau đó so sánh với giá trị tiêu chuẩn.

Biểu đồ tần suất cơ bản là một dạng bảng phân phối tần suất. Dọc theo trục hoành (trục x), các nhóm được phân chia bởi các ranh giới nhóm (group boundary) và khoảng nhóm (bin width) được sử dụng làm đáy. Tần suất của mỗi nhóm được sử dụng làm chiều cao, vẽ thành các hình chữ nhật có chiều cao tương ứng với tần suất của mỗi nhóm.

Khác biệt giữa biểu đồ cột (Bar Chart) và biểu đồ tần suất (Histogram)

Mặc dù một số người phân biệt rõ ràng giữa biểu đồ cột (các cột không liền kề nhau) và biểu đồ tần suất (các cột liền kề nhau), cá nhân tôi cho rằng sự khác biệt về khoảng cách giữa các cột không quá quan trọng. Những người ủng hộ quan điểm này cho rằng sự khác biệt lớn nhất là:

  1. Biểu đồ cột: Các cột có thể được sắp xếp theo bất kỳ thứ tự nào, chẳng hạn như số liệu dân số theo khu vực sinh sống hoặc dữ liệu giới tính, thường là dữ liệu không liên tục.
  2. Biểu đồ tần suất: Các cột phải được sắp xếp theo thứ tự ban đầu, thường đại diện cho dữ liệu liên tục, như số liệu chiều cao trong lớp học.

Tuy nhiên, không nhiều người có thể phân biệt rõ ràng như vậy. Ví dụ, số liệu bán hàng và hiệu suất kinh doanh thuộc biểu đồ cột hay biểu đồ tần suất? Nếu là dữ liệu liên tục, thì nên thuộc về biểu đồ tần suất, nhưng lại không hoàn toàn giống. Có lẽ quan điểm về vấn đề này có thể khác nhau tuỳ thuộc vào từng người.

Kỹ thuật vẽ biểu đồ tần suất

Thực tế, biểu đồ tần suất là một trong những loại biểu đồ thống kê xuất hiện phổ biến nhất trong cuộc sống hàng ngày của chúng ta. Ví dụ, phân bố điểm số trong lớp, phân bố điểm thi, phân bố độ tuổi, hầu hết đều được biểu diễn bằng biểu đồ tần suất. Trong thống kê, biểu đồ tần suất biểu thị số liệu theo kích thước hoặc trọng lượng nhất định; khi số liệu đủ lớn, biểu đồ sẽ xuất hiện phân bố chuẩn (normal distribution).

Bây giờ, chúng ta hãy xem cách tạo biểu đồ tần suất từ dữ liệu.

  1. Thu thập dữ liệu: Đảm bảo dữ liệu đủ lớn để tạo biểu đồ tần suất có ý nghĩa.
  2. Chọn kích thước nhóm (bin size): Xác định số nhóm cần thiết để biểu diễn dữ liệu một cách rõ ràng.
  3. Phân chia dữ liệu thành các nhóm: Sắp xếp dữ liệu vào các nhóm đã chọn.
  4. Vẽ biểu đồ: Trục x biểu thị các nhóm, trục y biểu thị tần suất, sử dụng các hình chữ nhật để biểu diễn tần suất của từng nhóm.

Nhờ vào sự hỗ trợ của máy tính và phần mềm như Excel, việc tạo ra biểu đồ tần suất ngày nay trở nên dễ dàng hơn nhiều.

Cách Vẽ Biểu Đồ Tần Suất (Histogram) Bằng Excel

Giả sử chúng ta có 200 mẫu dữ liệu về độ dày của đầu Type C (đơn vị: mm), chúng ta có thể sử dụng Excel để vẽ biểu đồ tần suất để xem phân bố dữ liệu.

8.88.88.48.28.39.38.68.49.09.7
8.48.59.08.79.48.98.78.78.68.7
8.48.48.58.88.99.68.47.98.18.4
8.88.38.48.59.38.18.78.38.98.7
8.19.19.08.68.39.08.79.08.68.6
7.89.29.87.48.88.19.07.88.68.7
8.89.49.08.88.58.79.07.89.28.7
8.87.98.08.07.98.28.68.48.68.3
9.09.08.38.49.58.49.78.99.29.0
8.48.18.49.99.98.68.57.98.77.8
9.38.48.88.59.18.98.48.88.99.7
8.39.09.38.79.09.29.17.07.97.3
9.78.97.88.38.79.08.47.68.18.2
8.58.58.18.37.67.79.07.98.39.0
8.98.68.48.98.38.08.08.08.98.3
9.07.77.98.38.58.58.98.48.39.5
8.88.78.19.18.98.47.98.67.88.9
8.17.77.38.58.07.77.88.37.58.3
9.47.07.57.78.37.98.68.98.49.9
8.39.48.49.38.57.98.48.88.38.0

Sử Dụng Excel Để Tính Toán và Vẽ Biểu Đồ Tần Suất

1. Sử dụng hàm Min() để tính giá trị nhỏ nhất = 7.02

2. Sử dụng hàm Max() để tính giá trị lớn nhất = 9.9

Thông thường, chúng ta nên chia thành khoảng 10 nhóm. Do đó, khoảng cách sẽ được tính bằng công thức: (giá trị lớn nhất - giá trị nhỏ nhất) / 10. Cuối cùng, ta được khoảng cách là (9.9-7.0)/9 = 0.29, làm tròn thành 0.3. Các giá trị trung tâm của mỗi nhóm sẽ là: 7.15, 7.45, 7.75, 8.05, 8.35, 8.65, 8.95, 9.25, 9.55, 9.85.3

3. Sử dụng hàm COUNTIFS() để tính và thống kê số lần xuất hiện của mỗi nhóm, chúng ta có bảng sau:





4.Sau đó bạn có thể dùng Excel vẽ biểu đồ tương tự hình bên dưới:
Nhìn vào biểu đồ ta thấy được các số liệu phân bố với số lượng tương ứng, nếu quy cách có quy cách biên dưới là 7; quy cách biên trên là 10 thì dựa vào biểu đồ có phán định độ dày của Type C tức sản phẩm nằm trong phạm vi quy định ( Phân bố thông thường)

Dựa vào dữ liệu phân bố trên ta cũng có thể phát hiện các dữ liệu có khả năng làm giả hay không?
Nếu lưu trình không phải mới thử nghiệm mà đã ổn định, các số liệu sẽ thường được phân bố với phân bố thông thường mà không phải phân bố về một khoảng cách với số lượng lệch quá xa so với phần còn lại. Nếu như là số liệu giả, có khả năng biểu đồ trên thường có một số khoảng cách trống, ở hai đầu khoảng cách lại có lúc cao chót vót.