Trình bày dữ liệu: Bao nhiêu số lẻ (thập phân) là vừa?

clip_image004Việc trình bày các con số với độ chính xác như thế nào trong báo cáo, bài báo… là một vấn đề hay gặp trong thực tế. Chúng tôi xin trích dịch và tóm tắt những đề nghị chủ yếu của Douglas G Altman, J Martin Bland từ bài báo Statistics Notes: Presentation of numerical data mà các bạn có thể xem nguyên văn tại đây hoặc đăng nhập vào mục tư liệu của statistics.vn để tải về như chúng tôi đã giới thiệu ở bài trước: Giới thiệu loạt bài về thống kê của Bland và Altman trên BMJ

Các dữ liệu liên tục, như nồng độ cholesterol huyết thanh hoặc độ dày lớp mỡ dưới da có thể được tóm tắt hoặc bằng từ ngữ hoặc bằng bảng biểu hoặc bằng đồ thị.

Nếu dùng con số thì vấn đề là mức chính xác của chúng sẽ như thế nào. Nguyên tắc là chừng nào có thể thì ta cần giữ độ chính xác, tức là số lượng “số lẻ”, số chữ số thập phân như nhau cho cả bản báo cáo và đặc biệt là trong cùng một bảng số liệu.

Nói chung, các thống kê có tính tổng kết (summary statistics) như trung bình không nên có hơn 1 số lẻ so với dữ liệu thô. Ví dụ, chiều cao là 160, 145… thì trung bình nên chỉ trình bày là 154.2 chẳng hạn.

Quy tắc này cũng thường áp dụng cho độ phân tán như độ lệch chuẩn (SD) hay sai số chuẩn (SE), mặc dù chúng ta có thể cần lưu độ chính xác cao để dùng cho các tính toán sau đó.

Tương tự, lưu ý này cũng áp dụng cho các kết quả phân tích hồi quy. Một ví dụ có thật trong một nghiên cứu tác giả đưa ra phương trình hồi quy:

Trọng lượng trẻ =-3.0983527 + 0.142088xchu vi ngực + 0.158039 x chu vi cánh tay.

Phương trình này có tham vọng ước đoán trọng lượng trẻ sơ sinh chính xác đến 1/1000000 g, đó là độ chính xác giả tạo cần phải tránh!

Các dữ liệu phân loại, như các nhóm bệnh, có hay không các triệu chứng có thể được tóm tắt thành tần số và phần trăm. Việc chỉ đưa số phần trăm mà không có mẫu số có thể gây hiểu lầm vì mẫu số không được người đọc biết đến.

Nếu có tần số thì có thể trình bày phần trăm là một số nguyên, chẳng hạn 22% chứ không cần hơn. Phần trăm với một số lẻ đôi khi cũng được chấp nhận, nhưng hoàn toàn không thể dùng cho cỡ mẫu nhỏ. (*)

Các thống kê trong các kiểm định, như giá trị t hoặc chi-bình phương, hệ số tương quan… không nên được

trình bày quá 2 số lẻ.

Các khoảng tin cậy tốt hơn nên được trình bày trong văn bản, lấy ví dụ, là 12.4 đến 52.9 vì kiểu viết 12.4-52.9 sẽ bị hiểu nhầm khi một hoặc cả hai số là âm.

P-value nên được đưa ra với 1 hoặc 2 con số có nghĩa.(**)

P-value luôn lớn hơn 0 và vì kết quả máy tính được ra có một số cố định các chữ số 0 nên nếu kết quả là P=0.0000 thì phải hiểu là P<0.00005, và ta cần trình bày dưới dạng P< 0.0001 (làm tròn 5)

Trước đây, P value luôn được đưa ra dưới dạng P<0.05, p<0.01… vì kết quả được so sánh với giá trị trong bảng. (Tức là sau khi tính toán một thống kê, ví dụ chi-quare, thì ta so sánh nó với một giá trị tới hạn (critical value) ứng với mức ý nghĩa xác định chẳng hạn 5% trong bảng tra của phân phối chi-quare, nếu thống kê ta tính được từ dữ liệu lớn hơn giá trị này thì ta phát biểu p<0.05 và ngược lại-ND). Hiện nay các giá trị p được tính bằng máy tính và chúng có thể đưa ra chính xác hơn nhiều, thậm chí với cả những kết quả không có ý nghĩa thống kê, ví dụ P=0.2.

Các giá trị như P = 0.0027 có thể được làm tròn lên thành 0,003, nhưng nói chung là không nên ghi thành P<0.01 hoặc P<0.05. Tuy nhiên, trong bảng số liệu có thể ghi thêm ký hiệu bên cạnh, để biểu thị mức độ của ý nghĩa, thường người ta dùng *, ** và *** để chỉ lần lượt p<0.05, p<0.01, p<0.001.

Ghi chú:

(*) Về phần trăm xin xem thêm bài Một “căn bệnh số” của giới báo chí và Cẩn thận với con số phần trăm của Gs. Nguyễn Văn Tuấn trên site này)

(**) Số chữ số có nghĩa nói chung là khác với số chữ số thập phân. Cái này hơi rắc rối. Xin xem lại tại đây. Bạn nào lười :-), có thể nhớ vài quy tắc và vào trang này để thử, sẽ có cảm giác là vấn đề không đơn giản như mình nghĩ 🙂

Các chữ số khác 0 là có nghĩa. Rắc rối là các chữ số 0. Chữ số 0 nằm giữa các chữ số khác 0 là có nghĩa.

Các chữ số 0 cuối của phần thập phân là có nghĩa

Các chữ số 0 nằm trước chữ số khác 0 đầu tiên là không có nghĩa.

Ví dụ: 0.102 có 3 chữ số nghĩa (1,0,2, chữ số 0 đầu tiên không tính) bằng với 0.0000102 cũng có 3 chữ số có nghĩa.

Nhưng 0.1020 là có 4 chữ số có nghĩa bằng với 120.0.

Khi trình bày 120.0 thì ta nói độ chính xác là 1 chữ số thập phân, nhưng khi trình bày 120.00 thì độ chính xác là đến 2 chữ số thập phân, chúng khác nhau về độ chính xác mặc dù về mặt toán học là bằng nhau.

Trần Quý Phi