Kiểm định McNemar và thử nghiệm crossover

Trong kiểm định đối với bảng 2 x 2 có một điều kiện là các đối tượng được tính một lần cho mỗi ô, nếu vi phạm nguyên tắc này thì Pearson chi-square không được áp dụng. Bài này giải thích rõ hơn điều kiện này và trình bày kiểm định McNemar là kiểm định được dùng trong trường hợp đó, thông qua việc giới thiệu thử nghiệm được gọi là crossover trial.

1- Thử nghiệm crossover

Giả sử ta muốn đánh giá sự khác biệt trong việc điều trị của thuốc A và B. Ta phân bệnh nhân thành 2 nhóm, một nhóm dùng thuốc A và một nhóm dùng thuốc B. Sau một thời gian ta đánh giá từng người, có đáp ứng hay không, ta có thể tóm tắt thành một bảng 2 x 2 như sau:

clip_image005

Như vậy, mỗi người chỉ hoặc là dùng thuốc A hoặc là dùng thuốc B (và chỉ thuộc nhóm có đáp ứng hoặc thuộc nhóm không có đáp ứng).

Có một cách khác để đánh giá về hiệu quả của thuốc này.

Giả sử ta có 18 bệnh nhân và ta phân thành hai nhóm một nhóm dùng thuốc A, nhóm kia dùng thuốc B, sau một khoảng thời gian ta đánh giá từng người có đáp ứng hay không.

Sau một thời gian ngưng dùng thuốc, ta lại cho cũng 18 người này dùng tráo đổi, nếu giai đoạn trên dùng thuốc A thì lúc này ta cho dùng thuốc B và ngược lại.

Cách thử nghiệm này được gọi là crossover trial (thử nghiệm giao chéo) (*)

Trước hết đây là một kiểu ghép cặp (pair) nhưng thay vì ghép 2 đối tượng (có cùng nhiều đặc tính tới mức có thể được) và mỗi đối tượng trong cặp cho dùng 2 loại thuốc khác nhau thì ta ghép 2 loại thuốc cho cùng 1 đối tượng (với hai thời điểm khác nhau).

Như vậy crossover trial có ưu điểm là loại trừ được những đặc điểm khác nhau của hai đối tượng tốt hơn phương pháp bắt cặp thông thường, vì ở đây ta thử nghiệm trên cùng 1 đối tượng.

Nhưng nhược điểm của phương pháp này là ảnh hưởng của tác động có thể sẽ dẫn đến sai lệch. Ví dụ, giả sử thật sự thuốc A có tác dụng tốt. Một người trong giai đoạn đầu dùng thuốc A thì kết quả này có thể còn được lưu giữ lại. Khi người này dùng thuốc B trong giai đoạn hai thì việc đánh giá có thể bị sai lệch do sự đáp ứng tốt với thuốc A trước đó.

Do đó, phương pháp này chỉ có thể sử dụng với điều kiện tác động không có ảnh hưởng lâu dài. Nói cách khác tác động chỉ có ảnh hưởng ngắn hạn, giai đoạn tác động không kéo dài và thời gian “nghỉ” đủ lớn. Có thể thấy là chúng ta làm sao cho hai lần thử nghiệm là độc lập với nhau, lần này không ảnh hưởng đến lần kia.

Chẳng hạn trong y học chỉ có thể dùng với những thuốc như giảm đau, hạ huyết áp… Phạm vi của bài này không cho phép đi sâu hơn vấn đề này. Ở đây ta chỉ nói đến việc sử dụng bảng 2×2 như thế nào:

Để tổng kết ta lưu ý là chỉ có 18 cặp quan sát, chứ không phải 36. Mỗi cặp quan sát chính là kết quả 2 lần dùng thuốc của 1 bệnh nhân. Lưu ý là chúng ta không phân biệt thuốc được dùng là trong giai đoạn 1 hay 2.

Hình 1:

clip_image006

Giả sử số liệu cụ thể của chúng ta là:

Hình 2:

clip_image007

Nếu tổ chức dữ liệu như thế này

Hình 3:

clip_image008

Và tổng kết như thế này

Hình 4:

clip_image009

rồi sử dụng Person’s chi-square thì ta sẽ vi phạm “nghiêm trọng” yêu cầu: mỗi loại chỉ được nằm trong một ô. Thật vậy 36 quan sát của chúng ta không độc lập. Kết quả quan sát của một người, lấy ví dụ bệnh nhân X, thuốc A đáp ứng, được đếm 1, cộng cho ô (10), rồi cũng người này, thuốc B không đáp ứng, đếm 1 cộng cho ô (14) (**).

2- Kiểm định McNemar

Ta xem lại bảng số liệu:

clip_image007[1]

Kiểm định McNemar cũng tương tự Pearson, dựa trên phân phối chi-square nhưng với ý tưởng khác biệt là: Vì chúng ta quan tâm đến sự tác dụng khác nhau của thuốc A và B là có ý nghĩa thống kê hay không, nên ta sẽ bỏ hai nhóm mà sự khác biệt này không có đó là nhóm A đáp ứng + B cũng đáp ứng (a) và nhóm A không đáp ứng + B cũng không đáp ứng (d).

McNemar chứng minh rằng:

clip_image004[1]

tuân theo phân phối chi-square với bậc tự do là 1 (đây có lẽ là test thống kê dễ nhớ nhất!!!) Trong trường hợp của ta là

clip_image011

Tra bảng ta có giá trị tới hạn của phân phối chi-square bậc tự do 1 với mức ý nghĩa 5% (2 đuôi!) là 3.84

Vì kết quả quan sát của ta là 3 nhỏ hơn giá trị này nên ta kết luận sự đáp ứng với hai loại thuốc trên không khác biệt với mức ý nghĩa 0.05.

Ghi thêm về thuật ngữ

Crossover trial: Theo chúng tôi cũng có thể gọi là thử nghiệm hoán chuyển.

Thời gian giữa hai lần can thiệp, điều trị được gọi là wash-out period

Đối tượng có tác dụng như nhau với hai can thiệp (cả hai thuốc đều đáp ứng hoặc cả hai thuốc đều không) gọi là tied pair.

Đối tượng có tác dụng khác nhau với hai can thiệp (thuốc A đáp ứng, thuốc B không và ngược lại) gọi là untied pair.

Trần Quý Phi

(*) Một ví dụ kinh điển nữa là nghiên cứu về kích thước loét chân trong đái tháo đường chẳng hạn. Có 40 vết loét. Nhưng vì mỗi người có hai chân và có thể có hai vết loét. Số liệu này chỉ lấy trên 35 người chẳng hạn. 30 người có một vết loét ở một chân. Còn 5 người có hai. Dữ liệu vết loét của 5 người này là không độc lập, phải xem lại.

Tham khảo:

[1] Leslie E Daly & Geoffrey G Bourke (2007), Interpretation and Uses of Medical Statistcs, 5th ed, Blackwell Sience.

[2] J. M. Bland (2000), An Introduction to Medical Statistics, 3rd ed., Oxford University Press. [3] Alan Agresti (2002), Categoriacl Data Analysis, 2nd ed., Wiley.

[4] David J. Sheskin (2000), Parametric and Non-parametric Statistical Procedures, 3rd ed., Chapman and Hall.