Bài toán xe tăng Đức: Ước lượng cỡ quần thể bằng số serie

pantherTrong thế chiến thứ II phe đồng minh gặp một vấn đề khá đau đầu là phải ước lượng số xe tăng Đức sản xuất được là bao nhiêu. Như đã biết xe tăng Đức có nhiều ưu thế vượt trội hơn so với phe đồng minh đặc biệt là loại Panther (Con báo). Dĩ nhiên ngành được giao nhiệm vụ thu thập thông tin, số liệu chính là ngành tình báo.

Nhưng những con số mà ngành tình báo đưa ra có nhiều mâu thuẫn. Lúc này các nhà thống kê vào cuộc. Họ đã đưa ra kết quả khác hẳn (thấp hơn nhiều). Và sau chiến tranh, theo những tài liệu gốc thu thập được của Đức, thì kết quả đó là rất chính xác. Còn con số của ngành tình báo thì sai bét.

Những nhà thống kê dựa vào số seri của xe tăng mà phe Đồng minh tịch thu hoặc phá hủy để tiến hành ước đoán .

Giả sử số seri của các xe tăng được Đức đánh từ 1, 2, 3, 4, 5 đến N. N là con số mà phe Đồng minh phải ước lượng.

Bây giờ phe Đồng minh bắt được (hoặc phá hủy được) 5 chiếc có số seri là 20, 31, 43, 78 and 92.

Vậy phe Đồng minh có mẫu (sample) là S= 5 chiếc, với số seri lớn nhất chính là M= 92.

Có thể chứng minh rằng ước lượng không chệch (unbiased estimator) cho N chính là M + M/S -1, trong

trường hợp này số xe tăng ước lượng là 109.

Lịch sử ghi lại, dựa vào số liệu thu thập được (dĩ nhiên là cách thu thập có thể phức tạp hơn ví dụ dùng nhiệu loại số seri như xích xe, thân xe, động cơ…. và từ nhiều mẫu hơn, nhưng bản chất thì vẫn đơn giản như vậy), thì các nhà thống kê ước lượng, từ năm 1940-1942 mỗi tháng Đức sản xuất được khoảng 246 chiếc. Trong khi đó ngành tình báo lại đưa ra con số đến 1400. Sau chiến tranh con số chính xác từ tài liệu của Đức để lại là 245 !. Một thắng lợi rõ ràng của các nhà thống kê! [2]

Ý tưởng của phương pháp nói trên khá giản dị.

Hình vẽ dưới đây biểu thị toàn bộ số xe tăng theo serie, trong đó những gạch màu đỏ là các serie ta quan sát được (từ các xe thu hay phá hủy được), trong ví dụ này là 4 chiếc.

clip_image004

Trong thực tế thì tình hình là thế này:

clip_image006

Ta đã có X4 vậy ta phải ước lượng được số đối tượng không quan sát được (gạch đen) khoảng từ X4 đến XN là xong.

Ta giả định số serial của các xe tăng tuân theo luật phân phối đều (uniform), giả định này khá hiển nhiên.

Như vậy số seri quan sát được có xác suất xuất hiện như nhau, suy ra rằng khoảng trống (số các gạch đen không quan sát được) từ seri đầu (1) đến X1, từ X1 đến X2… từ X4 (là serie lớn nhất trong mẫu có được) đến XN là bằng nhau.

Một cách tự nhiên, ta ước lượng các khoảng này bằng trung bình (mean) của các khoảng từ 1 (không phải là X1 !) đến X4 chính là bằng serie lớn nhất chia cho cỡ mẫu. Trong hình trên chính là X4/4. Đó cũng chính là ước lượng cho khoảng X4 đến XN.

Vậy số xe tăng cần ước lượng đơn giản là:

X4 + X4/4

Ta phải trừ đi 1 là vì ta đã tính X4 hai lần (!?)

X4 + X4/4 –1

Công thức tổng quát là:

Ước lượng cỡ quần thể = Serie lớn nhất trong mẫu + Serie lớn nhất trong mẫu/Cỡ mẫu – 1

Có thể viết thành cách khác

Ước lượng cỡ quần thể = Serie lớn nhất trong mẫu + Khoảng cách trung bình trong mẫu – 1

(Bạn đọc có thể thấy việc trừ 1 hay không cũng không ảnh hưởng lắm đến kết quả, nó chỉ có giá trị trong chứng minh lý thuyết cho cách ước lượng này).

Ước lượng này là không chệch (unbiased) [1].

Cách ước lượng này có thể áp dụng cho các tình huống mà đối tượng nghiên cứu được đánh gán nhãn thứ tự, chẳng hạn như ước lượng số sản phẩm sản suất của một công ty bằng cách lấy mẫu các số serie của sản phẩm mà họ đã tung ra thị trường (không khó lắm!!!)… Miễn là họ không cố tình đánh serie theo kiểu ngẫu nhiên.

Trần Quý Phi

Tham khảo:

[1] R Johnson ,Estimating the Size of a Population,The Best of Teaching Statistics – 1st Anthology,Teaching

Statistics Journal, 1986. (Bài này có thêm vài công thức ước lượng khác)

[2] Gavyn Davies, How a statistical formula won the war, The Guardian, Thursday 20 July 2006 http://www.guardian.co.uk/world/2006/jul/20/secondworldwar.tvandradio