Nhân chuyện “hiệp thương” ở Việt Nam: BÀI TOÁN CHỌN MẪU
- Thứ tư - 13/04/2016 20:50
- In ra
- Đóng cửa sổ này
(NCTG) Nhân việc hội nghị cử tri ở Việt Nam - gọi là hiệp thương tại nơi cư trú và nơi làm việc - đang diễn ra và được công luận để tâm bàn tán, chúng ta sẽ bàn một chút về việc lấy mẫu trong thống kê sao cho chính xác và đáng tin cậy.
Trong thống kê, chúng ta chỉ dựa trên một số lượng các quan sát ít ỏi, gọi là mẫu, để có thể đưa ra những kết luận chung cho toàn bộ dân số. Ví dụ, nếu chúng ta có cuộc bầu cử gồm hai ứng cử viên, giả sử là A và B. Cuộc bầu cử chưa diễn ra nhưng chúng ta muốn dự đoán người nào sẽ thắng, vậy chúng ta làm thế nào?
Cách làm là, chúng ta làm một cuộc thăm dò nhỏ, chọn một phần dân số thôi, hỏi xem họ chọn ai, rồi dựa vào đấy để kết luận là người nào có thể thắng. Lý do đơn giản vì ta không thể có đủ kinh phí, nhân lực và thời gian để hỏi quá nhiều người. Và nếu hỏi hết tất cả mọi người thì đó lại là bầu cử luôn rồi.
Việc lấy mẫu rất quan trọng. Nó phải bảo đảm tính không thiên lệch, mà trong thống kê gọi là “không chệch”, để đảm bảo rằng những người mà ta hỏi là đại diện tốt cho toàn thể dân số, nếu không chúng ta không thể dựa vào những người đã hỏi ý kiến để kết luận tổng quát cho toàn bộ dân số được.
Có rất nhiều ví dụ cho việc lấy mẫu thiên lệch. Ví dụ, nếu dân số có 52% nữ, 48% nam mà chúng ta chỉ hỏi toàn nam giới thì kết quả sẽ thiên lệch; hoặc dân số có 60% người dưới 35 tuổi, 40% người trên 35 tuổi, mà chúng ta lại đến trường đại học để hỏi, toàn là sinh viên, thì sẽ thiên lệch; hoặc là chúng ta đến một xóm đi một vòng hỏi toàn hỏi người rảnh rỗi ở nhà, vậy thì đã bỏ qua đối tượng là những người đi làm...
Một ví dụ kinh điển trong việc lấy mẫu bị sai ở thống kê (ai từng tìm hiểu về lấy mẫu thì bài học đầu tiên luôn là ví dụ này) là: trong cuộc bầu cử Mỹ năm 1936 giữa hai ứng viên tổng thống - Alfred Landon thuộc Đảng Cộng hòa và Franklin D.Rosevelt. Tạp chí rất nổi tiếng lúc ấy là “Literary Digest” dựa trên một mẫu rất lớn đến 2,4 triệu người với chi phí rất đắt đỏ đã dự đoán Alfred Landon thắng với tỉ lệ 57% so với 43% của Franklin D.Rosevelt.
Kết quả cuối cùng của cuộc bầu cử là ông Franklin D.Rosevelt đã thắng với tỉ lệ bầu là 62%.
Lý do dẫn tới việc dự đoán sai là vì việc lấy mẫu của tạp chí “Literary Digest” không đại diện cho toàn bộ cử tri đi bầu. Họ dựa trên các danh bạ điện thoại, những người đăng ký theo dõi tạp chí, danh sách thành viên các câu lạc bộ, các hội đoàn, rồi lập nên địa chỉ của 10 triệu người, họ gửi thư đến cho 10 triệu người này để hỏi ý kiến về ứng cử viên mà mỗi cử tri chọn. Kết quả là họ thu được 2,4 triệu câu trả lời.
Có hai điều sai trong cuộc khảo sát này: một là việc lấy mẫu bị thiên lệch, hai là các câu trả lời bị thiên lệch.
Với cách lấy mẫu như trên, những người được hỏi đa số là thuộc tầng lớp trung lưu trở lên (có vậy họ mới có điện thoại mà dùng, mới tham gia các hội, đoàn, đăng ký đặt báo để đọc), một lượng lớn người thất nghiệp đã bị loại ra. Mà tầng lớp trung lưu thì có xu hướng bầu cho ứng viên Đảng Cộng hòa, vì thế nên kết quả của cuộc khảo sát là ứng viên Đảng Cộng hòa thắng.
Trong khi đó bầu cử toàn dân thì mọi lá phiếu đều bình đẳng. Vì thế kết quả của cuộc khảo sát là không chính xác.
Lý do thứ hai là câu trả lời bị thiên lệch. Vì chúng ta không có gì đảm bảo rằng những người gửi câu trả lời có thể là đại diện tốt cho những người không trả lời, nếu không có thông tin khác nữa để đảm bảo sự cân đối trong kết quả của các câu trả lời.
Một ví dụ khác không liên quan đến bầu cử là: một cuộc khảo sát về mèo đã kết luận rằng nếu mèo rơi từ tầng cao xuống đất thì tỉ lệ chết lại thấp hơn mèo rơi từ tầng thấp xuống. Câu giải thích là vì mèo rơi từ trên cao xuống thì có thời gian để kịp xoay người đáp xuống đất, nên nó ít bị trọng thương hơn.
Người ta làm thế nào để lấy mẫu như thế? Cách làm là họ đến bệnh viện thú y và khảo sát những con mèo bị thương được đưa vào bệnh viện do bị rơi từ trên cao xuống. Họ hỏi độ cao mà con mèo bị rơi và thấy rằng tỉ lệ bị chết của mèo rơi từ tầng thấp là cao hơn tỉ lệ chết của mèo rơi từ tầng cao xuống, vì thế chúng ta có kết luận như trên.
Vậy việc lấy mẫu này sai ở đâu? Cái sai là họ không tính đến rằng nếu mèo rơi từ trên cao xuống mà chết thì người ta đâu có mang nó đến bệnh viện nữa đâu? Như vậy mẫu lấy ở bệnh viện không đại diện cho toàn thể mèo bị rơi, chỉ đại diện cho những con mèo bị rơi mà bị thương (không chết) mà thôi.
Đến đây, áp dụng vào trường hợp bầu cử địa phương của Việt Nam, có thể thấy là việc lấy đại diện cử tri nơi cư trú để quyết định một ứng viên như chúng ta đang làm có thể mắc sai lầm nghiêm trọng về việc lấy mẫu.
Theo cách hiểu thông thường, đại diện cử tri nơi cư trú được Mặt trận Tổ quốc địa phương quyết định, và nếu Mặt trận lấy mẫu không theo nguyên tắc “không thiên lệch” trong thống kê như đã mô tả ở trên (các nhân viên Mặt trận không có gì đảm bảo là hiểu về các nguyên tắc cơ bản đó), thì về mặt thống kê, kết quả lấy ý kiến cử tri tại nơi cư trú là không đáng tin cậy để đại diện cho sự lựa chọn của toàn dân.
Cách làm là, chúng ta làm một cuộc thăm dò nhỏ, chọn một phần dân số thôi, hỏi xem họ chọn ai, rồi dựa vào đấy để kết luận là người nào có thể thắng. Lý do đơn giản vì ta không thể có đủ kinh phí, nhân lực và thời gian để hỏi quá nhiều người. Và nếu hỏi hết tất cả mọi người thì đó lại là bầu cử luôn rồi.
Việc lấy mẫu rất quan trọng. Nó phải bảo đảm tính không thiên lệch, mà trong thống kê gọi là “không chệch”, để đảm bảo rằng những người mà ta hỏi là đại diện tốt cho toàn thể dân số, nếu không chúng ta không thể dựa vào những người đã hỏi ý kiến để kết luận tổng quát cho toàn bộ dân số được.
Có rất nhiều ví dụ cho việc lấy mẫu thiên lệch. Ví dụ, nếu dân số có 52% nữ, 48% nam mà chúng ta chỉ hỏi toàn nam giới thì kết quả sẽ thiên lệch; hoặc dân số có 60% người dưới 35 tuổi, 40% người trên 35 tuổi, mà chúng ta lại đến trường đại học để hỏi, toàn là sinh viên, thì sẽ thiên lệch; hoặc là chúng ta đến một xóm đi một vòng hỏi toàn hỏi người rảnh rỗi ở nhà, vậy thì đã bỏ qua đối tượng là những người đi làm...
Một ví dụ kinh điển trong việc lấy mẫu bị sai ở thống kê (ai từng tìm hiểu về lấy mẫu thì bài học đầu tiên luôn là ví dụ này) là: trong cuộc bầu cử Mỹ năm 1936 giữa hai ứng viên tổng thống - Alfred Landon thuộc Đảng Cộng hòa và Franklin D.Rosevelt. Tạp chí rất nổi tiếng lúc ấy là “Literary Digest” dựa trên một mẫu rất lớn đến 2,4 triệu người với chi phí rất đắt đỏ đã dự đoán Alfred Landon thắng với tỉ lệ 57% so với 43% của Franklin D.Rosevelt.
Kết quả cuối cùng của cuộc bầu cử là ông Franklin D.Rosevelt đã thắng với tỉ lệ bầu là 62%.
Lý do dẫn tới việc dự đoán sai là vì việc lấy mẫu của tạp chí “Literary Digest” không đại diện cho toàn bộ cử tri đi bầu. Họ dựa trên các danh bạ điện thoại, những người đăng ký theo dõi tạp chí, danh sách thành viên các câu lạc bộ, các hội đoàn, rồi lập nên địa chỉ của 10 triệu người, họ gửi thư đến cho 10 triệu người này để hỏi ý kiến về ứng cử viên mà mỗi cử tri chọn. Kết quả là họ thu được 2,4 triệu câu trả lời.
Có hai điều sai trong cuộc khảo sát này: một là việc lấy mẫu bị thiên lệch, hai là các câu trả lời bị thiên lệch.
Với cách lấy mẫu như trên, những người được hỏi đa số là thuộc tầng lớp trung lưu trở lên (có vậy họ mới có điện thoại mà dùng, mới tham gia các hội, đoàn, đăng ký đặt báo để đọc), một lượng lớn người thất nghiệp đã bị loại ra. Mà tầng lớp trung lưu thì có xu hướng bầu cho ứng viên Đảng Cộng hòa, vì thế nên kết quả của cuộc khảo sát là ứng viên Đảng Cộng hòa thắng.
Trong khi đó bầu cử toàn dân thì mọi lá phiếu đều bình đẳng. Vì thế kết quả của cuộc khảo sát là không chính xác.
Lý do thứ hai là câu trả lời bị thiên lệch. Vì chúng ta không có gì đảm bảo rằng những người gửi câu trả lời có thể là đại diện tốt cho những người không trả lời, nếu không có thông tin khác nữa để đảm bảo sự cân đối trong kết quả của các câu trả lời.
Một ví dụ khác không liên quan đến bầu cử là: một cuộc khảo sát về mèo đã kết luận rằng nếu mèo rơi từ tầng cao xuống đất thì tỉ lệ chết lại thấp hơn mèo rơi từ tầng thấp xuống. Câu giải thích là vì mèo rơi từ trên cao xuống thì có thời gian để kịp xoay người đáp xuống đất, nên nó ít bị trọng thương hơn.
Người ta làm thế nào để lấy mẫu như thế? Cách làm là họ đến bệnh viện thú y và khảo sát những con mèo bị thương được đưa vào bệnh viện do bị rơi từ trên cao xuống. Họ hỏi độ cao mà con mèo bị rơi và thấy rằng tỉ lệ bị chết của mèo rơi từ tầng thấp là cao hơn tỉ lệ chết của mèo rơi từ tầng cao xuống, vì thế chúng ta có kết luận như trên.
Vậy việc lấy mẫu này sai ở đâu? Cái sai là họ không tính đến rằng nếu mèo rơi từ trên cao xuống mà chết thì người ta đâu có mang nó đến bệnh viện nữa đâu? Như vậy mẫu lấy ở bệnh viện không đại diện cho toàn thể mèo bị rơi, chỉ đại diện cho những con mèo bị rơi mà bị thương (không chết) mà thôi.
Đến đây, áp dụng vào trường hợp bầu cử địa phương của Việt Nam, có thể thấy là việc lấy đại diện cử tri nơi cư trú để quyết định một ứng viên như chúng ta đang làm có thể mắc sai lầm nghiêm trọng về việc lấy mẫu.
Theo cách hiểu thông thường, đại diện cử tri nơi cư trú được Mặt trận Tổ quốc địa phương quyết định, và nếu Mặt trận lấy mẫu không theo nguyên tắc “không thiên lệch” trong thống kê như đã mô tả ở trên (các nhân viên Mặt trận không có gì đảm bảo là hiểu về các nguyên tắc cơ bản đó), thì về mặt thống kê, kết quả lấy ý kiến cử tri tại nơi cư trú là không đáng tin cậy để đại diện cho sự lựa chọn của toàn dân.