Phân tích sai sót trong đo lường
Chúng tôi xin giới thiệu một mục mới trên statistics.vn về phân tích dữ liệu. Chúng tôi đặt tên là Q&A (hỏi và trả lời). Mỗi tuần, chúng tôi cố gắng post một câu hỏi và kèm theo câu trả lời, bằng cách dùng R để phân tích. Đây là câu hỏi thứ nhất liên quan đến việc đánh giá sự tương đồng giữa hai đo lường.
Thư giãn cuối tuần (17)
Nói đến trung bình mà không nhắc đến phương sai thì hoặc là sai sót hoặc là để nói ...dối. Bức tranh sau trích từ quyển Biostatistics: A Methodology for the Health Sciences của Gerald van Belle và Lloyd D. Fisher là một minh họa khá sâu sắc.
Thứ bảy, 21 Tháng 4 2012 21:44Phương pháp tính “population attributable fraction”
Khái niệm population attributable fraction (PAF) thường dùng để đánh giá tầm ảnh hưởng của một yếu tố nguy cơ. Tuy nhiên, phương pháp tính được giảng dạy trong sách giáo khoa thường đơn giản, và chỉ áp dụng cho các yếu tố nguy cơ chỉ có 2 giá trị (biến nhị phân). Trong bài này, tôi sẽ chỉ phương pháp ước tính PAF cho các biến phân loại có hơn 2 giá trị.
Nhân kỷ niệm 100 năm thảm họa Titanic: một ví dụ về phân tích dữ liệu định tính
Cách đây đúng 100 năm, ngày 15 tháng 4 năm 1912, con tàu “không thể đắm” Titanic bị chìm, mang theo sinh mệnh của hơn 1000 người. Dữ liệu về tử vong của thảm họa này là một dữ liệu đặc biệt của một sự kiện “natural” cực kỳ hiếm có. Bài này dùng nó để minh họa việc biểu diễn, phân tích dữ liệu định tính (phân loại) với R.
Giới thiệu ggplot2: package vẽ đồ thị trong R.
Khi viết báo cáo khoa học, hoặc trong quá trình phân tích dữ liệu chúng ta cần phải vẽ biểu đồ. Trong R có nhiều package để giúp chúng ta làm việc này. Hôm nay, chúng tôi sẽ giới thiệu với bạn đọc một package rất hữu hiệu để vẽ biểu đồ, đó là ggplot2. Với ggplot2 chúng ta có thể vẽ những biểu đồ chất lượng cao dùng để công bố quốc tế, thậm chí với những biểu đồ rất chuyên biệt. ggplot2 được thiết kế làm việc theo kiểu nhiều lớp, bắt đầu với dữ liệu thô, sau đó tới những chú thích và thống kê tóm tắt.
Kiểm định t (t-test)
Vấn đề. Các nhà nghiên cứu đo nồng độ cholesterol (mg/dl) ở hai nhóm cá nhân, phân biệt bằng cá tính. Tạm gọi là cá tính A và B. Mỗi nhóm có 20 cá nhân. Kết quả như sau:
Phân tích mô tả bảng số liệu tần số (CrossTable)
Đứng trước dữ liệu thu thập từ một nghiên cứu, công việc đầu tiên đơn giản nhất, nhưng rất có ích, là xem xét sự phân bố của số liệu. Đối với các biến liên tục (continuous variables), việc xem xét phân bố số liệu có thể thể hiện qua các biểu đồ histogram. Nhưng đối với các biến phân nhóm (categorical variables) thì có hai cách làm: một là xem xét tần số, và hai là biểu đồ tần số (mosaic plot).
Những sai sót phổ biến trong ước tính cỡ mẫu
Có thể nói rằng ước tính cỡ mẫu trong nghiên cứu y khoa ở nước ta là một vấn đề … nhức nhối. Nhức nhối là bởi vì rất nhiều nghiên cứu đã tính toán cỡ mẫu không phù hợp với mục tiêu nghiên cứu, thậm chí sai. Bài này sẽ minh hoạ vài trường hợp thực tế nhưng rất tiêu biểu …
Phân tích mô tả với package mosaic
Trong R có (rất) nhiều package dùng cho nhiều phân tích khác nhau. Có package rất chuyên biệt, nhưng cũng có package có ích cho việc giảng dạy và học thống kê. Một trong những package đơn giản đó là mosaic mà tôi sẽ giới thiệu dưới đây.
RStudio: Làm việc dễ hơn với R (Bài 2)
Tiếp theo bài 1, bài này chúng tôi giới thiệu cách làm việc với dữ liệu trong RStudio.
- Kiểm định phân phối chuẩn (normal distribution)
- Workshop về viết đề cương nghiên cứu (grant writing)
- Dữ liệu cho phân tích trên statistics.vn
- T-test cho các số liệu tóm lược
- 326 tử vong vì tai nạn giao thông dịp Tết: đáng ngạc nhiên?
- RStudio: Làm việc dễ hơn với R (Bài 1)
- Mối liên quan giữa hồi qui logistic và chẩn đoán y khoa
- Phương pháp phát triển giá trị tham chiếu (reference range)
- Statistics.vn chúc Tết Nhâm Thìn
- Có thể tiên đoán tuổi thọ ngay từ khi mới sinh?
- Google: 2011 Thế giới đã tìm kiếm gì?
- Video hướng dẫn về R
- ANOVA: Analysis of… Value!
- Về chương trình của khóa học Phương pháp định lượng trong khoa học xã hội
- Thông báo lớp học phương pháp định lượng trong nghiên cứu khoa học xã hội
- Workshop về phương pháp phân tích Bayes
- Xếp giá trị vào các khoảng trong R
- 40,000 người Việt chết vì thuốc lá mỗi năm?
- Thư giãn cuối tuần (15)
- Phần mềm thống kê miễn phí
- Ngày thống kê thế giới đầu tiên được tổ chức bởi Liên hiệp quốc
- Hàm chọn file và thư mục trong R
- 50 blogs về thống kê
- Nghịch lý bạn bè: vì sao bạn của ta có nhiều bạn hơn ta?
- Bài toán xe tăng Đức: Ước lượng cỡ quần thể bằng số serie
- Thông báo workshop về cách trình bày báo cáo khoa học
- Hội nghị AFES 2011, Hội nghị khoa học thường niên của Liên hội Nội tiết Đông Nam Á
- gapminder.org: một trang web tuyệt vời
- Giả lập (mô phỏng) trong R (4): Luật số lớn
- Sự kiện 11-9 làm thay đổi nước Mỹ như thế nào: vài con số thống kê
- Giả lập (mô phỏng) trong R (3): Tính xác suất
- Thư giãn cuối tuần (14)
- Cỡ mẫu cho ROC
- Giả lập (mô phỏng) trong R (2): Định lý giới hạn trung tâm và 95%CI
- Giả lập (mô phỏng) trong R (1): Kỹ thuật cơ bản
- Phân tích dữ liệu từ thí nghiệm cross-over
- Phương pháp phân tích Bayes 2: Diễn giải kết quả nghiên cứu
- Paul Meier (24/7/1924 – 7/8/2011)
- Prevalence ratio
- Mô hình hồi qui Poisson
- Thư giãn cuối tuần (13)
- Điểm thi môn sử: đi tìm một hàm số phân bố
- Phương pháp phân tích Bayes 1: Diễn giải kết quả chẩn đoán
- Thư giãn cuối tuần (12)
- Cần tránh stepwise regression!
- Hướng dẫn sử dụng WinBUGS
- ROC (Receiver Operating Characteristic)
- Thư giãn cuối tuần (11)
- Thổi hồn vào con số: 7.3 lần sex / tháng
- Ước tính cỡ mẫu bằng R
- Một cách trình bày dữ liệu cần tránh
- Hồi qui tuyến tính và kiểm định t
- Bayes Factor
- Thư giãn cuối tuần (10)
- Phân tích Bayes – ước lượng trung bình
- Tỉ lệ áp đảo ?
- Phân tích Bayes: vấn đề một tham số (tỉ lệ)
- Một số cách tính khoảng tin cậy của trung vị
- Những sai lầm phổ biến trong phân tích thống kê (4)
- Xu hướng biến đổi cơ cấu dân số Việt Nam
- Phân tích khác biệt 2 tỉ lệ: phương pháp Bayes
- Số liệu dân số Việt Nam
- Kĩ năng trình bày: Cách soạn powerpoint slide
- SS type III và R-squared
- Statistics.vn cung cấp dịch vụ RSS
- Ước tính tỉ lệ HBV và HCV trong điều kiện bất định (tiếp theo)
- Ước tính tỉ lệ HBV và HCV trong điều kiện bất định
- Thư giãn cuối tuần (9): giới hạn
- Design effect và ICC là gì?
- Những sai lầm phổ biến trong phân tích thống kê (3)
- Hai mẩu chuyện thực về con số và đời sống
- Hitler và bình duyệt bài báo khoa học
- Thống kê sinh học: bài 3- Xác suất nhập môn
- Thống kê sinh học: Bài 2- Thống kê mô tả
- Thống kê sinh học: Bài 1- Một số kiến thức toán học
- Loạt bài về thống kê của tạp chí Critical Care
- Chương trình đào tạo, học bổng của JVN
- Lệnh R cho t-test
- Đặng Lê Nguyên Vũ và … Chi bình phương
- Những sai lầm phổ biến trong phân tích thống kê (2)
- Những sai lầm phổ biến trong phân tích thống kê (1)
- Một trang web thú vị về xác suất
- Thư giãn cuối tuần (8): Phân phối
- Vấn đề giả định trong chiến lược nâng tầm cao người Việt
- Các nhà khoa học dự đoán nơi ẩn náu của Osama hai năm trước đây
- Chính xác toán học và chính xác thực nghiệm
- Trích dẫn và đạo văn
- Bảng 2x2: Kiểm định McNemar và thử nghiệm crossover
- Thư giãn cuối tuần (7)
- Phương pháp đơn giản để kiểm tra sai sót trong odds ratio, relative risk
- Video: Power, p-value, publication bias and statistical evidence
- Bảng 2 x 2 : lưu ý về chi-square test
- Thắc mắc về phân phối bình thường và sai số chọn mẫu
- Thư giãn cuối tuần (6): Sherlock Holmes và Dr. Watson
- Một cách trình bày biểu đồ cần phải tránh
- Tính tỉ lệ lấy mẫu khi chưa có ...cỡ mẫu?
- Luật Benford- Làm thế nào phát hiện số liệu giả tạo?
- Quy tắc số 3
- Thư giãn cuối tuần (5): Lại chuyện xác suất!
- Phân bố bình thường
Trang 1 trong tổng số 15





