(Tác giả: Tiến sĩ John PA Ioannidis. Đăng trên JAMA Medical Opinion ngày 22 tháng 3 năm 2018)
Giá trị P và các bài kiểm tra ý nghĩa thống kê kèm theo của chúng đang tạo ra những thách thức trong y sinh và nhiều ngành khác. Phần lớn (96%) bài viết tóm tắt, toàn văn hoặc cả hai đều có giá trị P nhỏ hơn hoặc bằng 0,05. [1]. Tuy nhiên, nhiều khẳng định của những bài báo này có thể sai [2]. Nhận thức được tầm quan trọng của câu đố ý nghĩa thống kê, Hiệp hội Thống kê Hoa Kỳ (ASA) đã đưa ra tuyên bố về giá trị P vào năm 2016. Sự thật của vấn đề này được nhiều người cho là còn phải tranh cãi nhưng vẫn còn rất nhiều tranh cãi. Cách đúng đắn để giải quyết vấn đề. Các tác giả của tuyên bố ASA cũng viết 20 ghi chú riêng kèm theo tập trung vào các khía cạnh khác nhau và ưu tiên một số giải pháp. Một nhóm lớn khác gồm 72 nhà khoa học về phương pháp nghiên cứu gần đây đã đề xuất một hướng cụ thể nhưng đơn giản: hạ ngưỡng giá trị P được sử dụng để xác nhận ý nghĩa thống kê của những khám phá mới từ 0,05 xuống 0,005. Đề xuất này đã nhận được sự công nhận và quan tâm mạnh mẽ từ nhiều cộng đồng khoa học khác nhau.
Bạn đang xem: JAMA: Đề xuất giảm ngưỡng giá trị P xuống còn 0,005
Hiện tại, giá trị P bị hiểu lầm, không tin cậy và bị lạm dụng. Văn bản của tuyên bố ASA cung cấp sự phân tích rõ ràng hơn về ba vấn đề này. Có nhiều quan niệm sai lầm về giá trị P, nhưng phổ biến nhất là nó tượng trưng cho “xác suất mà giả thuyết nghiên cứu là đúng”. [3]. Giá trị P 0,02 (2%) được coi là không chính xác có nghĩa là giả thuyết khống (H0) (ví dụ: thuốc có hiệu quả như giả dược) có 2% cơ hội đúng, trong khi giả thuyết thay thế (ví dụ, thuốc có hiệu quả hơn) hiệu quả hơn giả dược) đúng 98%. Độ tin cậy có nghĩa là mọi người quên rằng lý luận hợp lý đòi hỏi phải có báo cáo đầy đủ và minh bạch. ” [3]. Bản thân giá trị P đẹp (nhỏ) không đảm bảo tính đầy đủ và rõ ràng của thông tin. Trên thực tế, giá trị P nhỏ có thể biểu thị báo cáo có chọn lọc và độ mờ. Việc lạm dụng phổ biến giá trị P là đưa ra “kết luận khoa học và quyết định kinh doanh hoặc chính sách” dựa trên việc giá trị P có vượt quá một ngưỡng nhất định hay không, mặc dù “giá trị P hoặc ý nghĩa thống kê không đo lường được quy mô của ảnh hưởng” hoặc tầm quan trọng của các phát hiện. Bản thân “giá trị P” và “giá trị P” không phải là những đánh giá thực sự về bằng chứng. ” [3]Ba vấn đề chính ở trên minh họa rằng việc vượt qua ngưỡng có ý nghĩa thống kê (vẫn thường được sử dụng là P=0,05) không nhất thiết có nghĩa là phát hiện hoặc kết quả (chẳng hạn như mối liên quan hoặc hiệu quả điều trị) là có thật, đáng tin cậy và đáng hành động. Những quan niệm sai lầm này ảnh hưởng đến các nhà nghiên cứu, người sử dụng các bài báo và bài báo nghiên cứu, thậm chí cả cộng đồng truyền thông và thông tin khoa học. Hầu hết các tuyên bố có giá trị P nhỏ hơn 0,05 một chút đều có khả năng là sai (nghĩa là không có mối liên hệ và không có tác dụng điều trị nào được công bố). Ngay cả trong số những tuyên bố thực sự đúng, rất ít tuyên bố có thể áp dụng được trong lĩnh vực y học và chăm sóc sức khỏe.
Xem thêm : TÔN GIÁO, THỦY ĐẬU, VÀ CÁC CHÍNH TRỊ GIA
Hạ thấp ngưỡng khẳng định ý nghĩa thống kê là một ý tưởng cũ. Một số lĩnh vực khoa học xem xét cẩn thận giá trị p cần phải thấp đến mức nào để một khám phá có xác suất “đúng” đủ cao. Ví dụ: áp dụng ngưỡng ý nghĩa toàn bộ bộ gen (P <5 kết nối này. Bất chấp sự phức tạp của bộ gen người, phạm vi đa dạng của các thử nghiệm quan trọng được quan tâm đã được biết rõ và phân tích có tính hệ thống và rõ ràng, do đó cho phép thuyết phục P < 5 đối với các yêu cầu mơ hồ. Đối với hầu hết các nghiên cứu khám phá không có quy trình nghiên cứu và kế hoạch phân tích được đăng ký trước, không rõ có bao nhiêu phân tích sẽ được thực hiện và những hướng phân tích bổ sung nào sẽ được khám phá. Sự đa dạng tiềm ẩn, những phát hiện không có hệ thống và báo cáo có chọn lọc thậm chí có thể ảnh hưởng đến các nghiên cứu thực nghiệm và thử nghiệm ngẫu nhiên. Mặc dù việc xuất bản các đề cương nghiên cứu và kế hoạch phân tích thống kê hiện có lên cơ sở dữ liệu công cộng ngày càng trở nên phổ biến, nhưng vẫn có một mức độ tự do nhất định trong cách phân tích dữ liệu và kết quả cũng như lựa chọn chính xác thông tin cần trình bày. Ngoài ra, nhiều nghiên cứu lâm sàng hiện nay tập trung vào những lợi ích hoặc rủi ro nhỏ; do đó, nguy cơ mắc nhiều lỗi ảnh hưởng đến kết quả cũng tăng lên và việc chuyển ngưỡng giá trị P từ 0,05 lên 0,005 sẽ dẫn đến kết quả thường được gọi là kết quả có ý nghĩa thống kê. Khoảng một phần ba trong số đó chỉ trở nên "gợi ý". [1]. Sự thay đổi này là cần thiết đối với những người tin (một số người có thể nói một cách hời hợt) rằng mọi thứ đều có màu đen và trắng, có hoặc không có ý nghĩa thống kê. Giống như phần lớn các nghiên cứu quan sát trước đây, việc phân loại lại này sẽ rất được hoan nghênh. Ví dụ, các nghiên cứu ngẫu nhiên của Mendel đã chỉ ra rằng chỉ một số ít nghiên cứu quan sát trước đây khẳng định rằng P < 0,05 đã chứng minh được mối quan hệ nhân quả. [5]. Do đó, việc giảm mức ý nghĩa thống kê sẽ loại bỏ hầu hết nhiễu nền mà ít làm mất thông tin quan trọng. Đối với các thử nghiệm ngẫu nhiên, tỷ lệ hiệu quả thực sự là giá trị P trong khoảng từ 0,005 đến 0,05, giá trị này sẽ cao hơn, có thể đối với hầu hết các kết quả ở một số khu vực. Tuy nhiên, hầu hết các phát hiện không chứng minh được hiệu quả điều trị đủ lớn để tạo ra kết quả đủ đáng kể để đảm bảo hành động tiếp theo. Do đó, việc hạ thấp ngưỡng giá trị P có thể có nhiều lợi hơn là có hại, mặc dù đôi khi nó có thể loại bỏ tác dụng điều trị thực sự có lợi khỏi vùng ý nghĩa mong muốn. Tuy nhiên, không thể nhấn mạnh quá mức nhu cầu tập trung đồng thời vào mức độ của tất cả các tác động điều trị và sự không chắc chắn xung quanh những tác động này.
Việc hạ ngưỡng ý nghĩa thống kê chỉ là biện pháp tạm thời. Nó giống như một con đập giúp kéo dài thêm thời gian và tránh bị nhấn chìm trong những trận lũ lụt đáng kể về mặt thống kê, đồng thời xây dựng các giải pháp tốt hơn, bền vững hơn. [6]. Các giải pháp này có thể bao gồm việc loại bỏ hoàn toàn các mức ý nghĩa thống kê hoặc giá trị P, thậm chí có thể có giá trị sử dụng trong hầu hết các nghiên cứu quan sát nếu các ngưỡng nhất định tiếp tục được sử dụng. Nhiều đánh giá chung về các đánh giá có hệ thống đánh giá các nghiên cứu quan sát khuyến nghị ngưỡng P<10^-6 [5]. Hơn nữa, việc sử dụng cách tiếp cận sai lệch đối với các điểm cuối (tức là sử dụng ngưỡng giá trị P không vượt qua được hầu hết các mối liên hệ với giả thuyết không được xác định rõ ràng) cũng có thể dẫn đến giá trị P rất thấp. [7]. Khi có một lượng lớn dữ liệu, ý nghĩa thống kê ngày càng trở nên vô nghĩa, vì giá trị P cực thấp thường thu được khi tín hiệu hữu ích (mặc dù là thực) quá nhỏ.
Việc chấp nhận ngưỡng giá trị P thấp hơn sẽ giúp thiết lập hồ sơ nghiên cứu được cải cách, với các nghiên cứu nhỏ hơn, lớn hơn, được xây dựng và thiết kế cẩn thận hơn, đồng thời có đủ năng lực nghiên cứu để vượt qua các ngưỡng ngày càng nghiêm ngặt. Tuy nhiên, tác dụng phụ có thể xảy ra. Nếu các nhà nghiên cứu và các bên liên quan (chẳng hạn như các nhà tài trợ nghiên cứu vì lợi nhuận) cố gắng tìm cách tạo ra kết quả với giá trị P thấp hơn thì độ lệch có thể tăng lên thay vì giảm đi. Mức độ phù hợp lâm sàng của các điểm cuối nghiên cứu được chọn có thể giảm đi vì dễ dàng đạt được giá trị P thấp cho các điểm cuối đại diện hơn so với các chỉ số lâm sàng khó. Hơn nữa, các kết quả vượt quá ngưỡng giá trị P đã giảm có thể bị hồi quy trung bình lớn hơn và những phát hiện mới thậm chí có thể phóng đại hơn nữa mức độ của hiệu ứng.
Xem thêm : Điều trị cho bệnh nhân nữ bị đái tháo đường và tăng huyết áp
Do ngưỡng P < 0,005 không hoàn hảo nên cần xem xét các giải pháp khác khó khăn hơn nhưng bền vững hơn (xem bảng). Những giải pháp này khác nhau về tốc độ và mức độ dễ dàng áp dụng. Các giải pháp có thể hướng tới việc sử dụng và diễn giải các tài liệu trước đây được tích lũy cho đến nay hoặc thiết kế và triển khai các tài liệu mới được tích lũy trong tương lai. Trong y văn ngày xưa, tình trạng này rất nghiêm trọng vì không có giải pháp hoàn hảo một khi sự việc đã kết thúc. Về lâu dài, các nhà khoa học cần được đào tạo phù hợp hơn để sử dụng các công cụ suy luận thống kê phù hợp nhất cho mục đích này và cần hướng tới các giải pháp tương lai hơn là hồi cứu. Tuy nhiên, đây có thể vẫn là những mục tiêu gần như không thể đạt được.
Bảng: Các giải pháp khác nhau được đề xuất cho suy luận thống kê ở quy mô lớn Dữ liệu ngày càng trở nên phức tạp. Nếu thời gian đào tạo kỹ lưỡng cho các nhà nghiên cứu và người sử dụng nghiên cứu về phương pháp nghiên cứu và thống kê vẫn còn hạn chế thì số liệu thống kê y tế dưới mức trung bình và những diễn giải sai lầm sẽ tiếp tục xảy ra. Tuy nhiên, người ta hy vọng rằng nhiều lĩnh vực sẽ áp dụng các tiêu chuẩn giá trị P tốt hơn, giảm dần sự phụ thuộc vào giá trị P và, nếu có thể, tăng cường chấp nhận các công cụ suy luận hữu ích khác như thống kê Bayes. Tốc độ và mức độ của những thay đổi này là không thể đoán trước được. Sự thừa nhận nhỏ bé này về quá khứ có thể gây ra một số bi quan. Tuy nhiên, luôn có thể bắt đầu lại và đạt được tiến bộ nhanh chóng trong việc áp dụng các phương pháp thực hành tốt hơn. Có thể cần có sự khuyến khích từ các tạp chí và tổ chức lớn cũng như những thay đổi căn bản trong chương trình đào tạo để đạt được sự thay đổi rộng rãi và hiệu quả. ——— ————-người giới thiệu:
Chavalarias D, Wallach JD, Li AH, Ioannidis JP. Sự phát triển của giá trị P được báo cáo trong tài liệu y sinh, 1990-2015. Jama. 2016;315(11):1141-1148.Ioannidis JP. Tại sao hầu hết các kết quả nghiên cứu được công bố đều sai Thuốc PLoS. 2005;2(8):e124.Wasserstein RL, Lazar NA. Tuyên bố của ASA về Giá trị P: Bối cảnh, Quy trình và Mục đích. Thống kê buổi sáng. 2016;70(2):129-133 Benjamin DJ, Berger JO, Johnson VE, và những người khác. Xác định lại ý nghĩa thống kê. Hành vi của Nat Hum. 2018;2:6-10 Li X, Meng X, Timofeeva M, và cộng sự. Nồng độ axit uric huyết thanh và nhiều kết quả sức khỏe. Tạp chí Y khoa Anh. 2017;357:j2376. Resnick B. Cuộc tranh luận gay gắt về giá trị P nói lên điều gì về khoa học—và cách khắc phục nó. https://www.vox.com/science-and-health/2017/7/31/16021654/p-values-statistical-significance-redefine-0005. Ngày truy cập: ngày 1 tháng 2 năm 2018. Prasad V, Jena AB. Điểm cuối giả được chỉ định trước. Jama. 2013;309(3):241-242.
Nguồn: ÔNG CHÚ SÌN SÚ
Chuyên mục: Y tế, sức khỏe
Nguồn: https://ongchusinsu.com
Danh mục: Y tế, Sức khỏe