Type I & Type II error
จากการทดสอบว่ากลุ่มเพศชายหรือเพศหญิงกินโดนัทต่างกันไหมในหนึ่งสัปดาห์
output ของ R แสดงถึงความแตกต่างระหว่างกลุ่มเพศหญิง (M = 7.75) และเพศชาย (M = 5.70) ในจำนวนชิ้นของโดนัทที่กินในแต่ละสัปดาห์อย่างมีนัยสำคัญทางสถิติ (t(1,108) = 10.703, p < 0.001) จึงปฎิเสธสมมติฐานว่างที่ว่าค่าเฉลี่ยของทั้งสองกลุ่มเท่ากัน
เราได้คำตอบมาว่า “แตกต่างกันอย่างมีนัยสำคัญทางสถิติ แล้วอะไรเป็นจุดที่ทำให้นักสถิติสามารถเอ่ยถึง ”นัยสำคัญทางสถิติ”
เปรียบเปรยการทดสอบและปฎิเสธสมมติฐานว่างด้วยตรวจผล Covid-19 ด้วย ATK[1]
ผล ATK และผลโควิด | การทดสอบทางสถิติ | กรณีโดนัท |
---|---|---|
ATK ขึ้น 1 ขีด ไม่มีประวัติติดโควิด ไม่ได้ใกล้ชิดคนติดโควิด | Null Hypothesis | ไม่มีความแตกต่างกันของเพศในจำนวนการกินโดนัท |
ATK ขึ้น 2 ขีด ติดโควิดชัวร์ แมวที่บ้านก็ติด | Alternative hypothesis | มีความแตกต่างกันของเพศในจำนวนการกินโดนัท |
ATK ขึ้น 2 ขีด แต่ไม่ได้ติดโควิดจริง | Type I error (false positive) | มีความแตกต่าง แต่ดันไปสรุปว่าไม่มีความแตกต่างของเพศ |
ATK ขึ้น 1 ขีด แต่ติดโควิด | Type II error (false negative) | ไม่มีความแตกต่าง แต่ไปสรุปว่ามีความแตกต่างของเพศ |
จากตารางด้านบน จะพบว่า การเกิด Type I และ Type II error เกิดขึ้นเมื่อการตัดสิน (decision making) ที่ผู้วิจัยตัดสิน ไม่ว่าจะเป็นจากผลการวิจัยเอง การออกแบบการวิจัย หรือไปจนถึงการจงใจในการทำให้มีนัยสำคัญ (p-hacking) ดังนั้น แมวที่กำลังจะทำการวิจัยจงระวังไว้นะ
ทำไมจึงเกิด Type I or Type II error
กรณีที่การวิเคราะห์ทางสถิติทำให้เราตัดสินใจผิด อาจะเกิดได้จากหลายกรณี เช่น
-
Effect size
หรือผลจากการจัดกระทำถ้าเราทำงานวิจัยที่มีความแตกต่างระหว่างกลุ่มควบคุมกับกลุ่มทดลองสูง เช่น สอนเลขให้กลุ่มทดลองทุกวันเลย แต่ไม่สอนให้กลุ่มควบคุม ก็มีความเป็นไปได้ที่จะทำให้ค่าเฉลี่ยของกลุ่มมีความแตกต่างกันจนเกินไป ทำให้การวิเคราะห์พบนัยสำคัญทางสถิติได้ง่าย
-
Power
กำลังหรือ Power ในที่นี้ขึ้นอยู่กับปัจจัยหลายประการ-
α (alpha)
คือโอกาสที่นักวิจัยยอมให้เกิดในการพบนับสำคัญทางสถิติ โดยปกติแล้วจะตั้งค่าไว้ที่ .05 หมายความว่า ในการวิเคราะห์จากข้อมูลนี้ 100 ครั้ง เรายอมให้เกิดความแตกต่างที่มาจากใด ๆ ก็ตาม 5 ครั้ง -
β (beta)
โอกาสที่จะเกิด type II error ขึ้น -
Power หรือกำลังจะมาจากการที่
1 - β
-
N:
จำนวนกลุ่มตัวอย่างที่มากหรือน้อยเกินไป หรือ มากเกินไปก็ส่งผลได้
-
โดยปกติแล้วนักวิจัย (โดยเฉพาะสายสังคมวิทยาศาสตร์) จะยอมรับ power อยู่ที่ > 0.8 และ α อยู่ที่ .05 โปรแกรมคำนวณ Power เช่น G*power สามารถคำนวณกลุ่มตัวอย่างโดยใช้ priori effect size จากงานวิจัยที่ศึกษาตัวแปรก่อนหน้าได้
ตัวอย่างให้เห็นภาพความสัมพันธ์ของสิ่งต่าง ๆ ที่แมวน่าจะยังงงอยู่
[1] ดัดแปลงจาก Banerjee, A., Chitnis, U. B., Jadhav, S. L., Bhawalkar, J. S., & Chaudhury, S. (2009). Hypothesis testing, type I and type II errors. Industrial psychiatry journal, 18(2), 127–131. https://doi.org/10.4103/0972-6748.62274