Normal Distribution

โค้งปกติที่เป็นรูปทรงระฆังคว่ำ —– ก่อนอื่นเราต้องมาทำความรู้จักกับข้อมูลของเรา

รู้จักข้อมูล (data)

บทนี้เราจะรู้จักคำว่า ข้อมูล หรือ data กัน ปกติแล้ว เวลาที่เราสนใจปัจจัยใด ๆ เราจะคาดประมาณค่าที่นักสถิติจะเรียกว่า Parameter นั่นคือค่าสรุปของกลุ่มประชากรที่เราต้องการจะศึกษา ในขณะที่ Sample (กลุ่มตัวอย่าง) จะหมายถึง กลุ่มตัวอย่างที่เราเลือก (หรือสุ่ม)มาจากประชากรนั่นเอง การที่เราเข้าใจความแตกต่างของข้อมูลประชากรทั้งหมด (parameter statistics) กับข้อมูลของกลุ่มตัวอย่าง (sample statistics) ของเราจะทำให้เราเข้าใจว่าทำไมข้อมูลที่มีข้อมูลตัวอย่างไม่เท่ากับจำนวนประชากร (ซึ่งเป็นไปได้ยากมากกกกก) สามารถนำมาวิเคราะห์ในทางสถิติได้

ข้อมูลที่มาจากกลุ่มประชากร

ปกติข้อมูลจากตัวแปร (variable) ที่เราได้มาจากกลุ่มตัวอย่างโดยเฉพาะตัวแปรตาม(dependent variable) จะถูกสันนิษฐานว่าจะมีความเป็น Normally Distribution ในกลุ่มประชากร หมายความว่า ข้อมูลในกลุ่มประชากรจะเป็นลักษณะของระฆังคว่ำ (เสมอในใจของนักสถิติ)

สมมติว่าเรามีข้อมูลกลุ่มประชากรแมว 50,000 ตัว แมวมีค่าเฉลี่ยในการกินอาหารวันละ 4 ครั้ง และมีความคาดเคลื่อนคือ 1

cat <- rnorm(50000, mean = 4, sd = 1)
plot(density(cat))

ในกราฟ Density เราจะพบว่ามันมีความเป็น Normally Distributed

สมมติว่าในประชากรสุนัข 100,000 ตัว สุนัขมีค่าเฉลี่ยในการกินอาหารวันละ 2.5 ครั้ง และมีความคาดเคลื่อนในประชากรคือ 1.5

dog <- rnorm(100000, mean = 2.5, sd = 1.5)
plot(density(dog))

เราก็จะเห็นได้ว่ากราฟเป็นแบบ Normally distributed เหมือนกัน

ในการ plot กราฟนี้ ความเป็นจริงคือมาจากสมการในการหาค่า z scores ของข้อมูลในแต่จุดของแกน X (แนวนอน) นั่นเอง

z <- (X - μ)/σ

ที่นี้!! กราฟที่เป็น Normally distributed นี่แหละ ที่จะทำให้เราวิเคราะห์เชิงสถิติต่าง ๆ ได้

ข้อมูลที่มาจากกลุ่มตัวอย่าง (sample statistics)

สมมติว่า

เราต้องการรู้ว่าประชากรผู้หญิงกับผู้ชายกินโดนัทเป็นสัดส่วนเท่าใด เราอาจจะอ่านงานวิจัยหนึ่งแล้ว นักวิจัยบอกเราว่า

ผู้ชายกินโดนัทเฉลี่ย 6 ครั้งต่อสัปดาห์ ในกลุ่มตัวอย่างชาย 40 คน ในขณะที่ผู้หญิงกินโดนัทเฉลี่ย 8 ครั้งต่อสัปดาห์ ในกลุ่มตัวอย่างผู้หญิง 70 คน

สิ่งที่จะทำให้เราทราบถึงค่าความคาดเคลื่อนนี้คืออะไรก็คือค่าที่ความคลาดเคลื่อนที่มีอยู่ในกลุ่มตัวอย่างที่เราศึกษานั่นเอง ซึ่งเราสามารถประมาณค่านี้ได้จากค่าเฉลี่ย (x̄) ในแต่ละข้อมูลเชิงประจักษ์ของเราและ ความคลาดเคลื่อน (standard error; se)ของกลุ่มตัวอย่างนั่นเอง

male_donut <- rnorm(40, mean = 6, sd = 1)
plot(density(male_donut))

female_donut <- rnorm(70, mean = 8, sd = 1)
plot(density(female_donut))

จากกราฟทั้งสองจะพบว่าเป็น normal distributed คล้ายกัน (ให้ sd = 1 จะได้ดูง่าย)

เนื่องจากความสำคัญของการเป็น Normal distribution ของข้อมูล การวิเคราะห์ทางสถิติหลายวิธียังมีความจำเป็นให้ข้อสันนิฐานนี้ตรงกับใจนักสถิติอยู่ ดังนั้นจึงมีการทดสอบต่าง ๆ ว่าค่าข้อมูลมีแนวโน้มจะออกนอกโค้งนี้ไหม ซึ่งเราจะเรียนในบทต่อไป เย้!

Note เนื่องจากข้อมูลที่เขียนขึ้นมาใช้หลักการของ normal distribution อยู่แล้ว ด้วยคำสั่ง rnorm() ถ้าเราไปเจอข้อมูลเชิงประจักษ์ที่เก็บมาจากกลุ่มตัวอย่างจริง ค่าความคาดเคลื่อนอาจะมีสูงต่ำแตกต่างไปจากข้อมูลในบทนี้นะ

Happy Coding ka สามารถกดติดตามและ subscribe ได้ที่ datastist.com