ความแปรปรวน (Variance) คืออะไร?
ความแปรปรวน (Variance) (ใช้สัญลักษณ์ σ² สำหรับประชากร และ s² สำหรับกลุ่มตัวอย่าง) คือการวัดทางสถิติที่บอกถึงความกระจายตัวของข้อมูลในชุดข้อมูลหนึ่งๆ โดยแทนค่าเฉลี่ยของผลต่างยกกำลังสองจากค่าเฉลี่ย (μ) การยกกำลังสองของส่วนเบี่ยงเบนจะช่วยป้องกันไม่ให้ค่าส่วนเบี่ยงเบนบวกและลบหักล้างกัน ทำให้เราวัดค่าความกระจายได้อย่างแท้จริง อย่างไรก็ตาม เนื่องจากส่วนเบี่ยงเบนถูกยกกำลังสอง หน่วยของความแปรปรวนจึงเป็นกำลังสองของหน่วยข้อมูลเดิม ซึ่งทำให้ตีความได้ยากกว่าโดยตรง
ความแปรปรวนของประชากร
หน่วยของการวัด
ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) คืออะไร?
ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) (ใช้สัญลักษณ์ σ สำหรับประชากร และ s สำหรับกลุ่มตัวอย่าง) คือรากที่สองของความแปรปรวน โดยวัดค่าเฉลี่ยที่ข้อมูลแต่ละจุดเบี่ยงเบนไปจากค่าเฉลี่ย เนื่องจากมันได้มาจากการหารากที่สองของความแปรปรวน ส่วนเบี่ยงเบนมาตรฐานจึงมีหน่วยเดียวกันกับข้อมูลดั้งเดิม ทำให้เข้าใจและตีความได้ง่ายกว่ามากเมื่อนำไปใช้งานจริง และนี่คือค่าวัดความกระจายตัวที่ใช้กันแพร่หลายที่สุดในทางสถิติ
ส่วนเบี่ยงเบนมาตรฐานของประชากร
ส่วนเบี่ยงเบนมาตรฐาน vs ความแปรปรวน: ความแตกต่างหลัก
แม้ทั้งสองค่าจะวัดความกระจายตัวของข้อมูลรอบๆ ค่าเฉลี่ย แต่ความสัมพันธ์ทางคณิตศาสตร์และประโยชน์ใช้สอยของทั้งคู่กลับแตกต่างกันอย่างมีนัยสำคัญ ความแตกต่างพื้นฐานอยู่ที่หน่วยและความสามารถในการตีความ ส่วนเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวน ซึ่งเปลี่ยนหน่วยวัดความกระจายตัวให้กลับไปเป็นหน่วยเดียวกับข้อมูลต้นทาง ในขณะที่ความแปรปรวนเป็นค่ายกกำลังสอง ทำให้ให้น้ำหนักกับค่าผิดปกติ (Outliers) มากกว่าปกติ จึงไวต่อค่าสุดขีดมากกว่า
| คุณสมบัติ | ความแปรปรวน (σ² / s²) | ส่วนเบี่ยงเบนมาตรฐาน (σ / s) |
|---|---|---|
| พื้นฐานทางคณิตศาสตร์ | ค่าเฉลี่ยของส่วนเบี่ยงเบนยกกำลังสอง | รากที่สองของความแปรปรวน |
| หน่วย | หน่วยยกกำลังสอง (เช่น cm², ฿²) | หน่วยเดียวกับข้อมูลต้นทาง (เช่น cm, ฿) |
| การตีความ | เป็นนามธรรม เชื่อมโยงกับข้อมูลได้ยาก | เข้าใจง่าย สอดคล้องกับข้อมูลโดยตรง |
| ความไวต่อค่าผิดปกติ (Outliers) | สูง (เพราะการยกกำลังสอง) | ปานกลาง (รากที่สองช่วยลดทอนผลกระทบ) |
| การใช้งานหลัก | การอนุมานทางสถิติ, ANOVA, ทฤษฎีพอร์ตโฟลิโอ | สถิติเชิงบรรยาย, การรายงานผล, กฎเชิงประจักษ์ (Empirical rule) |
สูตรคำนวณของประชากร (Population) vs กลุ่มตัวอย่าง (Sample)
ในการคำนวณค่าเหล่านี้ คุณต้องแยกแยะให้ออกระหว่าง ประชากร (Population) และ กลุ่มตัวอย่าง (Sample) ประชากรคือกลุ่มที่ประกอบด้วยสมาชิกทั้งหมดที่เราสนใจ ส่วนกลุ่มตัวอย่างคือเพียงส่วนหนึ่งของประชากรนั้น การใช้สูตรกลุ่มตัวอย่างที่มีตัวส่วนเป็น (n - 1) หรือที่รู้จักกันในนาม การแก้ไขเบสเซล (Bessel's correction) จะช่วยแก้ไขความเอนเอียงโดยธรรมชาติที่เกิดขึ้นเมื่อประมาณการความแปรปรวนของประชากรจากกลุ่มตัวอย่าง ทำให้ตัวประมาณค่ามีความไม่เอนเอียง (Unbiased)
ความแปรปรวนของกลุ่มตัวอย่าง
ระวังอย่าใช้ n แทน (n - 1)
เมื่อไหร่ควรใช้ความแปรปรวน vs ส่วนเบี่ยงเบนมาตรฐาน
การจะเลือกใช้ความแปรปรวนหรือส่วนเบี่ยงเบนมาตรฐานนั้น ขึ้นอยู่กับเป้าหมายในการวิเคราะห์ของคุณโดยตรง หากคุณต้องนำเสนอความกระจายตัวของข้อมูลให้คนทั่วไปเข้าใจ ส่วนเบี่ยงเบนมาตรฐานคือคำตอบเพราะมันใช้หน่วยเดียวกับข้อมูลต้นทาง แต่ถ้าคุณกำลังคำนวณทางสถิติในขั้นกลาง — เช่น การหาค่า F-statistics ใน ANOVA, การประเมินความเสี่ยงในทฤษฎีพอร์ตโฟลิโอสมัยใหม่ หรือการทำสมมติฐานทดสอบ — ความแปรปรวนจะสะดวกกว่าในทางคณิตศาสตร์
ใช้ความแปรปรวนเมื่อ...
ใช้ส่วนเบี่ยงเบนมาตรฐานเมื่อ...
การคำนวณ SD และความแปรปรวนใน Python
ไลบรารี `statistics` ของ Python มีฟังก์ชันสำเร็จรูปสำหรับหาทั้งความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน ซึ่งสิ่งสำคัญที่สุดคือต้องเลือกใช้เมธอดให้ถูกต้องว่าข้อมูลของคุณเป็นประชากรหรือกลุ่มตัวอย่าง
import statistics
# ชุดข้อมูลตัวอย่าง
data = [14, 18, 12, 15, 11]
# คำนวณความแปรปรวนและ SD ของกลุ่มตัวอย่าง
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)
# คำนวณความแปรปรวนและ SD ของประชากร
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)
print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")คำถามที่พบบ่อย
- ความแปรปรวนสามารถติดลบได้ไหม? ไม่ได้ เพราะผลรวมของส่วนเบี่ยงเบนยกกำลังสอง (xᵢ - μ)² จะมีค่าเป็นศูนย์หรือค่าบวกเสมอ ความแปรปรวนจึงไม่มีทางติดลบได้
- ทำไมการรายงานผลถึงนิยมใช้ส่วนเบี่ยงเบนมาตรฐานมากกว่าความแปรปรวน? เพราะส่วนเบี่ยงเบนมาตรฐานมีหน่วยเดียวกันกับค่าเฉลี่ย ทำให้เอาไปเทียบกับข้อมูลดิบและตีความได้ง่ายกว่ามาก
- ความแปรปรวนคือค่าเฉลี่ยของกำลังสองของค่าคลาดเคลื่อน (MSE) หรือไม่? ทั้งสองค่าคล้ายกัน แต่ MSE จะวัดค่าเฉลี่ยของผลต่างยกกำลังสองระหว่างค่าประมาณกับค่าจริง ในขณะที่ความแปรปรวนวัดความกระจายรอบค่าเฉลี่ย หากตัวประมาณคือค่าเฉลี่ย MSE ก็จะเท่ากับความแปรปรวน
Further Reading
Sources
References and further authoritative reading used in preparing this article.