Σ
SDCalc
ระดับกลางFundamentals·9 min

ส่วนเบี่ยงเบนมาตรฐาน vs ความแปรปรวน: ความแตกต่างที่ต้องรู้

เจาะลึกความแตกต่างสำคัญระหว่างส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) กับความแปรปรวน (Variance) เรียนรู้ว่าเมื่อไหร่ควรใช้ค่าไหน สูตรคำนวณเป็นอย่างไร และทั้งสองค่านี้ส่งผลต่อการวิเคราะห์ข้อมูลอย่างไร

By Standard Deviation Calculator Team · Data Science Team·Published

ความแปรปรวน (Variance) คืออะไร?

ความแปรปรวน (Variance) (ใช้สัญลักษณ์ σ² สำหรับประชากร และ s² สำหรับกลุ่มตัวอย่าง) คือการวัดทางสถิติที่บอกถึงความกระจายตัวของข้อมูลในชุดข้อมูลหนึ่งๆ โดยแทนค่าเฉลี่ยของผลต่างยกกำลังสองจากค่าเฉลี่ย (μ) การยกกำลังสองของส่วนเบี่ยงเบนจะช่วยป้องกันไม่ให้ค่าส่วนเบี่ยงเบนบวกและลบหักล้างกัน ทำให้เราวัดค่าความกระจายได้อย่างแท้จริง อย่างไรก็ตาม เนื่องจากส่วนเบี่ยงเบนถูกยกกำลังสอง หน่วยของความแปรปรวนจึงเป็นกำลังสองของหน่วยข้อมูลเดิม ซึ่งทำให้ตีความได้ยากกว่าโดยตรง

ความแปรปรวนของประชากร

σ² = Σ(xᵢ - μ)² / N

หน่วยของการวัด

หากข้อมูลของคุณเป็นความสูงในหน่วยเซนติเมตร ความแปรปรวนจะมีหน่วยเป็นตารางเซนติเมตร (cm²) หน่วยยกกำลังสองนี้เองที่ทำให้ความแปรปรวนนำไปใช้ตีความในชีวิตจริงได้ยาก

ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) คืออะไร?

ส่วนเบี่ยงเบนมาตรฐาน (Standard Deviation) (ใช้สัญลักษณ์ σ สำหรับประชากร และ s สำหรับกลุ่มตัวอย่าง) คือรากที่สองของความแปรปรวน โดยวัดค่าเฉลี่ยที่ข้อมูลแต่ละจุดเบี่ยงเบนไปจากค่าเฉลี่ย เนื่องจากมันได้มาจากการหารากที่สองของความแปรปรวน ส่วนเบี่ยงเบนมาตรฐานจึงมีหน่วยเดียวกันกับข้อมูลดั้งเดิม ทำให้เข้าใจและตีความได้ง่ายกว่ามากเมื่อนำไปใช้งานจริง และนี่คือค่าวัดความกระจายตัวที่ใช้กันแพร่หลายที่สุดในทางสถิติ

ส่วนเบี่ยงเบนมาตรฐานของประชากร

σ = √(Σ(xᵢ - μ)² / N)

ส่วนเบี่ยงเบนมาตรฐาน vs ความแปรปรวน: ความแตกต่างหลัก

แม้ทั้งสองค่าจะวัดความกระจายตัวของข้อมูลรอบๆ ค่าเฉลี่ย แต่ความสัมพันธ์ทางคณิตศาสตร์และประโยชน์ใช้สอยของทั้งคู่กลับแตกต่างกันอย่างมีนัยสำคัญ ความแตกต่างพื้นฐานอยู่ที่หน่วยและความสามารถในการตีความ ส่วนเบี่ยงเบนมาตรฐานคือรากที่สองของความแปรปรวน ซึ่งเปลี่ยนหน่วยวัดความกระจายตัวให้กลับไปเป็นหน่วยเดียวกับข้อมูลต้นทาง ในขณะที่ความแปรปรวนเป็นค่ายกกำลังสอง ทำให้ให้น้ำหนักกับค่าผิดปกติ (Outliers) มากกว่าปกติ จึงไวต่อค่าสุดขีดมากกว่า

คุณสมบัติความแปรปรวน (σ² / s²)ส่วนเบี่ยงเบนมาตรฐาน (σ / s)
พื้นฐานทางคณิตศาสตร์ค่าเฉลี่ยของส่วนเบี่ยงเบนยกกำลังสองรากที่สองของความแปรปรวน
หน่วยหน่วยยกกำลังสอง (เช่น cm², ฿²)หน่วยเดียวกับข้อมูลต้นทาง (เช่น cm, ฿)
การตีความเป็นนามธรรม เชื่อมโยงกับข้อมูลได้ยากเข้าใจง่าย สอดคล้องกับข้อมูลโดยตรง
ความไวต่อค่าผิดปกติ (Outliers)สูง (เพราะการยกกำลังสอง)ปานกลาง (รากที่สองช่วยลดทอนผลกระทบ)
การใช้งานหลักการอนุมานทางสถิติ, ANOVA, ทฤษฎีพอร์ตโฟลิโอสถิติเชิงบรรยาย, การรายงานผล, กฎเชิงประจักษ์ (Empirical rule)

สูตรคำนวณของประชากร (Population) vs กลุ่มตัวอย่าง (Sample)

ในการคำนวณค่าเหล่านี้ คุณต้องแยกแยะให้ออกระหว่าง ประชากร (Population) และ กลุ่มตัวอย่าง (Sample) ประชากรคือกลุ่มที่ประกอบด้วยสมาชิกทั้งหมดที่เราสนใจ ส่วนกลุ่มตัวอย่างคือเพียงส่วนหนึ่งของประชากรนั้น การใช้สูตรกลุ่มตัวอย่างที่มีตัวส่วนเป็น (n - 1) หรือที่รู้จักกันในนาม การแก้ไขเบสเซล (Bessel's correction) จะช่วยแก้ไขความเอนเอียงโดยธรรมชาติที่เกิดขึ้นเมื่อประมาณการความแปรปรวนของประชากรจากกลุ่มตัวอย่าง ทำให้ตัวประมาณค่ามีความไม่เอนเอียง (Unbiased)

ความแปรปรวนของกลุ่มตัวอย่าง

s² = Σ(xᵢ - x̄)² / (n - 1)

ระวังอย่าใช้ n แทน (n - 1)

การใช้ 'n' แทน '(n - 1)' ในการหาความแปรปรวนของกลุ่มตัวอย่าง จะทำให้ประเมินค่าความแปรปรวนที่แท้จริงของประชากรต่ำกว่าความเป็นจริงเสมอ อย่าลืมใช้ดีกรีอิสระ (df = n - 1) เมื่อทำงานกับข้อมูลกลุ่มตัวอย่างเพื่ออนุมานค่าพารามิเตอร์ของประชากร

เมื่อไหร่ควรใช้ความแปรปรวน vs ส่วนเบี่ยงเบนมาตรฐาน

การจะเลือกใช้ความแปรปรวนหรือส่วนเบี่ยงเบนมาตรฐานนั้น ขึ้นอยู่กับเป้าหมายในการวิเคราะห์ของคุณโดยตรง หากคุณต้องนำเสนอความกระจายตัวของข้อมูลให้คนทั่วไปเข้าใจ ส่วนเบี่ยงเบนมาตรฐานคือคำตอบเพราะมันใช้หน่วยเดียวกับข้อมูลต้นทาง แต่ถ้าคุณกำลังคำนวณทางสถิติในขั้นกลาง — เช่น การหาค่า F-statistics ใน ANOVA, การประเมินความเสี่ยงในทฤษฎีพอร์ตโฟลิโอสมัยใหม่ หรือการทำสมมติฐานทดสอบ — ความแปรปรวนจะสะดวกกว่าในทางคณิตศาสตร์

ใช้ความแปรปรวนเมื่อ...

- ทำ ANOVA หรือ F-tests - คำนวณความเสี่ยงของพอร์ตโฟลิโอ (เมทริกซ์ความแปรปรวนร่วม) - พิสูจน์ทางสถิติเชิงทฤษฎี - พัฒนาฟังก์ชันการสูญเสียของ Machine Learning (เช่น MSE)

ใช้ส่วนเบี่ยงเบนมาตรฐานเมื่อ...

- รายงานความกระจายตัวของข้อมูลในสิ่งตีพิมพ์ - ใช้กฎเชิงประจักษ์ (Empirical Rule: 68-95-99.7) - สร้างแผนภูมิควบคุม (Control charts) เพื่อประกันคุณภาพ - สื่อสารความแปรปรวนให้ผู้ที่ไม่ใช่สายเทคนิคเข้าใจ

การคำนวณ SD และความแปรปรวนใน Python

ไลบรารี `statistics` ของ Python มีฟังก์ชันสำเร็จรูปสำหรับหาทั้งความแปรปรวนและส่วนเบี่ยงเบนมาตรฐาน ซึ่งสิ่งสำคัญที่สุดคือต้องเลือกใช้เมธอดให้ถูกต้องว่าข้อมูลของคุณเป็นประชากรหรือกลุ่มตัวอย่าง

python
import statistics

# ชุดข้อมูลตัวอย่าง
data = [14, 18, 12, 15, 11]

# คำนวณความแปรปรวนและ SD ของกลุ่มตัวอย่าง
sample_var = statistics.variance(data)
sample_sd = statistics.stdev(data)

# คำนวณความแปรปรวนและ SD ของประชากร
pop_var = statistics.pvariance(data)
pop_sd = statistics.pstdev(data)

print(f"Sample Variance: {sample_var:.2f}")
print(f"Sample SD: {sample_sd:.2f}")
print(f"Population Variance: {pop_var:.2f}")
print(f"Population SD: {pop_sd:.2f}")

คำถามที่พบบ่อย

  • ความแปรปรวนสามารถติดลบได้ไหม? ไม่ได้ เพราะผลรวมของส่วนเบี่ยงเบนยกกำลังสอง (xᵢ - μ)² จะมีค่าเป็นศูนย์หรือค่าบวกเสมอ ความแปรปรวนจึงไม่มีทางติดลบได้
  • ทำไมการรายงานผลถึงนิยมใช้ส่วนเบี่ยงเบนมาตรฐานมากกว่าความแปรปรวน? เพราะส่วนเบี่ยงเบนมาตรฐานมีหน่วยเดียวกันกับค่าเฉลี่ย ทำให้เอาไปเทียบกับข้อมูลดิบและตีความได้ง่ายกว่ามาก
  • ความแปรปรวนคือค่าเฉลี่ยของกำลังสองของค่าคลาดเคลื่อน (MSE) หรือไม่? ทั้งสองค่าคล้ายกัน แต่ MSE จะวัดค่าเฉลี่ยของผลต่างยกกำลังสองระหว่างค่าประมาณกับค่าจริง ในขณะที่ความแปรปรวนวัดความกระจายรอบค่าเฉลี่ย หากตัวประมาณคือค่าเฉลี่ย MSE ก็จะเท่ากับความแปรปรวน

Further Reading

Sources

References and further authoritative reading used in preparing this article.

  1. ส่วนเบี่ยงเบนมาตรฐาน - วิกิพีเดีย
  2. คู่มือวิธีการทางสถิติ NIST/SEMATECH