อภิธานศัพท์ทางสถิติ
คำศัพท์ทางสถิติที่สำคัญและคำจำกัดความ
ส่วนเบี่ยงเบนมาตรฐาน (σ / s)
การวัดปริมาณความแปรผันหรือการกระจายตัวในชุดค่า เป็นรากที่สองของความแปรปรวนและแสดงในหน่วยเดียวกับข้อมูล
ความแปรปรวน (σ² / s²)
ค่าเฉลี่ยของความแตกต่างยกกำลังสองจากค่าเฉลี่ย ความแปรปรวนวัดระดับการกระจายตัวในชุดข้อมูลและเป็นกำลังสองของส่วนเบี่ยงเบนมาตรฐาน
ค่าเฉลี่ย (μ / x̄)
ค่าเฉลี่ยเลขคณิตของชุดค่า คำนวณโดยการรวมค่าทั้งหมดและหารด้วยจำนวน แสดงถึงแนวโน้มเข้าสู่ส่วนกลางของข้อมูล
มัธยฐาน
ค่ากลางในชุดข้อมูลที่เรียงลำดับแล้ว ถ้ามีจำนวนค่าเป็นเลขคู่ มัธยฐานคือค่าเฉลี่ยของสองค่ากลาง ทนทานต่อค่าผิดปกติ
ฐานนิยม
ค่าที่ปรากฏบ่อยที่สุดในชุดข้อมูล ชุดข้อมูลอาจมีหนึ่งฐานนิยม (ยูนิโมดอล) หลายฐานนิยม (มัลติโมดอล) หรือไม่มีฐานนิยมเลย
พิสัย
ความแตกต่างระหว่างค่าที่มากที่สุดและน้อยที่สุดในชุดข้อมูล แม้จะคำนวณได้ง่าย แต่พิจารณาเฉพาะค่าสุดขั้วสองค่าเท่านั้นและอ่อนไหวต่อค่าผิดปกติ
ประชากร
ชุดที่สมบูรณ์ของบุคคลหรือการสังเกตทั้งหมดที่สนใจในการศึกษา พารามิเตอร์ประชากรมักแสดงด้วยอักษรกรีก (μ, σ)
ตัวอย่าง
ส่วนย่อยของประชากรที่เลือกมาเพื่อวิเคราะห์ สถิติตัวอย่างมักแสดงด้วยอักษรละติน (x̄, s) และใช้ในการประมาณค่าพารามิเตอร์ประชากร
การแก้ไขของเบสเซล
การใช้ n−1 แทน n ในตัวหารเมื่อคำนวณความแปรปรวนของตัวอย่าง การแก้ไขนี้ให้ค่าประมาณที่ไม่มีอคติของความแปรปรวนของประชากรจากตัวอย่าง
การแจกแจงปกติ
การแจกแจงความน่าจะเป็นแบบสมมาตรรูประฆังที่ค่าเฉลี่ย มัธยฐาน และฐานนิยมเท่ากันทั้งหมด ปรากฏการณ์ธรรมชาติหลายอย่างเป็นไปตามการแจกแจงปกติโดยประมาณ
กฎเชิงประจักษ์ (68-95-99.7)
สำหรับข้อมูลที่มีการแจกแจงปกติ ค่าประมาณ 68% อยู่ภายใน ±1σ, 95% อยู่ภายใน ±2σ และ 99.7% อยู่ภายใน ±3σ จากค่าเฉลี่ย
คะแนน Z
จำนวนส่วนเบี่ยงเบนมาตรฐานที่จุดข้อมูลห่างจากค่าเฉลี่ย คำนวณเป็น Z = (X − μ) / σ คะแนน Z ช่วยให้เปรียบเทียบค่าจากการแจกแจงที่แตกต่างกันได้
ค่าความคลาดเคลื่อนมาตรฐาน (SE)
ส่วนเบี่ยงเบนมาตรฐานของการแจกแจงตัวอย่างของสถิติ โดยทั่วไปคือค่าเฉลี่ย SE = σ/√n จะลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น
ช่วงความเชื่อมั่น
ช่วงของค่าที่น่าจะมีค่าพารามิเตอร์ประชากรจริงด้วยระดับความเชื่อมั่นที่กำหนด (เช่น 95%) ช่วงที่กว้างกว่าบ่งชี้ถึงความแม่นยำที่น้อยกว่า
ค่าผิดปกติ
จุดข้อมูลที่แตกต่างอย่างมากจากการสังเกตอื่น วิธีการตรวจจับทั่วไปรวมถึงค่าที่เกิน ±2 หรือ ±3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย
สัมประสิทธิ์การแปรผัน (CV)
อัตราส่วนของส่วนเบี่ยงเบนมาตรฐานต่อค่าเฉลี่ย แสดงเป็นเปอร์เซ็นต์ (CV = σ/μ × 100%) ช่วยให้เปรียบเทียบความแปรปรวนระหว่างชุดข้อมูลที่มีมาตราส่วนต่างกันได้
ความเบ้
การวัดความไม่สมมาตรของการแจกแจงความน่าจะเป็น ความเบ้เป็นบวกหมายถึงหางยื่นไปทางขวา ความเบ้เป็นลบหมายถึงหางยื่นไปทางซ้าย
ความโด่ง
การวัดลักษณะหางของการแจกแจงความน่าจะเป็น ความโด่งสูงบ่งชี้หางหนักและยอดแหลม ความโด่งต่ำบ่งชี้หางเบาและยอดแบน
องศาอิสระ (df)
จำนวนค่าอิสระที่สามารถเปลี่ยนแปลงได้ในการคำนวณทางสถิติ สำหรับส่วนเบี่ยงเบนมาตรฐานของตัวอย่าง df = n − 1 ซึ่งสะท้อนการแก้ไขของเบสเซล
ทฤษฎีบทขีดจำกัดกลาง
ระบุว่าการแจกแจงตัวอย่างของค่าเฉลี่ยตัวอย่างเข้าใกล้การแจกแจงปกติเมื่อขนาดตัวอย่างเพิ่มขึ้น โดยไม่คำนึงถึงการแจกแจงของประชากร
การทดสอบสมมติฐาน
วิธีทางสถิติสำหรับการตัดสินใจโดยอิงจากข้อมูล เกี่ยวข้องกับการเปรียบเทียบสถิติทดสอบกับค่าวิกฤตหรือค่า p เพื่อพิจารณาว่าจะปฏิเสธสมมติฐานว่างหรือไม่
ค่า P
ความน่าจะเป็นของการสังเกตผลลัพธ์ที่รุนแรงเท่ากับสถิติทดสอบ โดยสมมติว่าสมมติฐานว่างเป็นจริง ค่า p ที่น้อยกว่าให้หลักฐานที่แข็งแกร่งกว่าในการคัดค้านสมมติฐานว่าง
สัมประสิทธิ์สหสัมพันธ์ (r)
ค่าระหว่าง −1 และ 1 ที่วัดความแข็งแกร่งและทิศทางของความสัมพันธ์เชิงเส้นระหว่างสองตัวแปร ค่าใกล้ ±1 บ่งชี้ความสัมพันธ์เชิงเส้นที่แข็งแกร่ง
พิสัยระหว่างควอร์ไทล์ (IQR)
ความแตกต่างระหว่างเปอร์เซ็นไทล์ที่ 75 (Q3) และเปอร์เซ็นไทล์ที่ 25 (Q1) IQR วัดการกระจายตัวของ 50% กลางของข้อมูลและทนทานต่อค่าผิดปกติ
เปอร์เซ็นไทล์
ค่าที่เปอร์เซ็นต์ที่กำหนดของการสังเกตอยู่ต่ำกว่า ตัวอย่างเช่น เปอร์เซ็นไทล์ที่ 90 คือค่าที่ 90% ของจุดข้อมูลอยู่ต่ำกว่า