Σ
SDCalc
PertengahanKonsep·12 min

Statistik Teguh: MAD, IQR, dan Kaedah Rintang Pencilan

Panduan lengkap statistik teguh termasuk Sisihan Mutlak Median (MAD) dan Julat Antara Kuartil (IQR). Pelajari bila menggunakan ukuran serakan rintang pencilan dengan contoh dan kod Python.

Mengapa Statistik Teguh?

Sisihan piawai ialah ukuran serakan yang berkuasa, tetapi ia mempunyai kelemahan kritikal: kepekaan melampau terhadap pencilan. Satu nilai melampau tunggal boleh meningkatkan SD secara dramatik, memberikan gambaran yang mengelirukan tentang variasi tipikal.

Statistik teguh menyediakan ukuran serakan yang menahan pengaruh pencilan, menjadikannya penting untuk data dunia sebenar di mana ralat pengukuran, kesilapan kemasukan data, atau kes melampau yang tulen adalah biasa.

Contoh: Kesan Pencilan

Data: 10, 12, 11, 13, 12, 11, 100 (satu pencilan) Sisihan Piawai: 32.4 (didominasi oleh pencilan) MAD: 1.0 (mengabaikan pencilan) IQR: 1.5 (mengabaikan pencilan)

Titik Pecah

Titik pecah sesuatu statistik ialah perkadaran data yang boleh menjadi melampau sebelum statistik itu menjadi tidak bermakna. SD mempunyai titik pecah 0% (satu pencilan boleh memusnahkannya). MAD dan IQR mempunyai titik pecah 50%—separuh data anda boleh menjadi pencilan dan ia masih berfungsi.

Sisihan Mutlak Median (MAD)

MAD ialah ukuran serakan yang paling teguh. Ia mengira median sisihan mutlak daripada median:

MAD Formula

MAD = median(|xᵢ - median(x)|)
1

Cari Median

Kira median set data anda.
2

Kira Sisihan

Tolak median daripada setiap nilai dan ambil nilai mutlak.
3

Cari MAD

Kira median sisihan mutlak ini.

Menskala MAD untuk menganggar σ: Untuk data bertaburan normal, MAD ≈ 0.6745 × σ. Untuk menganggar SD daripada MAD, darabkan dengan 1.4826:

SD Estimate from MAD

σ̂ = 1.4826 × MAD

Mengapa 1.4826?

Faktor penskalaan ini datang daripada hubungan antara MAD dan SD untuk taburan normal. Ia memastikan MAD berskala ialah penganggar tidak berat sebelah bagi sisihan piawai sebenar apabila data adalah normal.

Julat Antara Kuartil (IQR)

IQR mengukur serakan 50% data di tengah—julat antara persentil ke-25 dan ke-75:

IQR Formula

IQR = Q3 - Q1 = persentil ke-75 - persentil ke-25

IQR digunakan secara meluas kerana ia mudah difahami, senang divisualisasikan dalam plot kotak, dan membentuk asas peraturan “1.5×IQR” yang biasa untuk pengesanan pencilan.

Menskala IQR untuk menganggar σ: Untuk data normal, IQR ≈ 1.35 × σ. Untuk menganggar SD daripada IQR:

SD Estimate from IQR

σ̂ = IQR / 1.35 ≈ 0.7413 × IQR

Membandingkan Ukuran Teguh

Sisihan Piawai

Menggunakan semua titik data · Paling cekap untuk data normal · Sangat peka terhadap pencilan · Titik pecah: 0%

MAD

Ukuran paling teguh · Menggunakan median (bukan min) · Kebal terhadap sebarang pencilan · Titik pecah: 50%

IQR

Mudah difahami · Digunakan dalam plot kotak · Mengabaikan 50% melampau · Titik pecah: 25%

Bila Menggunakan Statistik Teguh

  • Analisis penerokaan: Apabila anda tidak tahu sama ada pencilan wujud, mulakan dengan ukuran teguh
  • Isu kualiti data: Apabila data mungkin mengandungi ralat atau masalah pengukuran
  • Taburan ekor berat: Apabila nilai melampau dijangka (pulangan kewangan, tuntutan insurans)
  • Sampel kecil: Apabila pencilan mempunyai kesan luar biasa kerana bilangan cerapan yang sedikit
  • Pengesanan pencilan: Menggunakan SD untuk mengesan pencilan adalah membulat; gunakan IQR atau MAD sebagai ganti

Contoh Pelaksanaan

Python
import numpy as np
from scipy import stats

def mad(data):
    """Median Absolute Deviation"""
    median = np.median(data)
    return np.median(np.abs(data - median))

def scaled_mad(data):
    """MAD scaled to estimate SD (for normal data)"""
    return 1.4826 * mad(data)

def iqr(data):
    """Interquartile Range"""
    return np.percentile(data, 75) - np.percentile(data, 25)

# Compare on data with outlier
data = [10, 12, 11, 13, 12, 11, 100]
print(f"SD: {np.std(data, ddof=1):.2f}")
print(f"MAD: {mad(data):.2f}")
print(f"Scaled MAD: {scaled_mad(data):.2f}")
print(f"IQR: {iqr(data):.2f}")