⭐ Hai phương pháp thực chiến để loại bỏ ngoại lai: Trimmed Mean 10% và Three‑Sigma (2σ)

— Mục tiêu: giảm nhiễu và loại bỏ spike trong dữ liệu cảm biến —

📌 1. Bối cảnh & trực giác

Trong xử lý tín hiệu và phân tích dữ liệu cảm biến, chỉ cần vài giá trị ngoại lai (outlier) hoặc spike đột biến cũng đủ kéo lệch trung bình, làm sai nhận định về hệ thống. Hai phương pháp đơn giản nhưng cực kỳ hiệu quả trong thực tế là:

  • Trimmed Mean 10%
  • Three‑Sigma (2σ)

📊 2. Dữ liệu cảm biến cụ thể (30 mẫu)

Dữ liệu chúng ta dùng để minh họa:

0.5, 1.2, 0.9, 2.1, 3.0, 2.8, 1.5, 0.7, 4.2, 3.8,
5.1, 4.9, 6.0, 5.5, 7.2, 6.8, 8.1, 7.9, 9.0, 8.7,
10.2, 9.8, 11.0, 10.5, 12.1, 11.7,
50.0, 48.0, 52.0, 49.5   ← 4 giá trị ngoại lai (spike)
  • Tổng số mẫu: 30
  • Miền giá trị chính: 0–12
  • Miền ngoại lai: 48–52

📌 3. Kết quả từng phương pháp

Mean thường (không lọc):

≈ 12.93

Trimmed Mean 10%:

≈ 6.96

Three‑Sigma (2σ):

≈ 6.98

Nhận xét: Mean thường bị kéo lệch mạnh bởi 4 spike 48–52. Trimmed Mean 10% và Three‑Sigma (2σ) cho kết quả gần nhau và phản ánh đúng vùng 0–12.

📌 4. Trimmed Mean 10% – cắt hai đầu, giữ phần giữa

Ý tưởng:

  • Bỏ 10% nhỏ nhất
  • Bỏ 10% lớn nhất
  • Tính trung bình phần còn lại

Với 30 mẫu → bỏ 3 nhỏ nhất và 3 lớn nhất.

Kết quả trên dữ liệu của chúng ta:

Trimmed Mean 10% = 6.96

Ưu điểm:

  • Rất đơn giản
  • Không cần tính σ
  • Chống outlier và spike cực tốt

Nhược điểm:

  • Cắt cứng 20% dữ liệu
  • Không phân biệt dao động tự nhiên và ngoại lai

📌 5. Three‑Sigma (2σ) – lọc theo khoảng μ ± 2σ

Ý tưởng:

  • Tính mean ban đầu: μ
  • Tính độ lệch chuẩn: σ
  • Giữ lại giá trị trong khoảng: [μ − 2σ, μ + 2σ]
  • Tính mean mới trên phần dữ liệu đã lọc

Kết quả trên dữ liệu của chúng ta:

Three‑Sigma (2σ) = 6.98

Giải thích ngắn gọn: Trong dữ liệu này, spike 48–52 làm σ tăng lên. Nếu dùng 3σ, khoảng lọc sẽ quá rộng và spike có thể không bị loại. Dùng giúp thu hẹp khoảng lọc, loại bỏ spike mạnh mẽ hơn nhưng vẫn giữ nguyên toàn bộ dữ liệu hợp lệ trong vùng 0–12.

Ưu điểm:

  • Linh hoạt (điều chỉnh được hệ số times)
  • Giữ lại nhiều dữ liệu hơn Trimmed Mean nếu phân phối đẹp

Nhược điểm:

  • σ có thể bị kéo lên nếu outlier quá lớn
  • Giả định dữ liệu tương đối “lành”

📊 6. So sánh nhanh

Phương pháp Kết quả Đặc điểm
Mean thường 12.93 Bị kéo lên mạnh bởi spike
Trimmed Mean 10% 6.96 Ổn định, chống spike tốt
Three‑Sigma (2σ) 6.98 Lọc mềm, linh hoạt, hiệu quả

💡 7. Kết luận thực chiến

Trong xử lý dữ liệu cảm biến, hai phương pháp sau là “vũ khí thực chiến” để loại bỏ nhiễu và spike:

  • Trimmed Mean 10% – đơn giản, mạnh mẽ, không cần tham số
  • Three‑Sigma (2σ) – linh hoạt, hiệu quả, dễ điều chỉnh

Cả hai đều đưa mean về gần vùng hoạt động thực (0–12), thay vì bị spike 48–52 làm méo mó.

Đây là hai phương pháp bạn có thể đưa thẳng vào hệ thống IoT, cảm biến, hoặc bất kỳ pipeline xử lý dữ liệu nào mà không cần mô hình phức tạp.

Bình luận về bài viết này