— Mục tiêu: giảm nhiễu và loại bỏ spike trong dữ liệu cảm biến —
📌 1. Bối cảnh & trực giác
Trong xử lý tín hiệu và phân tích dữ liệu cảm biến, chỉ cần vài giá trị ngoại lai (outlier) hoặc spike đột biến cũng đủ kéo lệch trung bình, làm sai nhận định về hệ thống. Hai phương pháp đơn giản nhưng cực kỳ hiệu quả trong thực tế là:
- Trimmed Mean 10%
- Three‑Sigma (2σ)
📊 2. Dữ liệu cảm biến cụ thể (30 mẫu)
Dữ liệu chúng ta dùng để minh họa:
0.5, 1.2, 0.9, 2.1, 3.0, 2.8, 1.5, 0.7, 4.2, 3.8, 5.1, 4.9, 6.0, 5.5, 7.2, 6.8, 8.1, 7.9, 9.0, 8.7, 10.2, 9.8, 11.0, 10.5, 12.1, 11.7, 50.0, 48.0, 52.0, 49.5 ← 4 giá trị ngoại lai (spike)
- Tổng số mẫu: 30
- Miền giá trị chính: 0–12
- Miền ngoại lai: 48–52
📌 3. Kết quả từng phương pháp
Mean thường (không lọc):
≈ 12.93
Trimmed Mean 10%:
≈ 6.96
Three‑Sigma (2σ):
≈ 6.98
Nhận xét: Mean thường bị kéo lệch mạnh bởi 4 spike 48–52. Trimmed Mean 10% và Three‑Sigma (2σ) cho kết quả gần nhau và phản ánh đúng vùng 0–12.
📌 4. Trimmed Mean 10% – cắt hai đầu, giữ phần giữa
Ý tưởng:
- Bỏ 10% nhỏ nhất
- Bỏ 10% lớn nhất
- Tính trung bình phần còn lại
Với 30 mẫu → bỏ 3 nhỏ nhất và 3 lớn nhất.
Kết quả trên dữ liệu của chúng ta:
Trimmed Mean 10% = 6.96
Ưu điểm:
- Rất đơn giản
- Không cần tính σ
- Chống outlier và spike cực tốt
Nhược điểm:
- Cắt cứng 20% dữ liệu
- Không phân biệt dao động tự nhiên và ngoại lai
📌 5. Three‑Sigma (2σ) – lọc theo khoảng μ ± 2σ
Ý tưởng:
- Tính mean ban đầu: μ
- Tính độ lệch chuẩn: σ
- Giữ lại giá trị trong khoảng:
[μ − 2σ, μ + 2σ] - Tính mean mới trên phần dữ liệu đã lọc
Kết quả trên dữ liệu của chúng ta:
Three‑Sigma (2σ) = 6.98
Giải thích ngắn gọn: Trong dữ liệu này, spike 48–52 làm σ tăng lên. Nếu dùng 3σ, khoảng lọc sẽ quá rộng và spike có thể không bị loại. Dùng 2σ giúp thu hẹp khoảng lọc, loại bỏ spike mạnh mẽ hơn nhưng vẫn giữ nguyên toàn bộ dữ liệu hợp lệ trong vùng 0–12.
Ưu điểm:
- Linh hoạt (điều chỉnh được hệ số times)
- Giữ lại nhiều dữ liệu hơn Trimmed Mean nếu phân phối đẹp
Nhược điểm:
- σ có thể bị kéo lên nếu outlier quá lớn
- Giả định dữ liệu tương đối “lành”
📊 6. So sánh nhanh
| Phương pháp | Kết quả | Đặc điểm |
|---|---|---|
| Mean thường | 12.93 | Bị kéo lên mạnh bởi spike |
| Trimmed Mean 10% | 6.96 | Ổn định, chống spike tốt |
| Three‑Sigma (2σ) | 6.98 | Lọc mềm, linh hoạt, hiệu quả |
💡 7. Kết luận thực chiến
Trong xử lý dữ liệu cảm biến, hai phương pháp sau là “vũ khí thực chiến” để loại bỏ nhiễu và spike:
- Trimmed Mean 10% – đơn giản, mạnh mẽ, không cần tham số
- Three‑Sigma (2σ) – linh hoạt, hiệu quả, dễ điều chỉnh
Cả hai đều đưa mean về gần vùng hoạt động thực (0–12), thay vì bị spike 48–52 làm méo mó.
Đây là hai phương pháp bạn có thể đưa thẳng vào hệ thống IoT, cảm biến, hoặc bất kỳ pipeline xử lý dữ liệu nào mà không cần mô hình phức tạp.