⭐ Hai phương pháp thực chiến để loại bỏ ngoại lai: Trimmed Mean 10% và Three‑Sigma (2σ)

— Mục tiêu: giảm nhiễu và loại bỏ spike trong dữ liệu cảm biến —

📌 1. Bối cảnh & trực giác

Trong xử lý tín hiệu và phân tích dữ liệu cảm biến, chỉ cần vài giá trị ngoại lai (outlier) hoặc spike đột biến cũng đủ kéo lệch trung bình, làm sai nhận định về hệ thống. Hai phương pháp đơn giản nhưng cực kỳ hiệu quả trong thực tế là:

Trimmed Mean 10%
Three‑Sigma (2σ)

📊 2. Dữ liệu cảm biến cụ thể (30 mẫu)

Dữ liệu chúng ta dùng để minh họa:

0.5, 1.2, 0.9, 2.1, 3.0, 2.8, 1.5, 0.7, 4.2, 3.8,
5.1, 4.9, 6.0, 5.5, 7.2, 6.8, 8.1, 7.9, 9.0, 8.7,
10.2, 9.8, 11.0, 10.5, 12.1, 11.7,
50.0, 48.0, 52.0, 49.5   ← 4 giá trị ngoại lai (spike)

Tổng số mẫu: 30
Miền giá trị chính: 0–12
Miền ngoại lai: 48–52

📌 3. Kết quả từng phương pháp

Mean thường (không lọc):

≈ 12.93

Trimmed Mean 10%:

≈ 6.96

Three‑Sigma (2σ):

≈ 6.98

Nhận xét: Mean thường bị kéo lệch mạnh bởi 4 spike 48–52. Trimmed Mean 10% và Three‑Sigma (2σ) cho kết quả gần nhau và phản ánh đúng vùng 0–12.

📌 4. Trimmed Mean 10% – cắt hai đầu, giữ phần giữa

Ý tưởng:

Bỏ 10% nhỏ nhất
Bỏ 10% lớn nhất
Tính trung bình phần còn lại

Với 30 mẫu → bỏ 3 nhỏ nhất và 3 lớn nhất.

Kết quả trên dữ liệu của chúng ta:

Trimmed Mean 10% = 6.96

Ưu điểm:

Rất đơn giản
Không cần tính σ
Chống outlier và spike cực tốt

Nhược điểm:

Cắt cứng 20% dữ liệu
Không phân biệt dao động tự nhiên và ngoại lai

📌 5. Three‑Sigma (2σ) – lọc theo khoảng μ ± 2σ

Ý tưởng:

Tính mean ban đầu: μ
Tính độ lệch chuẩn: σ
Giữ lại giá trị trong khoảng: [μ − 2σ, μ + 2σ]
Tính mean mới trên phần dữ liệu đã lọc

Kết quả trên dữ liệu của chúng ta:

Three‑Sigma (2σ) = 6.98

Giải thích ngắn gọn: Trong dữ liệu này, spike 48–52 làm σ tăng lên. Nếu dùng 3σ, khoảng lọc sẽ quá rộng và spike có thể không bị loại. Dùng 2σ giúp thu hẹp khoảng lọc, loại bỏ spike mạnh mẽ hơn nhưng vẫn giữ nguyên toàn bộ dữ liệu hợp lệ trong vùng 0–12.

Ưu điểm:

Linh hoạt (điều chỉnh được hệ số times)
Giữ lại nhiều dữ liệu hơn Trimmed Mean nếu phân phối đẹp

Nhược điểm:

σ có thể bị kéo lên nếu outlier quá lớn
Giả định dữ liệu tương đối “lành”

📊 6. So sánh nhanh

Phương pháp	Kết quả	Đặc điểm
Mean thường	12.93	Bị kéo lên mạnh bởi spike
Trimmed Mean 10%	6.96	Ổn định, chống spike tốt
Three‑Sigma (2σ)	6.98	Lọc mềm, linh hoạt, hiệu quả

💡 7. Kết luận thực chiến

Trong xử lý dữ liệu cảm biến, hai phương pháp sau là “vũ khí thực chiến” để loại bỏ nhiễu và spike:

Trimmed Mean 10% – đơn giản, mạnh mẽ, không cần tham số
Three‑Sigma (2σ) – linh hoạt, hiệu quả, dễ điều chỉnh

Cả hai đều đưa mean về gần vùng hoạt động thực (0–12), thay vì bị spike 48–52 làm méo mó.

Đây là hai phương pháp bạn có thể đưa thẳng vào hệ thống IoT, cảm biến, hoặc bất kỳ pipeline xử lý dữ liệu nào mà không cần mô hình phức tạp.

Artificial Intelligence Kiosk

Krb5 + LDAP + NFSv4 + TLS + ACL = OND

⭐ Hai phương pháp thực chiến để loại bỏ ngoại lai: Trimmed Mean 10% và Three‑Sigma (2σ)

📌 1. Bối cảnh & trực giác

📊 2. Dữ liệu cảm biến cụ thể (30 mẫu)

📌 3. Kết quả từng phương pháp

📌 4. Trimmed Mean 10% – cắt hai đầu, giữ phần giữa

📌 5. Three‑Sigma (2σ) – lọc theo khoảng μ ± 2σ

📊 6. So sánh nhanh

💡 7. Kết luận thực chiến

Bình luận về bài viết này Hủy trả lời

📌 1. Bối cảnh & trực giác

📊 2. Dữ liệu cảm biến cụ thể (30 mẫu)

📌 3. Kết quả từng phương pháp

📌 4. Trimmed Mean 10% – cắt hai đầu, giữ phần giữa

📌 5. Three‑Sigma (2σ) – lọc theo khoảng μ ± 2σ

📊 6. So sánh nhanh

💡 7. Kết luận thực chiến

Đánh giá:

Chia sẻ:

Có liên quan

Bình luận về bài viết này Hủy trả lời