Який найкращий алгоритм виявлення викидів?
Виявлення викидів Z-показника Z-показник вимірює, скільки стандартних відхилень має точка даних від середнього. Точки даних із z-показником вище 3 або нижче -3 зазвичай вважаються викидами. Цей метод передбачає розподіл Гауса та працює для одновимірних числових даних.14 лютого 2024 р.
Деякі з найпопулярніших методів виявлення викидів:
- Z-показник або аналіз екстремальних значень (параметричний)
- Імовірнісне та статистичне моделювання (параметричне)
- Моделі лінійної регресії (PCA, LMS)
- Моделі на основі близькості (непараметричні)
- Моделі теорії інформації.
Тест Граббса Тест Граббса – це рекомендований тест під час тестування на один викид. Тест Титджена-Мура – це узагальнення тесту Граббса на випадок більш ніж одного викиду. Він має обмеження, що кількість викидів має бути точно визначено.');})();(function(){window.jsl.dh('t5_sZpu9BauC1e8Pkcfz2Qs__24','
Три основні методи роботи з викидами, окрім їх видалення з набору даних: 1) зменшення ваги викидів (обрізка ваги) 2) зміна значень викидів (вінсоризація, підрізання, імпутація) 3) використання надійних методів оцінки (M-оцінка).
Для моделі LOF оцінка є фактором локального викиду, визначеним в оригінальній статті [5]. Для моделі DBSCAN оцінка — це відстань до центру кластера для неаномальних спостережень і відстань до центру найближчого неаномального кластера для викидів.
Z-оцінка. Метод Z-score є статистичним підходом для виявлення викидів. Він обчислює стандартну оцінку, або Z-показник, для кожної точки даних. Він обчислює, на скільки стандартних відхилень точка даних відхиляється від середнього значення набору даних.