Який найкращий алгоритм виявлення викидів?

Виявлення викидів Z-показника Z-показник вимірює, скільки стандартних відхилень має точка даних від середнього. Точки даних із z-показником вище 3 або нижче -3 зазвичай вважаються викидами. Цей метод передбачає розподіл Гауса та працює для одновимірних числових даних.14 лютого 2024 р.

Деякі з найпопулярніших методів виявлення викидів:

  • Z-показник або аналіз екстремальних значень (параметричний)
  • Імовірнісне та статистичне моделювання (параметричне)
  • Моделі лінійної регресії (PCA, LMS)
  • Моделі на основі близькості (непараметричні)
  • Моделі теорії інформації.

Тест Граббса Тест Граббса – це рекомендований тест під час тестування на один викид. Тест Титджена-Мура – це узагальнення тесту Граббса на випадок більш ніж одного викиду. Він має обмеження, що кількість викидів має бути точно визначено.');})();(function(){window.jsl.dh('t5_sZpu9BauC1e8Pkcfz2Qs__24','

Три основні методи роботи з викидами, окрім їх видалення з набору даних: 1) зменшення ваги викидів (обрізка ваги) 2) зміна значень викидів (вінсоризація, підрізання, імпутація) 3) використання надійних методів оцінки (M-оцінка).

Для моделі LOF оцінка є фактором локального викиду, визначеним в оригінальній статті [5]. Для моделі DBSCAN оцінка — це відстань до центру кластера для неаномальних спостережень і відстань до центру найближчого неаномального кластера для викидів.

Z-оцінка. Метод Z-score є статистичним підходом для виявлення викидів. Він обчислює стандартну оцінку, або Z-показник, для кожної точки даних. Він обчислює, на скільки стандартних відхилень точка даних відхиляється від середнього значення набору даних.