Testy porównań wielokrotnych – post hoc

Testy porównań wielokrotnych – post hoc

Kontynuując poprzedni wątek (Wykorzystanie testu ANOVA w praktyce) na ramach tego artykułu opisano zastosowanie testów porównań wielokrotnych, tzw. testów post hoc.

Testy post hoc stosowane są w sytuacji, w której w wyniku testu ANOVA lub Welcha odrzucono hipotezę zerową (H0) zakładającą równość wartości średnich w próbach i przyjęto hipotezę alternatywną (H1) stwierdzającą, że przynajmniej jedna średnia różni się istotnie od pozostałych.

Istnieje kilkanaście testów post hoc (procedur porównań wielokrotnych) stosowanych w praktyce, poniżej przedstawiono sześć najpopularniejszych:

  • Test NIR – Najmniejszych Istotnych Różnic (ang. Fisher’s Least Significant Difference – LSD). To prawdopodobnie najstarszy test porównań wielokrotnych, który został zaproponowany przez Ronalda Fishera. W tej procedurze ryzyko popełnienia błędu polegającego na wskazaniu istotnych różnic (odrzucenia hipotezy zerowej) w przypadku, gdy są one nieistotne jest dużo wyższe niż np. w procedurze Tukeya i Scheffégo. Jest to wynikiem wykonywania szeregu testów t-Studenta dla każdej porównywanej próby, a w rezultacie kumulację prawdopodobieństwa nie biorąc poprawki na liczbę porównań.
  • Test Tukeya to jeden z najczęściej używanych testów do porównywania par średnich. Można go wykorzystać w przypadku różnej liczebności prób. Jest on oparty na rozkładzie nazywanym „statystyką rozstępu studentyzowanego”. Metoda Tukeya jest bardziej konserwatywna niż test NIR, ale mniej niż test Scheffégo. Poziom błędu doświadczenia dla wszystkich porównań parami pozostaje na poziomie błędu dla zbioru, co oznacza, że jeżeli założono dla testu ANOVA poziom istotności statystycznej α0,05, to taki sam poziom istotności statystycznej będzie użyty podczas wszystkich porównań pomiędzy parami (próbkami). Procedurę tą stosuje się w sytuacji, w której jest spełnione założenie o równości wariancji w próbach.
  • Test Scheffégo (ang. Scheffé test) uważany jest za najbardziej konserwatywny test, w ramach którego osiągniecie istotnych różnic pomiędzy próbkami jest trudniejsze niż w przypadku innych testów. Testu tego można użyć także w przypadku prób o różnych licznościach.
  • Test Dunnetta stosowany jest w sytuacji, w której porównaniu poddaje się próbki (grupy) do tzw. grupy kontrolnej. Na przykład porównaniu poddaje się trzech nowych Kontrolerów w stosunku do jednego Kontrolera, który posiada bardzo dobre doświadczenie w temacie wykonywania analizowanych pomiarów.
  • Test HSU MCB  (ang. Multiple Comparisons with the Best) to metoda wielokrotnego porównywania, która ma na celu identyfikację poziomów czynnika, które są najlepsze lub najgorsze z punktu widzenia analizowanej cechy (parametru) i porównania do nich pozostałych grup (próbek pomiarów).
  • Test Gamesa-Howella to test, który zakłada poprawkę na nierówne wariancje w porównywanych grupach (próbkach) a także na nierówne liczności prób. Procedura Gamesa-Howella powinna zostać użyta zaraz po wykonaniu testu Welcha, w sytuacji , w której w wyniku testu Bartletta zostanie odrzucona hipoteza zerowa (wariancje w próbach są nierówne)

Przykład zastosowania procedury porównań wielokrotnych (post hoc):

Do pięcio-wrzecionowej maszyny dokręcającej (do każdego wrzeciona dokręcającego) wykonującej dokręcenie śrub koła w samochodzie (5 śrub) dołączono urządzenie mierzące dynamiczny moment dokręcenia dla każdego wrzeciona oddzielnie. Urządzenie podłączono pomiędzy wyjściem z napędu wkrętaka elektrycznego wrzeciona a nasadką, która podczas dokręcania stanowiła połączenie z łbem śruby koła samochodu. W wyniku dokręcenia 30 kół pobrano dane momentów dokręcenia dla każdej śruby oddzielnie. Dane momentów dokręcania przedstawiono na Rys. 1:

Rys. 1. Pomiary momentów dokręcania zarejestrowane przez czujnik momentu podłączony do każdego wrzeciona pięciowrzecionowej wkrętarki elektrycznej.

Przed wykonaniem testu ANOVA, dane poddano weryfikacji ze względu na normalność rozkładu oraz jednorodność wariancji w próbach. W tabeli 1 podano wynik testu normalności dla każdej próby (pomiarów momentów z wrzeciona dla każdej śruby):

Tab.1. Wyniki testu normalności rozkładu danych.

W wyniku testu normalności dla każdego wrzeciona, stwierdzono, że dane rozkładają się zgodnie z rozkładem normalnym. Następnym krokiem było porównanie wariancji (zmienności) w próbach (pomiarach z wrzecion). Do tej analizy wykorzystano test Bartletta.

W wyniku testu Bartletta stwierdzono, że wariancje w próbach są jednorodne, tzn. że zmienność w pomiarach momentów dokręcania z poszczególnych wrzecion jest podobna.

Wynik przedstawiono na Rys. 2.

Rys. 2. Wynik testu jednorodności wariancji z wykorzystaniem testu Bartletta.

Główne założenia wykonania testu ANOVA zostały spełnione, dane poddane zostały analizie ze względu na wartości średnie. Wynik testu ANOVA przedstawiono na Rys. 3. 

Rys. 3. Wartości średnie i analiza wariancji dla każdego wrzeciona dokręcającego.

W wyniku testu ANOVA odrzucono hipotezę zerową stanowiącą, że średnie w badanych próbach są równe i stwierdzono, że przynajmniej jedno wrzeciono (pod względem wartości momentów dokręcania – Nm) różni się istotnie od pozostałych wrzecion.

Reasumując: przynajmniej jedno wrzeciono dokręca jedną ze śrub koła samochodu z innym momentem dokręcania niż pozostałe wrzeciona dokręcają pozostałe śruby koła.

Pojawiły się pytania:

  1. Która średnia różni się istotnie od pozostałych (i których?) – tzn. które wrzeciono dokręca z innym momentem dokręcania niż pozostałe?
  2. Czy tylko jedno wrzeciono dokręca z istotnie różnym momentem dokręcania czy więcej wrzecion?

Na te pytania odpowiedzieć można wykorzystując testy post hoc. Na Rys. 4 przedstawiono statystyczną analizę porównań wielokrotnych z użyciem testu Tukeya, natomiast na Rys. 5 graficzną prezentacje estymatorów punktowych różnic wraz z ich przedziałami ufności. Przedziały obliczono z 95% prawdopodobieństwem.

Rys.4. Statystyczna analiza porównań wielokrotnych z użyciem testu Tukeya.

Wartości bezwzględne różnic pomiędzy wrzecionami przedstawiono w kolumnie „Difference of Means” Zauważyć można, że najwyższa różnica (2,097 Nm) występuje pomiędzy wrzecionem 2 i 4. W kolumnie „Adjusted P-Value” znajdują się wartości, które porównując z przyjętym poziomem istotności statystycznej dają informację o istotnych statystycznie różnicach. Wartości niższe niż 0,05 świadczą o wrzecionach, które są różne istotnie od siebie. Na Rys. 5. przedstawiono graficzną prezentację różnic pomiędzy wartościami średnimi prób pomiarów momentów z poszczególnych wrzecion wkrętarki elektrycznej.

Rys.5. Bezwzględne wartości różnic (wraz z 95% przedziałami ufności) pomiędzy pomiarami momentów dokręcania wrzecion wkrętarki elektrycznej.

Stosując testy porównań wielokrotnych można jasno określić, które próby (w tym przypadku wrzeciona dokręcające wkrętarki elektrycznej) różnią się pomiędzy sobą pod względem wartości średniej momentu dokręcania. W ten sposób można bezsprzecznie zidentyfikować potencjalny problem występujący w procesie produkcyjnym, bezpośrednio wpływający na jakość wyrobu.

Analizy z wykorzystaniem testów post hoc nauczyć się można na naszych szkoleniach:

  1. DoE – projektowanie eksperymentów.
  2. Metody i techniki statystyczne wykorzystywane w analizie procesu połączeń gwintowych.
  3. Narzędzia wnioskowania statystycznego stosowane w przemyśle.