Porównanie programów do analizy danych

Porównanie programów do analizy danych

Celem niniejszego artykułu jest porównanie trzech popularnych programów do analizy danych. Porównaniu poddane zostały następujące programy: MS Excel, Minitab i PQStat.

Są to programy, które wśród kilku innych programów najczęściej wykorzystywane są w przemyśle produkcyjnym i usługowym oraz na uczelniach wyższych.

Programy te mają swoje zalety i wady, które w subiektywnej opinii autora przestawiono poniżej. Porównania programów dokonano na podstawie danych z procesu dokręcania łączników gwintowych a narzędzie statystyczne użyte do analizy to jednoczynnikowa analiza wariancji (ang. ANOVA – Analysis of Variance) dla prób niezależnych.

W celu pozyskania danych do porównania programów wykonano jednoczynnikowy eksperyment (ang. OFAT – One Factor At a Time) polegający na sprawdzeniu wpływu zmiany prędkości dokręcania (zmienna niezależna X) elektrycznego narzędzia dokręcającego na wartość momentu kontrolnego dokręconej śruby (zmienna zależna Y).

Podczas eksperymentu dokonywano obniżenia prędkości dokręcania [rpm] i analizowano, jaka była reakcja wartości momentu kontrolnego [Nm].

Wynik eksperymentu przedstawiono na Rys. 1.

Rys. 1. Wartości momentu kontrolnego w zależności od prędkości dokręcania elektrycznego narzędzia dynamometrycznego.

MS Excel

Dane z Rys. 1 poddano analizie z wykorzystaniem dodatku Analysis ToolPak, w którym dostępna jest podstawowa wersja testu Analiza wariancji: jednoczynnikowa. Wynik obliczeń przedstawiono na Rys. 2.

Rys. 2. Wynik testu ANOVA.

Program MS Excel policzył podstawowe statystyki opisowe tj. m.in. średnia arytmetyczna i wariancja dla każdego poziomu zmiennej X, czyli dla każdej prędkości dokręcania [rpm]. W drugiej części tabeli obliczona została wartości statystyki F, na podstawie której oszacowano wartość p-value.

Ponieważ wartość p-value (0,001) okazała się mniejsza od przyjętego poziomu istotności statystycznej (α0,05), odrzucono hipotezę zerową zakładającą równość wszystkich średnich arytmetycznych. Uzyskano informację, że przynajmniej jedna średnia arytmetyczna różni się istotnie od pozostałych. Niestety, z powodu braku wbudowanych do dodatku Analysis ToolPak testów porównań wielokrotnych, nie uzyskano informacji, które średnie różnią się pomiędzy sobą. Co więcej, wartości estymatorów średnich arytmetycznych obliczone zostały bez podania wartości przedziałów ufności.

Dodatkową niedogodnością jest to, że w programie MS Excel nie istnieją wbudowane procedury wykonania testu normalności rozkładu oraz jednorodności wariancji w próbkach, które są głównymi założeniami testu ANOVA.

W celu zobrazowania różnic, dane z Rys. 1 przedstawić można graficznie z wykorzystaniem wbudowanego wykresu Skrzynka i Wąsy (ang. Box-Plot). Wykres przedstawiono na Rys. 3.

Rys. 3. Wykres Skrzynka i Wąsy przedstawiający rozkład momentów kontrolnych [Nm] w zależności od prędkości dokręcania [rpm].

Z wykresu wnioskować można, że „prawdopodobnie” istnieje różnica pomiędzy poziomami zmiennej X. „Przynajmniej” rozkłady momentów kontrolnych [Nm] dla prędkości 15 i 30 [rpm] różnią się od rozkładów momentów kontrolnych [Nm] dla prędkości 150, 120, 90 i 60 [rpm].

Uwaga. W programie MS Excel możliwe jest przygotowanie bardzo dużej liczby analiz statystycznych oraz graficznych, pod tym jednak warunkiem, że procedury „napisane” zostaną od podstaw przez użytkownika z wykorzystaniem ogólnie dostępnej teorii statystyki matematycznej i często z wykorzystaniem aplikacji Visual Basic.

Minitab

Dane z eksperymentu OFAT poddano analizie z wykorzystaniem programu Minitab. W przeciwieństwie do programu MS Excel, w programie Minitab bez problemu wykonać można test normalności rozkładu (są trzy dostępne procedury: Andersona-Darlinga, Ryana-Joinera i Kołmogorova-Smirnova) oraz testy dla jednorodności wariancji w próbkach (procedury: Bartletta, Levenea i Multiple Comparisons). Wykonanie tych testów jest ważne, ponieważ tak jak to już zostało wspomniane, głównymi założeniami wykonania testu ANOVA jest normalność rozkładu i jednorodność wariancji prób.

Na Rys. 4 przedstawiono wynik testu Bartletta dla jednorodności wariancji (zmienności) w próbkach.

Rys. 4. Test Bartletta dla jednorodności wariancji w próbkach.

Ponieważ wartość p-value (0,000) na podstawie statystyki Bartletta okazała się mniejsza od poziomu istotności statystycznej (α0,05), odrzucono hipotezę zerową zakładającą równość wariancji w próbkach. Stwierdzono, że zmienność w próbkach różni się statystycznie, co dodatkowo przedstawiono na Rys. 5.

Rys. 5. Estymatory odchyleń standardowych dla każdej próbki wraz z przedziałami ufności z korektą Bonferroniego.

ANOVA

Z powodu niespełnienia jednego z założeń (jednorodność wariancji w próbkach) wykonanie klasycznego testu ANOVA nie jest wskazane. W takim przypadku wykorzystać należy test ANOVA z poprawką Welcha. Poprawka taka jest dostępna w programie Minitab.

Na Rys. 6. przedstawiono wartości estymatorów średniej arytmetycznej wraz z przedziałami ufności. Przedziały ufności niektórych średnich nie pokrywają się ze sobą, co wskazuje, że średnie te różną się istotnie statystycznie. Graficznie przedstawione zostało to na Rys. 9.

Rys. 6. Estymatory średnich arytmetycznych wraz z przedziałami ufności.

Wynik testu ANOVA z poprawką Welcha przedstawiono na Rys. 7. Ponieważ wartość p-value (0,000) na podstawie statystyki Welcha okazała się mniejsza od poziomu istotności statystycznej (α0,05), odrzucono hipotezę zerową zakładającą równość średnich arytmetycznych w próbkach.

Rys. 7. Wynik testu ANOVA z poprawką Welcha.

Na Rys. 8. z wykorzystaniem testu porównań wielokrotnych Gamesa-Howella wskazano średnie arytmetyczne próbek (poziomów czynnika X – prędkości dokręcania), które różnią się istotnie pomiędzy sobą na poziomie istotności statystycznej (α0,05).

Rys. 8. Wynik porównań wielokrotnych procedurą Gamesa-Howella.

Wartości średnich arytmetycznych wraz z przedziałami ufności przedawniono na Rys. 9., natomiast wartości indywidualne pomiarów wraz ze średnimi arytmetycznymi na Rys. 10. Wykresy te wraz z wykresem Skrzynka-Wąsy dostępne są automatycznie w programie Minitab podczas wykonywania obliczeń z wykorzystaniem testu ANOVA.

Rys. 9. Wykres przedziałowy dla średnich arytmetycznych.

Rys. 10. Wykres wartości indywidualnych.

Program Minitab daje możliwość wykonania pełnych i wystarczających obliczeń do celów jednoczynnikowej analizy wariancji (ANOVA). W przeciwieństwie do programu MS Excel w pierwszej kolejności wykonać można test jednorodności wariancji i na tej podstawie dokonać wyboru testu ANOVA lub ANOVA z poprawką Welcha.

PQStat

Program PQStat był ostatnim programem, za pomocą którego analizowano dane z eksperymentu. W programie tym wykonać można test normalności rozkładu zgodnie z czterema procedurami: Kołmogorova‐Smirnova, Lillieforsa, Shapiro‐Wilka i D’Agostino‐Pearsona. Dodatkowo dostępna jest (podobnie jak w programie Minitab) analiza graficzna rozkładu danych. W tym przypadku z wykorzystaniem wykresu kwantyl‐kwantyl – Rys. 11.

Rys. 11. Graficzna analiza rozkładu danych za pomocą wykresu kwantyl-kwantyl.

Zmienność w próbkach porównać można z wykorzystaniem dwóch testów jednorodności wariancji: Browna‐Forsythea i Levenea. Analiza polega na wyznaczaniu bezwzględnego odchylenia wyników pomiarowych od średniej arytmetycznej (test Levenea) lub od mediany (test Browna‐Forsythea). Test Levenea jest bardziej wrażliwy na niespełnienie założenia dotyczącego normalności rozkładu. Wyniki tych testów przedstawiono na Rys. 12.

Rys. 12. Testy Browna‐Forsythea i Levenea dla jednorodności wariancji w próbkach.

Dodatkowo, na Rys. 13. przedstawiono estymatory odchylenia standardowego wraz z przedziałami ufności. W przeciwieństwie do programu Minitab przedziały ufności wyznaczone zostały bez korekty Bonferroniego.

Rys. 13. Estymatory odchyleń standardowych dla każdej próbki wraz z przedziałami ufności bez korekty Bonferroniego.

ANOVA

Ponieważ założenie o jednorodności wariancji w próbkach nie zostało spełnione, porównanie średnich arytmetycznych wykonane zostało za pomocą testu ANOVA z poprawką Browna-Forsytha i dodatkowo podobnie jak w programie Minitab z poprawką Welcha. Na Rys. 14. przedstawiono wyniki obydwóch statystyk testowych wraz z obliczonymi wartościami p-value.

Rys. 14. Wyniki testu ANOVA z poprawką Browna-Forsytha oraz poprawką Welcha.

Ponieważ wartości p-value dla obydwóch testów (0,001663 i 0,000371) okazały się mniejsze od poziomu istotności statystycznej (α0,05), podobnie jak w przypadku programów MS Excel i Minitab odrzucono hipotezę zerową zakładającą równość średnich arytmetycznych w próbkach.

Na Rys. 15. z wykorzystaniem testu porównań wielokrotnych Gamesa-Howella wskazano średnie arytmetyczne próbek, które różnią się istotnie statystycznie. Wynik jest tożsamy z wynikiem programu Minitab.

Rys. 15. Wynik testu porównań wielokrotnych testem Gamesa-Howella.

Dodatkowo, w programie PQStat można wykonać test dla trendu liniowego – Rys. 16. Ponieważ wartość p-value (0,000005) jest mniejsza od poziomu istotności statystycznej (α0,05) przyjęto, że występowanie trendu liniowego jest statystycznie potwierdzone. Na Rys. 9 i 10 zauważyć można korelację negatywną, tzn. że wraz z obniżeniem prędkości dokręcania [rpm] wzrasta wartość momentu kontrolnego [Nm].

Rys. 16. Test dla trendu liniowego.

Podobnie jak w przypadku programu Minitab, program PQStat daje możliwość wykonania pełnych i wystarczających obliczeń do celów jednoczynnikowej analizy wariancji bez względu na spełnienie lub niespełnienie głównych założeń ANOVA.

Podsumowanie

Z przedstawionych trzech programów, programem najbardziej użytecznym do prowadzenia analiz związanych z procesami przemysłowymi jest program Minitab. Jego przewagą nad programem PQStat jest to, że posiada on wbudowane pakiety do analiz MSA, SPC i DoE. Niemniej jednak wadą programu Minitab w stosunku do PQStat jest jego wysoka cena oraz brak licencji dożywotniej.

Główną zaletą programu MS Excel w stosunku do programów Minitab i PQStat jest jego cena oraz możliwość implementacji większej liczby analiz statystycznych i matematycznych, które jednak należy przygotować samodzielnie. Wadą dodatku Analysis ToolPak jest niewielka liczba dostępnych procedur testowych.

Kilka zalet i wad przedstawiono w poniższej tabeli.

ProgramZaletyWady
MS Excel1.  Niska cena programu.
2.  Do wyboru: licencja roczna lub dożywotnia.
3.  Możliwość indywidualnej implementacji wszystkich możliwych testów statystycznych i obliczeń matematycznych – to jest bardzo duża zaleta.
4.  Możliwość automatyzacji obliczeń z wykorzystaniem VBA (ang. Visual Basic for Applications.
1.  Niewielka automatyzacja obliczeń – ubogi pakiet dodatku Analysis ToolPak.
2.  Brak możliwości wykonania testu dla normalności rozkładu oraz jednorodności wariancji w próbkach.
3.  Brak możliwości wykonania testu ANOVA z poprawką Welcha.
4.  Brak parametrycznego testu ANOVA dla prób zależnych.
5.  Niedostateczna liczba wykresów dostępnych automatycznie.
6.  Brak dostatecznej możliwości modyfikacji wykresów.
7. Brak testu równoległości dwóch i więcej regresji prostych.
8.  Brak modułów do analiz:
·  MSA – analiza systemów pomiarowych.
·  SPC – statystyczne sterowanie procesem.
9. Uboga wersja modułu do DoE – planowanie eksperymentów.
Minitab1. Przyjemny interfejs i prostota poruszania się po programie.
2. Łatwość importowania danych z MS Excel.
3. Pełna automatyzacja obliczeń.
4. Bogata szata graficzna – dostęp do dużej liczby wykresów.
5. Łatwa modyfikacja wykresów (linie, opisy, kolory, czcionki itp.).
6. Bogaty „Help” – samouczek z teorią, wzorami i przykładami analiz statystycznych.
7. Możliwość tworzenia raportów wg szablonu Minitab oraz m.in. Word i PowerPoint.
8. Zakładka „Assistant” dla osób początkujących.
9. Możliwość prowadzenia analiz mających na celu rozwiązywanie problemów przemysłowych oraz optymalizacje procesów.
10. Możliwość bezpłatnego wypróbowania programu przez 30 dni.
1.  Do wyboru tylko licencja roczna lub trzyletnia – brak dostępu do licencji dożywotniej.
2.  Wysoka cena > 8 tysięcy zł. / rok.
3.  Brak parametrycznego testu ANOVA dla prób zależnych.
4.  Brak testu równoległości dwóch i więcej regresji prostych.
PQStat1. Przyjemny interfejs i prostota poruszania się po programie.
2. Łatwość importowania danych z MS Excel.
3. Pełna automatyzacja obliczeń.
4. Dobra lecz uboższa niż w programie Minitab szata graficzna.
5. Łatwa modyfikacja wykresów (linie, opisy, kolory, czcionki itp.).
6. „Help” – podręcznik z teorią, wzorami i przykładami analiz statystycznych.
7. Możliwość tworzenia raportów wg szablonu PQStat oraz m.in. Word, PowerPoint, pdf.
8. Zakładka „Kreator” dla osób początkujących.
9. Możliwość prowadzenia analiz mających na celu rozwiązywanie problemów przemysłowych oraz optymalizacje procesów.
10. Dostęp do parametrycznego testu ANOVA dla prób zależnych.
11. Możliwość bezpłatnego wypróbowania programu przez 30 dni.
12. Możliwość zakupu licencji dożywotniej.
13. Niski koszt licencji dożywotniej < 1100 zł.
1.  Brak modułów do analiz:
·  MSA – analiza systemów pomiarowych.
·  SPC – statystyczne sterowanie procesem.
·  DoE – planowanie eksperymentów.
2.  Brak testu równoległości dwóch i więcej regresji prostych.

Wniosek

Uwzględniając powyższe zalety i wady, wydaje się, że dobrym rozwiązaniem w przypadku firm dużych, posiadających wiele procesów jest zakup programu Minitab. Natomiast w przypadku firm mniejszych o niższym budżecie, korzystnym jest zakup programu PQStat do procesów rozwiązywania problemów przemysłowych oraz MS Excel do prowadzenia analiz MSA, SPC i DoE, do których przygotowanie kalkulatorów obliczeniowych nie jest trudnym zadaniem.

.

Autor: dr inżRafał Popiel

Jeżeli artykuł Ci się podobał, to udostępnij go w mediach społecznościowych:

Co mówią nasi zadowoleni Klienci:

.

W przypadku pytań zapraszamy do kontaktu:

.


    Zapisz się do newsletter'a

    Podając adres e-mail wyrażam zgodę na otrzymywanie informacji zwrotnych.
    Więcej na temat naszej Polityki Prywatności