Welke statistische programmatuur gebruiken?
45 jaar geleden ben ik afgestudeerd als wiskundige en ben mij daarna gaan specialiseren in de statistiek. Mijn eerste baan na mijn promotie was bij de Universiteit van Maastricht en voor de statistieklessen gebruikten we Minitab en SPSS. Na ruim 8 jaar heb ik daarna een vak geleerd bij Philips. Voor het analyseren van data bij de consultatieprojecten gebruikten we Stata. Meer dan 25 jaar geleden ben ik weer teruggekeerd naar de universiteit. Het was de tijd van de opkomst van Lean en Six Sigma. Wederom ben ik Minitab gaan gebruiken voor het analyseren van data.
Nu we in de 21-ste eeuw zijn aangeland zijn er vele zaken veranderd. Het vakgebied statistiek moet concurreren met Data Science mede door de komst en potentie van Big Data. Om meer inzicht te krijgen in Big Data, bedacht IBM het systeem van de vier V’s. Deze V’s staan voor de vier dimensies van Big Data: Volume (de hoeveelheid data veelal gemeten in tera bytes of zelfs peta bytes), Velocity (de snelheid waarmee data wordt gegenereerd en verwerkt), Variety (verscheidenheid van data) en Veracity (betrouwbaarheid van de data). Als data niet meer op je laptop bewaard kunnen worden, bijvoorbeeld vanwege het volume of omdat de data enkel beschikbaar zijn op servers elders, dan is andere programmatuur nodig. Het bijzondere is dat voor de analyse van Big Data de statistische programmatuur gratis beschikbaar is. Veel gebruikte programma’s zijn R en Python. Ze zijn wat minder gebruikersvriendelijk dan Minitab of SPSS, maar met een beetje goede wil en inzet zijn ook deze programma’s onder de knie te krijgen. Bovendien zijn R en Python de standaard in de moderne Data Science opleidingen.
En dan de vraag welke programmatuur we gaan gebruiken bij de komende Belt opleidingen? Wij gaan voor gratis! Alle statistische analyses die een Green Belt moet beheersen voeren we uit in Excel. Ook zullen wij ter illustratie de gratis 30-dagen versie gebruiken van Minitab. Voor Black Belts is het heel waardevol wanneer zij zich tijdens de Black Belt opleiding direct voorbereiden voor toekomstige stappen richting Data Science. Hiervoor werken we met R, omdat dit zowel heel goed aansluit bij de statistische onderwerpen in de Black Belt opleiding als volop mogelijkheden biedt wat betreft verdere vervolgstappen richting Data Science.
Ronald Does, hoofddocent LeanDirect