Steeds meer bedrijven en instellingen willen informatie halen uit data. Echter is mensenwerk nodig om data op een verantwoorde manier te verwerken, analyseren en/of extrapoleren. In de afgelopen jaren is de behoefte naar data scientisten sterk toegenomen. Maar wat maakt een goede data scientist en waar kan je mee beginnen? Deze blog beschrijft in vijf punten de benodigde competenties en bijhorende digitale cursussen die je op weg helpen om een goede data scientist te worden!
1. Kennis van statistiek
Data scientisten werken met data om de business beter te laten presteren. Hierbij gaat het vaak om grote hoeveelheden data. Om deze data goed te kunnen analyseren, is statistische kennis nodig. Denk daarbij aan vragen als: hoe is de data verdeeld? Kan een bepaald datapunt wel of niet als een outlier worden gezien? In hoeverre is de data representatief? Ook maken data scientisten ook voorspellende modellen en algoritmes, waarin diepgaandere kennis van statistiek nodig kan zijn.
Statistieke kennis kun je verrijken door cursussen te volgen. De websites Khan Academy en Udemy biedt verschillende digitale cursussen aan in statistiek op verschillende niveaus.
2. Data verwerken
Veel data moet ontsloten, opgeschoond en gecontroleerd worden. Data blijkt namelijk vaak vervuild te zijn. Denk daarbij aan ongeldige data, waarin in de kolom geslacht (M/V) een ‘O’ staat. Of aan dubbele regels waarbij een patiënt meerdere keren is ingevoerd. Een opgeschoond databestand draagt bij aan de kwaliteit van data en hoog kwalitatieve data zorgt voor meer waarheidsgetrouwe analyseresultaten. Een data scientist kan dus helpen om data waardevoller te maken door data op een verantwoorde manier te controleren en te verwerken.
Dataverwerking wordt bijvoorbeeld gedaan in programmeertalen als SQL, R of Python. Cursussen in deze talen zijn digitaal te volgen op bijvoorbeeld Datacamp of Coursera.
3. Data analyseren en modelleren
Data scientisten kunnen op basis van data analyses doen en op basis van algoritmes voorspellingen maken. De resultaten die uit deze analyses en modellen voortvloeien zou je als ‘het nieuwe goud’ kunnen zien: zij bieden vaak waardevolle inzichten voor een organisatie. Denk daarbij aan analyses die inzichten geven in de trends van inkoopuitgaven en personeelskosten . Of algoritmes die het benodigde personeel en aantal bedden op de IC afdeling voorspellen. Zulke analyses en voorspellingen helpen overheden en organisaties om beter onderbouwde beslissingen te maken. Beslissingen worden zo op basis van gegevens genomen in plaats van onderbuikgevoelens.
Python, R en SAS zijn populaire programma’s om data te analyseren en te modelleren. Digitale cursussen in deze programmeertalen zijn bijvoorbeeld te volgen op Udemy, Datacamp en Coursera.
4. Data visualiseren
Voor veel mensen is data een abstract gegeven. Data scientisten kunnen deze abstracte data naar concrete informatie en kennis omzetten middels datavisualisaties. Deze visualisaties kunnen interesse wekken en de aandacht bij de boodschap houden. Zo kan informatie gepresenteerd worden in een rapport, tabel, grafiek, landkaart of puntenwolk. Vaak wordt er gebruik gemaakt van interactieve dashboards [voorbeeld] waar men inéén oogopslag kan zien of er zich problemen voordoen en waar.
Data visualisaties worden in verschillende tools uitgevoerd. Grote spelers zijn Power BI, Tableau en Qlikview. Echter kan er middels Python en R ook dashboards ontwikkeld worden, bijvoorbeeld in R middels de Shiny package.
5. Communicatieve vaardigheden
Tot slot moet een goede data scientist over goede communicatieve vaardigheden beschikken. Zo moet hij of zij in staat zijn om uit de gegenereerde inzichten actiepunten te maken die waarde leveren voor de organisatie. Ook moeten zij effectief een model of advies kunnen overbrengen. De data scientist kan bijvoorbeeld een prachtig technisch gecompliceerd model hebben ontwikkeld, maar als het niet op de juiste manier is overgebracht dan wil geen klant het model gebruiken. Dit vereist sterke en heldere communicatieve vaardigheden zoals duidelijk spreken en overtuigingskracht.
Data scientisten werken meestal in teamverband en maken daarbij vaak gebruik van de Scrum methode. Scrum is een framework dat ingezet wordt om een product in teamverband te ontwikkelen op een effectieve en flexibele manier. Aan de hand van sprints en cross-functionele teams blijft men kort op de bal spelen. Trainingen voor Scrum zijns digitaal te volgen op Scrum.org.
Al met al…
Het is dus nog niet zo eenvoudig om aan het profiel van een goede data scientist te voldoen. Het is dan ook niet vreemd dat er een schreeuwend behoefte is aan data scientisten. Data scientist is één van de meest populaire beroepen van het moment. Ben je op zoek naar een data scientist of wil je er graag een worden? Neem dan gerust contact met ons op.