Data Science met Python en R

monkeymining_bar

Data Science met Python en R

Veel organisaties zijn bezig om met data science en data analytics waarde uit hun data te halen. Mogelijkheden zijn er vaak te over en soms is het overweldigend welke keuzes er allemaal zijn. Naast de keuzes die je hebt in verschillende technieken heb je ook keuze in de vele vraagstukken en de toegevoegde waarde die je met data science wil leveren. Wil je zelf met programmeren van algoritmen aan de slag om tot antwoorden komen of kies je een visuele aanpak zodat je betrokkenen mee kan nemen? Of kies je voor beiden? Vertrouw je op open source technologie of commerciële producten?

Open source tooling

Als je open source tooling hebt verkend, heb je waarschijnlijk gehoord van de programmeertaal Python of R en wellicht gebruik je deze al. Python en R zijn momenteel de meest populaire talen ter wereld voor data science en het zijn de facto standaard. Python en R hebben een lange lijst met voordelen.

 

In dit blog zal ik de belangrijkste voordelen van Python en R bespreken evenals enkele uitdagingen die gelden wanneer je exclusief voor Python of R kiest. Ik zal ook laten zien hoe je MonkeyMiner en Python of R kunt combineren.

python r

De voordelen van Python en de voordelen van R

Er zijn vele redenen zijn waarom Python en R zo breed gebruikt worden als programmeertaal voor Data Science. Ik zal ze niet allemaal bespreken en de belangrijkste drie voordelen behandelen. Mochten jij hele andere ervaringen hebben of voordelen missen die er volgens jou wel bij moeten staan, dan hoor ik dat graag!

Breed gebruikt

Python en R zijn de meest gebruikte open source programmeertalen voor data science. Beiden zijn in de jaren 90 ontstaan en bieden ruime mogelijkheden voor het toepassen van data science op grote datasets. De laatste jaren is er vooral een enorme opmars van Python gaande. In TIOBE index voor programmeertalen staat Python op dit moment op de derde plaats van meest populaire programmeertalen wereldwijd. R staat op een negende positie. Een hoge score betekent dat het een extreem hoge compatibiliteit en toepasbaarheid heeft voor een zeer breed scala aan gebruiksscenario’s voor Data Science. Door Python en R beide te implementeren zorg je ervoor dat je niet hoeft te worstelen met het compileren van de code. Je kunt direct de resultaten van je programmeerwerk zien terwijl je typt.

Grote community

Zowel Python als R hebben uitgebreide bibliotheken en plugins die beheerd en onderhouden worden door een enorme open source community. Zeker waar het om Data Science gaat zijn er geen actievere open source communities te vinden. Bovendien is er veel trainings- en opleidingsmateriaal beschikbaar. Van diepgaande onderzoekspapers en promotie-onderzoeken tot video’s die gebruikers aan de hand nemen. Grote kans als je iets met Python of R wilt oplossen, dat er code of een bibliotheek of materialen beschikbaar zijn die je helpen om snel te starten.

Gratis en open source

Vanzelfsprekend spelen de kosten ook een rol bij Data Science. Python en R zijn gratis dus iedereen met een laptop of omgeving met voldoende rekenkracht kan er gratis mee aan de slag. De toegankelijkheid heeft natuurlijk een belangrijke rol gespeeld in de adoptie en positie als de facto standaard voor Data Science.

Ik denk dat het feit dat het gratis en open source is belangrijke factoren zijn in de grote en levendige community.

Aan de slag met Process Mining?

Schrijf je in voor de gratis Masterclass!

De nadelen van Python en de nadelen van R

Ondanks het wijd verspreide gebruik van Python en R en de enorme populariteit, zijn beide oplossingen niet perfect. Zeker bij breed gebruik in een organisatie hebben Python en R hun beperkingen. De belangrijkste drie nadelen van Python en R wil ik graag met jullie delen.

Beheer en hergebruik van de code

Een van de grootste uitdagingen voor het gebruik van Python binnen een organisatie is het beheer en hergebruik van de code. Tools als GitHub maken het voor Data Scienstist makkelijker om code te beheren op een manier dat anderen er ook toegang toe hebben. Echter zien we dit in de praktijk weinig gebeuren. Daarnaast merken we dat code van de ene Data Scientist lastig te beheren en gebruiken is door een andere Data Scientist zonder toelichting.

 

Hoe groter een bedrijf wordt, hoe groter het probleem van beheer en hergebruik wordt. Dit komt doordat de verschillende Data Scientists hun eigen code beheren voor specifieke use cases. Dit maakt het lastiger om samen te werken. Hoe moet een Data Scientist uit een ander team überhaupt weten dat de code die ze nodig hebben al bestaat. Laat staan dat ze de nuttige delen uit de project specifieke code kunnen halen om te gebruiken.

 

Daarnaast zien we dat code of algoritmen die een tijd niet gebruikt zijn niet zomaar opnieuw gebruikt kunnen worden. Zelfs de Data Scientist die de code heeft gemaakt heeft opnieuw tijd nodig om te begrijpen hoe de code ook alweer in elkaar zat. Ook zien we dat bij hergebruik regelmatig delen opnieuw geprogrammeerd moeten worden. Je kunt je wellicht voorstellen dat het gebruik door een andere Data Scientist hierdoor nog lastiger is.

 

Het resultaat van dit alles is dat een deel van de capaciteit van de Data Scientist op gaat aan het hercoderen of schrijven van code die reeds bestaat in plaats van het doen van daadwerkelijke analyses en het oplossen van vraagstukken die er binnen een organisatie zijn.

Uitsluiten van de business

Een andere uitdaging is dat betrokkenen zonder programmeerkennis of kennis van Python en R niet optimaal mee kunnen werken aan het Data Science project. De Data Scientist kan natuurlijk toelichten hoe de code is opgebouwd maar betrokkenen zonder Python of R kennis kunnen hem of haar lastig challengen.

 

Daarnaast kan dit voor een probleem in de capaciteit zorgen omdat alle Data Science trajecten behoefte hebben aan collega’s met diepgaande kennis van Python en R . Dat gaat ieder keer ten koste van de doorlooptijd en zelfs het hergebruiken van een algoritme of code op een andere dataset vraagt weer de hulp van de programmeur. De belanghebbenden hebben geen zicht op wat er gebeurt met Python en R. Het is als het ware een blackbox waar ze op moeten vertrouwen en er vanuit gaan dat de resultaten die eruit komen correct zijn en daar beslissingen op nemen.

Draagvlak

Daarmee kom ik op een andere uitdaging die je met de inzet van Python en R krijgt, namelijk draagvlak. In veel Data Science trajecten is draagvlak sowieso een uitdaging. Betrokkenen hebben gehoord dat Data Science veel waarde kan hebben. Maar vanwege de complexiteit en vaak specifieke toepassing is het moeilijk uit te leggen wat toegevoegde waarde voor de organisatie zal zijn.

 

Tel daarbij op dat de code die al het zware werk doet ondoorgrondelijk is voor iedereen die geen achtergrond heeft in programmeren, en je hebt een aantal belangrijke ingrediënten die het voor het management extra lastig maken om het risico te nemen. Dit kan goedkeuringen vertragen en zelfs projecten beëindigen voordat ze de kans krijgen om te schitteren.

Hoe kan MonkeyMiner helpen?

Het is de missie van MonkeyMiner om op een snelle en eenvoudige manier het succes van Data Science te laten zien. Om dit mogelijk te maken focussen we ons op Process Mining. Dit is natuurlijk maar een deel van het volledige Data Science werkveld, maar heeft wel een aantal grote voordelen. Door de visuele weergave en het traceerbaar maken van processen en de cases die door het proces ‘heen gaan’ geven we betrokkenen inzicht en kunnen ze de uitkomsten valideren.

 

Ons doel is om het de verschillende groepen gemakkelijker te maken om zo effectief mogelijk te werken binnen het MonkeyMiner-platform – voor teams die bestaan uit ervaren Data Scientists, belanghebbenden in de organisatie en management.

 

Bijkomend voordeel van Process Mining is dat door het gebruik van logfiles er geen noemenswaardige problemen zijn met datakwaliteit. Een uitdaging die je in bij elk Data Science traject terug ziet. Lees onze blog over datakwaliteit en Data Science als je daar meer over wilt weten.

 

Tenslotte kunnen we met MonkeyMiner in zeer korte tijd resultaten en toegevoegde waarde laten zien. Diepgaande trajecten duren enkele weken maar in 1 dag kunnen we voor een bepaald proces de belangrijkste vraagstukken en uitdagingen inzichtelijk maken. Tevens kunnen we identificeren op welke plekken in een proces Machine Learning van waarde zal zijn. Daarmee leg je de basis om vervolgens met Pyhton of R daadwerkelijke verbetering op basis van Data Science te realiseren!

Benieuwd geworden naar MonkeyMiner?

Gratis proberen Demonstratie aanvragen
Roderick Schreuder
Roderick Schreuder

Roderick Schreuder is een technologie entrepreneur en data science expert. Hij heeft + 20 jaar ervaring in verschillende sectoren bij organisaties zoals Philips, ING, Heerema, Achmea, NXP en Belastingdienst. Sinds 2006 is hij betrokken bij BiZZdesign en heeft zich recent gestort op de data science techniek ‘Process Mining’ bij MonkeyMining. Roderick is regelmatig gastspreker op conferenties en congressen en wordt regelmatig gevraagd om technologie inspiratiesessies voor directies en management teams te faciliteren. Daarnaast is hij verbonden aan de Hogeschool Utrecht en Business University Nyenrode.

PROBEER MONKEYMINER NU GRATIS