Business Intelligence voor managers: Need-to-know #8 Big Data

22 december 2015 - Gerrit Versteeg

BI & Analytics MKB

business intelligence “Laat je niet gek maken door Big Data”.

Deze tiendelige blogreeks is onderdeel van de themareeks ‘Management & BI’. De blogreeks is bedoeld voor managers die wat meer willen weten over Business Intelligence, maar dan in begrijpelijke taal zonder alle technische termen en hypes. De blogs vormen een samenvatting van de inhoud van het 100 pagina’s lange eBook: “De 10 Need-to-Know’s, een introductie van Business Intelligence voor managers”.

Dit is de achtste blog in de reeks en ik bespreek het begrip Big Data. Tegenwoordig krijg je als manager bijna een schuldgevoel als je de vaak groots uitgewerkte, welhaast onweerlegbare voordelen niet direct gaat gebruiken binnen jouw organisatie. Mijns inziens, een onterecht schuldgevoel….

Wat is Big Data?

Bij het begin beginnend, start ik in 2001 toen Doug Laney van Gartner aangaf dat:

“Big data is highvolume, -velocity and –variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making”

Big Data moest dus (naast de andere genoemde aspecten) tegelijkertijd drie kenmerken hebben:

Volume: “The increase in data volumes within enterprise systems is caused by transaction volumes and other traditional data types, as well as by new types of data. Too much volume is a storage issue, but too much data is also a massive analysis issue”.
Velocity: “This involves streams of data, structured record creation, and availability for access and delivery. Velocity means both how fast data is being produced and how fast the data must be processed to meet demand”.
Variety: “Now there are more types of information to analyze—mainly coming from social media and mobile (context-aware). Variety includes tabular data (databases), hierarchical data, documents, e-mail, metering data, video, still images, audio, stock ticker data, financial transactions and more”.

De V’s

Met dit lijstje waren de zogenaamde ‘V-woorden’ van Big Data geboren. Inmiddels zijn er in de afgelopen vijf tot zes jaar veel nieuwe V-words bij verzonnen door allerlei spelers in de ICT. Even nog los van het aantal V’s; het is volstrekt onduidelijk in welke mate die V’s aanwezig moeten zijn en hoe we die V’s uiteindelijk meten en waarderen om tot de classificatie van data als ‘Big Data’ te komen. Door de oplaaiende term-verbastering voelde Gartner zich in 2011 genoodzaakt om te verduidelijken dat de term Big Data geponeerd was als onderdeel van Extreme Information Management (EIM), met in totaal zo’n negen aanvullende facetten (niet in de vorm van V-words).

Door de wildgroei heeft inmiddels vrijwel iedereen een ander beeld bij Big Data. Kijkend naar de meerderheid van de berichten over Big data, dan gaat het vaak om VEEL data en/of om ONGESTRUCTUREERDE data. Laten we die twee eens plaatsen in het licht van Business Intelligence.

Veel data

Hoge volumes aan data zijn een normaal verschijnsel in veel BI-omgevingen. Feitelijk niets nieuws onder de zon. Zeker als dit gaat om hoge volumes van gestructureerde data. Als voorbeeld voor Big Data wordt vaak de ‘Internet of Things’ (IoT) genoemd. Qua data betekent dit dat sensoren in ‘dingen’ een constante stroom van data rond hun eigen status versturen. Denk aan wegdeksensoren die elke seconde de ondervonden druk (aantal auto’s, snelheid), temperatuur en vochtigheid (gladheid, regenval, ijzel) versturen. De data van IoT kan weliswaar massaal zijn, maar de data is veelal zeer gestructureerd. En vormt dus qua verwerking door BI over het algemeen geen probleem; gewoon verzamelen in de staging-laag en periodiek verwerken. Ook data uit meerdere IoT-bronnen kan worden verzameld en gecombineerd (variety), maar hier kan wel de aloude scope/frequency-trade off gaan spelen.

Ongestructureerde data

Ongestructureerde data is niet geformaliseerd. Denk bijvoorbeeld aan vrij invulbare tekstvelden in CRM-toepassingen, e-mails van klanten, Twitter-berichten en blogreacties. Ongestructureerde data kun je wel onderzoeken, maar niet integreren. Tijdens het onderzoeken van de data moet je eerst een structuur vinden. Daarna kun je de data pas opnemen in de integratieslag met andere, reguliere data.

Om Big Data (in de betekenis van ongestructureerde data) te faciliteren binnen BI, parkeer je deze het liefst in het Data Lake (Hadoop is qua opslag snel en relatief goedkoop). Vervolgens voorzie je de data scientists van rijke analyse-tools en van een directe toegang op het Data Lake. Zo help je hen om er iets zinvols en structureerbaars uit te halen.

Tijd om te leren

Een diepere uitleg, wat voorbeelden rond een robuuste data-logistiek en tips over hoe om te gaan met real-time BI en datavirtualisatie vind je in het gratis eBook “de 10 Need-to-Know’s rond BI voor de manager”.

In het volgende blog uit de reeks gaan we jou als manager helpen te bepalen of jouw BI-omgeving nog voldoet aan jouw behoeften rond Management Informatie: “Business Intelligence voor Managers, Need-to-know #9: Tijd om te leren”. Als je op de hoogte wilt blijven wanneer de volgende blog in deze reeks verschijnt, dan kun je je hier abonneren op het thema Management & BI.