17. juni 2016

Hvordan kan vi arbejde med big data?

FORELÆSNING

Den 27. april holdt chefstrateg for DBC Bo Weymann et oplæg på IVA om big data og data science.










Bo Weymann arbejder til daglig med udvikling af metadata og IT-infrastruktur til den danske bibliotekssektor. Han er desuden medlem af IVAs aftagerpanel. I sit oplæg præsenterede han en række udviklinger inden for big data og cognitive computing og kom med forskellige eksempler på, hvordan data science og informationsvidenskab kan berige hinanden.

Han lagde ud med kort at definere nogle centrale begreber:

Big data: Der findes ikke nogen kort definition af big data. Begrebet dækker over både indsamling, opbevaring, analyse og fortolkning af enorme datasæt, som hele tiden vokser og ændrer sig.

Data science: Kan kort defineres som etablering af viden ud fra data. Det inkluderer metoder fra mange andre videnskaber såsom computervidenskab, matematik, statistik, datalogi, filosofi m.m. På nogle områder er også informationsvidenskab en del af data science.

Machine learning: Et underfelt af computervidenskab, som også indeholder en del aspekter fra data science. Her arbejder man med at udvikle intelligente systemer ved hjælp af algoritmer.

Cognitive computing: Et koncept, som IBM arbejder med. Det er et sammensat begreb, der bl.a. bruges om hardware og software, som efterligner den menneskelige hjernes funktion. Cognitive computing er ikke kun fokuseret på at tilføje intelligens til algoritmer men også på at udvikle interfaces, der f.eks. forstår menneskelige stemmer, og som kan skabe forbindelser mellem stemmer, billeder og tekst.

Inden for cognitive computing arbejdes der på at flytte grænserne mellem mennesket og teknologien ved at tilføje systemer en grad af menneskelig intelligens. I dag arbejder man på at udvikle maskiner, som indeholder mange aspekter af menneskelig intelligens. De intelligente systemer lærer af interaktionen med mennesker og udvikler efterhånden en mere intelligent adfærd.

Bo Weymann






















Big data kræver nye kompetencer

Bo Weymann forklarede, at der gælder andre regler end de traditionelle, når det kommer til analyse og håndtering af big data. Man arbejder i praksis med fire V’er: Volume, Velocity, Variety og Veracity.

Volume: Dækker over enorme datasæt. I dag er mængden af data, der streames hver eneste dag, vokset til ubeskrivelige størrelser. Ydermere er datamængden ikke konstant men i evig vækst.

Velocity: Big data beskæftiger sig ofte med data fra det virkelige liv. Når man f.eks. er på nettet med sin mobiltelefon, vil al ens bevægelse og adfærd blive registreret forskellige steder online. Velocity handler om streaming af data her og nu.

Variety: Som bibliotekar har man fokus på at skabe taksonomier til vidensorganisering i forskellige typer af institutioner og virksomheder. Men når man arbejder med big data, er der tale om meget varierede og ustrukturerede former for data. Denne store variation har betydning for, hvordan dataene skal behandles og analyseres, samt hvilke taksonomier det er muligt at udvikle.

Veracity: I analysen af big data er det vigtigt at holde sig for øje, at datene ofte er ukorrekte og fyldt med fejl. Når man har at gøre med store mængder data, der er i konstant vækst, og som indeholder så høj en grad af variation, er man nødt til at oveveje, hvorvidt dataene er brugbare.





















Når man skal analysere big data, er der således en række væsentlige aspekter, der spiller ind: Mængde, væksthastighed, kompleksitet, varietet, adgang og usikkerhed.

Dette betyder også, at man ikke kan bruge de samme metoder til at analysere big data, som man kan i afgrænsede datasæt. Man kan ikke påvise kausalitet, eller forklare hvorfor dataene ser ud, som de gør. Man kan således heller ikke opstille modeller ud fra big data, som kan bruges til at udvikle bedre systemer til brugerne, da dataene er for upræcise. I stedet kan man søge efter korrelationer, mønstre og sammenhænge, som måske kan reflektere brugerbehov eller analytiske behov.

Informationsspecialister vil have en vigtig rolle at spille i forhold til at finde ud af, hvordan man får mening ud af denne type data, samt hvordan der kan udvikles nye relevante taksonomier med hjælp fra andre discipliner såsom matematik, statistik, machine learning, cognitive computing og data science.