Videre til indhold | Videre til menunavigation

Navigation

Søg
Du er her: Forside » Matematik, maskiner og metadata
Personal tools

Matematik, maskiner og metadata

Perspektiver i machine learning på biblioteksområdet. Artikel af Christian Boesgaard. Uddrag af bidrag til jubilæumspublikationen 'Veje til viden. Bibliotekssamarbejde i 75 år' udgivet i anledning af 75-året for Folkebibliotekernes Bibliografiske Kontor.

Af Christian Boesgaard, datalog, DBC.

Metadata til materiale, der ellers ikke ville have fået det - og nye måder for mennesker og maskiner at arbejde sammen på. Det er nogle af perspektiverne i machine learning på biblioteksområdet.

Hvis man antager, at der er en sammenhæng mellem teksten i et materiale og metadata for materialet, kan man så ikke få computere til – på baggrund af teksten – at foreslå metadata?

På DBC har vi udviklet et system, der har til opgave at foreslå emneord og klassemærke på baggrund af fuldtekster. Systemet baserer sig på machine learning, og datagrundlaget er et antal artikler i fuldtekst, der allerede er tildelt metadata.

Ideen bag systemet bygger på den simple antagelse, at tekster, der ligner hinanden, har samme metadata. For at foreslå metadata til en tekst, finder systemet derfor tekster i datagrundlaget, der ligner denne, og foreslår så de samme metadata, som disse har.

I systemet repræsenteres teksterne af en delmængde af de ord, der indgår i teksterne, og teksterne sammenlignes baseret på de ord, de har til fælles. Ordene er vægtet ud fra en statistisk analyse af alle ord i alle de tekster, der indgår i datagrundlaget, og vægtene indgår i sammenligningen.

 

FAKTA: Machine learning - når systemer lærer fra data

Machine learning er et område inden for datalogi og kunstig intelligens og har også stærke bånd til statistik.

Forenklet sagt, så er ideen, at man ’fodrer’ systemet med data i form af en række ’opgaver’ og deres ’løsning’. Herudfra generaliserer systemet sig så frem til en metode til siden at kunne løse nye opgaver af lignende slags.

Hvis man f.eks. giver systemet en mængde tekster (opgaverne) og emneord (løsningerne), er målet, at systemet på et tidspunkt selv kan regne ud, hvilke emneord, der vil være gode løsninger til nye opgaver – altså til tekster, som systemet ikke tidligere har set.

Det kan naturligvis kun lade sig gøre at generalisere fra data, hvis der findes en underliggende sammenhæng mellem input (opgaver) og output (løsninger). En af udfordringerne ved at arbejde med machine learning er at forstå data og de komplekse sammenhænge, der er mellem input og output.

 

Vores foreløbige resultater viser, at resultaterne er brugbare, men at kvaliteten ikke overraskende er lavere end for manuelt produceret metadata. Det er ikke muligt at lave en præcis maskinel evaluering, da tildelingen af metadata i sidste ende er en subjektiv proces, hvor der kan være flere rigtige muligheder. En mere udførlig vurdering vil derfor først komme i forbindelse med brug af systemet. Vi starter med at tage systemet i brug som et supplerende værktøj for de medarbejdere, der katalogiserer.

Systemet skal integreres i katalogiseringsværktøjet på sigt, men det er allerede tilgængeligt som et selvstændigt system, således at man kan se forslag til emneord og klassemærke på artikler, der skal indekseres.

Fremadrettet vil vi forbedre systemet ud fra de erfaringer, vi får fra praktisk brug, men vi vil også afprøve mere avancerede machine learning-tilgange med en forventning om at forbedre resultaterne.

Det vil være oplagt at tage systemet i brug til den del af Nationalbibliografien, som ikke bibliotekskatalogiseres, og hvor der findes fuldtekster. Men en mere avanceret løsning til automatisk tildeling af metadata kan åbne nye muligheder, sådan at det bliver muligt at give metadata til praktisk talt ubegrænsede antal materialer, f.eks. alle danske online-medier eller websider.

Metadata og søgning

Formålet med metadata er at gøre det muligt for biblioteksbrugere at søge, og vi har da også kigget på, hvordan vi kan bruge analyse af metadata til at forbedre søgemulighederne. Den del af vores arbejde har dog mere eksperimentel karakter.

Noget af det, vi har arbejdet med, er at skabe relationer imellem DBC’s emneord. Disse er som udgangspunkt uden struktur, og man kan f.eks. ikke se, at emneordene ’hund’ og ’gravhund’ er relaterede, eller at ’historie’ er et bredt begreb, mens ’poker’ er et mere specifikt begreb.

Med relationer mellem emneordene ville et søgesystem kunne bruge relationerne til at give brugerne bedre mulighed for at navigere i søgeresultaterne og søge videre. For eksempel kunne relationer mellem mere og mindre specifikke emneord bruges til at foreslå en bruger en bredere eller mere specifik søgning. Det første er især interessant, da det vil gøre det muligt at søge videre fra en søgning, der ikke gav resultater, fordi den var for specifik. Men det kunne også bruges til at give overblik over emneordene i et hierarki, som man kunne browse rundt i.

For at demonstrere mulighederne har vi i første omgang beregnet en primitiv ’bredde’ for alle emneord, et tal, der angiver, hvor mange forskellige andre emneord emneordet forekommer sammen med.

Figuren nedenfor er en måde at illustrere bredden af de forskellige emneord, der forekommer sammen med emneordet ’kunstig intelligens’. Stor skrift betyder, at det pågældende emneord bruges sammen med mange andre forskellige emneord, mens mindre skrift betyder, at det bruges sammen med færre andre emneord. En søgegrænseflade ville kunne vise resultatet af en søgning på ’kunstig intelligens’ med en tilsvarende figur, og en bruger ville så kunne søge videre ved at vælge et eller flere emneord på figuren.

Visuel præsentation af emneord, der forekommer sammen med emneordet ’kunstig intelligens’. Skriftstørrelsen angiver, hvor mange andre forskellige emneord, et emneord bruges sammen med. Figuren er fra worditout.com.


Ved at afdække relationer mellem metadata tror vi på store muligheder for at stille bedre søgemuligheder til rådighed, og det er derfor noget, vi vil arbejde videre med.

Mennesker og maskiner i fremtidens metadataskabelse

På baggrund af vores tværgående arbejde med metadataskabelse, statistik og machine learning tør vi allerede nu konkludere, at DBC i fremtiden vil kunne skabe mere værdi ud fra vores data ved at analysere dem systematisk.

Der er ikke noget, der tyder på, at maskiner kommer til at erstatte mennesker i arbejdet med metadata. Mennesket er stadig langt foran maskinen, når det gælder vores evne til at forstå indholdet i et materiale. Men vi tror på, at det engang i fremtiden vil være muligt at inddrage bibliografiske kompetencer på en ny måde – sammen med machine learning – så vi kan indeksere automatisk med meget høj kvalitet.

Denne artikel er en forkortet version af artiklen med samme navn i ’Veje til viden. Bibliotekssamarbejde i 75 år’, udgivet september 2014 i anledning af 75 året for Folkebibliotekernes Bibliografiske Kontor. Læs hele artiklen.

 

FAKTA: DBC og tildeling af metadata

En af DBC’s hovedopgaver er at udarbejde den danske nationalbibliografi og en brugerrettet bibliotekskatalogisering. Formålet er at gøre det muligt for brugere af folke-, uddannelses- og forskningsbibliotekerne at søge i materialesamlingerne, herunder på bibliotek.dk.

Der bliver katalogiseret 45.000-50.000 materialer om året til Nationalbibliografien, hvoraf ca. halvdelen også bibliotekskatalogiseres og dermed beskrives mere detaljeret med metadata, eksempelvis emneord og klassemærke (DK5-klassemærke).

Kvaliteten af metadata er afgørende for søgemulighederne, og tildelingen af emneord og klassemærke – såkaldt indeksering – er en manuel opgave, der foretages af specialister. Derudover foregår der en løbende manuel evaluering og kvalitetssikring, der skal sikre, at metadata bruges konsistent og præcist.

Cookies om besøgsstatistik

DBC bruger open source-softwaren Matomo til at analysere brugen af www.dbc.dk, så vi kan forbedre sitet. Vi hoster selv løsningen og deler dermed ikke data med tredjepart.

Vi opsamler data om ip-adresse, browser, operativsystem, land, hvilket link, du eventuelt bruger for at komme til sitet, hvornår du besøger sitet, hvilke sider, du besøger, og i hvor lang tid, samt hvad du klikker på og eventuelt downloader. Data anonymiseres, før de gemmes.

Du kan til enhver tid trække dit tilsagn tilbage.