-
CoRal Models Platform
CoRal-Models er en kodebase, som gør det enkelt at finjustere prætrænede lydmodeller, såsom Wav2Vec 2.0 eller Whisper, på et eller flere datasæt med transskriberet lyddata. Både... -
CopCo: The Copenhagen Corpus of Eye-Tracking Recordings from Natural Reading
CopCo er et eye-tracking korpus, som er skræddersyet til både psykolingvistik og natural language processing. Målet er at undersøge læseadfærd af danske tekster hos forskellige... -
CDT - The Copenhagen Danish-English Dependency Treebank
The Copenhagen Dependency Treebanks are a set of treebanks for Danish, English, Spanish and Italian. The purpose of the Copenhagen Dependency Treebank project is to create... -
Angry Tweets Binary
Dette datasæt består af anonymiserede danske Twitter data, som er blev annoteret for sentimentanalysee gennem crowd-sourcing. Alt anerkendelse skal gives til forfatterne til... -
Alvenir Wav2vec2
En word2vec2 model, som er trænet på omtrent 1300 timers dansk taledata fra podcasts og lydbøger. Modellen er trænet på 16kHz taledata, hvilket også er formatet, der skal... -
Alvenir ASR evalueringsdata
Dansk taledata fra Alvenir, som særligt kan bruges til at evaluere ASR modeller på dansk. Datasættet består af ca. 5 timers tale indtalt af 50 talere mellem 20 - 60 år.... -
Alvenir punctuation restoration
Et nemt og tilgængeligt værktøj, som automatisk sætter punktum og komma i fritekst. Værktøjet understøtter både dansk, engelsk og tysk. Værktøjet er udviklet af Alvenir. -
Common Voice (Dansk)
Crowdsourced talekorpus på en lang række sprog. Korpusset er blevet skabt ved, at frivillige har doneret sætninger, oplæsninger af sætninger, samt validering af oplæsninger til...
Du kan også tilgå dette register med API (se API-dokumenter).