-
Senda
Et værktøj til at fine-tune til NLP Transformers til sentiment analyse. Udkommer sammen med et sæt modeller fine-tunet til sentiment-analyse på dansk (udgivet på Hugging Face).... -
CST Lemmatiser
CST's lemmatiser fører hvert ord i en tekst tilbage til grundformen, lemmaet. -
Bornholmsk Ordbog
Bornholmsk Ordbog er en digital samling af en række bornholmske glossarer og ressourcer, herunder bornholmsksprogede tekster. Ordbogen er en metaordbog, der forener en række... -
The Leipzig Collection - Dansk sentiment
Datasættet består af dansk data fra Leipzig Samlingen (The Leipzig Collection), som er blevet annoteret til sentiment analyse af Finn Årup Nielsen. Datasættets struktur: En... -
Ordia
Ordia er en frontend/webapplikation, som udstiller Wikidatas leksikografiske data på en let, overskuelig og tilgængelig måde. Du kan bruge Ordia til at finde oplysninger om en... -
Lex.dk - open
Lex.dk-open er en samling af artikler fra Danmarks nationalleksikon, Lex.dk. Leksikonet er skrevet af danske forskere og andre fagpersoner, og er med flere end 230.000 artikler... -
Heidrun-Mistral-7B-Chat
Heidrun-Mistral-7B-chat er en chat-baseret model, som bygger på Heidrun-Mistral-7B-base og er blevet finjusteret på OpenHermes og SkoleGPT instruktion/chat datasættene. Modellen... -
Heidrun-Mistral-7B
Heidrun-Mistral-7B-base er en generativ sprogmodel, som bygger på Mistral-7B og er blevet yderligere prætrænet på det danske Wikipedia, Wikibooks og små dele af hestenettet. Den... -
DaLUKE
DaLUKE er udviklet i forbindelse med et bachelorprojekt i Kunstig Intelligens og Data ved Danmarks Tekniske Universitet. DaLUKE er en dansk version af LUKE, som er en... -
DaCy
DaCy er et framework til processering af dansk fritekst. Særligt indeholder den tre sprogprocesserings pipelines til dansk fritekst. De pipeline er af 3 forskellige størelser... -
Dansk ELECTRA
ELECTRA model prætrænet på dansk, på 17,5 GB data. Du kan læse mere om ELECTRA træningsmetoden i denne forskningsartikel: ELECTRA: Pre-training Text Encoders as Discriminators... -
Dansk ConvBERT
To forskellige størrelser ConvBERT modeller prætrænet på dansk tekstdata (omtrent 17,5 GB data). Til prætræning er der anvendt ELECTRA Pretraining metoden. ConvBERT er en... -
Free Gutenberg E-books
Et bibliotek med over 60.000 Gutenberg e-bøger. Læs mere om licenser og copyright her: https://www.gutenberg.org/wiki/Category:How-To -
Jysk Ordbog
Jysk Ordbog (a-h) dækker over jyske dialekter i perioden 1700-1920. Størstedelen af ordbogens kilder afspejler jysk dialekt og landbokultur i perioden 1850-1920. Ordbogen... -
Johannes V Jensen Korpus
Elektroniske versioner af størstedelen af Johannes V. Jensens udgivelser. I regi af CLARIN-projektet og i samarbejde med rettighedshaverne, gjorde Jensen Forum i 2011... -
Dictionary for the CST Lemmatizer
Binary wordlists for the CST lemmatizer as suplement to the rules of the lemmatizer. Works with both tagged and untagged input. Use: cstlemma -d NAME-OF-WORDLIST. -
DanSpeech
Open-source Python-pakke til dansk talegenkendelse (tale-til-tekst). DanSpeech har arbejdet på at udvikle generelle talegenkendelsesmodeller siden 2018. Projektet har levet som... -
Danish Dependency Treebank (DaNE)
DaNE adds NER annotations to the The Danish Universal Dependencies Treebank (UD-DDT). The Danish UD treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish... -
Bidirectional Long-Short Term Memory tagger
A toolkit for Part-of-Speech tagging and NER in DyNet. It has been tested on Danish, amongst other languages (for the UD POS tags in the UD_Danish-DDT version 1.1 and 2.3)... -
Danish Universal Dependencies DDT (UD_Danish-DDT)
The Danish Universal Dependencies treebank (Johannsen et al., 2015, UD-DDT) is a conversion of the Danish Dependency Treebank (Buch-Kromann et al. 2003) based on texts from...
Du kan også tilgå dette register med API (se API-dokumenter).