Datasæt - sprogteknologi.dk

Statslige Digitale Publikationer - træningsdata

Datasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i...

Parquet
CSV

Modern Danish Handwriting

Modern Danish Handwriting er et dansksproget datasæt, der indeholder mere end 200 sider med transskriberet og korrekturlæst håndskrevet tekst. Modern Danish Handwriting består i...

Parquet

DiEm HTR-Numbers

DiEm HTR Numbers er et ground truth-datasæt, der består af tal med historisk dansk håndskrift fra 1700-tallet. Datasættet er lavet som en del af projektet Digitalisering af...

Parquet

DiEm HTR

Datasættet DiEm HTR er et ground truth-datasæt for historisk dansk håndskrift fra det 17. og 18. århundrede, og det er udarbejdet som en del af projektet Digitalisering af...

Parquet

Tekstdata fra pilotprojekt om kommunale byråds- og miljø-/teknikudvalgsmøder

Datasættet består af 9 mio. ord fra referater fra byråds- og miljø-/teknikudvalgsmøder hos fem kommuner: Aarhus Kommune, Favrskov Kommune, Kalundborg Kommune, Tønder Kommune og...

CSV
Parquet

Danmarks Breve - træningsdata

Datasættet består af 13516 breve skrevet fra 1500-tallet til 1900-tallet af danskere med historisk og kulturel betydning. Det er skabt af Det Kgl. Bibliotek, men er defineret af...

Parquet
CSV

Danish Dynaword

The Danish dynaword is a collection of Danish free-form text datasets from various domains. All of the datasets in Danish Dynaword are openly licensed and deemed permissible for...

Parquet

Historical Danish Handwriting

The Historical Danish handwriting dataset is a Danish-language dataset containing more than 11.000 pages of transcribed and proofread handwritten text. The dataset currently...

Parquet

Fineweb-2

This is the second iteration of the popular FineWeb dataset, bringing high quality pretraining data to over 1000 languages. The FineWeb2 dataset is fully reproducible, available...

Parquet

FT-Speech

FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...

Parquet

Fineweb-c

FineWeb-C: Educational content in many languages, labelled by the community This is a link to the Danish part of the dataset. This is a collaborative, community-driven project...

Parquet

Medical word embedding eval

In natural language processing, benchmarks are used to track progress and identify useful models. Currently, no benchmark for Danish clinical word embeddings exists. This paper...

CSV
Parquet

Synthetic from Text Matching Long Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Classification Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Text Matching Short Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with...

Parquet

Synthetic from Retrieval Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...

Parquet

Synthetic from Unit Triple Tasks Danish

The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it....

Parquet

Coral tekst-til-tale datasæt

Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...

Parquet

Scrape fra dokumentsamling på Vip Region Hovedstaden

Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og...

Plain text
Parquet

da-wikipedia-queries

Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om...

Parquet

29 sprogressourcer fundet