Skip to main content

23 sprogressourcer fundet

Formater: http://publications.europa.eu/resource/authority/file-type/PARQUET

Filtrér resultater
  • Danish Dynaword

    The Danish dynaword is a collection of Danish free-form text datasets from various domains. All of the datasets in Danish Dynaword are openly licensed and deemed permissible for...
  • Historical Danish Handwriting

    The Historical Danish handwriting dataset is a Danish-language dataset containing more than 11.000 pages of transcribed and proofread handwritten text. The dataset currently...
  • Fineweb-2

    This is the second iteration of the popular FineWeb dataset, bringing high quality pretraining data to over 1000 languages. The FineWeb2 dataset is fully reproducible, available...
  • FT-Speech

    FT Speech er et dansk korpus med folketingets taler i lydformat og manuelt transskriberet tekst. Datasættet er blevet kureret af Andreas Kirkedal, Marija Stepanović og Barbara...
  • Fineweb-c

    FineWeb-C: Educational content in many languages, labelled by the community This is a link to the Danish part of the dataset. This is a collaborative, community-driven project...
  • Medical word embedding eval

    In natural language processing, benchmarks are used to track progress and identify useful models. Currently, no benchmark for Danish clinical word embeddings exists. This paper...
  • Synthetic from Text Matching Long Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...
  • Synthetic from Classification Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text classification tasks. The dataset consists of 100,000 samples generated with...
  • Synthetic from Text Matching Short Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish text matching tasks on short texts. The dataset consists of 100,000 samples generated with...
  • Synthetic from Retrieval Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish retrieval tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it. The...
  • Synthetic from Unit Triple Tasks Danish

    The purpose of this dataset is to pre- or post-train embedding models for Danish on text similarity tasks. The dataset consists of 100,000 samples generated with gemma-2-27b-it....
  • Coral tekst-til-tale datasæt

    Datasættet består af oplæsninger fra to professionelle danske talere, en kvinde og en mand, som har indlæst cirka 24 timers dansk tale hver. Datasættet er en del af CoRal-...
  • Scrape fra dokumentsamling på Vip Region Hovedstaden

    Digitaliseringsstyrelsen udgiver ét datasæt på baggrund af offentliggjorte tekster fra Region Hovedstadens dokumentsamling. Dokumentsamlingen består af vejledninger og...
  • da-wikipedia-queries

    Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk. Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om...
  • Syntetisk dialog opsummering raw

    Thanks to NVIDIA and Arrow Denmark for sponsoring the compute needed to generate this dataset This dataset conists of 1,000,000 synthetic dialogs in Danish and a summary of each...
  • Context-Aware-Splits

    Datasæt genereret vh.a. DanskGPT og brugt til at træne modellen Context-Aware-Splitter. Context-aware-splitter er en model til retrieval augmented generation. Modellen er...
  • HyggeSwag

    “HyggeSwag” er et evalueringsdatasæt til at foretager natursprogsvurderinger: At lade sprogsystemer vurdere hvilken ud af flere tekstfortsættelser er i overenstemmelse med almen...
  • #twitterhjerne

    "#twitterhjerne” er et spørgsmåls/svar-datasæt, der indeholder dansksprogede spørgsmålstweets, hver med en tilhørende række svar på spørgsmålet.
  • Danish WIT

    Datasættet er den danske del af WIT-Base datasættet, som blev udgivet af WikiMedia i 2021. WIT-Base er en modificeret udgave af WIT (Wikipedia Image Text), hvor billeder med...
  • Nordjylland News Image Captioning

    Oliver Kinch fra Alexandra Instituttet har kureret datasættet nordjylland-news-image-captioning med artikler fra TV2 Nord. Datasættet består af artiklernes billeder,...
Du kan også tilgå dette register med API (se API-dokumenter).