Published March 27, 2025 | Version v1
Dataset Open

dlexDB – annotated lexical data

Description

Dieser Datensatz enthält die im Projekt dlexDB erhobenen und annotierten lexikalischen Daten.

Das Projekt dlexDB wurde von der Deutschen Forschungsgemeinschaft (DFG) unter der Fördernummer 206617755 gefördert (KL 955/12-1 und KL 955/19-1), um eine umfassende lexikalische Datenbank für die psychologische und linguistische Forschung zu erstellen. Dabei handelte es sich um ein Projekt der Professuren für allgemeine Psychologie 1 und theoretische Computerlinguistik an der Universität Potsdam sowie dem Projekt Digitales Wörterbuch der deutschen Sprache (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften.

Die Datenbank basiert auf dem Kernkorpus der deutschen Sprache des 20. Jahrhunderts, das vom DWDS zusammengestellt wurde.

Der Datensatz umfasst statistische Kennwerte und Häufigkeitsinformationen zu Types, Lemmata, Silben und Zeichen.

Die Daten sind in mehreren TSV-Dateien (tabseparierte Werte) organisiert, wobei jede Datei einer spezifischen Tabelle entspricht. Zusätzlich wird eine umfassende Dokumentation im Markdown-Format bereitgestellt, die detaillierte Erläuterungen zu den Tabellen und einzelnen Spalten enthält.

Der Datensatz bietet:

  • Häufigkeitsbasierte Normen für zahlreiche verarbeitungsrelevante Worteigenschaften
  • Statistische Kennwerte für Wortformen und Lemmata
  • Häufigkeiten von Silben, Morphemen und Zeichenfolgen
  • Wortähnlichkeitsmaße

Ursprünglich als Online-Datenbank konzipiert, wird dieser Datensatz nun auf Zenodo archiviert, um langfristigen Zugang und Nachnutzbarkeit zu gewährleisten.

Die Projektbibliografie ist bei Zotero verfügbar.

Eine archivierte Version der Projektwebseite www.dlexdb.de findet sich im Internet Archive.

Eine aktuelle Frequenzliste mit Daten des Kernkorpus der deutschen Sprache des 20. Jahrhunderts stellt das DWDS unter https://www.dwds.de/r/lexdb#kern bereit.

Abstract (English)

This dataset contains the lexical data collected and annotated in the dlexDB project.

The dlexDB project was funded by the German Research Foundation (DFG) under grant number 206617755 (KL 955/12-1 and KL 955/19-1), with the aim of creating a comprehensive lexical database for psychological and linguistic research. It was a collaboration between the chairs of General Psychology I and Theoretical Computational Linguistics at the University of Potsdam, and the project Digitales Wörterbuch der deutschen Sprache (DWDS) at the Berlin-Brandenburg Academy of Sciences and Humanities.

The database is based on the core corpus of the German language of the 20th century, compiled by the DWDS project.

The dataset includes statistical metrics and frequency information on types, lemmas, syllables, and characters.

The data are organized in several TSV (tab-separated values) files, with each file corresponding to a specific table. In addition, comprehensive documentation is provided in Markdown format, offering detailed explanations of the tables and individual columns.

The dataset offers:

  • Frequency-based norms for numerous word properties relevant to processing
  • Statistical metrics for word forms and lemmas
  • Frequencies of syllables, morphemes, and character sequences
  • Measures of word similarity

Originally designed as an online database, this dataset is now archived on Zenodo to ensure long-term access and reusability.

The project bibliography is available on Zotero.

An archived version of the project website www.dlexdb.de can be found on the Internet Archive.

A current frequency list based on data from the core corpus of the German language of the 20th century is provided by DWDS at https://www.dwds.de/r/lexdb#kern.

Files

dlex.zip

Files (1.4 GB)

Name Size Download all
md5:94f20f8a26df33224bce24e2201ec0de
1.4 GB Preview Download
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy