NA 105

DIN-Normenausschuss Terminologie (NAT)

Projekt

Sprachressourcen und Sprachtechnologie - Abgeleitete Textformate (ATF)

Kurzreferat

Abgeleitete Textformate sind abstrahierte Darstellungen eines Originaltextes, die urheberrechtlich geschützte Inhalte entfernen, aber relevante Informationen für Text und Data Mining (TDM) bewahren. Beispiele sind Wortlisten oder N-Gramme. Sie ermöglichen rechtssichere Forschung, Transparenz und Nachnutzbarkeit. Ein Anwendungsbereich Abgeleiteter Textformate liegt in der Entwicklung und Verbesserung von Large Language Models (LLMs). Dieses Dokument stellt allgemeine Grundsätze für abgeleitete Textformate an sich sowie für ihre Erstellung und Bereitstellung auf. Basierend darauf können dann Analyseverfahren auf die abgeleiteten Textformate angepasst werden. Durch die Nutzung dieses Dokuments können somit die Grenzen der Analyseverfahren, z. B. bei der Analyse von geschützten Werken, benannt und beschrieben werden. Diese Grundsätze haben zum Ziel, die Nutzung von Textsammlungen insbesondere bei geschützten Werken rechtlich sicherer und nachhaltiger zu gestalten, die Zusammenarbeit zu erleichtern, Vertrauen zu schaffen und neue Möglichkeiten für die Nutzung moderner Analysemethoden zu eröffnen.

Beginn

2025-01-16

Geplante Dokumentnummer

DIN 19461

Projektnummer

10500742

Zuständiges nationales Arbeitsgremium

NA 105-00-06 AA - Sprachressourcen und Sprachtechnologie  

Ihr Kontakt

Annette Preissner

Am DIN-Platz, Burggrafenstr. 6
10787 Berlin

Tel.: +49 30 2601-2012
Fax: +49 30 2601-42012

Zum Kontaktformular