DIN-Normenausschuss Terminologie (NAT)
Sprachressourcen und Sprachtechnologie - Abgeleitete Textformate (ATF)
Kurzreferat
Abgeleitete Textformate sind abstrahierte Darstellungen eines Originaltextes, die urheberrechtlich geschützte Inhalte entfernen, aber relevante Informationen für Text und Data Mining (TDM) bewahren. Beispiele sind Wortlisten oder N-Gramme. Sie ermöglichen rechtssichere Forschung, Transparenz und Nachnutzbarkeit. Ein Anwendungsbereich Abgeleiteter Textformate liegt in der Entwicklung und Verbesserung von Large Language Models (LLMs). Dieses Dokument stellt allgemeine Grundsätze für abgeleitete Textformate an sich sowie für ihre Erstellung und Bereitstellung auf. Basierend darauf können dann Analyseverfahren auf die abgeleiteten Textformate angepasst werden. Durch die Nutzung dieses Dokuments können somit die Grenzen der Analyseverfahren, z. B. bei der Analyse von geschützten Werken, benannt und beschrieben werden. Diese Grundsätze haben zum Ziel, die Nutzung von Textsammlungen insbesondere bei geschützten Werken rechtlich sicherer und nachhaltiger zu gestalten, die Zusammenarbeit zu erleichtern, Vertrauen zu schaffen und neue Möglichkeiten für die Nutzung moderner Analysemethoden zu eröffnen.
Beginn
2025-01-16
Geplante Dokumentnummer
DIN 19461
Projektnummer
10500742