Zum Inhalt

Was ist TDM?

Text und Data Mining (TDM) bezeichnet die automatisierte Auswertung von (großen) Mengen von Texten oder anderen Daten hinsichtlich einer bestimmten Fragestellung. Dabei werden computergestützte Verfahren genutzt, um einen Datensatz beispielsweise im Hinblick auf Muster, Trends oder Korrelationen zu untersuchen.

Schritte des TDM

  1. Beschaffung der Daten

    Zunächst müssen die Daten, die genutzt werden sollen, beschafft werden. Dazu können einerseits Objekte genutzt werden, die nicht dem Urheberrecht unterliegen, andererseits können urheberrechtlich geschützte Werke genutzt werden, bei denen allerdings die gesetzlichen Regelungen zu beachten sind.
  2. Aufbereitung der Daten

    Zur Aufbereitung der Daten gehören unter anderem die Herstellung von Maschinenlesbarkeit, die Strukturierung und Normalisierung der Daten sowie die Zusammenstellung der Daten zu einem Korpus.
  3. Analyse der Daten  

    Das Korpus wird mithilfe von automatisierten Verfahren analysiert, um die Fragestellung zu beantworten.
  4. Veröffentlichung und Archivierung des Korpus

    Das Korpus wird im Sinne der guten wissenschaftlichen Praxis verfügbar gehalten, gegebenenfalls archiviert und/oder veröffentlicht.
  5. Veröffentlichung der Analyseergebnisse

    Die Analyseergebnisse werden beispielsweise im Rahmen einer Publikation aufbereitet und publiziert.      

Was ist zu beachten?

  • Handelt es sich um kommerzielle oder nicht kommerzielle Forschung?
  • Fragen des Urheberrechts, legaler Zugang (betrifft die Beschaffung der Daten)
  • Fragen der Zugänglichmachung (betrifft die Weitergabe bzw. das Teilen von Daten)
  • Fragen zur Aufbewahrung der Daten (betrifft die Archivierung des Korpus)
  • Fragen zu Quellenangaben (betrifft die Veröffentlichung der Analyseergebnisse)
  • ggf. Datenschutz, Persönlichkeitsrechte, etc.
  • Der massenhafte Download von Daten wie beispielsweise PDF-Dateien oder Informationen aus Datenbanken ist häufig verboten und kann zur Sperrung des Angebots für die gesamte TU Dortmund führen.

Wobei können wir Sie unterstützen?

Wir beraten und unterstützen Sie gerne hinsichtlich der verschiedenen Aspekte des TDM.

Kontakt

Auf einer weißen Tastatur sind vier Tasten grün eingefärbt. Darauf zu sehen sind Symbole für ein Telefon, ein Mobiltelefon, ein Briefumschlag und ein "at"-Zeichen. © marog-pixcells​/​Shotshop.com

Kontakt

Beratungsstelle Text und Data Mining der Universitätsbibliothek

tdm.ubtu-dortmundde