Informationen zur Anzeige:
Masterarbeit: Closed-set Attribution von LLM-generierten Texten
Fraunhofer-Institut für Sichere Informationstechnologie SIT
Darmstadt
Aktualität: 01.11.2024
Anzeigeninhalt:
01.11.2024, Fraunhofer-Institut für Sichere Informationstechnologie SIT
Darmstadt
Masterarbeit: Closed-set Attribution von LLM-generierten Texten
Aufgaben:
Autorschaftsattribution (AA) beschreibt traditionell das Problem, einem unbekannten Text den wahrscheinlichsten Autor aus einer vorgegebenen Menge von Kandidaten korrekt zuzuordnen. Zu diesem Zweck steht eine sogenannte Kandidatenmenge zur Verfügung, die Beispieltexte der potenziellen Autoren enthält. Mit dem technologischen Fortschritt im Bereich der Künstlichen Intelligenz werden jedoch immer mehr Texte von Large Language Models (LLMs) generiert oder ergänzt. Dies stellt bestehende AA-Methoden, die ursprünglich zur Zuordnung von Texten zu menschlichen Autoren entwickelt wurden, vor neue Herausforderungen. LLM-generierte Texte sind selbst für Experten oft schwer als maschinell erzeugt zu erkennen. Noch schwieriger wird es, das spezifische LLM zu identifizieren, das den Text erstellt hat. Diese Masterarbeit soll sich dieser Herausforderung widmen. Das Ziel der Arbeit ist es, eine spezielle AA-Methode zu konzipieren und zu entwickeln, die in der Lage ist, für einen gegebenen anonymen Text zu bestimmen, welches LLM ihn erzeugt hat. Dabei sollen keine Wasserzeichen verwendet werden, wie sie in der Vergangenheit eingesetzt wurden, um LLM-generierte Texte rückverfolgbar zu machen. Um die Komplexität der Aufgabe zu reduzieren, wird ein Closed-set-Szenario betrachtet. Das bedeutet, dass sich das tatsächlich verwendete LLM in der vorgegebenen Kandidatenmenge befindet. Eine Unterscheidung zwischen menschlichen Autoren und LLMs wird ebenfalls nicht vorgenommen. Im Rahmen der Evaluierung soll die entwickelte Methode mit bestehenden Ansätzen verglichen werden. Darüber hinaus sollen Merkmale identifiziert und dargestellt werden, anhand derer die Zuordnung zum jeweiligen LLM erfolgt ist.
Qualifikationen:
Studienhintergrund in Informatik, Computational Linguistics, Data Science oder einem vergleichbaren Bereich Kenntnisse in NLP und Machine Learning, idealerweise Erfahrung mit Large Language Models (LLMs) und Textklassifikationsaufgaben Programmierkenntnisse in Python sowie Erfahrung mit gängigen ML/NLP-Bibliotheken
Fachrichtung
Art des Angebots
Standorte