Automatisierte Extraktion von Information aus strukturiertem Text
2023, Projektarbeit, Köhler Marco
Betreuung durch Dipl.-Ing. Damun Mollahassani Madjdabadi
Abstract
Die Verwaltung von Wissen ist ein umfangreiches Themenfeld, das ohne IT-Unterstützung nicht zu bewerkstelligen ist. Einerseits muss entschieden werden in welcher Form relevante Daten gespeichert werden, andererseits muss ein effizienter Zugriff ermöglicht werden, damit die enthaltenen Informationen einen Mehrwert für das Unternehmen bieten. Um den Nutzer bei der Suche von Informationen innerhalb einer Wissensbasis zu unterstützen, wurde in dieser Arbeit ein Programm - der Knowledge Model Analyzer (KMA) - entwickelt, das gezielt Wissenselemente aus Modellen extrahiert und die Ergebnisse jeweils in Form einer geordneten Liste in eine Textdatei exportiert. So kann sich der Nutzer einen schnellen Überblick über verschiedene Modellinhalte verschaffen, ohne sie einzeln öffnen und manuell durchsuchen zu müssen. Der KMA wurde in der Programmiersprache Python entwickelt und baut auf der ElementTree-Bibliothek auf, die die Analyse von XML-Dokumenten ermöglicht. Die Wissensmodelle wurden daher im XML-Format aus der Datenbank exportiert und anschließend durchsucht. Es wurden verschiedene Ansätze zur Extraktion durchlaufen, bis schließlich ein zufriedenstellendes Ergebnis erreicht wurde. Auf die einzelnen Programmversionen und die zugehörigen Resultate wird im Ergebnisteil der Arbeit eingegangen. Der finale KMA lieferte bei allen Testdateien ein größtenteils überzeugendes Ergebnis. Mögliche Schwächen werden diskutiert und potenzielle Erweiterungen des Funktionsumfangs werden aufgezeigt.