content top

Das Ergebnis der Entitätserkennung dient der semantischen Suchmaschine Broccoli als Datengrundlage. Für ZBmed wurde eine eigene Instanz aufgesetzt. Das Frontend ist unter filicudi:6222/BroccoliZBmed/ zu finden. Das Backend wird auf etna:12222 erwartet.


Die Dokumente auf die Broccoli verlinkt, dürfen nicht allgemein im Web zur Verfügung gestellt werden.

Sollte daher für die Verlinkung der HTMLs von Broccoli die Variante file:///... gewählt sein, so muss in den gängigen Browsern zunächst erlaubt werden, diese Links zu öffnen. Für Firefox/Seamonkey ist das Vorgehen hier dokumentiert.

Für die PDF, oder einer http://url-Verlinkung ist der Zugriff über Zugriffsregeln des Webservers beschränkt. So können die Verlinkungen zur Zeit nur von ein paar ausgewählten IPs aus genutzt werden.

Die generierten HTMLs der Instanz sind im Moment (12.03.2012) unter file:///nfs/raid1/kelchj/html zu sehen.

Ein Beispiel-HTML mit Ground Truth: example-wgt.html

Ein Beispiel-HTML ohne Ground Truth: example-wogt.html


Ein paar Zahlen:

  • Für die Instanz wurden ca. 5.000 Dokumente bearbeitet.
  • In den Dokumenten sind insgesamt ca. 1.730.000 Sätze enthalten.
  • Als Entitäten wurden ca. 950.000 Wörter/Wortketten erkannt.

Daraus ergibt sich, dass in jedem 1,8 Satz eine Entität erkannt wird, beziehungsweise in einem Satz 0,55 Entitäten erkannt werden.


Die resultierten HTMLs lieferten einen Überblick über Probleme bei der Erkennung der Entitäten:

1. Kategorienauswahl: Die Eingrenzung oder Auswahl der Kategorien ist ein Problem. Dabei werden Entitäten nicht erkannt, bei den keine der dazu gehörenden Kategorien bei der Erfassung geprüft wurde (die Kategorien wurden Schrittweise als Unterkategorien, ausgehend von Category:Medicine geprüft) oder keine Kategorie bei der Prüfung berücksichtig wurde (z.B. Verhältnis von gewollten zu ungewollten Artikeln ist schlecht). Beim prüfen von Kategorien anhand einer gewollten Entität spielen weitere Faktoren eine Rolle. Die Überschneidung von Kategorien z.B. Entität ist in Kategorie A und B vorhanden. Kategorie A hat wenige spezielle Artikel, was für eine genaue Auswahl spricht, aber für die Gesamtliste nur einen kleinen Teilbereich abdeckt. Kategorie B hat dafür z.B. mehr Artikel und ist breiter gefächert. In der Gesamtliste wird ein größerer Teilbereich abgedeckt, es können dafür aber auch mehr ungewollte Entitäten hinzukommen.

2. PDF-Extraktion: Die Quallität mit der die Texte von pdftotext aus den PDFs extrahiert werden ist nicht 100%ig. Es können störende Artefakte auftreten (z.B. vereinzelt c statt e) oder der Fließtext wird von Kopf- und Fusszeilen unterbrochen, was die Erkennung zusammenhängender Wörter stört. Im ursprünglichen PDF enthaltene Bilder fehlen im Text, was unter Umständen zu falsch zusammen gesetzten Texten führen kann.

3. Groß-Klein-schreibung: Entitäten sind bzgl. Groß- und Klein-schreibung nicht trivial zu erkennen. Nur groß geschriebene Wörter weisen meist auf Abkürzungen hin, doch das ist nicht die Regel. Bei nur groß geschriebenen Worten kann es sich ebenso um die Kopfzeile des Dokumentes handel. Auch kann eine Abkürzung kleine Buchstaben enthalten. Abkürzungen und Wörter können je nach Groß-Klein-schreibung unterschiedliche Bedeutungen haben. Dagegen bedeutet ein am Anfang des Satzes groß geschriebendes Wort, das selbe wie mitten im Satz klein geschrieben.

4. Übersichtsseiten: Ein weiteres Problem sind die "Disambiguation pages" von Wikipedia. Die Abkürzung CT wird z.B. nicht als computed tomography erkannt, da es viele kontextabhängige Bedeutungen dafür gibt.

5. Kontext: Der Kontext in dem ein Wort steht, spielt ebenfalls eine Rolle. Bei der "University of Entität" ist die Erkennung weniger von Bedeutung als in einem Satz bei dem sich der Autor explizit mit Entität befasst, umschreibt, ergänzt, in andere Zusammenhänge bringt, etc.

6. Mehrwörtige Entitäten: Bei Entitäten, die aus mehreren Worten bestehen ist es problematisch, wenn die Reihenfolge verändert ist (z.B. durch Satzbau) oder zusätzliche Wörter eingeschoben sind (z.B. "left lobe of the liver" wird nicht mit dem Artikel "left lobe of liver" in Verbindung gebracht). Groß- und Klein-schreibung ist bei mehreren Wörtern ein zusätzliches Problem.


content top