Contao Volltextsuche

von Michael Pfeiffer

Nach langer Zeit und auf Grund vieler Anfragen habe ich die Contao Suche erneut auf das Indexieren und Durchsuchen von Dateien erweitert. Die Dateitypen sind dabei frei konfigurierbar, neben PDF-Dateien werden auch gängige Officedokumente unterstützt. Es handelt sich dabei um eine komplette Überarbeitung meines solR - Moduls.

Als Backend-Indexer setze ich nun ausschließlich auf den Apache - Tikaserver, da dieser u.a. auch als Grundlage für z.B. Apache solR dient. Für jede Datei werden, sofern sie den konfigurierten Mime-Typen entspricht beim Upload automatisch die Meta- und Volltextdaten extrahiert und gespeichert. Die Tika-Ergebnisse werden zudem noch aufbereitet, um bestimmte Eigenheiten z.B. von PDF-Dateien zu umgehen (u.a. Silbentrennungen). Weiterhin können zusätzlich bestimmte Keywords konfiguriert werden, die dann automatisch ersetzt werden.

Bei der Indexierung wird nach Installation dieser Erweiterung zusätzlich geprüft, ob in den Seiten Dokumente mit den konfigurierten Mime-Typen referenziert werden und entsprechend in den Index aufgenommen. Die Index-Ergebnisse werden mit den Seitentexten kombiniert und später wie bei der Contao-Seitensuche gefunden. Der Erfolg oder Misserfolg bei der Indexierung wird zudem für jede Datei protokolliert.

Durch den Verzicht auf solR bedeutet diese Ergänzung nun einen wesentlich einfacheren Implementierungsaufwand auf dem Server, letztendlich muss nur der Apache Tika-Server verfügbar sein. Sollte ein Betrieb des Servers nicht möglich sein, kann auch die Apache Tika-App verwendet werden, diese ist jedoch nicht so performant.

 

Letztendlich ist diese Erweiterung nahtlos in die Contao Indexierung / Suche eingebunden und bedarf nur einmalig etwas Konfigurations- und ggf. Installationsaufwand.

Da u.U. die Systemvoraussetzungen jedoch nicht immer gegeben sind, plane ich den Tika-Server als externen Service anzubieten. Dieser wird dann dergestalt arbeiten, dass lediglich die Metadaten und der Content einer übermittelten Datei extrahiert werden. Die übermittelte Datei wird unmittelbar danach wieder gelöscht, ein weiterer Zugriff auf die Dateien ist nicht mehr möglich. Die Übermittlung selbst erfolgt dabei durchgängig verschlüsselt.

Das Modul ist u.a. hier im Einsatz. Je nach Suchbegriff (z.B. Gymnastik oder Seniorentanz) wird dieser nur auf Seiten, auf Seiten und Dateien oder ausschließlich in Dateien gefunden.

Demnächst ist noch eine OCR-Erweiterung für z.B. gescannte PDF-Dateien geplant. Da es sich hierbei de facto um Bilder handelt, werden diese Dateien zur Zeit noch nicht indiziert.

Zurück