Archiv

TechInfo

Fulltextsearch auch über Attachments

By Rainer Hombitzer

Durch eine Kundenanfrage bzgl. Erweiterung der Suche (im Web) auf Attachments, mußte sich mit dem Thema befasst werden.

Also erstmal in der Testumgebung einen Volltextindex mit der Attachmentoption erzeugt und frisch ans Werk.
Vorher natürlich in ein CMS-Dokument ein Textfile und ein PDF abgelegt, damit man auch was zum Suchen hat.

Aber was durchsucht man denn ?

"[B0] contains suchstring" klappt schonmal nicht, da wird nur der Text aus dem Richtextfeld gefunden.
Mal in die Designer-Hilfe schauen => Nada, aber in der User-Hilfe finde ich es dann doch:
"[$file] contains suchstring" - klingt logisch und funktioniert auch. Aber: Ich finde nur Suchbegriffe im Textfile, nicht im PDF.
Schuld ist wahrscheinlich die standardmäßig eingstellte Attachment-Index-Option: "Without using conversion filters"
Also Index löschen und neu indexieren, diesmal die Option "Using conversion filters on supported files" wählen und siehe da, es funktioniert ! Jetzt findet man auch Suchbegriffe in PDF's, Worddokumenten etc.
Erstaunlicherweise ist auch die Größe des Indexes bei der Test-DB von 750MB auf 50MB gesunken - obwohl ich jetzt mehr finde ! Warum ? Ganz einfach: Wird der Index ohne "conversion filters" aufgebaut, wird einfach das komplette Attachment in den Index geschoben - man findet dann nur etwas, wenn etwas lesbares im ASCII-Format in dem Dateiinhalt enthalten ist.
Man kann sich das in etwa so vorstellen: Man nimmt ein PDF-File und öffnet das mit Notepad - das sieht dann so aus:


Dieser Hieroglyphen-Müll steht dann auch so im Index und man kann natürlich nichts finden.
Wird der Index mit "conversion filters" aufgebaut, dann versucht der Dominoserver die Attachments quasi zu öffnen, nur die Textinformationen herauszuholen und diese dann im Index abzuladen.
Durch diese Methode wird logischerweise viel mehr beim Suchen gefunden und der Index wird wesentlich kleiner, weil z.B.: keine Bild-RAW-Daten aus einem PDF im Index landen.
Was mit Dateitypen passiert, für die kein Konvertierungsfilter vorhanden ist, ist unklar - z.B.: ein Video (AVI-File) wird nicht in den Index geschoben. Eine Liste welche "conversion filters" es gibt (8.x) findet man hier bei IBM.

Fazit:
Wenn man Attachments indexieren läßt, dann IMMER mit der Option "Using conversion filters on supported files" - hält den Index klein und man findet auch viel mehr. Einziger Nachteil ist, das der Aufbau/Update des Indexes etwas länger braucht, das ist aber vernachlässigbar.



Bevor jemand die voraussehbaren Fragen stellt, hier schonmal die Antworten:

  • Nein, man kann nicht nur in speziellen Richtextfeldern suchen, es werden immer ALLE Attachments durchsucht - auch solche in z.B.: versteckten bzw. im Web nicht sichtbaren Feldern
  • Nein, man kan nicht rausbekommen in welchem Attachment der Suchbegriff gefunden wurde - deshalb wird auch nichts gehighlighted (Notesclient) bzw. kann man was im Web highlighten
  • Nein, man kann nicht nach dem Namen eines Attachments suchen, nur nach Inhalten IN Anhängen

Einen Kommentar erstellen