Suchfunktionen (Version 3.0)
Inhalt
- I. Die Suchmaske
- II. Die Suchmodi
- III. Die Auswahl des Suchbereichs
- IV. Tipps und Hinweise für die gezielte Suche
- V. Bekannte Probleme oder Einschränkungen
Die Suchfunktionen von kleist-digital gehen weit über eine übliche Google-Suche hinaus. In Version 3 sind mit einer intelligenten Wörtersuche und einer Suche nach Wortformen zwei mächtige Funktionen hinzugekommen.
Wesentliche Suchfunktionen sind:
- (Intelligent unterstützte) Suche nach einzelnen oder mehreren Wörtern
- Suche mit Platzhaltern
- Suche nach Zitaten
- Unscharf-Suche
- Suche auf Basis von Wortabständen
- Suche nach allen Wortformen eines Suchbegriffs
- Eingrenzung der Suche auf einzelne Werkbereiche
Die Entitäten, in denen jeweils gesucht wird, sind einzelne Sätze (in allen nicht-versifizierten Texten) oder Verse (Dramen, Lyrik). Mit dem Suche-Button (oder der Absatzschaltung auf der Tastatur) wird die Suche ausgelöst.
Im folgenden sollen die Funktionen detaillierter erläutert werden.
I. Die Suchmaske
Zunächst ein Blick auf die Suchmaske. Sie bietet folgende Optionen:
- Ein Textfeld zur Eingabe eines Suchabfrage
- EineCheckbos, um anzuzeigen, dass alle Wörter in einer Sequenz gefunden werden sollen.
- Eine Checkbox, um anzuzeigen, dass zwischen Groß- und Kleinschreibung unterschieden werden soll.
- Ein Dropdown-Menu zur Festlegung des Suchmodus. Grundeinstellung ist die einfache, exakte Suche. Für den Modus ›Wortabstandsuche‹ kann noch der gewünschte maximale Wortabstand eingegeben werden.
- Ein Dropdown-Menu zur Festlegung des Suchbereichs (Gesamtkorpus oder einzelne Texte)
- Im Bedarfsfall lassen sich noch bestimmte Suchergebnisse ausschließen. Zum Beispiel in der Suche nach der Farbe grau (und verschiedenen Formen: grau.*) sollen Fundstellen mit dem Adjektiv ›grausam‹ nicht gefunden werden.
II. Die Suchmodi
kleist-digital bietet momentan sechs unterschiedliche Suchmodi.
- Die einfache Suche mit oder ohne Platzhalter (zu Platzhaltern/Wildcards weiter unten).
- Den Modus, wo nach allen Wortformen, allen Nomen- oder Verbflexionen gesucht wird auf Basis von Wörterlisten (mehr unten).
- Einen ähnlichen Modus, wo die Wortformensuche Algorithmus-basiert ist.
- Einen Modus, der die Suche nach wörtlichen Zitaten oder Sequenzen ermöglicht.
- Eine Wortabstandsuche. Gesuchte Wörter sind in der gleichen Sequenz maximal bestimmten Wert voneinander entfernt.
- Eine Unscharf-Suche (Fuzzy)
III. Die Auswahl des Suchbereichs
Je nach Fokus der Suche lässt sich der Suchbereich festlegen, von der Suche in einer einzelnen Erzählung bis zur Suche in der gesamten Edition.
Die Grundeinstellung sucht in sämtlichen Texten von Kleists (›Kleist (gesamt)‹). Für die Suche in der gesamten Edition, also zusätzlich in Texten anderer Autoren im Phöbus oder in den Berliner Abendblättern, steht die Option ›Gesamte Edition‹ zur Verfügung. Soll nur im ›Werk‹, nicht aber in den Briefen gesucht werden, ist ›Kleist (gesamt ohne Briefe)‹ zu aktivieren. Soll nur innerhalb von Kleists Briefen gesucht werden, ist dieser Bereich auszuwählen. Darüber hinaus lässt sich in einzelnen Dramen, in einzelnen Erzählungen suchen, gezielt in den ›Berliner Abendblättern‹ oder im ›Phöbus‹ suchen.
IV. Tipps und Hinweise für die gezielte Suche
1. Einfache Suche (z.B. Suche nach dem Begriff ›Willkür‹)
In der Grundeinstellung sucht die Applikation genau nach dem eingegebenen Begriff. In unserem Fall wird nach dem Wort »Willkür« gesucht (es finden sich entsprechend auch keine Stellen mit dem Adjektiv »willkürlich«). In Version 3 von kleist-digital wird dieser Suchmodus allerdings intelligent erweitert: findet sich unter dem Suchbegriff (hier »Willkür«) ein Eintrag in einem speziellen Wörterbuch für (u.a. historisch bedingte) abweichende Schreibungen Kleists, so wird der Suchbegriff automatisch erweitert. In unserem Fall findet sich für ›Willkür‹ noch die Eintragung »Willkühr«, die weit häufiger auftaucht als die Schreibung ohne h »Willkür«.
Auf gleiche Weise wird mit »November« auch nach den Formen Novembr, Novmbr, Novbr, Novemb, Nov gesucht. Die Suche nach »Kaffee« findet Treffer wie Kaffe, Kaffée, Café, Caffé, Cafe uvm. (Das hinterlegte Wörterbuch abweichender Schreibweisen ist noch unvollständig, wird aber regelmäßig erweitert.)
Tipp: Es empfiehlt sich, zunächst mit dieser Suchstrategie zu beginnen, um etwaige andere Schreibweisen zu erfahren. Auf dieser Basis lässt sich dann auch gezielt nach flektierten Formen oder Komposita mit diesen Schreibungen suchen.
2. Suche mit Platzhaltern (Wildcards): z.B. ».*willkü.?r.*«
Bislang haben wir nach Begriffen gesucht, deren Schreibung wir exakt vorgegeben haben. Wie suchen wir nun nach unterschiedlichen Wortformen oder Komposita? Für diese Operationen kommen sog. Platzhalter oder Wildcards ins Spiel. Folgende Platzhalter sind zulässig:
- [.] Ein Punkt steht für EIN beliebiges Zeichen, das folgt.
- [.?] Punkt, Fragezeichen steht für KEIN oder genau EIN Zeichen.
- [.*] Punkt, Sternchen steht für KEIN oder MEHRERE Zeichen.
- [.+] Punkt, Pluszeichen steht für EIN oder MEHRERE Zeichen.
Wenn wir nach Wortformen suchen, in denen »willkür« enthalten ist, können wir die Suchabfrage wie folgt schreiben:
.*willkü.?r.*
Dies findet alle Wörter, die vor »willkü« Buchstaben enthalten (oder nicht), die zwischen dem ü und r einen oder keinen Buchstaben aufweisen und nach dem r entweder keinen oder mehrere Buchstaben enthalten. So werden u.a. gefunden: unwillkührlich, Willkühr, willkürlichen, Unwillkührliches etc.
Kommen wir auf den Kaffee zurück. »Kaffee« findet als Formen Kaffe, Kaffée, Café, Caffé, Cafe. Erweitert mit Wildcards ließe sich folgende Suchabfrage formulieren:
.*kaf.* .*caf.*
Als Ergebnis erhalten wir 15 Fundstellen mit u.a. Kafféezeug, Caffeehäuser, Caffetier, Caffé, Kaffe, Mokakaffe.
Weitere Beispiele für den Einsatz von Platzhaltern/Wildcards wären:
- Gesucht wird ›Botschaft‹: Bot.?schaft, Bot.?schaft.*
- Gesucht wird ›Goethe‹: G.*the, Göth.*
- Gesucht wird Komposita von ›finden‹: .*finden
- Gesucht wird ›Ohnmacht‹, ›ohnmächtig‹: ohnm.?cht.*
Ein letztes komplexeres Beispiel: Wir erinnern ein Zitat im ›Zweikampf‹ nur noch von ungefähr: irgendwann kehren Littegardens Brüder aus Wut über den Grafen Jacob den Rothbart auf das Schloß ihres Vaters zurück. Wir suchen einen Satz, in dem ›Wut‹, ›Schloß‹ und ›zurückkehren‹ auftauchen. Um verschiedene mögliche Schreibungen (Wuth für Wut, Schloss oder Schloß) und Wortformen für kehren (kehre, kehren, kehrten) gleichzeitig abzufragen, ergibt sich folgende Sucheabfrage: wut.? kehr.* zurück schlo.*
Suche-Feedback als Parameter-Kontrolle
Das Suchergebnis beginnt, wie oben zu sehen, mit einem Feedback, dass die Anzahl der Fundstellen, den Suchbegriff und die wichtigsten Parameter der Suchabfrage zusammenfasst. Hier lässt sich im Zweifelsfall kontrollieren, ob die Suche den intendierten Zielen entspricht oder ob in der Suchmaske falsche Optionen gesetzt worden waren.
3. Suche nach mehreren Wörtern: »liebe Wilhelmine«
Die Suche nach »liebe Wilhelmine« ergibt momentan (das Textkorpus ist noch nicht vollständig) 446 Treffer:
Es werden gefunden das Nomen »Liebe«, das Adjektiv »liebe« und der Eigenname »Wilhelmine«, die Sequenz »liebe Wilhelmine« müsste jetzt aus den 446 Fundstellen mühselig herausgesucht werden. Wenn die Option ›ALLE Wörter in Sequenz finden‹ aktiviert wird, werden nur Sätze gefunden, die beide Begriffe enthalten und wir haben nur noch 52 Fundstellen. Allerdings enthalten nur eine Untermenge die gesuchte Sequenz »liebe Wilhelmine«, der Rest der Sätze enthält an beliebiger Stelle »liebe« und »Wilhelmine«.
Die gewünschte Sequenz »liebe Wilhelmine« lässt sich allerdings auf zwei verschiedenen Wegen direkt finden, entweder als Zitatsuche oder mit der Wortabstandsuche. Die Suche als wörtliches Zitat (Suchmodus: ›Phrase (als exaktes Zitat) suchen‹) ergibt 43 Fundstellen, die unsere Suche erfüllen. Die gleiche Anzahl Fundstellen ergibt sich mit dem Suchmodus: ›Wortabstandssuche‹ und dem Wert in ›Wortabstand‹ von 0.
4. Wortfeldersuche mit Platzhaltern
Es soll untersucht werden, welche Rolle Farben und Farbbegrifflichkeiten in Kleists Texten spielen. Wir suchen also Farbbegriffe und Komposita, in denen Farbbezeichnungen auftauchen, z. B.: rot(h), grün, blau, gelb, orange, lila, violett, schwarz, weiss, grau oder Komposita wie blut(h)rot(h), hellgrün, dunkelblau, aber auch bläulich, röt(h)lich etc. Die Suchabfrage könnte folgendermaßen formuliert werden:
.*roth.* .*röth.* .*grün .*grüne.* .*grünl.* .*blau.* .*bläu.* .*gelb.* .*braun.* .*bräun.* orange.* .*lila.* .*violet.* .*grau.* .*gräu.* .*schwarz.* .*schwärz.* .*weiss.*
Mit der momentanen technischen Ausstattung liefert der Kleist-Server nach ca. 7 Minuten für diese extrem aufwendige Suchabfrage 413 Fundstellen aus dem Kleist-Textkorpus, neben einigen ›Irrläufern‹ wie ›Ke(gelb)ahn‹ überwiegend das gesuchte Material.
5. Suche nach Wortformen
Häufig werden nicht nur die Grundform eines Wortes sondern auch alle flektierten Formen hiervon gesucht. Nehmen wir als Beispiel das Verb ›geben‹ mit den flektierten Formen geben, gebe, gi(e)bst, gi(e)bt, gebt, gab, gabst, gaben, gabt, gebest, gebet, gäbe, gäbest, gäbet, gäben, gebend, gegeben.
Es gibt zwei unterschiedliche Möglichkeiten, nach allen Wortformen zu suchen: 1) die schon beschriebene Suchstrategie mit Platzhaltern, 2) den Suchmodus ›Alle Wortformen suchen‹ (dieser hat zwei Varianten).
Mit Platzhaltern ließe sich die Suche wie folgt formulieren: gebe.* gi.?b.?t gebt gab gab.* gebe.* gäb.* gegeben. Diese Abfrage liefert 793 überwiegend treffende Ergebnisse.
Mit dem Suchmodus ›Alle Wortformen suchen [Nominal- u. Verbflexion] (Wörterliste Uni Leipzig und Kleist-Schreibungen)‹ erhalten wir 798 (fast) ausschließlich richtige Ergebnisse (Ausnahme: ›(das) Gebet‹).
Dieser Suchmodus arbeitet mit einer Schnittstelle des Webportals von ›Wortschatz Leipzig‹ zusammen. Die Aufbereitung der Suchabfrage funktioniert in 3 Schritten. 1) Zunächst wird bei ›Wortschatz Leipzig‹ nachgefragt, welche flektierten Formen für ›geben‹ (aus einem Korpus von über 500 Millionen Token) dort gelistet werden. Es sind dies in unserem Fall folgende Formen: »gäbe gaben Gegeben gibt Gab gibt's gäben gib Gebt Geben Gib gab gibst gegeben Gibt Gäbe gebt gebe geben geben«. 2) Danach werden diese Formen mit der internen Kleist-Wörterliste abgeglichen und nur die Formen benutzt, die Kleist auch benutzt hat. 3) Abschließend wird in einem weiteren Wörterbuch der Suchbegriff nach einem Eintrag abgesucht. In unserem Fall werden hier noch die alten Schreibungen »gieb, giebst, giebt« hinzugenommen.
Der Vollständigkeit halber sei noch der zweite Wortformsuche-Modus erwähnt, der algorithmusbasiert arbeitet. Hier sind die Ergebnisse nur partiell brauchbar, da die start flektierten Formen in diesem Fall nicht gefunden werden.
V. Bekannte Probleme oder Einschränkungen
- Die Wortstammreduktion in zweiten Suchmodus der Wortformsuche ist algorithmusbasiert, damit aber auch nur eingeschränkt einsetzbar, da sie nicht über ein linguistisches Wörterbuch kontrolliert wird. Bessere Ergebnisse lassen sich häufig mit einem gezielten Einsatz von Platzhaltern, mit der Unscharfsuche oder dem wortschatzbasierten Such-Modus erreichen.
- Die Suche nach Satzzeichen ist nicht möglich.
- Diakritische Zeichen werden momentan nicht unterstützt.
- Das Ausschließen möglicher Zielbegriffe ist auf einen Begriff begrenzt. Platzhalter sind hier nicht möglich. (Beispiel: Suche nach »grau« (inkl. Wortformen), Ausschluß von Textstellen mit »grausam«.)