Buch: Information Retrieval mit Apache Lucene

Bücher, Open Source Schlagwörter: , , 0 Kommentare

Wundervoll ins Wochenende! Eine aufregende Woche neigt sich dem Ende entgegen. Zeit für grandiose eigene Projekte.

Ich entwerfe gerne für meinen Blog neue Plugins, die ich für effizentes Bloggen mit benötige. In der Regel schreibe ich seit Jahren fast täglich einen Blog-Artikel. Bei aufwendigen Projekten – wie die Verwendung von maschinelles Lernen in WordPress – gibt es auch mal kleine Pausen.

Wenn man etwas geschrieben hat und man findet seinen Beitrag nicht – ist die WordPress Suche oft leider sehr aufwendig für mich. Die WordPress Suche ist ein kontroverses Thema innerhalb der Community, denn eigentlich wird selbige seit Jahren schon bemängelt. Zu ungenau ist sie, zu wenig relevant. Soweit also die Kritik, doch geändert wurde in den letzten Jahre nur wenige Details.

Die Suche mit PHP

Mit der Fuzzy-Technologien erzielen Besucher bessere Trefferquoten und finden den passenden Artikel zuverlässiger.

Die Fuzzy-Logik ist seit Jahren eine beliebte Technologie, die in vielen elektronischen Geräten wie beispielsweise Waschmaschinen zum Einsatz kommt. Dort testet Fuzzy-Logik etwa die Verschmutzung von Kleidung, berechnet daraus die Laufzeit des Waschprogramms und hilft so, Energie zu sparen. Einen komplett anderen Einsatzzweck erfüllt Fuzzy bei der Bestimmung von Suchergebnissen. Hier unterstützt die Technik dabei, die besten Treffer auf Basis der Eingabe zu finden.

Du erlebst die Technologie im täglichen Einsatz, wenn du beispielsweise Google verwendest. Dort wirst du – abhängig von Deiner Eingabe – immer wieder gefragt: „Meinten Sie: …?“.

Die Aufgabe kann man doch besser eine Suchmaschine geben. Ich habe mich für Apache Solr entschieden.

Solr-Funktionen

  • Auto-Complete: Automatische Vorschläge passender Suchbegriffe
  • Auto-Korrektur: „Meinten Sie …“
  • Markierung: Suchwörter werden in den Ergebnissen hervorgehoben
  • Facetten-Suche: Filtern von Suchergebnisse
  • Synonym-Suche: Ergebnisse für den Suchbegriff und dessen Synonyme
  • Stop-Wörter: Liste mit Begriffe, die nicht bei der Suche berücksichtigt werden
  • uvm.

Apache Solr

Apache Solr

Link

https://docs.bitnami.com/google/infrastructure/solr/
Solarium als Client
Beispiel: PDFs mit Solr und Symfony indexieren
Apache Solr in PHP Projekten

Da mir die Grundlagen fehlen, habe ich mir das Buch Information Retrieval mit Apache Lucene bestellt.

Buch: Information Retrieval mit Apache Lucene

Information Retrieval mit Apache Lucene
Analyse und Entwicklung einer benutzerbeeinflussbaren Produktsuche auf Basis von Lucene und Solr

Das Internet expandiert immer mehr. Mit der zunehmenden Flut an Informationen kommt dem Navigationsmittel Nummer eins, der Suchfunktion, eine immer größere Bedeutung zu. Dieses Buch soll Einblicke darin geben, wie man für ein großes Produkt-Preisvergleichsportal eine den modernen Internet-Standards entsprechende, flexible und auf die speziellen Herausforderungen des Hard- und Softwaremarktes angepasste Suchfunktion entwickeln und implementieren kann.

Mit Hilfe von Lucene und Solr sollen die technischen Möglichkeiten und Grenzen dieser Systeme beim Einsatz als Produktsuchmaschine aufgezeigt und Information Retrieval in Verbindung mit Produktdaten in der Praxis untersucht werden.

Es wird auf erweiterte Suchfunktionen wie Rechtschreibkorrekturen oder verwandte Suchbegriffe eingegangen und eine dynamische Ergebnissortierung, basierend auf dem Suchverhalten der Benutzer, erschaffen. Anhand eines in PHP und MySQL implementierten Prototyps werden Probleme und Lösungsmöglichkeiten erläutert. Grundlage dieses Werkes ist ein großer deutscher Online-Preisvergleich, auf dem der Autor die Theorien auf ihre Praxistauglichkeit prüft.

Jetzt bist du gefragt!

Hast du Anregungen, Verbesserungsvorschläge, einen Fehler gefunden oder ist dieser Beitrag nicht mehr aktuell? Dann freue ich mich auf deinen Kommentar.

Du kannst diesen Beitrag natürlich auch weiterempfehlen. Ich bin dir für jede Unterstützung dankbar!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

 Durch das Anhaken der Checkbox erklärst Du Dich mit der Speicherung und Verabeitung Deiner Daten durch diese Webseite einverstanden. Um die Übersicht über Kommentare zu behalten und Missbrauch zu verhindern, speichert diese Webseite Name, E-Mail und Kommentar. Detaillierte Informationen findest Du in meiner Datenschutzerklärung

Aktuell