Du bist nicht angemeldet. Der Zugriff auf einige Boards wurde daher deaktiviert.

#1 04. März 2011 11:44

leerraum
kennt CMS/ms
Ort: Baden-Baden
Registriert: 15. Dezember 2010
Beiträge: 479
Webseite

Suchmodul für PDF Dateien

Hi,

durchsucht die Suche eigentlich auch den Text innerhalb von PDF Dateien? Ich fürchte ja fast, dass nicht. Gibts dafür bereits ne Lösung, oder muss ich da ein PlugIn scripten?

Danke
leerraum


Designer benötigt? Einfach eine Mail an info at lrrm dot de schicken.

Offline

#2 04. März 2011 12:01

kasimir
Gast

Re: Suchmodul für PDF Dateien

Da war die letzten Tage ein Thread auf .org. Wo einer ein Skript dafür geschrieben hat. Bin gerade zu faul zu suchen. Er hat das Skript bis jetzt aber glaube ich noch nicht veröfflenticht. Aber fragen kostet ja nichts.

Kasimir

#3 04. März 2011 12:15

leerraum
kennt CMS/ms
Ort: Baden-Baden
Registriert: 15. Dezember 2010
Beiträge: 479
Webseite

Re: Suchmodul für PDF Dateien

cool, danke für den tip!


Designer benötigt? Einfach eine Mail an info at lrrm dot de schicken.

Offline

#4 07. März 2011 07:48

Andynium
Moderator
Ort: Dohna / SN / Deutschland
Registriert: 13. September 2010
Beiträge: 7.018
Webseite

Re: Suchmodul für PDF Dateien

Da gabs vor Urzeiten im alten Forum einen Thread zu PHPdig

http://forum.cmsmadesimple.org/viewtopi … =11&t=5030

PHPdig scheint aber nicht mehr weiterentwickelt zu werden.

http://www.phpdig.net/

Gibt aber zwischenzeitlich auch andere/bessere Lösungen

http://www.kapustabrothers.com/2008/01/ … ch_lucene/

Wäre aber mal eine interessante Ergänzung für CMSMS ...

Offline

#5 07. März 2011 18:00

piratos
Gast

Re: Suchmodul für PDF Dateien

Lösung 2 erfordert das Zend-Framework wie auch Shellzugriffe.

Ebenfalls mit Zugriff auf Linux-Programme wäre

# extracting text from pdf
pdftotext "file.pdf" "file.txt"

und anschliessende Übernahme in die Suchtabelle eine denkbare Möglichkeit.

Den Nutzen halte ich aber bestenfalls für einen Einzelfall gegeben, der Aufwand ist sehr hoch und dürfte das Verfahren der Such-Aufbereitung bei CMSMS sprengen.

Das mal eben scripten ist nicht.

#6 07. März 2011 20:41

Andynium
Moderator
Ort: Dohna / SN / Deutschland
Registriert: 13. September 2010
Beiträge: 7.018
Webseite

Re: Suchmodul für PDF Dateien

piratos schrieb:

Lösung 2 erfordert das Zend-Framework

Dafür gabs mal ein Modul ... keine Ahnung, ob's aktuell noch läuft (oder sich einfach aktualisieren lässt).

http://dev.cmsmadesimple.org/projects/zendframework

Offline

#7 08. März 2011 23:05

nhaack
Server-Pate
Ort: Bonn
Registriert: 12. Dezember 2010
Beiträge: 171
Webseite

Re: Suchmodul für PDF Dateien

Beschäftige mich gerade selbst aus Interesse mit dem Problem interne Suche und andere Content-Quellen.

Es gibt da gefühlte tausend Herangehensweisen, die wiederum von der Skalierung, der Sprache (also EN, DE etc pp) und dem Budget abhängen. Auch ist die Frage, was die Suche können soll essentiell. Einfach gucken, ob exakt der Suchstring vorkommt oder auch in ähnlicher Schreibweise? Ändern sich die Dokumente oft? Wie performant soll das ganze sein?

Eine einfache, relativ gute und vor allem preiswerte Lösung kann Google Custom Search sein: http://www.google.de/cse/

Die inhalte in den Standard CMSMS Index zu bekommen und dann entsprechend nach Zielen auszuwerten dürfte aber recht fummelig werden wie Piratos schon angemerkt hat. Egal ob dieser nun in den CMSMS Index oder einen eigenen aufgenommen wird, du wirst sher wahrscheinlich an den Suchfunktionen schrauben müssen (also entweder Index pimpen oder zweite Suche integrieren) um das nahtlos in CMSMS zu integrieren.

In meinem Fall bin ich zu dem Entschluss gekommen (da geht's allerdings nicht um PDF), dass ich da was eigenes bauen muss (auch weil ich sowas schon immer mal, zumindest rudimentär, bauen wollte big_smile). Melde mich dann in drei Jahren nochmal, wenn's fertig ist ... big_smile ... hoffe es wird dann so flexibel wie ich mir das vorstelle ...

Bleibt noch die Frage ob der Beitrag, den Kasimir erwähnte, zum Ziel führen könnte.

Offline

#8 05. April 2011 15:36

leerraum
kennt CMS/ms
Ort: Baden-Baden
Registriert: 15. Dezember 2010
Beiträge: 479
Webseite

Re: Suchmodul für PDF Dateien

@kasimir: hast du zufällig nen link dahin? ich habs nicht gefunden.

die frage ist doch, wenn man die google custom search hat, braucht man dann noch die ergebnisse aus der eigenen suche? wenn ich google benutzen kann, warum sollte ich dann noch die cmsms suche verwenden. ich kann mir doch bestimmt die ergebnisse von google in einem frame/div anzeigen lassen.

Beitrag geändert von leerraum (05. April 2011 15:38)


Designer benötigt? Einfach eine Mail an info at lrrm dot de schicken.

Offline

#9 05. April 2011 16:42

kasimir
Gast

Re: Suchmodul für PDF Dateien

Tut mir leid ich habe gerade auch noch mal gesucht aber den Beitrag den ich im Kopf habe, habe ich nicht gefunden. Vielleicht hat da einer etwas falsches gepostet und die Zensurkeule hat zugeschlagen.

Das einzige was ich gefunden habe ist das:
http://forum.cmsmadesimple.org/viewtopi … .msg173512

aber das hast du wahrscheinlich auch schon gefunden.


Kasi
P.S.: Die Suchfunktion der org-Seite ist wirklich graussam wenn man da pdf eingibt kommt kein einziges Ergebnis