Du bist nicht angemeldet. Der Zugriff auf einige Boards wurde daher deaktiviert.
Seiten: 1
#1 24. November 2010 18:31
- Andiministrator
- Kabeljungwerker
- Ort: Plauen / Vogtland
- Registriert: 09. November 2010
- Beiträge: 264
- Webseite
robots.txt
Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:
### robots.txt ###
# Alle Robots ansprechen
User-agent: *
# URL der XML Sitemap mitteilen
Sitemap: http://www.DOMAIN.DE/sitemap.xml
# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /admin
Disallow: /cgi-bin
Disallow: /doc
Disallow: /install
Disallow: /lib
Disallow: /modules
Disallow: /plugins
Disallow: /tmp
Allow: /tmp/cache/*
# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$
# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /php/*
Allow: /images/*
Allow: /uploads/images/*
# Archivierung der Seite für archive.org unterbinden
User-agent: ia_archiver
Disallow: /
# Digg Mirror unterbinden (Duplicate Content)
User-agent: duggmirror
Disallow: /
### Eine kleine Hilfe ###
# Values for "User-agent:"
# Google: Googlebot
# Google Bildersuche: Googlebot-Image
# Yahoo: slurp
# Bing: MSNbot
# Exalead: ExaBot
# Archive.org: ia_archiver
# Digg Mirror: duggmirror
### Ende der Hilfe ###
### EOF ###
Wenn Ihr noch Vorschläge habt, immer her damit
Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de
Offline
#2 16. Juni 2011 22:09
- nockenfell
- Moderator
- Ort: Lenzburg, Schweiz
- Registriert: 09. November 2010
- Beiträge: 2.930
- Webseite
Re: robots.txt
Meine Fassung des Robots.txt ist folgende
#Alle Robots ansprechen
User-agent: *
# URL der XML Sitemap
Sitemap: http://www.domain.com/sitemap.xml
# Zugriff auf folgende Verzeichnisse / Dateien explizit erlauben
Allow: /*.htm$
Allow: /index.php
Allow: /uploads/
# Nicht indexieren aller Dateien in folgenden Verzeichnissen
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /doc/
Disallow: /install/
Disallow: /template/
Disallow: /lib/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
User-agent: Googlebot
# Unterbinden der Indexierung aller Dateien mit diesen Endungen
Disallow: /*.cgi$
Disallow: /*.css$
Disallow: /*.gif$
Disallow: /*.gz$
Disallow: /*.inc$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.js$
Disallow: /*.php$
Disallow: /*.php*
Disallow: /*.png$
Disallow: /*.tpl$
Disallow: /*.wmv$
Disallow: /*.xhtml$
# Zugriff auf spezielle Module verbieten, um Duplicate Content zu vermeiden
Disallow: /*?mact=Printing*$
Disallow: /*?mact=Search*$
Disallow: /*?mact=News*$
# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Disallow: /
Allow: /uploads/images
# Archivierung der Seite unterbinden
User-agent: ia_archiver
Disallow: /
# duggmirror unterbinden
User-agent: duggmirror
Disallow: /
[dieser Beitrag wurde mit 100% recycled bits geschrieben]
Mein Blog / Diverse Links rund um CMS Made Simple
Module: btAdminer, ToolBox
Offline
#3 16. Juni 2011 08:43
- Efferd
- kennt CMS/ms
- Registriert: 20. Dezember 2010
- Beiträge: 182
Re: robots.txt
Wenn man es übertreiben will, kann man noch die Vorschaubilder sperren ;o)
Offline
#4 12. August 2011 11:51
- noober
- kennt CMS/ms
- Registriert: 26. April 2011
- Beiträge: 151
Re: robots.txt
wenn ich Bilder nicht durchsuchbar haben will - schreibe ich dann:
# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/*
Allow: /images/*
Disallow: /uploads/images/*
mit "*"?
Offline
#5 12. August 2011 12:05
- Andiministrator
- Kabeljungwerker
- Ort: Plauen / Vogtland
- Registriert: 09. November 2010
- Beiträge: 264
- Webseite
Re: robots.txt
Die Sterne brauchst Du in dem Fall nicht:
# Google Image erlauben alle Bilder zu indexieren
User-agent: Googlebot-Image
Allow: /php/
Allow: /images/
Disallow: /uploads/images/
Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de
Offline
#6 12. August 2011 12:41
- noober
- kennt CMS/ms
- Registriert: 26. April 2011
- Beiträge: 151
Re: robots.txt
Danke für die schnelle Hilfe.
Offline
#7 20. August 2011 12:13
- faglork
- arbeitet mit CMS/ms
- Ort: Fränkische Schweiz
- Registriert: 15. Dezember 2010
- Beiträge: 1.152
- Webseite
Re: robots.txt
Es gab zur robots.txt bereits einen Thread im alten Forum, die dort zuletzt gepostete Version war mir jedoch etwas zu restriktiv.
Deshalb habe mir einmal unsere generelle robots.txt vorgenommen und für CMS made simple angepasst.
Herausgekommen ist folgendes:Allow: /tmp/cache/*
Warum das denn? Klär mich auf ...
Servus,
Alex
Offline
#8 20. August 2011 13:35
- Andiministrator
- Kabeljungwerker
- Ort: Plauen / Vogtland
- Registriert: 09. November 2010
- Beiträge: 264
- Webseite
Re: robots.txt
Weil dort die gecachten CSS Dateien liegen.
Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de
Offline
#9 20. August 2011 20:25
- faglork
- arbeitet mit CMS/ms
- Ort: Fränkische Schweiz
- Registriert: 15. Dezember 2010
- Beiträge: 1.152
- Webseite
Re: robots.txt
Weil dort die gecachten CSS Dateien liegen.
Und warum sollte ein robot die einlesen? Darin befinden sich doch keine Infos für Suchmaschinen.
Servus,
Alex
Offline
#10 21. August 2011 22:01
- piratos
- arbeitet mit CMS/ms
- Registriert: 12. August 2011
- Beiträge: 545
Re: robots.txt
Offline
#11 21. August 2011 22:30
- NaN
- Moderator
- Ort: Halle (Saale)
- Registriert: 09. November 2010
- Beiträge: 4.436
Re: robots.txt
Nett.
Das erklärt die Frage aber nicht.
Module: GBFilePicker, AdvancedContent
Sicherheit: Beispiel .htaccess-Datei
CMSms 1.12 unter PHP 7:
cmsms-1.12.3.zip (inoffiziell - komplett inkl. Installer)
CMSms 1.12 unter PHP 8:
cmsms-1.12.4.zip (inoffiziell - komplett inkl. Installer)
Offline
#12 21. August 2011 08:52
- Andiministrator
- Kabeljungwerker
- Ort: Plauen / Vogtland
- Registriert: 09. November 2010
- Beiträge: 264
- Webseite
Re: robots.txt
Ich lasse die Suchmaschinen auch gern meine CSS-Dateien crawlen, um zu zeigen, dass ich nichts zu verstecken habe. Zudem bin ich mir nicht sicher, ob es nicht noch andere Dateien (z.B. von Modulen) in /tmp/cache gibt, die interessant für Google wären. Vielleicht kann ich die Frage aber einmal umkehren: Was willst Du denn im Cache-Verzeichnis vor Google verstecken?
Um z.B. nur CSS Dateien im Cache Verzeichnis zu erlauben, könntest Du auch folgendes angeben:
Allow: /tmp/cache/*.css
Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de
Offline
#13 21. August 2011 12:32
- piratos
- arbeitet mit CMS/ms
- Registriert: 12. August 2011
- Beiträge: 545
Re: robots.txt
In der CSS können z.B. Bildinformationen stecken, die man durchaus bei den Suchmaschinen aufnehmen lassen kann.
Offline
#14 06. September 2011 09:23
- dylan
- kennt CMS/ms
- Ort: Münsterland
- Registriert: 16. Dezember 2010
- Beiträge: 303
Re: robots.txt
Meine Fassung des Robots.txt ist folgende
Wikipedia stellt einen Link zu einem Robots.txt syntax checker.
Ich habe meine eigene robots.txt dort gecheckt und bin vor Fehlermeldungen rückwärts vom Stuhl gekippt.
Eine Frage zu zweisprachigen Websites und der sitemap.xml
Wie mache ich's richtig?
- Je Sprache eine sitemap, z.B. sitemap_de.xml, sitemap_en.xml
Nur, wie rufe ich diese dann in der robots.txt auf?
oder
- eine sitemap.xml die die Sites der einzelnen Seiten untereinander listet, z.B.
<url>
<loc>http://domain.de/index.php?mod=home&lng=de</loc>
...
</url>
<url>
<loc>http://domain.de/index.php?mod=home&lng=en</loc>
...
</url>
Offline
#15 06. September 2011 10:05
- Andiministrator
- Kabeljungwerker
- Ort: Plauen / Vogtland
- Registriert: 09. November 2010
- Beiträge: 264
- Webseite
Re: robots.txt
Bei zweisprachigen Webseiten kommt es darauf an, wie diese gegliedert sind.
Hast Du beide Sprachen auf einer Domain laufen, gibts Du alle Seiten in einer sitemap.xml an.
Gibt es pro Sprache eine separate Domain, sollte es ja auch pro Domain eine separate robots.txt geben (das ist übrigens noch ein Feature Request im MultiDomain-Modul).
Arbeitet bei conversearch GmbH: http://conversearch.de (Webseiten-Analyse und -Monitoring)
Bloggt bei Andiministrator.de: http://andiministrator.de
Offline
#16 12. März 2015 12:43
- faglork
- arbeitet mit CMS/ms
- Ort: Fränkische Schweiz
- Registriert: 15. Dezember 2010
- Beiträge: 1.152
- Webseite
Re: robots.txt
Meine Fassung des Robots.txt ist folgende
----------------snip------------------- User-agent: Googlebot # Unterbinden der Indexierung aller Dateien mit diesen Endungen Disallow: /*.cgi$ Disallow: /*.css$ Disallow: /*.gif$ Disallow: /*.gz$ Disallow: /*.inc$ Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.js$ Disallow: /*.php$ Disallow: /*.php* Disallow: /*.png$ Disallow: /*.tpl$ Disallow: /*.wmv$ Disallow: /*.xhtml$ ----------------------------snip--------------------------------
Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.
Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.
Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."
Servus,
Alex
Offline
#17 12. März 2015 21:49
- nockenfell
- Moderator
- Ort: Lenzburg, Schweiz
- Registriert: 09. November 2010
- Beiträge: 2.930
- Webseite
Re: robots.txt
Nur als Hinweis: Das wird Probleme bringen. Google hat die Webmaster-Richtlinien geändert und verlangt jetzt ausdrücklich Zugriff auf CSS und JS.
Wer diese Dateien also durch obigen Eintrag in der robots.txt gesperrt hat, sollte dies schleunigst ändern.
Sieh dazu
https://plus.google.com/+PierreFar/posts/TLeHSDRwjhB
"Let me be super clear about what this means: By blocking crawling of CSS and JS, you're actively harming the indexing of your pages."
Korrekt. Danke für die Ergänzung.
[dieser Beitrag wurde mit 100% recycled bits geschrieben]
Mein Blog / Diverse Links rund um CMS Made Simple
Module: btAdminer, ToolBox
Offline
Seiten: 1