google indiziert "druckdatein"

  • Hallo,

    ich hab gemerkt das google die durckversion z.b. eines artikels indexiert.
    Kann man dies irgendwie unterbinden? Ich hab jetzt nähmlich ca 17000 Einträge in google, wenn ich site:http://www.shop-muskelaufbau.de eingebe. Davon sind sehr viele Druckversionen/-Ansichten.

    hoffentlich könnt ihr mir helfen :)

    freundliche grüße
    shop

  • Hallo,

    ich hab gemerkt das google die durckversion z.b. eines artikels indexiert.
    Kann man dies irgendwie unterbinden? Ich hab jetzt nähmlich ca 17000 Einträge in google, wenn ich site:http://www.shop-muskelaufbau.de eingebe. Davon sind sehr viele Druckversionen/-Ansichten.

    hoffentlich könnt ihr mir helfen :)

    freundliche grüße
    shop

    Hallo,

    hast Du eine robots.txt in der root?

    Die standardmäßige verweigert u.a. das Crawlen der Print-Seiten und sieht bei mir inzwischen so aus :
    Disallow: /cgi-bin/
    Disallow: /shop/*?XTCsid
    Disallow: /shop/* ? sessionid
    Disallow: /shop/de/*?XTCsid
    Disallow: /shop/de/* ? sessionid
    Disallow: /shop/en/*
    Disallow: /shop/commerce_seo_url.php
    Disallow: /shop/address_book.php
    Disallow: /shop/address_book_process.php
    Disallow: /shop/account.php
    Disallow: /shop/account_edit.php
    Disallow: /shop/account_edit_process.php
    Disallow: /shop/account_history.php
    Disallow: /shop/account_history_info.php
    Disallow: /shop/checkout_process.php
    Disallow: /shop/advanced_search.php
    Disallow: /shop/advanced_search_result.php
    Disallow: /shop/checkout_address.php
    Disallow: /shop/checkout_confirmation.php
    Disallow: /shop/checkout_payment.php
    Disallow: /shop/checkout_payment_address.php
    Disallow: /shop/checkout_shipping.php
    Disallow: /shop/checkout_shipping_address.php
    Disallow: /shop/checkout_success.php
    Disallow: /shop/cookie_usage.php
    Disallow: /shop/contact_us.php
    Disallow: /shop/create_account.php
    Disallow: /shop/create_account_guest.php
    Disallow: /shop/create_account_process.php
    Disallow: /shop/create_account_success.php
    Disallow: /shop/display_vvcodes.php
    Disallow: /shop/download.php
    Disallow: /shop/gv_redeem.php
    Disallow: /shop/gv_send.php
    Disallow: /shop/info_shopping_cart.php
    Disallow: /shop/login.php
    Disallow: /shop/logoff.php
    Disallow: /shop/password_double_opt.php
    Disallow: /shop/popup_image.php
    Disallow: /shop/popup_search_help.php
    Disallow: /shop/print_order.php
    Disallow: /shop/print_product_info.php
    Disallow: /shop/privacy.php
    Disallow: /shop/product_notifications.php
    Disallow: /shop/product_reviews.php
    Disallow: /shop/product_reviews_info.php
    Disallow: /shop/product_reviews_write.php
    Disallow: /shop/reviews.php
    Disallow: /shop/shipping.php
    Disallow: /shop/shopping_cart.php
    Disallow: /shop/admin/shop/
    Disallow: /shop/download/shop/
    Disallow: /shop/export/shop/
    Disallow: /shop/import/shop/
    Disallow: /shop/includes/shop/
    Disallow: /shop/pub/shop/
    Disallow: /shop/media/shop/

    Dann gibt es noch bei den Webmaster-Tools von Google unter Site wählen / Website-Konfiguration/ Einstellungen / Parameterbehandlung die Möglichkeit "Parameter" vorzuschlagen, für die eine Indexierung ausgeschlossen werden sollten. Da habe ich dann alles reingepackt, was mir im Index noch"spanisch" vorkam, wie "scaleAmount" etc.

    Google Hinweis dazu:

    Zitat

    Dynamische Parameter wie Sitzungs-IDs, Quelle oder Sprache in Ihren URLs können dazu führen, dass verschiedene URLs auf denselben Content verweisen. So kann zum Beispiel http://www.example.com/dresses?sid=12395923 auf denselben Content verweisen wie http://www.example.com/dresses. Entsprechend Ihren Festlegungen kann Google bis zu fünfzehn spezielle Parameter in Ihrer URL ignorieren. Dies führt zu einem effizienteren Crawling und verringert die Anzahl doppelter URLs. Gleichzeitig bleiben die von Ihnen benötigten Informationen erhalten. Google versucht zwar, Vorschläge zu berücksichtigen, kann aber nicht garantieren, dass sie in jedem Fall befolgt werden.

    Wenn die robots.txt richtig eingestellt ist, müsste das eigentlich genügen.

    Ansonsten lasse ich mit einer kostenlosen Zusatzsoftware "Gsitecrawler von Softplus" noch regelmäßig eine Sitemap der kompletten Website (also Hautpseiten inkl. Shop) erstellen, bei der alle aus meiner Sicht unerwünschten print-Links & Co ausgefiltert werden, bevor sie bei google "gemeldet" wird.

    Bis jetzt klappt das alles ganz gut (seit Mitte Nov. 09 - Toi, Toi, Toi!)

    Gruß
    Bernd

    Einmal editiert, zuletzt von bernd888 (11. Dezember 2009 um 10:52)

  • Hab jetzt mal das hier dazu genommen:

    Disallow: /print_product_info.php


    Wozu sind die hier genau (Z. 1 - 3)? Verstehe ich das richtig, dass er die sessionID und die gesamte englische sprache bei dir beim indexieren weglässt?

    Zitat

    Disallow: /cgi-bin/
    Disallow: /shop/*?XTCsid
    Disallow: /shop/* ? sessionid
    Disallow: /shop/de/*?XTCsid
    Disallow: /shop/de/* ? sessionid
    Disallow: /shop/en/*

    Meine robots.txt sieht so aus:

    User-agent: *
    Disallow: /*?XTCsid
    Disallow: /* ? sessionid
    Disallow: /commerce_seo_url.php
    Disallow: /address_book.php
    Disallow: /address_book_process.php
    Disallow: /account.php
    Disallow: /account_edit.php
    Disallow: /account_edit_process.php
    Disallow: /account_history.php
    Disallow: /account_history_info.php
    Disallow: /checkout_process.php
    Disallow: /advanced_search.php
    Disallow: /advanced_search_result.php
    Disallow: /checkout_address.php
    Disallow: /checkout_confirmation.php
    Disallow: /checkout_payment.php
    Disallow: /checkout_payment_address.php
    Disallow: /checkout_shipping.php
    Disallow: /checkout_shipping_address.php
    Disallow: /checkout_success.php
    Disallow: /cookie_usage.php
    Disallow: /contact_us.php
    Disallow: /create_account.php
    Disallow: /create_account_guest.php
    Disallow: /create_account_process.php
    Disallow: /create_account_success.php
    Disallow: /display_vvcodes.php
    Disallow: /download.php
    Disallow: /gv_redeem.php
    Disallow: /gv_send.php
    Disallow: /info_shopping_cart.php
    Disallow: /login.php
    Disallow: /logoff.php
    Disallow: /password_double_opt.php
    Disallow: /popup_image.php
    Disallow: /popup_search_help.php
    Disallow: /print_order.php
    Disallow: /print_product_info.php
    Disallow: /privacy.php
    Disallow: /product_notifications.php
    Disallow: /product_reviews.php
    Disallow: /product_reviews_info.php
    Disallow: /product_reviews_write.php
    Disallow: /reviews.php
    Disallow: /shipping.php
    Disallow: /shopping_cart.php
    Disallow: /admin/
    Disallow: /download/
    Disallow: /export/
    Disallow: /import/
    Disallow: /includes/
    Disallow: /pub/
    Disallow: /media/

    Hab deine Datei mit von mir mal vergliechen. Mir ist bis auf die ersten paar Zeilen und die /print_product_info.php kein unterschied aufgefallen.

  • Zitat

    Wozu sind die hier genau (Z. 1 - 3)? Verstehe ich das richtig, dass er die sessionID und die gesamte englische sprache bei dir beim indexieren weglässt?

    So isses.
    Die Englischseiten muss ich erst noch bearbeiten (übersetzen, ergänzen) bevor ich die sichtbar online schalten und indexieren lassen kann.
    Das wird dauern. Was die sessionID angeht, soll es ja schon mal Suchmaschinen gegeben haben, die so taten, als würden Sie einkaufen - bei mir nicht. LOL!

    Gruß
    Bernd
    PS: ...da ich keiner Suchmaschine über den Weg traue, prüfe ich hin und wieder das Ergebnis der Indexierung auch mal auf "Seitenebene", ob ich wieder was finde, was nicht reingehört.

    Einmal editiert, zuletzt von bernd888 (12. Dezember 2009 um 16:30)

  • lol!
    Das suchmaschienen einkaufen hab ich auch bereits erlebt, aber die kommen nur bis zu warenkorb, eine bestellung können sie nicht angeben, von daher denk ich mal, dass es nicht nötig ist das in die robots.txt zu schreiben, oder?

    Wobei der einzige logische Grund (der mir jetzt einfällt), dass auch in die Datei zuschreiben, wäre die Systemleistung zu schonen. Immerhin hats keinen großen Sinn als Suchmaschine etwas in den Warenkorb zulegen :D

  • Bislang hat der Ausschluß in allen Versionen der empfohlenen robots.txt f. xtc gestanden - S. auch die bekannten online-Handbücher für XTC (Version 2.10 - Seite 124 ff).

    Wenn (ohne die heutige Verbesserung durch die canonical-url) früher bei den normalen Shops jedesmal eine Seite mit einer anderen Session-ID indexiert wurde, hatten so manche 70 Produkte-Shops bestimmt mal ganz stolz über 2000 Seiten im Index vorzuweisen. Da machte das Sperren bestimmt Sinn.

    Ansonsten liegst Du wohl mit der Annahme richtig, dass heute wenigstens noch etwas Systemleistung eingespart wird.

    Gruß
    Bernd

    2 Mal editiert, zuletzt von bernd888 (12. Dezember 2009 um 16:29)

  • So isses.
    Die Englischseiten muss ich erst noch bearbeiten (übersetzen, ergänzen) bevor ich die sichtbar online schalten und indexieren lassen kann.

    Durch den Ausschluss der englischen Seiten in der robot.txt, verhinderst du zwar, dass die englischen Seiten indexiert werden aber wenn ein User vom (englischsprachigen) Ausland auf deine Seite kommt, bekommt er ja trotzdem die englischen Seiten angezeigt, die ja jetzt noch leer sind...

    Hast du dazu eine Lösung.

    Grüße

    Whyatt

  • Ich hätte eine, aber das wird zu viel.

    In der v2 kann zwischen, derzeit 7 Sprachen, ausgewählt werden, welche mit einem Klick installiert werden können. Ist das geschehen, muss entschieden werden ob die Sprache im Shop und/oder im Admin angezeigt werden soll. Also die Zusatzfelder bei Produktbeschreibung etc..

    Es werden also bei "Im Shop: deaktiviert" keine Sprachen angezeigt, die nicht angezeigt werden sollen. Auch ein Englischer Browser wird dann z.B. auf die deutsche Sprache umgeleitet.

    Das möchte ich aber nicht da rausfrimeln. Dafür isses zu viel.

    Folgender Ansatz:

    In der DB in der Tabelle languages hinten ein Feld dran: 'status' - integer 1. Dort kommt dann nur 0 und 1 rein.
    In der /includes/classes/languages.php in der Abfrage WHERE status = '1' rein.

    Schon werden nur Sprachen verfügbar, die "aktiviert" sind. Irgend wo hier im Forum war schonmal ein Post der das behandelt hat.

  • Durch den Ausschluss der englischen Seiten in der robot.txt, verhinderst du zwar, dass die englischen Seiten indexiert werden aber wenn ein User vom (englischsprachigen) Ausland auf deine Seite kommt, bekommt er ja trotzdem die englischen Seiten angezeigt, die ja jetzt noch leer sind...

    Hast du dazu eine Lösung.

    Grüße

    Whyatt

    Der Link auf die englischsprachigen Seiten wurde von der Startseite des Shops natürlich entfernt. Da nix indexiert wurde, sind draussen eigentlich auch keine Links auf andere Art in Umlauf gekommen.

    Aber Du hast natürlich recht (Vielen Dank für die Erinnerung!) und der auf Englisch laufende Browser krallt sich in der Tat die entsprechenden "leeren" Artikelseiten. Das kann man nicht nur vom Ausland her sondern selbstverständlich auch von hier aus mit z.B. einem Firefox-browser testen, der bei den Einstellungen für die bevorzugte Sprachdarstellung auf Englisch umgestellt wurde.

    Ich mach mich heute mal auf die Suche (hier im Forum und im I-net), ob es da neben dem Hinweis von Daniel noch etwas Brauchbares gibt.

    Aktualisierung (14.44Uhr): bin wohl im I-Net fündig geworden (verzichte aber vorläufig auf Verlinkung). Sinngemäß hieß es da:
    die Browsersprache wird in der includes/application_top.php ermittelt. Falls im Admin Deutsch als Standard definiert wurde und der Shop auch nur so starten soll, folgende Änderung durchführen:

    ...suche:

    Code
    if (!isset ($_GET['language']))        $lng->get_browser_language();

    ...ersetze mit:

    Code
    if (!isset ($_GET['language']))
            $lng->catalog_languages[DEFAULT_LANGUAGE];

    Jetzt startet der Shop in der Standardshopsprache, was ich soben mit Erfolg getestet habe.


    Gruß
    Bernd E.

    3 Mal editiert, zuletzt von bernd888 (17. Dezember 2009 um 14:49)

  • Die Lösung macht aber nur Sinn, wenn keine andere Sprache ausser Deutsch installiert ist.
    Kunden anderer Sprachen müssen dann immer erst manuell die Sprache wechseln.

    Aber als Übergangslösung durchaus anwendbar.