vendredi, novembre 19, 2004

msnsearch's WebLog

Maintenant que nous avons sorti une version beta du moteur, les gens commencent à se demander si leurs sites sont dans notre index. Les 2 questions les plus courantes sont 1) pourquoi vous ne crawlez pas mon site ? 2) vous avez crawlé la page X, mais elle n'est pas dans votre index. Pourquoi ? Prenons ces questions les unes après les autres.

1) Pourquoi MSNBot n'a pas crawlé mon site ?
La réponse n'est pas évidente, donc je vais mentionner quelques points essentiels. En premier, il faut déterminer si votre page est accessible aux robots. Un exemple d'une page inaccessible aux robots aura une URL du type http://www.somesite.com/info/default.aspx?view=22&tab=9&pcid=81-A4-76§ion=848&origin=msnsearch&cookie=false
Quand MSNBot regarde cette URL il a peur (bon, pas vraiment car c'est une machine). L'algorithme se demande s'il va se retrouver coincé dans un loop sans fin, crawlant chaque paramètre de la queue. Ainsi, l'URL avec plus de 5 paramètres aura moins de chances d'être crawlée. Un autre paramètre à considerer est de savoir si nous pouvons trouver votre page. Si nous avons besoin de traverser huit niveaux pour trouver une page que personne d'autres que vous n'a lié, MSNBot choisira de ne pas aller si profond. C'est pourquoi il est recommandé de créer un plan du site. Finalement, vous pouvez aussi choisir de soumettre votre URL à MSN Search grâce à l' interface de soumission.

2) Vous avez crawlé mon site, mais je ne peux pas le trouver dans votre index ?
La raison apparente est que nous avons détecté la page comme étant du spam quand nous l'avons analysé pour inclusion dans notre index. Comment pouvez-vous être sûr que ça n'arrive pas ? La meilleure chose est de ne pas nous spammer. Sur notre site, la page d'aide parle certaines pratiques que nous bannissons. Au cas où, voici un petit rappel : redirections javascript sales, stuffing de la balise alt avec des mots clefs, texte blanc sur fond blanc, liens hors contexte, etc... Nous prenons ces pratiques très au sérieux et nous travaillons en permanence à mieux détecter le spam, même s'il y a de la marge pour s'améliorer. La raison pour laquelle nous prenons ce sujet très au sérieux est que le spam menace notre industrie. Si le spam est réussi, les internautes ne trouveront pas de pertinence dans les résultats de recherche.

Finalement, un bref moment sur le beurre de cacahuètes.... Pourquoi ne mangeons nous plus de beurre de cacahuètes après le collège ? C'est peut-être moi, mais je n'ai pas mangé de beurre de cacahuètes dans un sandwich à la confiture depuis très longtemps. Ce matin, j'en ai mangé un. Succulent ! Voici en hommage au beurre de cacahuètes.

Eytan Seidman, Program Manager