22 juin 2011

Les débuts de la Google Dance

Histoire de la Google Dance

Je tenterai par cet article, de vous expliquer ce qu'est la Google Dance en répondant à ces questions :

- Qu'est-ce qu'une Google Dance ?
- Fond technique sur Google
- Google Dance et DNS
- La Google Dance Test des domaines www2 & www3


Le nom "Google Dance" est souvent utilisé pour décrire la mise à jour de l'index du search engine de Google.
La mise à jour de l'index de Google se produit en moyenne une fois par mois. Elle peut être identifié par
des mouvements significatifs dans les résultats lors d'une recherche et particulièrement dans le cache de Google sur toutes
les pages indexées qui reflètent votre status lors du dernier spidering de Google.
mais la mise à jour ne procède pas par un passage d'un index à l'autre à un point donné.
En fait, cela prend plusieurs jours pour completer la mise à jour de l'index. Pendant cette période,
le vieux et le nouveau index alterne sur
www.google.com.
Dans un premier temp, les résultats du nouvel index se produisent sporadiquement. Mais plus tard, il apparaissent plus
fréquemment. Danses de Google.


Fond technique sur Google

Le Search Engine de Google tire ses résulats de plus de 10.000 serveurs qui sont de simples PC sur Linux qui sont
employés par Google pour des raisons de coût.
Naturellement, une mise à jour d'index ne peut pas être procédée sur tous ces serveurs en même temps.
Un serveur après l'autre doit être mis à jour avec le nouvel index.


Beaucoup de webmasters pensent que, pendant la Google Dance, Google peut d'une manière quelconque commander si un
serveur avec le nouvel index ou un serveur avec un vieil index répond à une requête de recherche.
Mais, depuis que l'index de Google est inversé, ce serait très compliqué. Car comme nous le montrerons, il n'y a
aucune commande dans le système qui permet de le faire.
En fait, la raison de la Google Dance est la manière de Google d'employer le Domain Name Système (DNS).


Google Dance et DNS

Non seulement l'index de Google est réparti sur plus de 10.000 serveur, mais ces serveurs sont également, à partir de
maintenant, placé sur huit différent centres de calculs (data centers).
Ces centres de calculs, sont principalement situés aux USA ( cad. Santa Clara, Californie et Herndon, Virginie), et le
premier centre de calculs européen de Google à Zurich crée en juin 2002. Il y aura très probablement,
plus de centres de calculs à venir, qui seront peut-être répartis dans le monde entier.
Cependant, en janvier et en avril 2003 Google a mis deux centres de calculs sur le jet qui sont de nouveau situés aux USA.

Afin de diriger le trafic vers tous ces centres de calculs, Google pourrait théoriquement centraliser toutes les requêtes
et alors les envoyer aux centres de calculs. Mais ce serait évidemment inefficace.
En fait, chaque centre de calculs à sa propre adresse IP (adresse numérique sur l'Internet) et la manière dont ces
adresses IP sont consultées est contrôlée par le Domain Name System (DNS).

Fondamentalement, le DNS fonctionne comme ceci : Sur l'Internet, les transferts de données ont lieu toujours entre des
adresses IP. L'information à propos de chaque Domaine est résolu par son adresse IP qui est fourni par les serveurs
de nom du DNS.


Quand un utilisateur écrit une requête sur un domaine dans son navigateur, un serveur de nom localement configuré lui obtient l'adresse IP pour ce domaine en entrant en contact avec le serveur de nom qui est responsable de ce domaine. (Le DNS est structuré hiérarchiquement. L'illustration du processus entier dépasserait la portée de cet article.) L'adresse IP est alors mise en cache par le serveur de nom local, de sorte qu'il ne soit pas nécessaire d'entrer en contact avec le serveur de nom responsable chaque fois qu'une requête remonte jusqu'au domaine.

Les enregistrement pour un domaine au serveur de nom responsable constituent pour combien de temps l'enregistrement peut être caché par le serveur de nom. C'est le Time to Live (TTL) d'un domaine. Dès que TTL expirera, le cache du serveur de nom doit de nouveau rechercher l'enregistrement du domaine sur le serveur de nom responsable. Très souvent, le TTL est placée à un ou plusieurs jours. En revanche, le Time to Live du domaine www.google.com est seulement de cinq minutes. Ainsi, un serveur de nom peut seulement mettre en cache l'adresse IP de Google pendant cinq minutes puis il devra la rechercher.

Chaque fois que, le serveur de nom de Google reçoit une requête, il renvoie l'adresse IP de seulement un centre de données. De cette façon, les requêtes de Google sont toujours dirigées vers les différents centres de données en changeant des enregistrements de DNS.
D'une part, les enregistrements des DNS peuvent être basés sur le chargement d'un simple centre de données. De cette façon, Google conduirait à une simple forme de chargement équilibré par son utilisation du DNS. D'autre part, l'endroit géographique du cache d'un serveur de nom peut influencer sur le nombre de fois ou il reçoit les adresses simples de l'IP des centres de données. Ainsi, la distance pour des transmissions de données peut être réduite. Afin de montrer les enregistrements DNS du domaine www.google.com, nous les présentons ici par l'exemple du cache d'un serveur de nom.

La façon dont les centres de données, le DNS et la Google Dance sont connexes, est facile. Pendant la Google Dance, les centres de données ne reçoivent pas tous le nouvel index en même temps. En fait, le nouvel index est transféré au centre de données l'un après l'autre. Quand les requêtes des utilisateurs Google sont faites pendant la Google Dance, ils peuvent obtenir les résultats d'un centre de données qui a toujours le vieil index puis quelques minutes plus tard avec la même requête ceux d'un centre de données qui a le nouvel index. Pour les utilisateurs, la mise à jour de l'index a eu lieu en quelques minutes. Mais naturellement, ce procédé peut s'inverser, de sorte que Google commute apparemment entre le vieux et nouvel index.


La Google Dance Test des domaines www2 & www3

Le commencement d'une Google Dance peut toujours être observé sur les domaines test www2.google.com et www3.google.com.
Ces domaines ont normalement des enregistrement de DNS stable qui font la résolution de domaines de seulement une (souvent
la même) adresse IP.
Avant que la Google Dance commence, au moins un des domaines test à son adresse IP assigné par le centre de données
qui reçoit le nouvel index en premier.

L'accumulaton d'un index complètement nouveau une fois par mois, peut causer un ennui certain.
Après tout, Google doit spider quelques milliard de documents puis traiter de nombreux Terabyte de données.
Par conséquent, l'essai du nouvel index est inévitable.
Naturellement, le personnel de Google n'a pas besoin des domaines d'essais eux mêmes.
Certainement, qu'ils ont beaucoup d'options pour vérifier intérieurement un nouvel index, mais ils n'ont pas
beaucoup de temps pour effectuer les essais.

Ainsi, la raison d'avoir www2 et www3 doit plutôt montrer le nouvel index aux webmasters qui sont intéressées par leurs
futur rangs.
Plusieurs de ces webmasters discutent du nouvel index sur les forums de Google sur internet.
Ces discussions peuvent être observé par des employés de Google, mais à ce moment-là, le grand public ne peut pas encore voir
le nouvel index, parce-que les enregistrements DNS pour
www.google.com ne ne pointent pas sur l'adresses IP du
centre de données qui est mis à jour en premier quand la mise à jour commence.


Dès que les membres du forum de la communauté de test de Google ne trouvent plus aucun défaut de
fonctionnement grave provoqué par le nouvel index, les enregistrements DNS de Google sont alors prêts à faire la
résolution de
www.google.com du centre de données qui est mis à jour en premier.
C'est le moment ou la Google Dance commence.
Mais si les défauts de fonctionnement graves deviennent évidents pendant cette phase d'essai, il reste la
possibilité de décommander la mise à jour des autres centre de données.
Le domaine
www.google.com ne se servera pas du centre de données qui a l'index défectueux et le grand public
ne pourra avoir aucune modification à son sujet.
Dans ce cas-ci, l'index pourra être reconstruit ou le web spider encore une fois.

Ainsi, les résulats de recherche qui peuvent être vus sur www2.google.com et www3.google.com apparaîtront toujours
plus tard sur
www.google.com, aussi longtemps qu'il y a une mise à jour régulière d'index.
Cependant, il peut y avoir des fluctuations mineurs. D'une part, l'index d'un centre de données, n'est jamais complètement
le même d'un index à l'autre.
D'autre part, on suppose souvent que le calcule itératif de PageRank n'est pas encore fini, quand la Google Dance commence
de sorte que les valeurs préléminaires exercent l'influence des rangs à ce moment la.



Vous pouvez également faire héberger vos tutoriaux sur le site Misfu, il vous suffit de nous les envoyer

Aucun commentaire:

Enregistrer un commentaire