Añadido el 28/05/2003
Anoche discutia en un foro con un compañero webmaster sobre si google haria esto, o haria lo otro... El caso es que despues de aquella charla decidi escribir un articulo al respecto.
Intentare comentar en las siguientes lineas algunos aspectos fundamentales del funcionamiento de Google:
¿Que tipo de archivos indexa google?
El listado de archivos que es capaz de reconocer google es muy extenso, y incluye todo tipo de archivos que puedan utilizarse en la programacion web:
Adobe Portable Document Format (pdf), Adobe PostScript (ps), Lotus 1-2-3 (wk1, wk2, wk3, wk4, wk5, wki, wks, wku), Lotus WordPro (lwp), Text (ans, txt), PHP (php), ASP (asp), HTML (html, htm), Flash (swf), xml (xhtml,...), CGI (cgi, pl,...), etc...
¿Indexa todos los archivos por igual?
No, los lenguajes tradiciones y los del lado del servidor los indexa correctamente, ya que un archivo en php, devuleve el resultado en formato html, por lo que no tendria problema. La duda surge en extensiones tipo swf y pdf por ejemplo, en estos casos, google tiene que emular la lectura de estos archivos, intentando traducir su codigo a formato html, no consiguiendo los resultados optimos que querriamos obtener.
¿Que es el cache de Google?
Es una "copia" de la pagina web, almacenada en la base de datos de google. Es una herramienta muy util, ya que si nuestro servidor estuviera caido, el visitante podria visitar la cache de nuestra web.
¿Que son los robots de google y como identificarlos?
Los robots visitan nuestras web periodicamente para tomar nota de las actualizaciones o cambios producidos en la misma, entre muchas otras cosas.
Otra funcion importante de los robots es el seguir los enlaces que apuntan hacia nuestro web y los enlaces hacia los que apunta nuestro web. Para identificar o saber si google ha visitado nuestro web, solo tendremos que comprobar que las siguientes ips han visitado nuestro website:
crawl1.googlebot.com 216.239.46.20
crawl2.googlebot.com 216.239.46.39
crawl3.googlebot.com 216.239.46.61
crawl4.googlebot.com 216.239.46.82
... ...
crawl9.googlebot.com 216.239.46.234
crawler1.googlebot.com 64.68.86.9
crawler2.googlebot.com 64.68.86.55
... ...
crawler14.googlebot.com 64.68.82.138
Como has visto google usa dos tipos de robots, el que empieza por 64 y el 216. Esto es debido a que el 64, realiza visitas frecuentes y se encarga de las actualizaciones de tu web (actualiza la cache de google), mientras que el 216, realiza una indexacion mas en profundidad, de cara al dace...
Seguremos en sucesivos articulos hablando de las caracteristicas de google. Mientras, rezar para que google os indexe jejeje.
Un saludo.