- Cómo obtiene esta
información nuestro programa de
estadísticas - Cómo usar los datos
obtenidos - Consideraciones sobre el peso de las
cadenas - Consideraciones sobre la cantidad de
cadenas - Cantidad y peso de las
cadenas - Optimización de cadenas
potencialmente importantes - Inconvenientes en el análisis
de cadenas
Una "cadena de búsqueda" es lo que escribe un
usuario en un buscador, que a su vez le devuelve una lista de
páginas
web que contienen los vocablos o frases expresadas en la
cadena de búsqueda. Los buenos programas de
estadísticas web nos permiten obtener las
cadenas de
búsqueda que emplearon los visitantes que llegaron
desde buscadores.
Este artículo describe los mecanismos por los cuales el
sistema de
estadísticas obtiene la información, y enseña al webmaster a
obtener el máximo provecho de estos datos.
Cómo obtiene esta
información nuestro programa de
estadísticas
En realidad es el propio buscador (Google,
Alltheweb, Altavista, etc) quien gentilmente le transfiere esta
información a nuestro sistema de estadísticas. Y lo
hace añadiendo un parámetro y un valor al campo
REFERER en la cabecera HTTP que se nos
envía cuando se accede a nuestra página al hacer
click en el link que aparece en la lista de resultados de la
búsqueda.
El campo REFERER normalmente contiene la URL del
documento desde donde -siguiendo un link- se accedió a
nuestras páginas. Nótese que si se accede a una
página escribiendo su URL directamente en el navegador, el
campo REFERER aparece vacío (lo cual es correcto ya que no
hubo ninguna página referente.
En el caso de los buscadores se introduce una
pequeña variante, que es lo que permite transmitir la
cadena de búsqueda: luego de la URL de la página de
resultados del buscador aparece el signo "?" seguido del nombre
de la variable de búsqueda (que varía de buscador
en buscador, ver Tabla 2), un signo de igual y por último
la cadena de búsqueda codificada como URL (url
encoding).
| |
http://www.google.es/search?q=%22Estad%A1sticas%20Web%22 | |
Caracteres codificados: | %22 -> " |
%A1 -> í | |
%20 -> espacio | |
TABLA 1:
ejemplo de transmisión de una cadena en
Google
Como ya mencionamos, el nombre de la variable de
búsqueda es diferente para cada buscador. A
continuación se muestra una tabla
con los nombres de variables de
búsqueda utilizados por los buscadores más
populares.
| |
Buscador | Variable de |
google.com | q |
yahoo.com | p |
altavista.com | q |
lycos.com | query |
hotbot.com | MT |
msn.com | MT |
infoseek.com | qt |
eureka.com | q |
webcrawler.com | searchText |
excite.com | search |
netscape.com | search |
mamma.com | query |
alltheweb.com | query |
northernlight.com | qr |
TABLA 2: variables de búsqueda en diferentes
buscadores
En cuanto a la cadena de búsqueda, ésta se
transmite codificada de una forma especial para solucionar la
limitante técnica por la que sólo son transmisibles
caracteres simples (sin tildes, ni "ñ", ni espacios en
blanco u otros signos).
La codificación tipo URL (url encoding) copia
los caracteres normales sin modificarlos, y aquellos caracteres
especiales (la "ñ" por ejemplo) se sustituyen por un
código
que comienza con "%" y sigue con el número ASCII hexadecimal
que representa al caracter que deseamos codificar. El espacio en
blanco se sustituye por "%20" o por el signo "+". A su vez, si
apareciese el verdadero signo "+" se codificaría como
"%2B".
Según este protocolo de
codificación, los caracteres que no se codifican (pueden
ser representados directamente) son ";", "/", "?", ":", "@", "=",
"#" y "&". Esto es así ya que este conjunto de
caracteres es necesario para conformar las URLs según el
protocolo HTTP.
Ejemplos de codificación de cadenas (url
encoding):
Ejemplo 1:
Este%20es%20un%20ejemplo%20de%20una%20cadena%20codificada
Ejemplo 2: 2%20%2B%202%20%3D%204
Los programas de estadísticas web -depdiendo de
cómo los configuremos- nos pueden mostrar las primeras 30
cadenas de
búsqueda (es decir: las 30 que han sido más
empleadas para hallar nuestro sitio web), o bien un listado
conteniendo todas las cadenas con que fuimos encontrados. Yo
personalmente prefiero poder ver
TODOS los resultados, lo que me permite obtener algunas
conclusiones adicionales.
A continuación adjunto un reporte de cadenas de
búsqueda de los primeros días de noviembre de 2004
del sitio www.estadisticasweb.com:
| ||
Accesos | Porcentaje | Cadena buscada |
42 | 6.03% | estadisticas |
34 | 4.88% | analisis de log |
29 | 4.16% | awstats pasos para |
28 | 4.02% | geotargeting |
26 | 3.73% | configurar awstat |
26 | 3.73% | contador de visitas descargar |
25 | 6.03% | estadisticas software |
25 | 3.59% | modalidad |
24 | 3.44% | graficas estadisticas |
23 | 3.30% | http://www.estadisticasweb.com |
23 | 3.16% | localizacion geografica |
22 | 3.01% | log |
21 | 2.87% | programas gratis |
20 | 2.72% | sistemas gratuitos |
19 | 2.58% | analisis de logs |
18 | 2.58% | analisis de trafico |
18 | 2.58% | analizador de logs gratuito |
17 | 2.44% | aná¡lisis de log |
16 | 2.29% | análisis de los logs |
15 | 2.15% | awstats.pl |
15 | 2.15% | awstats_buildstaticpages.pl |
14 | 2.01% | bandera ip |
13 | 1.86% | bandera pais visitante |
13 | 1.86% | banderas del mundo |
10 | 1.43% | clientes nat |
8 | 1.14% | como acelerar la conexión a |
7 | 1.00% | como hacer para que de el nombre de la |
7 | 1.00% | configuracion awstats |
6 | 0.86% | connection hijacking |
5 | 0.71% | contador |
5 | 0.71% | contador web gratis |
3 | 0.43% | descargar contadores de |
3 | 0.43% | ejemplos de casos para su |
2 | 0.28% | estadisticas web |
2 | 0.28% | estadísticas referidos |
2 | 0.28% | gnu |
2 | 0.28% | identificar el pais del visitante con |
2 | 0.28% | licencia |
2 | 0.28% | localización |
2 | 0.28% | municipalidad de punta del |
2 | 0.28% | para que sirve webalizer |
2 | 0.28% | php |
2 | 0.28% | que es licencia fdl |
2 | 0.28% | que es secuestro |
… | … | … |
1 | 0.14% | raw visitas |
1 | 0.14% | |
1 | 0.14% | saber cómo dns |
1 | 0.14% | secuestro de la pagina de |
1 | 0.14% | secuestro pagina de inicio |
1 | 0.14% | servidores gratis |
1 | 0.14% | sistema opertaivo linux |
1 | 0.14% | sistemas basados |
1 | 0.14% | todo sobre contadores |
1 | 0.14% | todo tipo de informacion sobre el |
1 | 0.14% | whois |
… | … | … |
TABLA 3: fragmento de reporte de cadenas de
busqueda
Cantidad y peso de las
cadenas
En la tabla anterior se puede apreciar el siguiente
fenómeno: al comienzo de la lista se pueden encontrar las
cadenas mediante las cuales hemos sido más encontrados. En
este caso de estudio aparecen otras muchas cadenas mediante las
cuales se hahallado el sitio pero en pocas ocasiones (1 o 2
veces).
CANTIDAD es el número de cadenas
diferentes mediante las cuales hemos sido hallados.
PESO es la cantidad de veces que ha sido
utilizada una cadena específica.
Este tipo de reporte del ejemplo es el típico de
aquellos sitios web que poseen mucho contenido escrito: los
buscadores han encontrado infinidad de palabras y expresiones que
incorporan en los resultados de las búsquedas más
inimaginables. Consideremos por ejemplo la cadena "todo tipo de
informacion sobre el secuestro". Pero efectivamente, si buscamos
"todo tipo de informacion sobre el secuestro" en Google, aparece
una página de estadísticasweb.com entre los
resultados (en un artículo que trata sobre el secuestro de
logs de referidos).
Consideraciones sobre la
cantidad de cadenas
La cantidad de cadenas de búsqueda tiende a ser
proporcional a la cantidad de contenido escrito (original)
publicado en la web. Una web pequeña (una página de
venta de un
producto
específico, por ejemplo) dará también una
cantidad pequeña de cadenas de búsqueda.
Consideraciones sobre el peso de
las cadenas
Las cadenas de gran peso (aquellas que son
indiscutiblemente las más usadas por las personas que
encuentran nuestro sitio en los resultados de buscadores) son de
gran importancia para el flujo de visitas al sitio web. El
webmaster debe prestarles atención, y debe realizar el máximo
esfuerzo para optimizar la posición en los buscadores en
las búsquedas que empean estas cadenas.
Factor cantidad-peso (o ¿cuánto dependemos
de nuestras cadenas de busqueda?)
He analizado sitios web que apuestan al máximo a
un pequeño conjunto de cadenas de gran peso. En las
estadísticas de estos sitios web se encuentran pocas
cadenas, pero con un peso importante.
Por otro lado, he conocido sitios web que muestran una
enorme cantidad de cadenas de búsqueda diferentes, pero
ninguna de ellas con un peso significante. Este es el perfil de
los sitios web con mucho contenido escrito.
Estos dos modelos son
aplicables en diferentes tipos de páginas web. Si se trata
de una página web
de venta de relojes, es natural que debamos optimizar el sitio
para cadenas como "reloj", "Citizen", "Rolex", etc. En este caso
el webmaster debe hacer un importante esfuerzo por posicionar el
sitio en los buscadores para estas cadenas. Pero en el segundo
caso (donde la cantidad es más importante que el peso: por
ejemplo en un sitio de información, o un foro), el webmaster no debe
preocuparse por optimizar ninguna página pensando en los
buscadores. Simplemente agregando más y más
contenido verá cómo aparecen más y
más cadenas de búsqueda en sus reportes
estadísticos.
Según el tipo de sitio web que estemos manejando
(y los resultados que deseemos obtener) aplicaremos la estrategia "peso"
o la estrategia "cantidad" en nuestras optimizaciones.
Optimización de cadenas
potencialmente importantes
Dentro de las cadenas de búsqueda más
utilizadas, podemos ver en el ejemplo (Tabla 3) que se halla la
cadena "estadisticas software". Esto significa
que están llegando visitantes que buscaron "estadisticas
software" y de alguna forma, y en algún buscador nos
hallaron. Sin embargo, si buscamos en google "estadisticas
software", el sitio estadisticasweb.com ¡aparece en la
posición 396! (NOTA: esto es así al momento de
escribir este artículo, y sin duda no se mantendrá
en esta situación por mucho tiempo). En
otros buscadores -usando esta misma cadena de búsqueda- ha
aparecido en posiciones igualmente desastrosas. ¡Y sin
embargo es pocos días 25 personas se tomaron el trabajo de
recorrer cientos de resultados hasta encontrar este sitio
web!.
Aquí hemos encontrado una veta a explotar: este
análisis indica claramente que si optimizamos nuestras
páginas, o si conseguimos más links con las
parabras "estadisticas software" estaremos invirtiendo nuestro
esfuerzo en una acción
con resultados garantzados (hay gente real usando esta cadena de
búsqueda y encontrándonos, a pesar de aparecer en
posiciones alejadas).
Inconvenientes en el
análisis de cadenas
La inmensa mayoría de los programas de
estadísticas web que son capaces de reportarnos las
cadenas de búsqueda con que hemos sido hallados, son a su
vez incapaces de reportarnos en qué buscadores nos han
hallado (y cuantas veces) mediante una cadena determinada.
Volviendo al listado del ejemplo: hasta ahora no he podido darme
cuenta en qué buscador he sido encontrado por un cliente que
buscaba "saber cómo dns". Otro
inconveniente asociado a las cadenas de búsqueda es la su
vulnerabilidad para ser objeto de secuestro de log, con una
variante del ataque a logs de referidos que se explica en mi
artículo
"Una nueva modalidad de spam: secuestro del log de
referidos".
El conocimiento
de las cadenas de texto con que
nos encuentran los usuarios que hacen uso de los buscadores, la
cantidad de cadenas diferentes, la importancia de algunas cadenas
en particular, etc. constituye la herramienta de análisis
más potente para la actividad SEO (Search Engine
Optimization) u optimización del posicionamiento
en buscadores.
En el lenguaje
SEO, a lo que nosotros llamamos "cadenas" le llaman "keywords" o
"key-phrases".
Es parte de la interacción natural entre disciplinas de
orientación diferente pero que persiguen un mismo fin: el
éxito
de nuestro sitio web.
Ing. Eduardo González
González