systemadmin.es > LAMP y web > Comparativa tráfico entre el log del servidor web contra Google Analytics y Google Adsense

Comparativa tráfico entre el log del servidor web contra Google Analytics y Google Adsense

Entre los los muchos tipos de bots, los navegadores con NoScript o los AdBlock variados es de lógica suponer que debe existir una diferencia de peticiones vistas desde el log del servidor web como desde un Google Analytics o lo que nos reporta el Google Adsense. He hecho el experimento con este blog y aquí están los resultados para una única semana.

Me hubiera gustado hacer el experimento más relevante estadísticamente dejándolo al menos un mes, pero por los recientes cambios en el algoritmo de Google es posible que las visitas se vean afectadas. Por lo tanto, he preferido usar los datos que ya tengo para evitar “contaminar” el experimento.

En este caso los datos para la semana del 8 al 14 de Agosto son los siguientes:

Fecha logs logs sin bots logs 200 nobot Google Analytics Google AdSense Ingresos
8 Aug 2011 5349 2574 2501 1594 1523 N 10^-2
9 Aug 2011 5324 2667 2587 1736 1446 N 10^-2
10 Aug 2011 5552 2592 2430 1454 1374 0
11 Aug 2011 5728 3148 2986 1835 1644 N 10^-2
12 Aug 2011 4866 2451 2316 1539 1332 N 10^-1
13 Aug 2011 3865 1372 1287 680 504 0
14 Aug 2011 4352 1131 1087 592 429 0
TOTAL 35036 15935 15194 9430 8252 N 10^-1

Los datos de cada columna son:

  • logs: Contador de todas las peticiones GET a una página del blog (excluyendo los 404)
  • logs sin bots: Contador de páginas vistas eliminando todos los bots, lectores de RSS y demás “tráfico no-humano“.
  • logs 200 nobot: Por el comentario de Maks3w, he cambiado la forma de contar de excluir los 404 a únicamente incluir los 200. De esta forma es mucho más real, aúnque no varían mucho los resultados
  • Google Analytics: Páginas vistas según dicho servicio
  • Google Adsense: Páginas vistas según el AdSense. Al existir un anuncio (y solo uno) en cada página debería existir una relación 1 a 1 con Google Analytics
  • Ingresos: Ingresos diarios por la publicidad con AdSense

Gráficamente tenemos:

Comparación de trafico según varias fuentes

Comparación de trafico según varias fuentes

Personalmente esperaba más diferencia entre Google Analytics y Google AdSense pero parece lógico que quien tenga el AdBlock también tenga el NoScript por lo que tiene cierta lógica que sean muy parecidos.

La diferencia entre lo que puedes obtener del fichero de log (con los resultados filtrados) es mucho: Revisando los datos y comprobando los User-Agents parecen correctos, por lo que parece que efectivamente existe bastante diferencia entre lo que puedes apreciar en el log del servidor web y lo que acaba contabilizando el servicio de Analytics de Google.

Lo otro lado me parece exagerada la diferencia entre lo que se aprecia en logs del servidor web contando los bots, crawlers y demás fauna con lo que acaba siendo una visita real.

Si esto fuera Mythbusters, daría el mito confirmado. Existe una gran diferencia las peticiones del servidor web que se registran y lo que indica Google Analytics. Considerando el agregado semanal, las páginas servidas según el log son casi 4 veces más de lo que indica el Analytics

Mito confirmado

Mito confirmado

Por otro lado, existe el mito que con un blog te puedes comprar un Ferrari por 10 minutos al día que dediques a escribir una entrada. Viendo la columna Ingresos y aún teniendo que se trata de un blog que no abarca a todos los públicos, creo que podemos dar el mito como cazado:

Mito cazado

Mito cazado

En setiembre será interesante volver a hacer la tabla, pero del mes entero.

8 comments to “Comparativa tráfico entre el log del servidor web contra Google Analytics y Google Adsense”

  1. Creo que publicar la cifra de ingresos es motivo de incumplimiento del acuerdo webmaster-google. Échale un ojo 😉

  2. Ya se pueden quedar mis N céntimos entonces

  3. Lo he cambiado por magnitudes, quizá es un poco mas polite

  4. Quizás deberías únicamente contar las peticiones 2xx ya que si sólo has excluido las 404 te dejas el resto de la gama 4xx, 5xx y 3xx que “no sirven el contenido html final”

  5. Cierto, estaba contando otros códigos que no debería. Aunque existe diferencia, no es suficientemente significativa.

    He cambiado:

    | awk ' $9 != 404 { print $line }' |
    

    Por:

    | awk ' $9 == 200 { print $line }' |
    

    Lo he actualizado en el post

  6. Quizás quieras darle una mirada a este proyecto: NoJSStats – http://labs.elhacker.net/nojsstats 🙂

    Saludos

  7. El que tenga ganas de bloquear estas cosas lo puede hacer de todas formas, no creo que valga la pena.

    Hay al menos un caso que elimina el user-agent y el referer (imagino que con un squid)

  8. Muy buenoooo!!!!!

Deja un comentario:

XHTML - Tags permitidos:<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>