ANALISIS, CASO DE ESTUDIO, INTELIGENCIA WEB, Search Economy, Search Intelligence, SEARCHOLOGY, SEO

SOBRE “GOOGLE’s DEEP WEB CRAWL” (I)

Reflexiones en torno a “GOOGLE’s DEEP WEB CRAWL” (I)

O esbozo sobre el gran problema Search filosófico de los bibliotecarios

* Relectura Search de “Google’s DeepWeb Crawl” de Jayant Madhavan, David Ko Łucja Kot, Vignesh Ganapathy, Alex Rasmussen y Alon Halevy.

El Paper de los Googlers se encuentra en  www.cs.cornell.edu/~lucja/Publications/I03.pdf .

Dedicado a Enrique Aguilera

I THINK SEARCH ha estudiado “Google’s DeepWeb Crawl”, un ensayo hermoso. Y quisiéramos compartir nuestras reflexiones.

El Paper de los Googlers trata sobre el problema de la Optimización sobre la base de que existe la Web Oscura.

Su tesis es que dada la existencia y diferencia entre Web Visible y Web Invisible, debe procederse a permitir una metodología que permita indexar contenido relevante de la Web No Visible.

* No debe confundirse Dark Web con Dark Internet. Segun Wikipedia “The terms dark internet or dark address refer to any or all of the unreachable network hosts on the Internet. It should not be confused with either Deep Web or darknet. The first of these refers to web sites that, intentionally or not, are hard to find.”

Su objetivo de análisis queda presentado como sigue:

“Our objective is to select queries for millions of diverse forms such that we are able to achieve good (but perhaps incomplete) coverage through a small number of submissions per site and the surfaced pages are good candidates for selection into a search engine’s index.”

A propósito de él voy a hablar de la problemática filosófico-lógica implícita en la Clasificación, y su relación con la Search economía, los motores de búsqueda y los sistemas clasificatorios en el 2009, y su  vinculación con 3 conceptos Search de especial relevancia en Siglo XX y principios del Siglo XXI, a saber:

  1. la función Get Scored,
  2. la Palabra Clave, y
  3. el Tag

Descriptores

“Google’s DeepWeb Crawl”  – Optimización – Selección – Recuperación – Search Economía – Search engines optimización – Get Scored – motores de búsqueda.

Índice, Indexer, Crawl y definiciones

La gran aportación de los Motores de Búsqueda, y su Revolución, se funda en la creación del concepto de Índice.

El llamado Index es uno de los grandes logros del ser humano, y la invención que transforma el mundo. En esencia, el Índice del Motor de Búsqueda permite que las Queries – o Búsquedas-, deban ser respondidas sin acceder al texto o documento mismo.

Por un lado existe el documento, y por otro lado el Usuario. Es decir, 2 elementos. Ambos a dos estan intermediados. Y es precisamente en la Busqueda y el Resultado, donde la Intermedición acontece y dispone de sentido económico.

A través de la Busqueda y el Resultado, el User accede al Documento.

Así se permite que el documento se encuentre en el Índice. Pero bajo una condición: éste no se encuentra en su totalidad. Por lo que para acceder al “Documento en su totalidad”, o puede accederse directamente a través de Browser o a través de Índice, donde se encuentra como Resultado.

El Índice es, pues, el Lugar donde la Búsqueda y el Resultado acontecen. * Search Filosóficamente lo denominamos “Entre”.

Como veremos en este ensayo, no existe un único Indice sino varios. Y lo más importante:

meta-índices.

En Search Economía se manifiesta y es conocido bajo el acrónimo Serps (Search engines ranking positions) y refiere a la función Get Scored, que se da en el Índice.

El índice puede considerarse como un Conjunto. Así, no existe un único índice, pero aún asi es finito. Por ejemplo, existen tantos índices como lenguas internet.

Google crawl y lenguas internet - I THINK SEARCH

Y ya que la Información se encuentra en continuo movimiento, tambien existen, en consecuencia, cambios continuos en los mismos Índices, también llamados Updates.

Con todo, el Índice no es el único actor Search económico de importancia. Su popularidad se debe a que en él confluyen 3 fuerzas, y a que una de ellas es la Humana o User.

Estas 3 fuerzas confluyentes son:

  • el Indexer,
  • la quey engine y
  • el Interface.

Se observa así que el Índice forma parte de una arquitectura donde está englobado, y dispone, a su vez, de sus propias condiciones previas.

A orden Search económico, por ejemplo, en SEO, el Índice es visto como un Resultado de una operación previa.

Es decir, en SEO el Índice puede ser visto tanto como un Estado de Inicio, o como un Estado Final.

De entre de esta fuerzas Search, tambien se encuentra una especialmente importante y a menudo desconocida. Se trata del llamado Crawl.

El Crawl se corresponde con la “actividad externa del Motor de Búsqueda”, mientras que el resto de elementos que hemos indicado anteriormente, se corresponde con las llamadas “actividades internas”.

Y que estudiaremos en los siguientes lecciones.

Crawl e Índice son, pues, elementos definidores y necesarios de un elemento superior, a saber: el Tráfico.

La definición de Tráfico es con todo ciertamente amplia, y es considerada desde multiples puntos de vista, en sectores tan cercanos como es el de la Publicidad o el transaccional. Lo importante, subrayamos, es que el gran Activo Search económico del Índice es el Tráfico que produce.

Atmosfera

En Siglo XX la Ciencia de la Documentación planteó una serie de cuestiones trascendentales en la Historia de la Filosofía, que fueron tomadas en consideracion por estudiosos de todos los campos.

Curiosamente la Documentación redescubre una hipótesis de trabajo especialmente fértil, sostenida siglos atrás por el increíble filosofo Descartes, que no es otra que la aplicacion del llamado “Producto Cartesiano” al Lenguaje.

La hipótesis era sencilla:

Todo documento puede ser relacionado con otro Documento en tanto existe una Palabra Clave o una correlación termino con termino (term-term correlation).

Así aparece algo increíble:

era posible crear y construir los Tesauros.

O dicho de otro modo:

se intento iniciar el estudio entre las Palabras contenidas en un conjunto de documentos y los documentos que adquieren especial relevancia en relación a una única Palabra o Conjunto de Palabras.

Esta idea – aparentemente sencilla – dispuso de unas implicaciones notables en las Ciencia Cognitivas y la Inteligencia Artificial, por ejemplo. Y puede ser considerada la madre del pensamiento en torno a la naturaleza lógica del pensamiento.

Lo cierto es que a partir de esta idea, el mundo de la Información se transforma.

A nuestro ver se trata de un estadio primitivo del Estudio de la Informacion como concepto, pero tambien necesario. Y debe considerarse como un cambio de paradigma en su sentido estricto.

Es de sobra conocido en Filosofia que el Producto Cartesiano dispone de limitaciones notables, aun siendo eficaz en campos como los modernos GDS.

En Filosofia es habitual mirar a conceptos que han ido más alla de Descartes y no a Descartes mismo. Pues esa es precisamente la importancia de Descartes.

En el caso es que la Hipótesis de trabajo hubiesen sido los “números”, las cosas hubiesen sido mas sencillas. Sin embargo, y como indicamos, esta vez no se trataba de Numeros, sino de las “Palabras“.

Sin entrar en consideraciones sobre la Hipotesis de trabajo sobre la que se fundan muchos de los estudios IR, apuntamos ya que la diferencia entre Palabra y Numero es considerado como uno de los problemas logico-linguisticos mas controvertidos de la Filosofia.

Ciertos Filosofos indican que “las Palabras no son números”, y que del mismo modo otros afirman que “los numeros tampoco son palabras”. Se trata de un debate siempre inacabado, pues sus implicaciones son de especial importancia.

Así, en el siglo XX, nace la increible Teoría de la Palabra Clave, que presenta un avance importante en la Teoría de Clasificación, y que será ampliamente usada en la disciplina de la Algoritmia por Clusterización. Más tarde, y con la llegada de los Motores de Búsqueda, ésta se transforma en una pieza de especial importancia en la Teoría de la búsqueda y el Resultado.

Finalmente con la llegada de la Teoría de la Subasta SEM y la Optimización con target en Resultados Naturales (SEO), su estudio se torna de especial importancia y deja de ser una Teoría exclusivamente académica, y pasa a ser una disciplina estratégica desde un punto de vista Económico. En concreto, en el sector Online Travel business, siendo éste considerado como “a complex modeling of multiple inter-related attributes”.

De ahí la Search Economía y la Teoría del Trafico Web.

Así, el mundo de la estrategia empresarial Internet y los Motores de búsqueda consolidan esta línea de pensamiento en torno al problema de la clasificación.

Es así como el pensamiento económico Internet de principios del Siglo XXI queda configurado en sus inicios, y puede decirse que es heredero de la tradición de la Ciencia de la Documentación en torno a la Palabra Clave y su problemática.

Toda la tradición de la Palabra Clave puede observarse en la lectura de “Google’s DeepWeb Crawl. He seleccionado este texto pues muestra la ambicion el Humano y su Inteligencia.

En el fondo, se trata de un Paper que puede resumir el avance de la Historia de Internet hasta el momento en que publicamos esta Leccion.

Se trata de un compedio de ideas y creencias. Y nos servirá para analizar la dirección del espíritu Humano en relación a la Naturaleza de Internet.

(fin de “GOOGLE’s DEEP WEB CRAWL” (I))

Standard

Leave a comment