ANALISIS, CASO DE ESTUDIO, INTELIGENCIA WEB INTERNET, INVESTIGACION, INVESTIGACIONES, Search Economy, SEARCHOLOGY, SOBRE LA NATURALEZA DE INTERNET

SOBRE “GOOGLE´S DEEP WEB CRAWL” (III)

SOBRE “GOOGLE´S DEEP WEB CRAWL” (III)

Decidado a Johnny Long

Un video para Google Deep´s Crawl con “Experimental Jet Set”, de Lógica lleno de creatividad.

Los Bibliotecarios y data types of inputs

O esbozo sobre el gran problema Search filosófico de los bibliotecarios * Relectura Search de “Google’s DeepWeb Crawl”  de Jayant Madhavan , David Ko Łucja Kot, Vignesh Ganapathy, Alex Rasmussen y Alon Halevy

La Biblioteconomía es una disciplina verdaderamente fascinante y fértil.

El mundo digitalizado del siglo XXI depende en gran medida de la intuición e inteligencia de sus expertos a lo largo de la Historia, desde tiempos inmemoriales.

De hecho, el gran problema de los bibliotecarios es precisamente aquel que ha estimulado la creatividad Search de muchos desarrolladores para permitir encontrar aquello que puede ser importante en un futuro.

Es decir:

la metodología que permite que la Búsqueda sea prometedora y valiosa.Y el sueño de enseñar a hablar a la Máquina.

Desde la Antiguedad el Bibliotecario supo de la importancia de ofrecer Resultados adecuados a sus Mecenas, Reyes o conquistadores. Los Bibliotecarios no eran Visionarios o Religiosos sino eruditos y creativos. Y se les respetaba con orgullo pues sabian de la increible importancia de que poder encontrar lo que se está buscando.

Se le preguntaba al Bibliotecario, y debía saber la respuesta. En caso contrario estabamos en un aprieto.

Por poner unos ejemplos:

  • encontrar el gran libro que se precisa,
  • el autor que revela la idea,
  • o la numeración – o palabra clave o sonido – que está asociada a otra, y que a su vez, da luz a lo que es buscado.

Es decir:

Aquello que es un Resultado y que  es relacional.

Y más aún:

Aquellas Leyes – si es que existen – que gobiernan la interacción entre la Búsqueda y el Resultado.

Así y para este propósito los antiguos Bibliotecarios consensuaron que el primer paso que debía darse era el solucionar el problema de la Ordenacion de los Libros, Archivos o documentos, que se almacenaban en sus Bibliotecas, en papiros, rollos o lo que se diese.

Este paso fue esencial para que los Libros y Documentos pudiesen ser Recuperados a modo de Respuestas.

De hecho, una mala Ordenacion implicaba una mala gestión.

El problema de la Ordenacion da un giro radical con la aparición de la Computadora. Con el Algebra Booleana aplicada a los inventarios bibliograficos nace  la Prehistoria de los Motores de Búsqueda.

Se trata de un hecho decisivo: por primera vez se puede disponer de un Listado que además de mostrar “todas las obras de Cervantes” permite también ofrecer “todas las obras de cervantes escritas después del Quijote”. E incluso, “todas las obras de cervantes escritas después del Quijote y en Madrid”.

Como puede observarse, los límites entre Consulta e Investigación quedan diluidos, y pasan a ser casi lo mismo. Y este es precisamente el gran avance realizado por los Motores de Búsqueda.

Por ejemplo, la labor de un erudito, después de largos años de estudio, es ahora posible de forma rápida, facil y cómoda.  Además, si se sabe buscar es posible Ordenar sobre lo que a su vez ya ha sido ordenado, y, así, realizar una asociación.

Esta es la esencia de las llamadas Bases de Datos, de la disciplina Searchology y del Google Hacking, con el talentoso experto en Seguridad y Buscadores Johnny Long en su web http://johnny.ihackstuff.com/: “Hola, Me llamo Johnny y hackeo cosas.”

La idea original del Bibliotecario ha sido siempre el misterio de la Ordenación. Una habilidad que si se usa correctamente se transforma en Poder. Y, por ende, en Conocimiento.

Según el Paper de los Googlers las supuestas leyes que guían la Interacción entre Búsqueda y Resultado, son algorítmicas. Para ello subrayan que previamente a toda acción, debe indexarse.  Sin embargo debe hacerse de forma selecctiva.

Se nos indica:

include a reasonable number of relevant records but small enough to contain only truly relevant records

Así y para analizar Lo-Relacional, Searchology tradicionalmente atiende – según indica Google’s DeepWeb Crawl – al estudio del Interface.

A este respecto se sostiene que:

The surfacing problem consists of two main challenges: to decide which form inputs to fill when submitting queries to a form and to find appropriate values to fill in these inputs.

Y más aún, se sugiere:

Lo poderoso es lo que puede crear una nueva relación.

A propósito de ello quiero indicar que:

Various accounts have hypothesized that the Deep Web has an order of magnitude more data than the currently searchable World Wide Web [2, 9, 12]. Furthermore, the Deep Web has been a long-standing challenge for the database community [1, 9, 10, 13, 14, 18, 19] because it represents a large fraction of the structured data on the Web.

Con database community y HTML form is defined within a form tag.

La disciplina filosófica llamada Hermenéutica investiga esta problemática, independiente de la lingüística, y busca determinar las condiciones trascendentales de toda interpretación.

La hermenéutica (del griego ερμηνευτική τέχνη, hermeneutiké tejne, “arte de explicar, traducir, o interpretar”) es el conocimientoarte de la interpretación, sobre todo de textos, para determinar el significado exacto de las palabras mediante las cuales se ha expresado un pensamiento.

Se trata de reflexionar el  problema lógico de la Busqueda, que toca de lleno el problema de la clasificación Web y en Internet.  ¿Donde comenzar? Ha de saber el lector que todo sistema clasificatorio es por definición limitado. Así toda clasificación dispone de una necesidad que no es otra que clasificar algo en relación a otra cosa.

Una de las limitaciones que subyacen al problema logico de la busqueda es la que sigue:

increase crawling traffic and will likely produce many results with empty result sets.

Por lo que se ha de seleccionar previamente donde debe realizarse en Crawl.

Por otro lado y desde un punto lógico encontramos el problema semántico.

Para ver este asunto imaginemos que existen

Del mismo modo podemos usar 3 ejemplos nuevos:

Se trata del Problema de la Anfibologia e Internet, que consideramos como sigue:

  • A 1 anchor le corresponden 1 Url de destino.
  • A 2 anchor le corresponden 1 Url de destino.
  • A 1 mismo anchor le corresponden 1 Url de destino diferentes.

Queda asi definido las siguientes condiciones de la naturaleza de Internet.

Existirán conflictos entre diferentes url al disponer un mismo Anchor dado que este es referenciador y un criterio Search económico en la función Get Scored.

Aparentemente se trata de algo comun y a lo que estamos acostumbrados. Es sencillo “the web browser sends an HTTP request with the inputs and their values to the server.”

Sin embargo y a mi ver presenta una Paradoja Search Economica.

En Internet hemos de diferenciar entre a HTTP request y los anchors donde se encuentra el Url.

El HTTP request es una operación de la Maquina, mientras que el acto de crear un web donde se aloja un Anchor, y el Anchor mismo, corresponde a una operación de un ser humano.

Es decir, el Humano crea los links mientras que la Maquina, se limita a seguirlos y permitir el servicio.

Estamos presuponiendo asi que la Máquina como concepto no puede ni podrá realizar la tarea de elegir entre dos anchors en base a criterios de gustos o su curiosidad, que es exclusiva del Humano. Del mismo modo, el Humano no podrá realizar tareas que la Maquina sí puede hacer. Esto es algo que todos sabemos. Y la esencia de la Hermeneutica, esencia de la Filosofia e intimamente ligada con el Pensamiento Abstracto Lógico.

Como vemos la reflexión Hermeneutica humana es significativa pues nos permite atender a aquellos aspectos posibles, resonancias, o ideas subyacentes así como menciones, referencias u otros. Y reflexiona sobre ellos. De hecho, el sueño de una  Maquina que quisiese aprender a pensar sería averiguar cómo poder realizar algo semejante.

Por otro lado y frente a la Hermeneutica nos encontramos el campo de la Cibernetica, una disciplina que en medio de esta problemática ha revisado sus conceptos y ha creado algunos especialmente útiles como son:

  • density estimation,
  • clustering or
  • discriminant analysis.

Existe otro campo interdisciplinar que me gustaría resaltar. Se trata de la llamada disciplina “information management“, ciertamente desconocida, y que nos dice de ella misma:

“information management”: the identification and organisation of internal and external information so that it can be found quickly and easily when it is needed.

Observe el lector que se indica la identificacion de Información, por un lado; y la organizacion de Información por otro lado.

  • identificacion de Información
  • organizacion de Información

Además, se da luz a las dos dimensiones de la Información, lo Interno y lo Externo. Los dos lugares donde tradicionalmente se supone que la Información acontece. Y también la Conciencia, siguiendo el espíritu de Descartes.

De igual modo existe el spidering y el crawl en el caso search económico. Esto se puede relacionar rápidamente con el text boxes problema.

El Text Boxes Problem

A finales del siglo XX fue usado por toda la Web de forma popular el Text Box en Html. El Text Box es una suerte de prolongación del Motor de Búsqueda.

Sin embargo, mientras un Text Box muestra “subset of the candidate keywords is chosen as the set of values for the text box”, por su parte el Motor de Búsqueda permite solicitad un Resultado bajo cualquier tipo de Input.

La limitacion del Text Box es la existencia del concepto de “ row not recognized”, que sigue:

Una vez se escribe en un text box se produciran Resultados Razonables solo si se escriben valores apropiados (“type-appropriate values”.) Por poner un ejemplo, se podría saber el numero de flores enviadas o compradas en 1 codigo de postal, y, así, evaluar CPM del clic en una ciudad.

La Era Search de siglo XXI da un giro radical al uso text box. Uno de los más increibles es el device de telefonía que  permite  “Buscar con la voz”.  E incluso táctilmente. * Mencionamos que muchos jovenes ya no saben escribir fluidamente con un boligrafo.

El uso de la voz o los dedos de la mano para solicitar resultados no es en absoluto el fin del motor de búsqueda. De igual forma, tampoco significa el final de la Optimización en Buscadores. Sino la afirmación definitiva de la Ordenacion de Informacion como un elemento configurador del mundo Search económico y la colonización de nuevos territorios por parte de la Búsqueda y el Resultado.

La voz y lo táctil sin embargo no dan respuesta clara al Problema epistemológico de la Caja de Búsqueda. El problema sigue siendo el mismo. El Paper de Google expone con una gran claridad el uso del Text Boxes. Y concluye con una indicación que resume su alcance y el problema subyacente a su uso:

We first consider the problem of identifying good candidate keywords for generic text boxes.

A saber:

Dado un text box, ¿qué palabras son las adecuadas?

  1. select words from a page by identifying the words most relevant to its contents.
  2. restrictions on the máximum number of keywords for a text box.
  3. Select  one candidate keyword from each cluster.

Finalmente se formula la hipotress que sigue:

For each form X, we try to select n-keywords.

* la media es de 500

Los Googler nos indican que debe llegarse a un subconjunto de palabras clave candidatas.

El problema computacional se planeta como el problema de identificar de forma clara, eficaz y completa buenas palabras clave candidatas para “generic text boxes”.

El problema se plantea desde su inicio como una Selección.

Ahora bien:

¿qué seleccionar?, ¿en base a qúe? ¿bajo que condiciones? ¿sobre qué contexo?

Ciertamente, identificar la Información es diferente de organizarla.

Nos preguntamos:

¿la division entre Información externa e Información interna, a que refiere? ¿que indica?

A mi ver se trata del ALMACENAMIENTO, y terminos derivados de el. Solo aquello que es Almacenado ha sido Indexado. No hay ALMACENAMIENTO POSIBLE sino este no es Indexable.

Las dos Webs

El Link se encuentra sujeto a ciertas limitaciones. Google’s DeepWeb  refiere a esta limitacion indicando que “web crawlers employed by Search engines rely on hyperlinks to discover new web pages”

large-scale Deep-Web surfacing system.”

El Paper “Google’s DeepWeb Crawl” nos indica que existen 2 mundos Web:

  1. La web Visible y
  2. La web Invisible. (También llamada Oscura)

Una condición determina la Web: crawl.

  • A la web Visible le corresponde el concepto Crawlable, y
  • A la web Invisible, le corresponde el concepto  uncrawlable
  • Y una tercera Web que es Intederminada.

Siguiendo el pensamiento de la Logica Polivalente podemos decir que:

  • A la web Visible le corresponde el concepto Verdad y Falsedad, y
  • A la web Invisible, le corresponde el valor de Interminación,
  • Y a la tercera Web le corresponde el valor de No-Indeterminación.

La tesis es la que sigue:

Si bien la Intederminacion es ni verdadera ni falsa, la No-Indeterminacion es ni no-verdadrera ni no-falsa.

Y ADEMAS, existe una limitación:

the size of the main index of a search engine is quite large, it is still not nearly enough to store all the pages that can be possibly be extracted from the Deep Web.

La web visible refiere a la Web Indexada. Mientras que la Web Invisible refiere a la Web No indexada o (disyucion no exclutente) a la Web No Indexable (por ejemplo: “Deep Web refers to content hidden behind HTML forms”.)

De hecho, que la Web No haya sido indexada no quiere decir que no sea Indexable mientras que la Web No Indexable sí quiere decir que nunca podrá ser Indexada.

Desde un punto de vista de Optimización debe advertirse que la función Get Scored se encuentra determinada por el llamad “The Get Candidate Inputs Method”.

Se nos indica:

The Get Candidate Inputs method chooses the inputs that are to be considered, chooses the inputs that are to be considered.

Si bien no todo es indexable, Google también ha de rechazar aquello que implica un gasto computacional, y que no convierte la indexación en algo productivo. Es decir, que no es Relevante.

O dicho de otro modo:

si el Motor de Búsqueda Google ofrece resultados que no interesan al usuario, se pierde fuerza Search económica, pues se posiciona Información no relevante y de este modo del Trafico creado no es Search económicamente explotable. Si pensamos inversamente nos damos cuenta que el mensaje de Google Inc es sencillo y franco.

Solo los Webs verdaderamente informativos serán indexados y dispondrán de posiciones ya que solo estos son utiles como productos Search económicos. En cierto sentido, los criterios de clasificación Search económica son dependientes en gran medida de las Webs Rastreadas.

En GDC refieren a “the select menus and the text boxes (if input values are known).”

Un caso extraordinario en este sentido el el estudio de la Biblia, donde creo que destacan los Franciscanos. Como vemos, si se sabe como identificar los importante, se pasa a la fase de encontrar en aquellos lugares donde lo importante ha sido creado y es creador. Desde ahi se vertebrara un nuevo mundo. Si reflexionamos advertimos que la relacion entre la Filosofia, el estudio de la Biblia, “information management” y SEO es interesante.

21 de agosto de 2008: Un video muy bueno sobre Human Language Technology con los que quieren enseñar a hablar a la Máquina.

Human language technology experts at Google, Franz Josef Och and Mike Cohen discuss their exciting research in machine translation and speech technology with Alfred Spector, Google VP of Research and Special Initiatives.

La disciplina llamada SEO estudia fundamentalmente la posibilidad lógica de la Maquina y el Humano. De aqui realiza conjeturas e hipotesis de trabajo que permitan intermediar de forma adecuada la funcion “Sort by: Score”. La función “Sort by: Score” es trascendental en la medida que conforma no solo la search economia sino el espiritu del ser humano. Tal y como indica Enrique Aguilera a dia de hoy ha sido malentendido el concepto de SEO.

Los tesauros documentales son un tipo de lenguaje combinatorio que consta de listas de términos que representan un ámbito científico y técnico determinado y que posee una serie de relaciones semánticas entre los términos que lo conforman. Estas relaciones semánticas son de tres tipos concretos: equivalencia, asociación y jerarquía. Este tipo de lenguajes documentales cuentan con una gran flexibilidad y capacidad de especialización, lo que los hace muy útiles en entornos de recuperación de información (RI) como Internet. La definición más aceptada de tesauro es la de un lenguaje documental de estructura combinatoria, de carácter especializado, que se basa en expresiones conceptuales llamadas descriptores, provistas de las citadas relaciones semánticas.

En 1943 McCulloch & Pitts estudian lo que se llama “Boolean circuit model of brain”.

Sus estudios derivaron en las siguiente invención:

“This search function, provided by Atomz.com, unfortunately does not support proper Boolean searches. However, if you choose “Sort by: Score” results are sorted so that those containing most of your search words appear first. You can use “+” or “-” in front of search terms to show that they are required or should be excluded, respectively. Lower case letters match any case, upper case letters match upper case letters only. Word stemming is implemented, using rules and a dictionary, and “sounds-like” searching is applied automatically. Phrases should be typed in quotation marks, e.g. “Web page”. This search function, provided by Atomz.com.”

Sin embargo la function Sort by Score es dependiente del Crawl. Ya que solo es posible si y solo si previamente se ha realizado un Get y Post.

A modo meramente indicativo recupero este texto donde se nos explica de forma clara que es un HTML FORM. He seleccionado este parragrafo intencionamente ya que esta íntimamente ligado a la Documentacion.

Se nos indica que:

An HTML form is defined within a form tag (example in Figure 1). The action identifies the server that will perform the query processing in response to the form submission. Forms can have several input controls, each defined by an input tag. Input controls can be of a number of types, the prominent ones being text boxes, select menus (defined in a separate select tag), check boxes, radio buttons, and submit buttons. Each input has a name which is typically not the name that the user sees on the HTML page. Users select input values either by entering arbitrary keywords into text boxes or by selecting from pre-defined options in select menus, check boxes and radio buttons. In addition, there are hidden inputs whose values are fixed and are not visible to users interacting with the form. These are used to provide the server additional context about the form submission (e.g., the specific site from which it came). In this Paper de los Googlers we focus on the select menus and text boxes in a form. Check boxes and radio buttons can be treated in the same way as select menus. When a form is submitted, the web browser sends an HTTP request with the inputs and their values to the server using one of two methods: get or post.

Si queremos pensarlo desde un punto de vista de la Bio-Etica o la Lógica de Guerra entre Maquinas y Hombres  podemos ver que para decidir que ser humano es mejor que otro, antes precisamos disponer del Conjunto Completo del Código Genetico.

A mi ver el Paper de los Googlers de Google es interesante ya que muestra por vez primera la radicial importancia de la acción Humana en la búsqueda de Información. Es decir, el hecho de que es el Humano el que selecciona y aprieta un Boton para encontrar ciertos resultados. La algoritmia sobre Javascript será determinante en futuro datamining.

Un video del divertido especialista de Google Matt Cutts

Por ello el Paper de los Googlers de Google nos da una definicion a reflexionar:

We define the problem of Deep-Web surfacing in terms of choosing a set of queries to submit to the form. as per the HTML  specification, post forms are to be used whenever submission of the form results in state changes or side-effects (e.g. for shopping carts, travel reservations, and logins). For these reasons, we restrict our attention in this Paper de los Googlers to get forms that tend to produce content suitable for indexing. We ignore forms that require any kind of personal information.

Que quiere decir: el mundo lo hacen los Hombres.

🙂

Saber mas:

VIva Johnny Long ! y Wikipedia: Google Hacker

Johnny Long: Genio y hacker del Gran Google, como experto en seguridad da ideas al SEO. ¡Un ejemplo de cómo ser superior a la Maquina y luego dedicarse a la caridad!

Johnny Long resuelve tras trabajo constante cómo descubrir resultados antes insospechados. Crea una nueva forma de investigacion Search y enfoque, revoluciona el SEO y las conclusiones personales de sus expertos en todo el mundo, dando ideas y nuevos caminos que recorren. Curioso, internet, es un apasionado del conocimiento que dan los resultados. Es superior a Google.

Johnny Long, otherwise known as “j0hnny” or “j0hnnyhax”, is a renowned computer security expert a and Search Engines Optimization, author, and public Google Hacker speaker in the United States.

Clever and revolutionary Long is well known for his background in Google hacking, a process by which vulnerable servers on the Internet can be identified through specially constructed Google searches. He has gained fame as a prolific author and editor of numerous computer security books.

I like Johnny because he has created GOOGLE HACKERS FOR CHARITY- He said:

We feed children with funds raised through our various subscription services, build computer classrooms in East Africa to provide valuable job assistance to vulnerable children and adults, provide technical service to charities that can not affort those services, and provide job experience and references to our volunteers.

A REVOLUTION : worlwide talent for the World

http://www.hackersforcharity.org/
http://en.wikipedia.org/wiki/Johnny_Long

Thanks

Advertisements
Standard

One thought on “SOBRE “GOOGLE´S DEEP WEB CRAWL” (III)

  1. Pingback: SHANNON – El hombre que logró la unión entre LOGICA Y ELECTRONICA | I THINK SEARCH

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s