viernes, 9 de noviembre de 2012

Historia de Internet "Los Buscadores"



Historia de Internet
"Los Buscadores" 





Como ya hemos ido estudiando a lo largo de la asignatura la historia de internet y ya he ido comentando aspectos o temas relacionados de éste, no voy a reiterarme con conceptos ya expuestos aquí, así me voy a remontar a 1993, siendo una fecha importante, ya que Marc Andreesen produjo la primera versión del navegador Mosaic, lo cual permitió acceder con mayor naturalidad a la WWW. La interfaz gráfica iba más allá de lo previsto y la facilidad con la que podía manejarse el programa abría la Red a los legos. Poco después, Andreesen encabezó la creación del programa Netscape. A partir de entonces Internet comenzó a crecer más rápido que ningún otro medio de comunicación en la historia de la humanidad, convirtiéndose en lo que hoy todos conocemos.

Como tema primordial de esta semana, hemos indagado a cerca de los buscadores. En primer lugar, decir que, el descubrimiento de recursos de la Web es especialmente dificultoso debido a las siguientes cinco características que poseen las fuentes de información de Internet: 

(1) Extenso y omnipresente.
(2) Mayormente semi-estructurada o sin estructura alguna.
(3) De diversa calidad.
(4) Dinámica.
(5) Distribuida y autónoma" 

Así, por las características mencionadas y el crecimiento exponencial, se vio la necesidad de tener algún tipo de orden o algún tipo de clasificación de las páginas, documentos, sitios y servidores de la red. Esta función la comenzaron a cumplir los Robots de la Web, comúnmente conocidos como Buscadores. El recorrido de las direcciones de Internet es, evidentemente, realizado en forma automática por cada uno de los Robots. Al no ser todos los Robots iguales y tampoco sus técnicas de búsqueda, cada Robot tiene una visión de la red que difiere de las otras. Algunos de los Robots de indización de la Web construyen una base de datos central de documentos la cual no es un buen modelo para el universo, que es la Web con millones de documentos en millones de sitios. 

Por el final de los '80, sin embargo, la cantidad de datos era demasiado grande para confiar en ayudas de otros usuarios. Desde su comienzo en 1983, Internet había crecido a 1000 ordenadores en 1984, a 10.000 en 1987, a 100.000 en 1990 y a 1.000.000 en 1992. La recuperación de datos y clasificación de información se convertía en un cuello de botella y una serie de innovaciones surgieron para resolver el problema.
El principio de Internet, en 1990 se desarrolla en la Universidad de McGill (Montreal) el primer Motor de Búsqueda para buscar, encontrar y extraer archivos. En ese entonces, los archivos de datos y programas fueron colocados en dos categorías: abierto y cerrado. Un usuario podía tener acceso a los archivos 'abiertos' simplemente utilizando el e-mail como contraseña. Después, podía explorar la lista de archivos y descargar cualquiera de ellos utilizando FTP. Uno de estos recopiladores de archivos era Archie, el cual automáticamente, en la noche (cuando el tráfico era menor) visitaba los archivos conocidos y copiaba la lista en una base de datos investigable (este componente del software era conocido como Spider). Cuando un usuario se registraba en un sitio Archie (por telnet), éste le informaba la ubicación de cualquier archivo y se podían mandar los resultados recuperados vía e-mail. Un comentario llamativo en ese entonces y que la Universidad de McGill pronto descubrió, era que la mitad del tráfico de Estados Unidos y Canadá pasaba a través de su servidor Archie, así que se cerró el acceso público. Para ese entonces, sin embargo, había muchos sitios alternativos que prestaban este mismo servicio. Durante el transcurso de 1991, el sistema Gopher es desarrollado en la Universidad de Minnesota, lo cual representó una mejora en la recuperación utilizando FTP. Los servidores pusieron sus archivos en forma de menú y los diversos menús de los servidores fueron mezclados. Ahora, un usuario se registraba en cualquier servidor Gopher y podía preguntarle a esos servidores por información ingresando palabras claves y, como en el Archie, se conseguiría una lista de ítems. Pero ahora, en vez de auto enviarse la lista e individualmente buscar los ítems, el usuario miraba la lista, presionaba 'enter' y lo transferían directamente a la dirección 'Gopher' relevante, donde el usuario podía leer los contenidos. Entonces, si el usuario quería, se le enviaba el archivo vía e-mail. Puesto que el 'Gopher' era una manera útil para guardar datos, el sistema se hizo popular muy rápidamente. Dentro del Motor de Búsqueda 'Gopherspace' llamado Veronica (supuestamente por Very Easy Rodent-Oriented Network Index to Computerised Archives) el cual fue desarrollado en la Universidad de Nevada, operaba el mismo principio que en el Archie, pero también permitía la distinción entre una búsqueda de 'directorios' y una búsqueda que combinara directorios y archivos (el último era mucho más grande y consumía más tiempo). Una vez más, después de localizar algo, el usuario se lo auto enviaba a su e-mail.

También 1991 fue el año del nacimiento de WAIS (Wide Area Information Server) que fue desarrollado por Thinking Machines Corporation. WAIS buscaba información en base al contenido. Así pues, si usar el Archie y el Veronica era como buscar con un índice de tarjeta sobre títulos de libro, WAIS era como usar un índice del libro. La base de datos de WAIS era más pequeña que la de los otros dos, pero aun así, buscar en ella era desalentadora y consumía mucho tiempo. Entonces WAIS dividió sus bases de datos en índices separados por tema y el investigador podía entonces restringir la búsqueda de la palabra dentro de la categoría relevante. En su pico, el WAIS conectó 600 bases de datos de todas partes del mundo. WAIS ordenaba los resultados según la frecuencia de aparición y puesto que estaba basado en Gopher, uno podía hacer clic en un documento y leer su contenido (y también mandarlo por e-mail). Por lo tanto, se podría decir que estos primeros Motores de Búsqueda: tenían un Robot que recorría la web descubriendo y analizando las páginas allí existentes, tenían bases de datos construidas tanto de directorios como de archivos, tenían categorías construidas (específicamente limitados en rango, pero supuestamente realizados para mejorar sitios) y podían también calificar un documento por términos
Ésta era la situación a comienzos de los años 90. Entonces, también según /GRI 99/, en 1991 se desarrolló el WWW y dos años más tarde el navegador gráfico Mosaic. Éstos contribuyeron a una expansión enorme de la red, pero también ofrecieron el desarrollo de una nueva generación de Motores de Búsqueda amigables. En 1992 el número de computadores conectados a la red había alcanzado 1.000.000, por 1996 el número había sobrepasado los 10.000.000. Por otra parte, el número de sitios Web comenzaba a aumentar en forma exponencial. Dos años más tarde había 36 millones de computadoras conectadas y 4 millones de sitios Web.

Historia de algunos servidores:

1994 - WebCrawler  
Nació a principios de 1994, como un proyecto universitario, en la Universidad de Washington (EE.UU.) Su creador, Brian Pinkerton. WebCrawler, fue el primer Motor de Búsqueda en crear y utilizar el estándar de exclusión de Robots o Spiders, el cual será analizado más adelante. 

1994 - Lycos
Fundado en Enero de 1994, y lanzado en Internet en Junio del mismo año. Su nombre proviene del latín, por "Lobo Araña". Al igual que otros Motores de Búsqueda, Lycos nació como proyecto de Investigación de la Universidad de Carnegie Mellon por el Dr. Michael Mauldin. Lycos fue la primera empresa en Internet en basar su publicidad en CPM (costo por miles de visualizaciones) la cual es actualmente un estándar en la industria de Internet. Actualmente Lycos pertenece a la empresa española de contenidos de Internet Terra.

1994 - Excite! 
Fundado por Mark Van Haren, Ryan McIntyre, Ben Lutch, Joe Kraus, Graham Spencer y Martin Reinfried. Estas personas (cinco hackers y un experto en ciencias políticas), investigaron para la Biblioteca de la Universidad de Stanford, cuál sería la mejor forma de buscar y recuperar información para solucionar el problema de dicha biblioteca. A mediados de 1996 adquieren al Motor de Búsqueda Magellan y a fines del mismo año adquieren también WebCrawler. También Excite! provee una interesante forma de alineación de páginas dinámicas para diferentes sistemas operativos. Por ejemplo, los usuarios de WebTV tiene su vista adaptada a sus requerimientos.

1995 - AltaVista 
AltaVista nació en Abril de 1995, en los Laboratorios de Digital Equipment Corp. (DEC Research) en Palo Alto, California, EE.UU. Sus dueños actuales son COMPAQ y CMGI Inc. La innovación más notable de este Motor de Búsqueda, fue la inclusión de búsqueda multi-lengua en Internet, siendo el primero en soportar chino, japonés y coreano utilizando los servicios del traductor Babel Fish (Primer traductor en línea en Internet). Otra de las innovaciones presentadas por este Motor, fue la de permitir búsquedas multimedia, para explorar Internet por fotografías, videos y música, estimados en aquel momento en más de 90 millones de objetos. 

1995 -Yahoo! 
El de Yahoo! es un caso muy especial porque debe ser el portal de búsqueda de Internet, más viejo, conocido y visitado, pero la mayoría de sus usuarios no saben que Yahoo! es principalmente un directorio Web y no un verdadero Motor de Búsqueda. Por lo tanto, su estructura está basada en sitios Web propuestos por usuarios y no por los encontrados por un Robot o Spider. Creado por David Filo y Jerry Yang, Ingenieros Eléctricos de la Universidad de Stanford, comenzaron su catálogo en Abril de 1994, para mantener y rastrear los sitios de su propio interés. Su lanzamiento en Internet fue en Agosto de 1994. Yahoo! es el portal favorito de muchos usuarios de Internet. A pesar de ello, en el último año, agregó servicios alternativos como chat, Correo Electrónico gratis, hosting y la posibilidad de crear comunidades virtuales. El Motor de Búsqueda de Yahoo fue Google hasta Febrero de 2004. Actualmente Yahoo usa su propio motor de búsqueda el cual está basado en Inktomi (buscador que adquirió en Marzo de 2003) y basado también en Altavista y en AllTheWeb.

1996 - Inktomi 
Inktomi deriva de un Motor de Búsqueda desarrollado por la Universidad de Berkeley, California, EE.UU. Fue fundado en 1996 por dos estudiantes de dicha Universidad, llamados Eric Brewer y Paul Gauthier. Su nombre deriva de una leyenda de los Indios Lakota, que trata de una araña tramposa. Inktomi, es conocido por su habilidad en derrotar a sus adversarios comerciales con ingenio y astucia.
Inktomi no sólo es conocido por su potente Motor de Búsqueda, sino también por lograr la confección de directorios utilizando las páginas obtenidas por su Spider. La tecnología llamada "Concept Induction™" automáticamente analiza y categoriza millones de documentos. Esta tecnología incorpora algoritmos, que tratan de modelar la concepción humana para comprender la información.  En marzo de 2003 fue adquirido por Yahoo, para ser la base del nuevo motor de búsqueda de Yahoo!.

1996 - HotBot 
Fue lanzada en Internet en 1996. Su diseño y operación estuvieron a cargo de la revista Wired, siendo vendida a Lycos. Actualmente los resultados de HotBot son provistos por otro Motor de Búsqueda: Inktomi u otros motores, el cual se vio anteriormente. 






1997 - Google 
Google al igual que la mayoría de los Motores de Búsqueda de Internet, nació como un proyecto de investigación universitaria de dos alumnos: Sergey Brin y Larry Page. Fue en la Universidad de Stanford, EE.UU. en 1997. En 1999, recibió más de 20 millones de dólares de capitales privados, lo cual le permitió estar ubicado dentro de los mejores Buscadores del Netscape Netcenter. A partir de Julio del 2000, paso a ser el principal Motor de Búsqueda de Yahoo!.
En marzo del 2000, innovó el mercado de Motores de Búsqueda con su algoritmo PageRank, siendo usado por primera vez en el proyecto Open Directory. Dicho algoritmo, convirtió a Google en uno de los Buscadores más efectivos del mercado, utilizando dicho sistema. El sistema llamado PageRank, permite a Google filtrar una gran porción de resultados irrelevantes. Este sistema identifica cuántas páginas apuntan a una página en particular para poder así decidir cuáles son las páginas más relevantes. También su arquitectura innova el mercado diferenciando sitios Educativos y Gubernamentales de los sitios Comerciales, los cuales, tienden a utilizar spam contra los Motores de Búsqueda.
El origen del nombre Google, es de un error deliberado de escritura de la palabra "googol", la cual significa 10 a la potencia de 100. Pero en verdad fue escogido porque el nombre sonaba fonéticamente agradable.


 

1997 - Fast 
El Motor de Búsqueda Fast Search & Transfer, conocido como FAST o como AllTheWeb.com, fue creado en la Universidad de Ciencia y Tecnología de Noruega (NTNU) en Julio de 1997. Su dueño y administrador es Fast Search & Transfer ASA Technologies y fue lanzado a Internet a mediados de 1998; posee una de las bases de datos más grandes de la actualidad. Su sostén principal ha sido la búsqueda especifica de multimedia. A modo de ejemplo, el conjunto de direcciones de FTP para MP3, WAV, RA y otros tipos de archivos multimedia, es una de las colecciones más grandes de la Web. Fue addqurido por Yahoo.

1998 - DirectHit 
DirectHit fue creado en Marzo de 1998. Su trabajo consiste en monitorear los clics que realizan los usuarios en otros Motores de Búsqueda de los resultados que ven. Cuanto más veces se visita un sitio, mejor es su posición en la calificación. También reconoce frases directamente. Pero, por otro lado, tiene las desventajas que muestra sólo los primeros diez hipervínculos y es imposible buscar dentro de una categoría determinada. Adquirido posteriormente por Ask Jeeves, dueño de Teoma.

1998 - Teoma 
Es uno de los últimos Motores de Búsqueda, el cual ha realizado su presentación pública (Versión Beta) a fines del mes de mayo de 1998. Utilizando tecnología desarrollada por una Fundación Federal de Proyectos de Investigación, se implementó en 1998 en los laboratorios de la Universidad de Rutgers.
En la parte superior de la pantalla, se observan los tópicos relacionados con la palabra clave buscada agrupados en forma de carpetas. Esta estructura, facilita el refinamiento de la búsqueda con un simple clic en el tópico asociado a la palabra buscada.
En la parte inferior, se agrupan los resultados recuperados, ordenados por relevancia que Teoma le ha asignado respecto a la palabra clave buscada.
Teoma calcula la relevancia de una página, analizando los hipervínculos, para identificar "comunidades" en Internet, determinando luego cuales son las autoridades, encontrando así las mejores páginas. Su funcionamiento es similar a Google, pero con algunas diferencias importantes. Por ejemplo, mientras Google utiliza la "sabiduría" de todo Internet para calificar una página, Teoma trata de buscar las autoridades "locales" de determinado tópico para encontrar la información deseada sobre ese tópico en particular. En septiembre de 2001 fue adquirido por Ask Jeeves.

1998 - Open Directory Project (ODP) 
Es el directorio más grande y fraternal de la web, el cual es construido y mantenido por un gran número de voluntarios. Su principal misión es la de colaborar en forma constructiva en el crecimiento de Internet. El ODP provee los medios necesarios para una organización eficiente.
Algunos de los usuarios de ODP (llamados editores), organizan pequeñas porciones de la red para descartar los sitios de pobre contenido y quedarse sólo con los más relevantes. Por esta razón es que el ODP podría llegar a convertirse en el directorio definitivo de la Web. Fue fundado bajo el espíritu del movimiento "Open Source", siendo un directorio sin fines de lucro el cual es muy respetado. No hubo, ni habrá costo alguno para sugerir un sitio a este directorio, así como tampoco habrá costo alguno por su uso.


2004- Gmail

El 31 de marzo de 2004 Google lanza su servicio (en fase beta) Gmail que se destacó entre los servicios de correo más populares del momento por proporcionar 1 gigabyte de capacidad (cifra que aumenta constantemente a razón aproximada de 36 bytes por segundo hasta llegar a los 7 GB actuales). Durante bastante tiempo, para poder acceder a una cuenta Gmail era necesario recibir una invitación de otro usuario de Gmail. A principios de febrero de 2007,los registros en Gmail fueron completamente liberados, y en la actualidad es posible registrarse sin invitaciones. Este servicio de mensajería destacó, entre otras cosas, por utilizar un sistema de búsqueda de mensajes simple y avanzado al mismo tiempo, similar al del buscador web al cual debe su eslogan "No organices, busca". Además ofrece otras características adicionales como las etiquetas, filtros avanzados, posibilidad de múltiples cuentas para correo saliente, chat integrado, etc. que lo hacen muy atractivo. Actualmente se encuentra disponible en 39 idiomas.




Para finalizar la entrada de esta semana, en último lugar, quiero hablar de “las cookies”, las cuales, constituyen una potente herramienta empleada por los servidores Web para almacenar y recuperar información acerca de sus visitantes. Dado que el Protocolo de Transferencia de Hiper Texto (HTTP), es un protocolo sin estados (no almacena el estado de la sesión entre peticiones sucesivas), las cookies proporcionan una manera de conservar información entre peticiones del cliente, extendiendo significativamente las capacidades de las aplicaciones cliente/servidor basadas en la Web. Mediante el uso de cookies se permite al servidor Web recordar algunos datos concernientes al usuario, como sus preferencias para la visualización de las páginas de ese servidor, nombre y contraseña, productos que más le interesan, etc. Una cookie no es más que un fichero de texto que algunos servidores piden a nuestro navegador que escriba en nuestro disco duro, con información acerca de lo que hemos estado haciendo por sus páginas.

Entre las mayores ventajas de las cookies se cuenta el hecho de ser almacenadas en el disco duro del usuario, liberando así al servidor de una importante sobrecarga. Es el propio cliente el que almacena la información y quien se la devolverá posteriormente al servidor cuando éste la solicite. Además, las cookies poseen una fecha de caducidad, que puede oscilar desde el tiempo que dure la sesión hasta una fecha futura especificada, a partir de la cual dejan de ser operativas. Por otra parte, también conlleva una serie de riesgos, pues desde los comienzos de esta nueva tecnología, la expansión del uso de las cookies se ha visto seriamente retraída como consecuencia de una oleada de falsos rumores, verdades a medias y ríos de tinta de mala prensa. Aunque las cookies no son más que un simple fichero de texto almacenado por el navegador del usuario en su disco duro, inexplicablemente han suscitado un clamor general en Internet, convirtiéndose tristemente en el centro de cruzadas alarmistas anti-cookie que abogan por la intimidad y el anonimato. Proclaman una serie de doctrinas, que gracias a la esencia abierta y tolerante de Internet se propagan en cuestión de días a cientos de miles de usuarios, más o menos ingenuos.
 





No hay comentarios:

Publicar un comentario

What do you thing?