Historia de Internet
"Los Buscadores"
"Los Buscadores"
Como ya hemos
ido estudiando a lo largo de la asignatura la historia de internet y ya he ido
comentando aspectos o temas relacionados de éste, no voy a reiterarme con
conceptos ya expuestos aquí, así me voy a remontar a 1993, siendo una fecha
importante, ya que Marc Andreesen produjo la primera versión del navegador
Mosaic, lo cual permitió acceder con mayor naturalidad a la WWW. La interfaz
gráfica iba más allá de lo previsto y la facilidad con la que podía manejarse
el programa abría la Red a los legos. Poco después, Andreesen encabezó la
creación del programa Netscape. A partir de entonces Internet comenzó a
crecer más rápido que ningún otro medio de comunicación en la historia de la
humanidad, convirtiéndose en lo que hoy todos conocemos.
Como tema
primordial de esta semana, hemos indagado a cerca de los buscadores. En primer
lugar, decir que, el descubrimiento de recursos de la Web es especialmente
dificultoso debido a las siguientes cinco características que poseen las
fuentes de información de Internet:
(1) Extenso y omnipresente.
(2) Mayormente semi-estructurada o sin
estructura alguna.
(3) De diversa calidad.
(4) Dinámica.
(5) Distribuida y autónoma"
Así, por las
características mencionadas y el crecimiento exponencial, se vio la necesidad
de tener algún tipo de orden o algún tipo de clasificación de las páginas,
documentos, sitios y servidores de la red. Esta función la comenzaron a cumplir
los Robots de la Web, comúnmente conocidos como Buscadores. El recorrido de las
direcciones de Internet es, evidentemente, realizado en forma automática por
cada uno de los Robots. Al no ser todos los Robots iguales y tampoco sus
técnicas de búsqueda, cada Robot tiene una visión de la red que difiere de las
otras. Algunos de los Robots de indización de la Web construyen una base de
datos central de documentos la cual no es un buen modelo para el universo, que
es la Web con millones de documentos en millones de sitios.
Por el final de los '80, sin embargo, la
cantidad de datos era demasiado grande para confiar en ayudas de otros
usuarios. Desde su comienzo en 1983, Internet había crecido a 1000 ordenadores
en 1984, a 10.000 en 1987, a 100.000 en 1990 y a 1.000.000 en 1992. La
recuperación de datos y clasificación de información se convertía en un cuello
de botella y una serie de innovaciones surgieron para resolver el problema.
El principio de
Internet, en 1990 se desarrolla en la Universidad de McGill (Montreal) el
primer Motor de Búsqueda para buscar, encontrar y extraer archivos. En ese
entonces, los archivos de datos y programas fueron colocados en dos categorías:
abierto y cerrado. Un usuario podía tener acceso a los archivos 'abiertos'
simplemente utilizando el e-mail como contraseña. Después, podía explorar la
lista de archivos y descargar cualquiera de ellos utilizando FTP. Uno de estos
recopiladores de archivos era Archie, el cual automáticamente, en la noche
(cuando el tráfico era menor) visitaba los archivos conocidos y copiaba la
lista en una base de datos investigable (este componente del software era conocido
como Spider). Cuando un usuario se registraba en un sitio Archie (por telnet),
éste le informaba la ubicación de cualquier archivo y se podían mandar los
resultados recuperados vía e-mail. Un comentario llamativo en ese entonces y
que la Universidad de McGill pronto descubrió, era que la mitad del tráfico de
Estados Unidos y Canadá pasaba a través de su servidor Archie, así que se cerró
el acceso público. Para ese entonces, sin embargo, había muchos sitios
alternativos que prestaban este mismo servicio. Durante el transcurso de 1991,
el sistema Gopher es desarrollado en la Universidad de Minnesota, lo cual
representó una mejora en la recuperación utilizando FTP. Los servidores
pusieron sus archivos en forma de menú y los diversos menús de los servidores
fueron mezclados. Ahora, un usuario se registraba en cualquier servidor Gopher
y podía preguntarle a esos servidores por información ingresando palabras
claves y, como en el Archie, se conseguiría una lista de ítems. Pero ahora, en
vez de auto enviarse la lista e individualmente buscar los ítems, el usuario
miraba la lista, presionaba 'enter' y lo transferían directamente a la
dirección 'Gopher' relevante, donde el usuario podía leer los contenidos.
Entonces, si el usuario quería, se le enviaba el archivo vía e-mail. Puesto que
el 'Gopher' era una manera útil para guardar datos, el sistema se hizo popular
muy rápidamente. Dentro del Motor de Búsqueda 'Gopherspace' llamado Veronica
(supuestamente por Very Easy Rodent-Oriented Network Index to Computerised
Archives) el cual fue desarrollado en la Universidad de Nevada, operaba el
mismo principio que en el Archie, pero también permitía la distinción entre una
búsqueda de 'directorios' y una búsqueda que combinara directorios y archivos
(el último era mucho más grande y consumía más tiempo). Una vez más, después de
localizar algo, el usuario se lo auto enviaba a su e-mail.
También 1991 fue el año del nacimiento de WAIS (Wide Area Information Server) que fue desarrollado por Thinking Machines Corporation. WAIS buscaba información en base al contenido. Así pues, si usar el Archie y el Veronica era como buscar con un índice de tarjeta sobre títulos de libro, WAIS era como usar un índice del libro. La base de datos de WAIS era más pequeña que la de los otros dos, pero aun así, buscar en ella era desalentadora y consumía mucho tiempo. Entonces WAIS dividió sus bases de datos en índices separados por tema y el investigador podía entonces restringir la búsqueda de la palabra dentro de la categoría relevante. En su pico, el WAIS conectó 600 bases de datos de todas partes del mundo. WAIS ordenaba los resultados según la frecuencia de aparición y puesto que estaba basado en Gopher, uno podía hacer clic en un documento y leer su contenido (y también mandarlo por e-mail). Por lo tanto, se podría decir que estos primeros Motores de Búsqueda: tenían un Robot que recorría la web descubriendo y analizando las páginas allí existentes, tenían bases de datos construidas tanto de directorios como de archivos, tenían categorías construidas (específicamente limitados en rango, pero supuestamente realizados para mejorar sitios) y podían también calificar un documento por términos
Ésta era la
situación a comienzos de los años 90. Entonces, también según /GRI 99/, en 1991
se desarrolló el WWW y dos años más tarde el navegador gráfico Mosaic. Éstos
contribuyeron a una expansión enorme de la red, pero también ofrecieron el
desarrollo de una nueva generación de Motores de Búsqueda amigables. En 1992 el
número de computadores conectados a la red había alcanzado 1.000.000, por 1996
el número había sobrepasado los 10.000.000. Por otra parte, el número de sitios
Web comenzaba a aumentar en forma exponencial. Dos años más tarde había 36
millones de computadoras conectadas y 4 millones de sitios Web.
Historia de algunos
servidores:
1994 - WebCrawler
Nació a principios de 1994, como un
proyecto universitario, en la Universidad de Washington (EE.UU.) Su creador,
Brian Pinkerton. WebCrawler, fue el primer Motor de Búsqueda en crear y
utilizar el estándar de exclusión de Robots o Spiders, el cual será analizado
más adelante.
1994 - Lycos
Fundado en Enero de 1994, y lanzado en
Internet en Junio del mismo año. Su nombre proviene del latín, por "Lobo
Araña". Al igual que otros Motores de Búsqueda, Lycos nació como proyecto
de Investigación de la Universidad de Carnegie Mellon por el Dr. Michael
Mauldin. Lycos fue la primera empresa en Internet en basar su publicidad en CPM
(costo por miles de visualizaciones) la cual es actualmente un estándar en la
industria de Internet. Actualmente Lycos pertenece a la empresa española de
contenidos de Internet Terra.
1994 - Excite!
Fundado por Mark Van Haren, Ryan
McIntyre, Ben Lutch, Joe Kraus, Graham Spencer y Martin Reinfried. Estas
personas (cinco hackers y un experto en ciencias políticas), investigaron para
la Biblioteca de la Universidad de Stanford, cuál sería la mejor forma de
buscar y recuperar información para solucionar el problema de dicha biblioteca.
A mediados de 1996 adquieren al Motor de Búsqueda Magellan y a fines del mismo año
adquieren también WebCrawler. También Excite! provee una interesante forma de
alineación de páginas dinámicas para diferentes sistemas operativos. Por
ejemplo, los usuarios de WebTV tiene su vista adaptada a sus requerimientos.
1995 - AltaVista
AltaVista nació en Abril de 1995, en los
Laboratorios de Digital Equipment Corp. (DEC Research) en Palo Alto,
California, EE.UU. Sus dueños actuales son COMPAQ y CMGI Inc. La innovación más
notable de este Motor de Búsqueda, fue la inclusión de búsqueda multi-lengua en
Internet, siendo el primero en soportar chino, japonés y coreano utilizando los
servicios del traductor Babel Fish (Primer traductor en línea en Internet).
Otra de las innovaciones presentadas por este Motor, fue la de permitir
búsquedas multimedia, para explorar Internet por fotografías, videos y música,
estimados en aquel momento en más de 90 millones de objetos.
1995 -Yahoo!
El de Yahoo! es un caso muy especial
porque debe ser el portal de búsqueda de Internet, más viejo, conocido y
visitado, pero la mayoría de sus usuarios no saben que Yahoo! es principalmente
un directorio Web y no un verdadero Motor de Búsqueda. Por lo tanto, su
estructura está basada en sitios Web
propuestos por usuarios y no por los encontrados por un Robot o Spider. Creado
por David Filo y Jerry Yang, Ingenieros Eléctricos de la Universidad de
Stanford, comenzaron su catálogo en Abril de 1994, para mantener y rastrear los
sitios de su propio interés. Su lanzamiento en Internet fue en Agosto de 1994.
Yahoo! es el portal favorito de muchos usuarios de Internet. A pesar de ello,
en el último año, agregó servicios alternativos como chat, Correo Electrónico
gratis, hosting y la posibilidad de crear comunidades virtuales. El Motor de
Búsqueda de Yahoo fue Google hasta Febrero de 2004. Actualmente Yahoo usa su
propio motor de búsqueda el cual está basado en Inktomi (buscador que adquirió
en Marzo de 2003) y basado también en Altavista y en AllTheWeb.
1996 - Inktomi
Inktomi deriva de un Motor de Búsqueda
desarrollado por la Universidad de Berkeley, California, EE.UU. Fue fundado en
1996 por dos estudiantes de dicha Universidad, llamados Eric Brewer y Paul Gauthier.
Su nombre deriva de una leyenda de los Indios Lakota, que trata de una araña
tramposa. Inktomi, es conocido por su habilidad en derrotar a sus adversarios
comerciales con ingenio y astucia.
Inktomi no sólo es conocido por su
potente Motor de Búsqueda, sino también por lograr la confección de directorios
utilizando las páginas obtenidas por su Spider. La tecnología llamada
"Concept Induction™" automáticamente analiza y categoriza millones de
documentos. Esta tecnología incorpora algoritmos, que tratan de modelar la
concepción humana para comprender la información. En marzo de 2003 fue
adquirido por Yahoo, para ser la base del nuevo motor de búsqueda de Yahoo!.
1996 - HotBot
Fue lanzada en Internet en 1996. Su
diseño y operación estuvieron a cargo de la revista Wired, siendo vendida a
Lycos. Actualmente los resultados de HotBot son provistos por otro Motor de
Búsqueda: Inktomi u otros motores, el cual se vio anteriormente.
1997 - Google
Google al igual que la mayoría de los
Motores de Búsqueda de Internet, nació como un proyecto de investigación
universitaria de dos alumnos: Sergey Brin y Larry Page. Fue en la Universidad
de Stanford, EE.UU. en 1997. En 1999, recibió más de 20 millones de dólares de
capitales privados, lo cual le permitió estar ubicado dentro de los mejores
Buscadores del Netscape Netcenter. A partir de Julio del 2000, paso a ser el principal
Motor de Búsqueda de Yahoo!.
En marzo del 2000, innovó el mercado de
Motores de Búsqueda con su algoritmo PageRank, siendo usado por primera vez en
el proyecto Open Directory. Dicho algoritmo, convirtió a Google en uno de los
Buscadores más efectivos del mercado, utilizando dicho sistema. El sistema
llamado PageRank, permite a Google filtrar una gran porción de resultados
irrelevantes. Este sistema identifica cuántas páginas apuntan a una página en
particular para poder así decidir cuáles son las páginas más relevantes.
También su arquitectura innova el mercado diferenciando sitios Educativos y
Gubernamentales de los sitios Comerciales, los cuales, tienden a utilizar spam
contra los Motores de Búsqueda.
El origen del nombre Google, es de un
error deliberado de escritura de la palabra "googol", la cual
significa 10 a la potencia de 100. Pero en verdad fue escogido porque el nombre
sonaba fonéticamente agradable.
1997 - Fast
El Motor de Búsqueda Fast Search &
Transfer, conocido como FAST o como AllTheWeb.com, fue creado en la Universidad
de Ciencia y Tecnología de Noruega (NTNU) en Julio de 1997. Su dueño y
administrador es Fast Search & Transfer ASA Technologies y fue lanzado a
Internet a mediados de 1998; posee una de las bases de datos más grandes de la
actualidad. Su sostén principal ha sido la búsqueda especifica de multimedia. A
modo de ejemplo, el conjunto de direcciones de FTP para MP3, WAV, RA y otros
tipos de archivos multimedia, es una de las colecciones más grandes de la Web.
Fue addqurido por Yahoo.
1998 - DirectHit
DirectHit fue creado en Marzo de 1998.
Su trabajo consiste en monitorear los clics que realizan los usuarios en otros
Motores de Búsqueda de los resultados que ven. Cuanto más veces se visita un
sitio, mejor es su posición en la calificación. También reconoce frases
directamente. Pero, por otro lado, tiene las desventajas que muestra sólo los
primeros diez hipervínculos y es imposible buscar dentro de una categoría
determinada. Adquirido posteriormente por Ask Jeeves, dueño de Teoma.
1998 - Teoma
Es uno de los últimos Motores de
Búsqueda, el cual ha realizado su presentación pública (Versión Beta) a fines
del mes de mayo de 1998. Utilizando tecnología desarrollada por una Fundación
Federal de Proyectos de Investigación, se implementó en 1998 en los
laboratorios de la Universidad de Rutgers.
En la parte superior de la pantalla, se
observan los tópicos relacionados con la palabra clave buscada agrupados en
forma de carpetas. Esta estructura, facilita el refinamiento de la búsqueda con
un simple clic en el tópico asociado a la palabra buscada.
En la parte inferior, se agrupan los
resultados recuperados, ordenados por relevancia que Teoma le ha asignado
respecto a la palabra clave buscada.
Teoma calcula la relevancia de una
página, analizando los hipervínculos, para identificar "comunidades"
en Internet, determinando luego cuales son las autoridades, encontrando así las
mejores páginas. Su funcionamiento es similar a Google, pero con algunas
diferencias importantes. Por ejemplo, mientras Google utiliza la
"sabiduría" de todo Internet para calificar una página, Teoma trata
de buscar las autoridades "locales" de determinado tópico para
encontrar la información deseada sobre ese tópico en particular. En septiembre
de 2001 fue adquirido por Ask Jeeves.
1998 - Open Directory Project
(ODP)
Es el directorio más grande y fraternal
de la web, el cual es construido
y mantenido por un gran número de voluntarios. Su principal misión es la de
colaborar en forma constructiva en el crecimiento de Internet. El ODP provee
los medios necesarios para una organización eficiente.
Algunos de los usuarios de ODP (llamados
editores), organizan pequeñas porciones de la red para descartar los sitios de
pobre contenido y quedarse sólo con los más relevantes. Por esta razón es que
el ODP podría llegar a convertirse en el directorio definitivo de la Web. Fue
fundado bajo el espíritu del movimiento "Open Source", siendo un directorio
sin fines de lucro el cual es muy respetado. No hubo, ni habrá costo alguno
para sugerir un sitio a este directorio, así como tampoco habrá costo alguno
por su uso.
2004- Gmail
El 31 de marzo de 2004 Google lanza su servicio (en fase beta) Gmail que se destacó entre los servicios de correo más populares del momento por proporcionar 1 gigabyte de capacidad (cifra que aumenta constantemente a razón aproximada de 36 bytes por segundo hasta llegar a los 7 GB actuales). Durante bastante tiempo, para poder acceder a una cuenta Gmail era necesario recibir una invitación de otro usuario de Gmail. A principios de febrero de 2007,los registros en Gmail fueron completamente liberados, y en la actualidad es posible registrarse sin invitaciones. Este servicio de mensajería destacó, entre otras cosas, por utilizar un sistema de búsqueda de mensajes simple y avanzado al mismo tiempo, similar al del buscador web al cual debe su eslogan "No organices, busca". Además ofrece otras características adicionales como las etiquetas, filtros avanzados, posibilidad de múltiples cuentas para correo saliente, chat integrado, etc. que lo hacen muy atractivo. Actualmente se encuentra disponible en 39 idiomas.
Para finalizar la entrada de esta
semana, en último lugar, quiero hablar de “las cookies”, las cuales, constituyen
una potente herramienta empleada por los servidores Web para almacenar y
recuperar información acerca de sus visitantes. Dado que el Protocolo de Transferencia de Hiper Texto (HTTP), es un protocolo sin estados (no almacena el
estado de la sesión entre peticiones sucesivas), las cookies proporcionan una
manera de conservar información entre peticiones del cliente, extendiendo
significativamente las capacidades de las aplicaciones cliente/servidor basadas
en la Web. Mediante el uso de cookies se permite al servidor Web recordar
algunos datos concernientes al usuario, como sus preferencias para la
visualización de las páginas de ese servidor, nombre y contraseña, productos
que más le interesan, etc. Una cookie no es más que un fichero de texto que
algunos servidores piden a nuestro navegador que escriba en nuestro disco duro,
con información acerca de lo que hemos estado haciendo por sus páginas.
Entre las mayores ventajas de las
cookies se cuenta el hecho de ser almacenadas en el disco duro del usuario,
liberando así al servidor de una importante sobrecarga. Es el propio cliente el
que almacena la información y quien se la devolverá posteriormente al servidor
cuando éste la solicite. Además, las cookies poseen una fecha de caducidad, que
puede oscilar desde el tiempo que dure la sesión hasta una fecha futura
especificada, a partir de la cual dejan de ser operativas. Por otra parte,
también conlleva una serie de riesgos, pues desde los comienzos de esta nueva tecnología, la
expansión del uso de las cookies se ha visto seriamente retraída como
consecuencia de una oleada de falsos rumores, verdades a medias y ríos de tinta
de mala prensa. Aunque las cookies no son más que un simple fichero de texto
almacenado por el navegador del usuario en su disco duro, inexplicablemente han
suscitado un clamor general en Internet, convirtiéndose tristemente en el
centro de cruzadas alarmistas anti-cookie que abogan por la intimidad y el
anonimato. Proclaman una serie de doctrinas, que gracias a la esencia abierta y
tolerante de Internet se propagan en cuestión de días a cientos de miles de
usuarios, más o menos ingenuos.
No hay comentarios:
Publicar un comentario
What do you thing?