Sökning på webben

Hur djup är webben egentligen?

Den norska sökmotorn Fast räknar med att katalogisera en miljard dokument före årets slut. I början av året hade Fast hittat 300 miljoner dokument. Altavistas renodlade söktjänst Raging Search har 350 miljoner dokument i lagret just nu. Northern Light redovisar i skrivande stund 313 179 287 sidor.
Målet en miljard är kanske en drömgräns för vad sökmotorerna kan hitta, låt vara att ökningstakten på 1,5 miljoner dokument om dagen flyttar drömgränsen uppåt hela tiden. Siffran får stöd av NEC Research Institute i Princeton, som 1998 uppskattade webbens vidd till 320 miljoner dokument, 800 miljoner 1999 och nu, med hjälp av Inktomi, säger miljarden jämnt. I genomsnitt är varje sida 18,7 kilobyte, bilderna oräknade, vilket ger en massa av 18 700 gigabyte.

Men det här är bara en bråkdel av www, ty sökmotorn kan inte se under ytan. De ser statiska webbsidor där innehållet huggits i, om inte sten, så knackats i html. Allt fler av de nytillkomna dokumenten ligger i databaser. Därifrån genereras bara tillfälliga sidor som inte kan fångas, sorteras och räknas av någon sökmotor.
Computer Swedens artikelarkiv är ett typiskt exempel. Om jag söker efter mig själv på webben (och lyckas filtrera bort min cyklande släkting Martin) så blir det mellan 100 och 200 träffar beroende på sökmotor. En hel del - alldeles för mycket - är dubletter, men återstoden är oftast precis.
Mina egna webbsidor känner jag igen, flera träffar i bibliografier verkar vettiga och en del av de böcker jag gjort finns där. Men inget av det jag huvudsakligen försörjt mig på de senaste 25 åren: artiklar i tidningar.

Computer Sweden har en sida för varje medarbetare. Den hittas av sökmotorerna och ger ingång till vår egen skraltiga sökmotor. Där borde finnas ett par tusen artiklar. Skulle jag vilja kartlägga mer av alla ord jag behandlat finge jag gå till Affärsdata för att komma till det som stammar från 1980-talet i den gamla blå Datavärlden. Och sedan söka hos Kungliga biblioteket och så vidare. Ett manuellt detektivarbete och ingen hjälp har Altavista eller Lycos att ge.
Amerikanska webbföretaget Bright Planet har grubblat på det här problemet. Genom att söka efter sökmotorer, göra riktade sökningar i vissa kända jättearkiv och jämföra med statistik från olika håll började en ny bild växa fram. Runt 40 000 utvalda databassajter analyserades närmare, med en egenutvecklad sökmaskin, 18 000 valdes ut för vidare behandling, och till slut detaljanalyserades 100 webbplatser. Enbart 60 av dem befanns innehålla 85 miljarder dokument.
Mycket räknande gav till slut en siffra: webben är åtminstone 500 gånger större än vad vi trott.
Bright Planet beskriver skillnaden som djuphavsfiske i stället för att bara dra ett nät över ytan. Det finns åtminstone 100 000 "djupa sajter" i form av stora databaser, det finns åtminstone 550 miljarder individuella dokument i stället för den miljard vi skymtar, och informationen omfattar snarare 7 500 terabyte istället för 19.

En annan slutsats är att de djupa platserna får mer och mer trafik och växer fortare än de ytliga, och att kvaliteten är tusenfalt högre.
Northern Light hittar bara 16 procent av dokumenten på ytan, vilket är 0,03 procent av webbens totala innehåll eller blott vart tretusende dokument.
Det väcker onekligen en del tankar. Bright Planet har visserligen en sökmaskin för djupdykningar, men uppmuntrar till diskussion och forskning. Kolla själv på CompletePlanet.

(Särtryck ur Computer Sweden 11 oktober 2000)Pär Rittsel - [email protected]

Mer artiklar av Pär Rittsel här
Artikel om Pär Rittsel
Andra publicisters artiklar här