« Blockera och förbjuda | Main | Låt din mobiltelefon bli en del av dig? »

09 september 2007

Comments

Feed You can follow this conversation by subscribing to the comment feed for this post.

Google, precis som alla andra textsökmotorer, lagrar bara data om enskilda ord. Söker man på "Trond Sefastsson" (med citationstecknen) görs under ytan (något förenklat) dels en sökning på Trond och dels en på Sefastsson, varpå resultaten kombineras så att bara träffar som finns med i båda träffmängderna blir kvar ("join"). Slutligen, på grund av citationstecknen, ska bara träffar där Sefastsson står direkt efter Trond visas, så alla andra filtreras bort. Allt detta tar mycket datorkapacitet och potentiellt lång tid om man ska ge hela resultatet. Lyckligtvis kan väldigt mycket av arbetet undvikas om man bara ska ta fram tio mer eller mindre godtyckligt valda träffar, vilket ju är vad Google för det mesta används till.

Vill man ha ett exakt antal träffar har man ett problem som beräkningsmässigt är ekvivalent (inom en konstant faktor) med att ta fram alla träffar, vilket för det mesta är onödigt när man bara ska titta på de första 10-20. Följaktligen kompromissar Google. De anger inte det verkliga antalet träffar för kombinationer av ord, utan bara en grov uppskattning som beräknas utifrån de enskilda ordens frekvens. Det innebär att man kan ge resultaten de flesta vill ha (de första träffarna) väldigt snabbt, till priset av att antalet träffar (som väldigt få är intresserade av) ges högst ungefärligt.

Har man problem med det finns det andra sökmotorer som ger exakt antal träffar direkt, men de är långsammare och hade inte klarat den belastning som Google har.

Jag skrev om det här häromdagen:

http://kornet.nu/blindhona/arkiv/002534.html

Att "väldigt få" är intresserade av antalet träffar stämmer liksom inte.

Jonas -- hur kan jag ha missat ditt inlägg? Lustigt att det i båda fallen är ungefär en faktor 1 000 som det slår på.

Vad gäller om "väldigt få" är intresserade av antalet träffar så får man väl diskutera vad "intresserad" betyder. Det verkar finnas många som är intresserade av att det skapas en "bubbla" runt ett fenomen. Och Google verkar också höra till den kategorin.

Om man ser på hela Google-journalistiken som en del av vår "digitala infrastruktur" så finns det ju i alla fall ett brett behov av att kunna uppskatta och visualisera vad som finns "därute" på det stora Internet-havet.

Ibland tänker jag hånfullt på Frankrikes (och från början Tysklands) projekt att skapa en europeisk sökmotor som skulle konkurrera med Google, men från ett infrastrukturperspektiv skulle jag gärna se att man hade ett mer oberoende sätt att faktiskt kunna uttala sig om nätets beskaffenhet.

ctail -- hade du några exempel på sökmotorer som skulle ge en mer rättvisande bild av "Trond"?

Hm, nej när jag testar några stycken nu verkar det faktiskt som att de numera allihop gör en grov uppskattning precis som Google. Antagligen är det totalt orealistiskt att räkna antalet träffar med dagens storlek på Internet om man tänker sig att ha någorlunda stor trafik på sökmotorn. Som tekniker kan jag inte heller tycka annat än att det är det enda rimliga – bättre att lösa den primära uppgiften att hitta vad man letar efter än att spendera massiva resurser och riskera frekvent överbelastning för att räkna antalet träffar. Googles framgång i förhållande till konkurrenterna tyder ju också på att användarna uppskattar deras recept, att skamlöst kompromissa med exakthet på olika sätt för att kunna uppnå maximal prestanda.

Det är ju tråkigt om folk inte är medvetna om att antalet träffar är grova uppskattningar och drar felaktiga slutsatser. Men jag tycker att man borde få någon signal av att antalet träffar slutar på minst tre nollor, och att det faktiskt står »ungefär«. Alternativet vore förstås att inte visa antalet träffar alls, men beslutet att visa en grov uppskattning bygger säkert på att man kommit fram till att användarna hellre vill ha det än ingen data alls.

Jag använder ofta Google för att kolla formuleringen av engelskspråkiga fraser. Heter det tex. "going to the cinema", "going in the cinema" eller (svedificerat) "going on the cinema"?

Den sista frasen ger 8 träffar, den mellersta 31, och den första 297.000. Härav drar jag den rimliga slutsatsen att "going to the cinema" är korrekt, i betydelsen den fras som en överväldigande antal nutida internetskribenter använder i dagligt tal.

Det finns naturligtvis nackdelar också med den här metoden. Och man måste vara en smula kritisk när man använder den. Men vilken metod är felfri? Och vilken är lika snabb? Och vilka metoder kan man använda okritiskt?

Det är ett litet exempel på att Google's träffräknare är rätt användbar. Så jag tycker kritiken är en smula överdriven.

Thomas -- kritiken kan vara tusenfalt överdriven i det här fallet och ändå berättigad! :-)

Javisst ger träffarnas proportion ofta en korrekt indikation, men i de citerade fallen är det ju just proportionerna som saknas i resonemangen. Både med Sefastsson och i fallet med Vilks är det snarast de absoluta talen som man tar fasta på (samt ökningen över kort tid).

The comments to this entry are closed.

  • "En läsvärd blogg om informationsanvändning och hur ny teknik förändrar vår verklighet och vår kultur." -- Urban Lindstedt, Internetworld nr 7, 2006

Böcker

Blog powered by Typepad
Member since 12/2003