Søkerobot

En søkerobot (også kjent som crawler eller spider^[1]) er en Internett-bot som systematisk surfer verdensveven, som regel brukt for å indeksere vevsider til søkemotorer. Søkerobotene laster ned lokale kopier av vevsidene den besøker for videre analysering. Søkerobotene har nesten eksistert like lenge som verdensveven og alle søkemotorer er avhengig av en. Store søkemotorer som for eksempel Google bruker avanserte søkeroboter for å indeksere nettsider. Robotene må inneholde en liste over nettsider som skal besøkes, og om nettsiden er besøkt før.^[2]

Søkeroboter er nødvendige ettersom verdensveven ikke finnes på et sentralt administrert oppbevaringssted, men heller på mange millioner av uavhengige web leverandører^[1].

En søkerobot sin prosess kan kort forklares slik:^[3]

Utgangspunktet er et sett av S URL-er
Søkemotoren tar en URL fra S
Besøker den og sletter den fra S
Finner URL-er på siden, tar ut de som ikke finnes i S og legger til i S

Selv om konseptet fremstår som meget enkelt, er den store oppgaven å utvikle en søkerobot med høy ytelse. Det er også en utfordring med størrelsen og antallet av dokumenter, ettersom verdensveven er gigantisk.

Historie rediger

Søkeroboter er nesten like gamle som veven selv. Under våren i 1993 implementerte Matthew Gray «The World Wide Web Wanderer». Denne var skrevet i programmeringsspråket Perl og kjørte på en enkelt maskin. Den var brukt frem til 1996 for å innhente statistikk om evolusjonen av veven. Vevsidene som «The World Wide Web Wanderer» innhentet ble puttet i en indeks som senere ble kompilert inn til søkemotoren «The Wandex».^{[trenger referanse]}

Søkerobot-policy rediger

En søkerobot burde inkludere følgende policies:^[4]

En utvalgspolicy som velger hvilke sider som skal lastes ned
En gjenbesøkspolicy som velger når og hvilke sider som skal sjekkes for endringer
En høflighetspolicy som passer på at servere ikke overbelastes
En parallellpolicy som koordinerer flere søkeroboter.

Utvalgspolicy rediger

Verdensveven er ekstremt stor og selv store søkemotorer indekserer kun en andel av vevsidene som er tilgjengelig. En studie gjennomført i 2005 viser at Google indekserte ca 70% av alle vevsidene på verdensveven^[5]. Ettersom ikke alle vevsider indekseres, er det viktig for søkeroboten å velge og prioritere sidene som er mest relevante og ikke tilfeldige.

Søkerobotene bruker ulike algoritmer for å fastslå om vevsider er relvante eller ikke. Eksempler på algoritmer er Breadth First Search, Page Rank og BackLink.

URL-normalisering rediger

For at søkeroboten ikke skal besøke de samme vevsidene, blir det gjort en form for URL-formalisering. Eksempler på dette kan være at IP-adressen til vevsiden blir normalisert til domeneadressen. Eksempler kan være å normalisere http://111.111.111^{[død lenke]} til http://domenet.no^{[død lenke]}.^[6]

Gjenbesøkspolicy rediger

Ettersom verdensveven er så stor kan en søkerobot bruke uker eller måneder på å gå igjennom en liten andel. På denne tiden vil mange vevsider allerede være oppdatert og den lagrede kopien være utdatert. Av den grunn er det viktig å ha en policy for hvor ofte vevsider skal besøkes på nytt, og denne policyen må vurderes for hver enkelte vevside. Hvis alle vevsider oppdateres like ofte, vil dette kreve veldig mye maskinvare og båndbredde.^[7]

Ferskhet rediger

Ettersom en søkemotor sin lokale indekserte vevside fort kan bli utdatert, er det viktig å ha en viss ferskhet på den lokale kopien.

Alder rediger

Alderen på vevsiden kan hjelpe til å regne ut hvor utdatert en lokal kopi er.

Ensartet policy rediger

Ved å bruke en ensartet policy, vil alle vevsidene gjenbesøkes i samme frekvens.

Proporsjonal policy rediger

En proporsjonal policy innebærer å gjenbesøke vevsider som oppdateres oftere med en høyere frekvens enn vevsidene som oppdateres sjelden. En proporsjonal tilnærming øker ferskheten av den lokale kopien, men ved hjelp av mye mindre båndbredde og maskinvare enn en ensartet tilnærming^[7].

En søkerobot har mulighet for å sjekke om en vevside har oppdatert seg siden siste besøk, men den har ikke mulighet for å sjekke hvor mange ganger. Av den grunn er det viktig for søkeroboten og estimere hvor ofte en vevside oppdateres^[7]. Det er også viktig at søkeroboten ikke prioriterer vevsider som oppdaterer seg for ofte og av den grunn straffes sidene og de får redusert hvor ofte de skal oppdateres. Eksempler på slike sider kan være nyhetsbaserte vevsider.

Høflighetspolicy rediger

Ettersom søkeroboter er mye raskere enn menneskelige besøkere kan de være en belastning for servere. Det er viktig at søkeroboten ikke reduserer serveren sin ytelse og at roboten er høflig mot serveren.

Dårlig programmerte søkeroboter kan medføre store serverbelastninger og til og med bruke så mye båndbredde at både rutere og servere kræsjer. Det settes opp et tidspunkt for hvor lenge søkeroboten skal avvente før den laster ned neste side av serveren.

Parallellpolicy rediger

Det brukes ofte flere søkeroboter på likt for å effektivisere prosessen. Da er det viktig at søkerobotene ikke besøker den samme vevsiden, og da settes det opp en policy for hvordan dette skal forhindres.

Referanser rediger

^ ^a ^b http://homepages.dcc.ufmg.br/~nivio/cursos/ri12/transp/olston-najork@web-crawling10.pdf
^ http://dl.acm.org/citation.cfm?id=775247
^ http://link.springer.com/chapter/10.1007/978-1-4615-0005-6_2#page-1
^ http://www.chato.cl/papers/crawling_thesis/effective_web_crawling.pdf
^ http://www.di.unipi.it/~gulli/papers/f692_gulli_signorini.pdf
^ «Arkivert kopi» (PDF). Arkivert fra originalen (PDF) 18. september 2006. Besøkt 11. april 2006.
^ ^a ^b ^c http://oak.cs.ucla.edu/~cho/papers/cho-freq.pdf

[:1-1] ttp://homepages.dcc.ufmg.br/~nivio/cursos/ri12/transp/olston-najork@web-crawling10.pdf

[2] ttp://dl.acm.org/citation.cfm?id=775247

[3] ttp://link.springer.com/chapter/10.1007/978-1-4615-0005-6_2#page-1

[4] ttp://www.chato.cl/papers/crawling_thesis/effective_web_crawling.pdf

[5] ttp://www.di.unipi.it/~gulli/papers/f692_gulli_signorini.pdf

[6] «Arkivert kopi» (PDF). Arkivert fra originalen (PDF) 18. september 2006. Besøkt 11. april 2006.

[:0-7] ttp://oak.cs.ucla.edu/~cho/papers/cho-freq.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]