VISOKA ŠKOLA RAČUNARSTVA I POSLOVNIH KOMUNIKACIJA

eMPIRICA U BRČKO DISTRIKTU BIH

SEMINARSKI RAD

I

Z

 

PREDMETA

 

„I

NFORMATIKA

I

NTERNET

 

PRETRAŽIVAČI

STUDENT

V

ANESA

 V

RHOVAC

BRČKO, JANUAR 2015. GODINE

background image

4

1. Pretraživanje interneta

Pretraživači su jedan od nepredviđenih rezultata distributerske komjuterske mreže, 

sada zvane World Wide Web (WWW ili web). WWW je samo jedna komponenta Interneta 
kao cjeline, ali uglavnom kada ljudi kažu Internet oni zapravo misle World Wide Web. U 
ranijim fazama WWW-a, jedni način sa se prosljedi informacija od jednog kompjutera ka 
drugom je bio File Transfer Protocol ili FTP , ovaj način je zahtjevao da jedan kompjuter zna 
adresu drugog. FTP klijent je onda mogao da kontaktira FTP server (Deamon) koristeci tacnu 
adresu, nakon cega bi pretrazivao i uzimao odabran dio dostupnog sadrzaja na distributerskoj 
masini. Tadasnje pretrazivanje, nije nalik danasnjem, sadrzaj prikazan kao obicna lista, bez 
grafickog pretrazivanja i linkova. Korisnik bi tada morao da prekine vezu i ponovo uspostavi 
vezu FTP klijenta ka drugoj masini da bi pretrazivao drugi sadrzaj (pritom je mogao da se 
poveze samo sa serverima cija adresa je poznata). Bilo je to tezak, komplikovan i radnicki 
zadatak gledano sa aspekta danasnjih standarda. Jedini način da neko nadje fajl, pogotovo nov 
fajl, bio je slanjem e-mail-a.
I prije nego što je WWW postao najvidljiviji dio Interneta, postojali su Internet 
pretraživači sa ciljem lakseg snalazenja korisnika. To su bili, sada vec legendarni 
programi,   gopher   i   Archie   ,   koji   su   čuvali   informacije   spiskove   locirane   na 
serverima,  koji  su  bili konstantno  poveazani  sa Internetom.  Iskljucivo  njihovom 
zaslugom,   ekstremno   je   smanjeno   vreme   nalazenja   programa   i   dokumenata.   U 
kasnim   80’-im,   iskoristiti   maksimum  Interneta,   znacilo   je  poznavanje  programa: 
gopher, Archie, Veronika itd...

Prije nego što pretraživač moze dati rezultat (lokaciju fajla ili dokumenta), on mora 

da ga nadje. Da bi nasao informaciju na milijardama stranica Web-a, pretraživač uposljava 
specijalno softverske robote, takozvane paukove (spiders), koji prave listu riječi nadjenih na 
Internet   sajtovima.   Proces   paukovog   pravljenja   liste   se   naziva   gmizanje   Web-om   (Web 
crawling). U cilju pravljenja što korisnije liste riječi, paukovi pretrazuju mnogo stranica.

Pocetak paukovog pretrazivanja stranica, su liste sastavljene od mnogo pristupanim 

serverima i veoma popularnim stranicima. Pauk pocinje od popularnog sajta, sastavljajuci 
index sa njegovih stranica i prateci svaki link, nadjen na pocetnom sajtu. Na ovaj način, 
sistem zasnovan na paukovima brzo pocinje putovanje kroz Web, siriječi se preko njegovih 
siroko primenjenih delova.

Google.com je nastao kao akademski pretraživač. Njegov inicijalni sistem koristi 

vise   paukova,   obicno   tri   ištovremeno.   Svaki   pauk   moze   da   odrzi   300   veza   sa   Web 
stranicama otvorenim i išto vreme. Pri svojim maksimalnim performansama, koristeci cetiri 
pauka, sistem moze da odgmize preko 100 stranica po sekundi, stvarajuci oko 600 kilobajta 
podataka svake sekunde.

Održavajući sve brzim značilo je napraviti sistem koji bi hranio pauke neophodnim 

informacijama. Prvobitni sistem Google-a sadrzao je server posvecen dostavljanje URL-a 
paucima. Google je imao svoj sopstveni DNS (Domain Name Server prevodi ime servera u 
adresu), iz razloga što bi se u suprotnom oslanjao na Internet servis provajdera za DNS. 
Rezultat je svodjenje odlaganja na minimum, tj. veca brzina.

Kada Google-ov pauk pretrazuje HTML stranica, on belezi dve stvari:

Riječi na stranici 

Lokaciju riječi 

5

Riječi koje se pojavlju u naslovu, podnaslovu, meta tagovima i drugim vaznim 

pozicijama su zabelezene za specijalno razmatranje u toku sledece korisnicke pretrage. 
Google-ov pauk pravi index svake znacajne riječi na stranici, ostavljajuci clanove “a”, “an” 
i “the”. Drugi pauci koriste Drugačije pristupe.

Drugačije pristupi su pokusaj da pauk radi brze, dozvoli korisniku da pretrazuje 

efikasnije ili oboje. Na primer neki paukovi ce čuvati trag riječi u naslovu i podnaslovu i 
linkovima, zajedno sa što najucestalije koriscenim riječima na stranici i svaku riječ u prvih 
dvadeset redova teksta. Tvrdi se da Lycos koristi ovakav pristup prilikom pretrage Web-a 
paucima.

Drugi sitemi, kao AltaVista, idu u drugom pravcu, uzimajuci svaku riječ na stranici, 

uklucujuci “a”, “an”, “the” i druge “nebitne” riječi. Korak do savrsenstva u ovom pristupu je

Meta tagovi dozvoljavaju vlasniku stranice da naznace kljucne riječi i koncept po 

kojem ce stranica bi zabelezena. Ovo moze biti korisno, pogotovo u slučajevoma u kojim 
riječi na stranicimmogu imati dvostruko ili trostruko znacenje; meta tagovi mogu da vode 
pretraživač   u   biranju   pravog   znacenja   za   riječ.   Ipak,   tu   je   i   opasnost   u   prekomernom 
oslanjanju na meta tagove, jer nemarni i beskrupulozni vlasnici stranica mogu dodati meta 
tagove   koji   odgovaraju   veoma   popularnim   temama,   pritom   nemajuci   nikakve   veze   sa 
sadrzajem stranice. Da bi se zastitili, pauci ce uporediti meta tagove sa sadrzajem stranice, 
odbijajuci meta tagove koji koji se ne poklapaju sa riječima na stranici.

Sve   ovo   ukažuje   da   vlasnici   stranica   zele   da   budu   ukljuceni   u   rezultate   Internet 

pretraživača. Mnogo puta, vlasnik ne zeli da pauk pretrazi njegovu stranicu. Na primer, igra 
pravi nove, aktivne stranice svaki put kada se prikažu delovi stranice ili kada se novi link 
otvori. Ako Web pauk pristupi jednoj od ovakvih stranica i pocne da otvara sve linkove ka 
novim stranicama, igra bi mogla da pogresno da protumaci aktivnost kao ljudskog igraca 
visoke brzine i izmakne kontroli. Da bi izbegli ovakve situacije, razvijen je robot exclusion 
protocol, koji umetnut u pocetak stranice, kaze pauku da ostavi stranicu na miru, tj., da ne 
belezi riječi na stranici niti da prati njene linkove.

background image

Želiš da pročitaš svih 20 strana?

Prijavi se i preuzmi ceo dokument.

Ovaj materijal je namenjen za učenje i pripremu, ne za predaju.

Slični dokumenti