Internet pretraživači Pregled

VISOKA ŠKOLA RAČUNARSTVA I POSLOVNIH KOMUNIKACIJA

eMPIRICA U BRČKO DISTRIKTU BIH

SEMINARSKI RAD

PREDMETA

„I

NFORMATIKA

“

NTERNET

PRETRAŽIVAČI

STUDENT

ANESA

RHOVAC

BRČKO, JANUAR 2015. GODINE

Sadržaj

5.1 GOOGLE........................................................................................................................ 16
5.2YAHOO!..........................................................................................................................18

Zaključak...................................................................................................................................19
Literatura...................................................................................................................................20

1. Pretraživanje interneta

Pretraživači su jedan od nepredviđenih rezultata distributerske komjuterske mreže,

sada zvane World Wide Web (WWW ili web). WWW je samo jedna komponenta Interneta
kao cjeline, ali uglavnom kada ljudi kažu Internet oni zapravo misle World Wide Web. U
ranijim fazama WWW-a, jedni način sa se prosljedi informacija od jednog kompjutera ka
drugom je bio File Transfer Protocol ili FTP , ovaj način je zahtjevao da jedan kompjuter zna
adresu drugog. FTP klijent je onda mogao da kontaktira FTP server (Deamon) koristeci tacnu
adresu, nakon cega bi pretrazivao i uzimao odabran dio dostupnog sadrzaja na distributerskoj
masini. Tadasnje pretrazivanje, nije nalik danasnjem, sadrzaj prikazan kao obicna lista, bez
grafickog pretrazivanja i linkova. Korisnik bi tada morao da prekine vezu i ponovo uspostavi
vezu FTP klijenta ka drugoj masini da bi pretrazivao drugi sadrzaj (pritom je mogao da se
poveze samo sa serverima cija adresa je poznata). Bilo je to tezak, komplikovan i radnicki
zadatak gledano sa aspekta danasnjih standarda. Jedini način da neko nadje fajl, pogotovo nov
fajl, bio je slanjem e-mail-a.
I prije nego što je WWW postao najvidljiviji dio Interneta, postojali su Internet
pretraživači sa ciljem lakseg snalazenja korisnika. To su bili, sada vec legendarni
programi,   gopher   i   Archie   ,   koji   su   čuvali   informacije   spiskove   locirane   na
serverima,  koji  su  bili konstantno  poveazani  sa Internetom.  Iskljucivo  njihovom
zaslugom,   ekstremno   je   smanjeno   vreme   nalazenja   programa   i   dokumenata.   U
kasnim   80’-im,   iskoristiti   maksimum  Interneta,   znacilo   je  poznavanje  programa:
gopher, Archie, Veronika itd...

Prije nego što pretraživač moze dati rezultat (lokaciju fajla ili dokumenta), on mora

da ga nadje. Da bi nasao informaciju na milijardama stranica Web-a, pretraživač uposljava
specijalno softverske robote, takozvane paukove (spiders), koji prave listu riječi nadjenih na
Internet sajtovima. Proces paukovog pravljenja liste se naziva gmizanje Web-om (Web
crawling). U cilju pravljenja što korisnije liste riječi, paukovi pretrazuju mnogo stranica.

Pocetak paukovog pretrazivanja stranica, su liste sastavljene od mnogo pristupanim

serverima i veoma popularnim stranicima. Pauk pocinje od popularnog sajta, sastavljajuci
index sa njegovih stranica i prateci svaki link, nadjen na pocetnom sajtu. Na ovaj način,
sistem zasnovan na paukovima brzo pocinje putovanje kroz Web, siriječi se preko njegovih
siroko primenjenih delova.

Google.com je nastao kao akademski pretraživač. Njegov inicijalni sistem koristi

vise paukova, obicno tri ištovremeno. Svaki pauk moze da odrzi 300 veza sa Web
stranicama otvorenim i išto vreme. Pri svojim maksimalnim performansama, koristeci cetiri
pauka, sistem moze da odgmize preko 100 stranica po sekundi, stvarajuci oko 600 kilobajta
podataka svake sekunde.

Održavajući sve brzim značilo je napraviti sistem koji bi hranio pauke neophodnim

informacijama. Prvobitni sistem Google-a sadrzao je server posvecen dostavljanje URL-a
paucima. Google je imao svoj sopstveni DNS (Domain Name Server prevodi ime servera u
adresu), iz razloga što bi se u suprotnom oslanjao na Internet servis provajdera za DNS.
Rezultat je svodjenje odlaganja na minimum, tj. veca brzina.

Kada Google-ov pauk pretrazuje HTML stranica, on belezi dve stvari:

•

Riječi na stranici

•

Lokaciju riječi

Riječi koje se pojavlju u naslovu, podnaslovu, meta tagovima i drugim vaznim

pozicijama su zabelezene za specijalno razmatranje u toku sledece korisnicke pretrage.
Google-ov pauk pravi index svake znacajne riječi na stranici, ostavljajuci clanove “a”, “an”
i “the”. Drugi pauci koriste Drugačije pristupe.

Drugačije pristupi su pokusaj da pauk radi brze, dozvoli korisniku da pretrazuje

efikasnije ili oboje. Na primer neki paukovi ce čuvati trag riječi u naslovu i podnaslovu i
linkovima, zajedno sa što najucestalije koriscenim riječima na stranici i svaku riječ u prvih
dvadeset redova teksta. Tvrdi se da Lycos koristi ovakav pristup prilikom pretrage Web-a
paucima.

Drugi sitemi, kao AltaVista, idu u drugom pravcu, uzimajuci svaku riječ na stranici,

uklucujuci “a”, “an”, “the” i druge “nebitne” riječi. Korak do savrsenstva u ovom pristupu je

Meta tagovi dozvoljavaju vlasniku stranice da naznace kljucne riječi i koncept po

kojem ce stranica bi zabelezena. Ovo moze biti korisno, pogotovo u slučajevoma u kojim
riječi na stranicimmogu imati dvostruko ili trostruko znacenje; meta tagovi mogu da vode
pretraživač u biranju pravog znacenja za riječ. Ipak, tu je i opasnost u prekomernom
oslanjanju na meta tagove, jer nemarni i beskrupulozni vlasnici stranica mogu dodati meta
tagove koji odgovaraju veoma popularnim temama, pritom nemajuci nikakve veze sa
sadrzajem stranice. Da bi se zastitili, pauci ce uporediti meta tagove sa sadrzajem stranice,
odbijajuci meta tagove koji koji se ne poklapaju sa riječima na stranici.

Sve ovo ukažuje da vlasnici stranica zele da budu ukljuceni u rezultate Internet

pretraživača. Mnogo puta, vlasnik ne zeli da pauk pretrazi njegovu stranicu. Na primer, igra
pravi nove, aktivne stranice svaki put kada se prikažu delovi stranice ili kada se novi link
otvori. Ako Web pauk pristupi jednoj od ovakvih stranica i pocne da otvara sve linkove ka
novim stranicama, igra bi mogla da pogresno da protumaci aktivnost kao ljudskog igraca
visoke brzine i izmakne kontroli. Da bi izbegli ovakve situacije, razvijen je robot exclusion
protocol, koji umetnut u pocetak stranice, kaze pauku da ostavi stranicu na miru, tj., da ne
belezi riječi na stranici niti da prati njene linkove.