Nowe wyszukiwarki w Internecie

Niejednokrotnie już na łamach MI gościł temat usług wyszukiwawczych, pozwalających znaleźć w Internecie informacje na żądany temat. W ostatnich miesiącach oferta takich usług wzbogaciła się o kilka nowych. Wyszukiwarki, które chcę przedstawić w niniejszym tekście, nie są jednak (z jednym - ale za to jakim! - wyjątkiem) kolejnym powieleniem schematu "maszynki" do przeszukiwania stron WWW, lecz każda z nich na swój sposób oferuje jakąś nową jakość, coś, czego w Internecie do tej pory nie było.

Alta Vista

Wspomnianym "wyjątkiem" jest Alta Vista, która 15 grudnia 1995 r. dołączyła do grona znanych i opisywanych już wcześniej w MI "klasycznych" wyszukiwarek WWW, takich jak Lycos, InfoSeek czy WebCrawler. Nie tylko dołączyła, ale natychmiast wysunęła się na czołową pozycję: jest to dziś najczęściej - przeszło 10 milionów razy dziennie - "odwiedzana" wyszukiwarka w Internecie. Baza danych Alta Visty zawiera informacje o zawartości ponad 225 tysięcy serwerów WWW, co zdaje się obejmować (biorąc pod uwagę aktualne szacunki liczby serwerów WWW w Internecie) niemal wszystkie serwery dostępne w sieci. Bliskie prawdy wydaje się zatem być powtarzane ostatnio dość często stwierdzenie, że jeżeli Alta Vista nie znajdzie jakiejś informacji, to najprawdopodobniej w WWW jej po prostu nie ma.

Alta Vista ma kilka unikalnych cech, które wyróżniają ją spośród innych wyszukiwarek. Posiada np. niespotykaną możliwość wyszukiwania stron zawierających odwołania do określonego URL-a (tym sposobem możemy wyszukać w Internecie np. wszystkie strony, które odwołują się do strony prowadzonej przez nas). Można także ograniczać zakres poszukiwań do określonych adresów domen - np. szukać określonej informacji tylko na polskich serwerach (ileż to razy potrzebowaliśmy takiej możliwości?...). Wyszukiwarka ta wreszcie klasyfikuje znalezione strony, podając na pierwszych miejscach te, które z największym prawdopodobieństwem zawierają poszukiwaną przez nas informację. Klasyfikacja ta odbywa się na podstawie bliżej nie ujawnionych kryteriów, jest jednak bardzo skuteczna, o czym miałem okazję się przekonać nakazując systemowi odszukać swoje nazwisko. Pewne zdziwienie wywołał fakt, że występuje ono w aż tylu miejscach (no tak, archiwa list dyskusyjnych...), ale na pierwszej pozycji w wykazie znalazło się odwołanie do mojej strony osobistej - wprawdzie bardzo prowizorycznej, zawierającej zaledwie kilka zdań (i to po polsku!), a jednak bezbłędnie znalezionej przez program.

Serwis ten, stworzony przez firmę Digital, jest przedsięwzięciem na niezwykłą skalę. Tworzy go łącznie 10 komputerów (wszystkie oczywiście produkcji Digitala, z procesorami Alpha), wśród których podziw budzi przede wszystkim "serce" systemu: trzy identyczne dziesięcioprocesorowe AlphaServery 8400, każdy z sześcioma gigabajtami (!) pamięci RAM i 210-gigabajtową macierzą dyskową - najpotężniejsze z maszyn produkowanych przez Digitala. To na nich właśnie działa zasadnicze oprogramowanie przeszukujące bazę danych, nic więc dziwnego że szukana informacja odnajdywana jest przez Alta Vistę niemal natychmiast. Ciągłe uaktualnianie bazy zapewniają dwa mniejsze, bo mające "zaledwie" po 1 GB RAM, komputery: na jednym z nich działa Scooter - program nieustannie przeglądający serwery WWW i "ściągający" z nich informacje, na drugim z danych dostarczonych przez Scootera tworzony jest indeks, okresowo kopiowany do głównych komputerów przeszukujących. Spośród pięciu najmniejszych maszyn trzy pełnią rolę serwerów WWW (serwis dostępny jest pod adresem http://altavista.digital.com/), a dwa pozostałe zajmują się obsługą Usenetu, jako że Alta Vista oprócz WWW pozwala przeszukiwać także zbiory wiadomości dostępnych aktualnie w grupach Usenetowych. Oprócz samych usług poszukiwawczych, w serwisie Alta Vista znaleźć można różne ciekawe materiały dla użytkowników sieci, między innymi - pod adresem http://altavista.software.digital.com/inethistory/nfintro.htm - interesująco opracowaną historię Internetu.

Shareware.Com

Użytkownicy sieci, którzy szukają w Internecie przede wszystkim oprogramowania, od dawna posługują się w tym celu serwisem archie. Archie ma jednak bardzo poważną wadę: aby za jego pomocą znaleźć program, trzeba znać nazwę pliku, pod jaką jest on zapisany na serwerze, a przynajmniej jej fragment. Niestety, w przypadku gdy np. przeczytamy w jakimś czasopiśmie o rewelacyjnym programie pod nazwą - załóżmy - "The Ultimate Graphics File Viewer", i poza tą nazwą nie mamy żadnych innych danych, próba odnalezienia tego programu w Internecie używając archie jest z góry skazana na niepowodzenie.

Właśnie w takich przypadkach z pomocą przychodzi Shareware.Com. Tak naprawdę nie jest to serwis nowy - Shareware.Com to nowe "oblicze" znanej już od kilku lat usługi pod nazwą Virtual Software Library (VSL), również opisywanej już w jednym z numerów MI. VSL jakoś nie cieszyła się jednak dotąd większą popularnością, dopiero po zmianie nazwy i image'u serwis - dostępny obecnie pod adresem http://www.shareware.com/ - stał się powszechnie znany. Oprócz wymienionego adresu "punkty wejścia" do serwisu znajdują się także na kilkunastu innych serwerach WWW na świecie - można wybrać ten, z którym łączność będzie najszybsza.

Korzystając z VSL można odnajdywać programy znając tylko ich "opisową" nazwę (jak w hipotetycznym przypadku powyżej), a nawet wiedząc jedynie w przybliżeniu, o co nam chodzi - jeżeli np. potrzebujemy odtwarzacza plików dźwiękowych, możemy wyszukać go za pomocą "słów kluczowych", takich jak "sound" i "player". Shareware.Com dokonuje swoich poszukiwań w oparciu o opisy programów, znajdujące się w plikach indeksowych współpracujących z nim serwerów anonymous FTP (aby współpracować z VSL, administrator serwera musi spełnić pewne warunki dotyczące sposobu organizacji tych plików). Systemem objęte są aktualnie wszystkie największe archiwa oprogramowania takie jak SimTel, CICA, Hobbes itp., jak również kilkadziesiąt małych serwerów, z reguły należących do konkretnych producentów software'u i służących rozpowszechnianiu ich programów. Nie ma zatem gwarancji, że Shareware.Com odnajdzie nam każdy program - nie uda się to w przypadku, gdy jedynym miejscem jego "pobytu" jest serwer nie współpracujący z VSL. Bardzo często jednak udaje się trafić - bazy danych VSL zawierają obecnie informacje już o przeszło 190 tysiącach programów, podzielonych na kilka kategorii, w zależności od typu komputera i systemu operacyjnego, dla którego są przeznaczone.

Dodatkową bardzo atrakcyjną cechą Shareware.Com jest fakt, że w przypadku gdy szukany program znajduje się w archiwum posiadającym mirrory w różnych miejscach na świecie, program przeszukujący sam wskazuje użytkownikowi jako pierwsze mirrory geograficznie mu najbliższe. Muszę przyznać, że było to dla mnie pewnym zaskoczeniem, gdy po odnalezieniu pewnego programu w archiwum CICA, daleki serwer Shareware.Com zaproponował mi "ściągnięcie" tego programu z, oddalonego ode mnie dosłownie o kilkaset metrów światłowodu, mirrora CICA w krakowskim Cyfronecie (oczywiście wiedziałem o istnieniu tego mirrora: zaskoczenie wynikło z faktu "skojarzenia" przez Shareware.Com jego adresu z adresem komputera, na którym pracowałem).

DejaNews

Ostatnia z trzech "wielkich" nowości w sieciowym wyszukiwaniu stanowi prawdziwą sensację. Serwis o wymownej nazwie DejaNews (http://www.dejanews.com/) archiwizuje i pozwala przeszukiwać stare artykuły z grup Usenetowych, kładąc tym samym kres dobrze znanej ulotności tego medium. Z każdego podręcznika Internetu dowiedzieć się można, że "przeterminowane" wiadomości znikają z dysków serwerów news w sposób nieodwracalny: grupy Usenetowe na ogół, w przeciwieństwie do pocztowych list dyskusyjnych, nie posiadają archiwów, w których rejestrowana jest każda wysłana na listę wypowiedź. Teraz jednak dzięki DejaNews także z Usenetu nic nie ginie w sposób ostateczny - możliwe jest sięgnięcie do starych, "zgubionych" wypowiedzi.

Z oczywistych powodów DejaNews archiwizuje tylko grupy newsowe o zasięgu ogólnoświatowym (większość grup lokalnych wszak nawet nigdy nie dotrze do serwera DejaNews), tzn. grupy wchodzące w skład "Wielkiej Siódemki" (comp.*, sci.*, news.*, rec.*, soc.*, talk.*, misc.*) oraz hierarchii alt.*, (*) jednakże z wyjątkiem rozsyłanych za pośrednictwem tych grup plików binarnych. Archiwa obejmują aktualnie okres od marca 1995 r. (stanowi to ok. 70 GB danych), twórcy DejaNews mają jednak ambitny zamiar wydłużenia wstecz okresu objętego swoim serwisem, aż do ujęcia w archiwum wszystkich wiadomości wysłanych do Usenetu od jego początków w 1979 r.! Cel ten zamierzają osiągnąć poprzez pozyskiwanie od administratorów dużych serwerów news starych taśm z backupami dysków serwera, z których odtwarzane będą brakujące artykuły.

Mechanizmy przeszukujące DejaNews są bardzo rozbudowane i pozwalają na definiowanie prawie dowolnych kryteriów wyszukiwania: oprócz standardowego dla większości serwisów tego typu poszukiwania wystąpień podanego słowa czy słów, także z możliwością stosowania operatorów logicznych (AND, OR itp.), można dowolnie wybrać zestaw grup, w których poszukiwane będą artykuły, określić interesujący nas przedział czasowy, czy wreszcie "przefiltrować" bazę pod kątem określonego autora wiadomości lub adresu komputera, z którego były wysyłane. DejaNews można przy tym wykorzystywać nie tylko jako bazę danych, ale również po prostu jako swego rodzaju wygodny newsreader o bardzo zaawansowanych możliwościach (tym bardziej że serwis umożliwia też wysyłanie wiadomości do grup Usenetowych za jego pomocą), co może być przydatne dla osób nie posiadających dostępu do żadnego serwera news.

Yahoo we wszelkich odmianach ...

Tymczasem twórcy dotychczasowych "klasycznych" wyszukiwarek także nie zasypiają gruszek w popiele, rozszerzając wciąż ich usługi. Zarówno Lycos, jak i InfoSeek obok typowej automatycznej wyszukiwarki wprowadziły ręcznie tworzone katalogi tematyczne, wzorowane na klasycznym już Yahoo. Samo Yahoo zaś z kolei zyskało ostatnio mutację przeznaczoną dla dzieci - Yahooligans (http://www.yahooligans.com/). Oprócz katalogu stron WWW wybranych pod kątem dziecięcych zainteresowań można tam znaleźć m.in. chyba pierwszą internetową powieść sensacyjną w odcinkach. Opracowywany wspólnie ze znanym wydawnictwem The Random House serial "The Lurker Files" z zainteresowaniem przeczytają zapewne także dorośli. Oczywiście jak przystało na kryminał publikowany w Internecie, kluczową rolę w intrydze odgrywa sieć komputerowa...

Od niedawna Yahoo posiada również swoją wersję w języku japońskim (http://www.yahoo.co.jp/), szczególnie ukierunkowaną na japońskie zasoby WWW. Do korzystania z tego serwera niezbędne jest (poza oczywiście znajomością języka... ;-)) posiadanie oprogramowania umożliwiającego prawidłowe dekodowanie i wyświetlanie na ekranie japońskich znaków. Planowane jest tworzenie kolejnych narodowych wersji Yahoo.

... i po polsku

Nieprędko jednak (jeżeli w ogóle) doczekamy się Yahoo po polsku. Możemy jednak poradzić sobie we własnym zakresie. W ostatnim czasie staraniem polskich autorów powstały dwa wzorowane na Yahoo serwisy, katalogujące zawartość polskich stron WWW: pierwszy z nich to Wirtualna Polska (http://wp.cnt.pl/), drugi - WOW! (http://www.webcorp.co.uk/wow/).

Wirtualna Polska, prowadzona obecnie przez gdańskie Centrum Nowych Technologii, jest serwisem starszym: uruchomiona została w sierpniu 1995 r., początkowo w ramach innej, również bardzo ciekawej inicjatywy - Wirtualnej Akademii (http://www.gumbeers.elka.pg.gda.pl/WA/). Pod koniec lutego bieżącego roku, w zmienionej, upodobnionej do Yahoo, formie, pojawiła się pod własnym adresem. Serwis WOW! uruchomiony został dopiero w połowie kwietnia br., za to w ciągu swego krótkiego funkcjonowania zdołał już rozróść się do rozmiarów prawie dwuipółkrotnie większych od konkurenta. W odróżnieniu od Wirtualnej Polski, skupiającej się przede wszystkim na zawartości serwerów fizycznie znajdujących się w Polsce, WOW! zawiera także sporą liczbę odsyłaczy do zasobów "polonijnych". Pod względem staranności opracowania redakcyjnego WOW! pozostaje jednak znacznie w tyle za WP. Obok katalogów polskich stron WWW każdy z serwisów proponuje użytkownikom dodatkowe atrakcje: w WOW! są to aktualne wiadomości z Polski i z życia Polonii, a w Wirtualnej Polsce - prowadzony przez Henryka Gajewskiego, twórcy internetowej galerii Centrum Innej Sztuki - konkurs na najciekawszą polską stronę WWW.

W tej beczce miodu musi jednakże znaleźć się łyżka dziegciu: mam jedno poważne zastrzeżeniem do serwisu WOW!, a jest nim... jego adres. Spoglądając na niego, nietrudno zauważyć, że serwis ów znajduje się w Wielkiej Brytanii, wskutek czego o szybkości transmisji między nim a jego polskim użytkownikiem lepiej nie wspominać... (jak również o czterokrotnie wyższych kosztach połączenia w przypadku opłat za ruch wg nowego cennika NASK-u). Wprawdzie "dla zmylenia przeciwnika" ten sam komputer dostępny jest również pod adresem www.webcorp.com.pl, nie zmienia to jednakże sytuacji ani na jotę... Umieszczenie katalogu polskich stron WWW poza Polską jest pomysłem dosyć dziwnym, miejmy jednak nadzieję, że jest to tylko stan przejściowy i w przyszłości WOW! znajdzie się faktycznie, a nie tylko nominalnie, w krajowej sieci. (**)


* Aktualnie DejaNews archiwizuje już także grupy innych hierarchii, m.in. pl.*.
** Obecnie WOW! zlokalizowany jest już w Polsce pod adresem http://www.wow.pl/.


Jarosław Rafa 1996. Tekst udostępniony na licencji Creative Commons (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych). Kliknij tutaj, aby dowiedzieć się, co to oznacza i co możesz z tym tekstem zrobić. W razie jakichkolwiek wątpliwości licencyjnych bądź w celu uzyskania zgody na rozpowszechnianie wykraczające poza warunki licencji proszę o kontakt e-mailem: raj@ap.krakow.pl.

Wersja HTML opracowana 17.08.96.


Powrót do wykazu artykułów o Internecie Statystyka