Uwaga. Treść tego artykułu uległa od chwili napisania (luty 1997) znacznej dezaktualizacji, tak ze względu na pojawienie się nowych polskich wyszukiwarek, jak też zaprzestanie dalszych prac nad Sieciowidem, stąd też został on wycofany z publikacji drukiem. Ze względów "historycznych" pozostawiam go jednak na tej stronie.


NEToskop kontra Sieciowid

W numerze 1/97 MI informowaliśmy Państwa o powstaniu polskiej wyszukiwarki WWW - Sieciowida, uruchomionego przez Polskę Online. Oficjalna premiera tego serwisu miała miejsce 17 grudnia 1996 (aczkolwiek był on obecny pod adresem http://sieciowid.pol.pl/ już kilka tygodni wcześniej), i tego samego dnia na głównej stronie WWW polskiej edycji magazynu "Chip" (http://www.chip.pl/) zaprezentowany został konkurencyjny serwis wyszukiwawczy - NEToskop.

Można byłoby się zatem tylko cieszyć, że mamy aż dwie polskie wyszukiwarki, gdyby nieprzyjemnym "zgrzytem" w tej sprawie nie okazał się konflikt, jaki w kilka dni po premierze obu serwisów rozgorzał między ich twórcami na liście dyskusyjnej "Dziennikarz" (dziennikarz@ia.pw.edu.pl lub pl.listserv.dziennikarz w Usenecie). Obie strony obwiniały się wzajemnie o nieuczciwość i zagarnięcie efektów wspólnej pracy.

NEToskop i Sieciowid mają bowiem wspólną historię. Twórca oprogramowania NEToskopa, a zarazem nazwy "Sieciowid", Jacek Surażski, przyjechał do Polski z Norwegii w lipcu 1996 r. z zamiarem - jak twierdzi - umieszczenia swojego produktu na serwerze wrocławskiego oddziału firmy Optimus. Po zerwaniu rozmów przez tę firmę "przeniósł się" do Polski Online (która wcześniej składała mu wstępną ofertę współpracy) i na jej serwerze rozbudowywał program od sierpnia do października 1996. Niezadowolony jednak ze współpracy z POL, która odwlekała podpisanie z nim stosownej umowy, w połowie października zdecydował się tę współpracę zerwać (i tu właśnie zaczynają się owe wzajemne oskarżenia...). Program został tymczasowo przeniesiony na prywatny komputer, autor musiał jednak pozostawić Polsce Online nazwę "Sieciowid", gdyż ta zdążyła ją już zarejestrować jako swój znak towarowy. Ostatecznie Jacek Surażski podjął współpracę z wydawcami "Chipa", gdzie jego program działa jako NEToskop, natomiast Polska Online uruchomiła pod nazwą Sieciowid serwis bazujący na gotowym oprogramowaniu przeszukującym Harvest 1.4.

Choć konflikt ten kładzie się dosyć nieprzyjemnym cieniem na obie wyszukiwarki, warto abstrahując od niego, przyjrzeć się bliżej ich działaniu.

Sieciowid wyróżnia się na pierwszy rzut oka charakterystyczną dla wszystkich serwisów Polski Online elegancką oprawą graficzną. Tu niestety pojawia się już pierwsze zastrzeżenie - Sieciowid, jak i pozostałe serwisy POL, zrealizowany jest w stronie kodowej Windows, a na dodatek brak jest w nagłówku dokumentu odpowiedniego zdania <META> informującego przeglądarkę o zastosowanym kodowaniu (co i tak nie na wiele się zda w przypadku przeglądarek pracujących w Unixie, OS/2 czy na Macintoshu...). Polska Online "programowo" ignoruje istnienie standardu ISO 8859-2; prezes tej firmy na wielokrotne pytania, kiedy na stronach POL będzie kodowanie ISO, odpowiada wprost: "nigdy". Trudno zrozumieć sens takiego postępowania w sytuacji, gdy na głównej stronie POL zaleca się oglądanie jej przy pomocy najnowszych wersji Microsoft Internet Explorera lub Netscape Navigatora - obydwu "rozumiejących" kodowanie ISO! Stosowanie przez POL niestandardowego kodowania polskich liter jest niewątpliwie dużym minusem tego - skądinąd bardzo ciekawego - serwisu.

Obok samej wyszukiwarki na Sieciowida składa się klasyczny katalog tematyczny stron WWW (daleko mu jednak do Wirtualnej Polski...) oraz Adresowa Książka Internetu - baza danych, do której każdy może wpisać swoje dane osobowe wraz z adresem e-mail, co umożliwi późniejsze odszukanie jego adresu przez innych użytkowników tej bazy. Baz takich w polskiej sieci istnieje już kilka i żadna jakoś nie zyskała sobie dotąd większej popularności - być może tym razem będzie inaczej?

Z racji swojej "Harvestowej" proweniencji wyszukiwarka ma dosyć bogate możliwości formułowania zapytań, włącznie z użyciem operatorów logicznych typu AND, OR itp. Dosyć oryginalną opcją wyszukiwania jest możliwość ustalenia "dopuszczalnej liczby błędów" - maksymalnej liczby liter, w których wyraz znaleziony przez Sieciowida może różnić się od zadanego przez nas wzorca poszukiwań. Jednakże do samego działania wyszukiwarki mam znaczne zastrzeżenia - praktycznie w chwili obecnej (początek lutego 1997) serwis można uznać za nie nadającą się jeszcze do użytku wersję testową, która - miejmy nadzieję - jak najszybciej zostanie doprowadzona do postaci eksploatacyjnej.

Pierwsza moja próba skorzystania z Sieciowida zakończyła się zwróceniem informacji, że program znalazł... ponad 92 tysiące dokumentów - a zatem, sądząc z zamieszczonej na głównej stronie informacji o liczbie indeksowanych stron, prawdopodobnie wszystkie, które ma w swojej bazie. Przy kolejnych próbach, niezależnie od tego czego szukałem, efekt był dokładnie taki sam. Dopiero kontakt z administratorem Sieciowida (nawiasem mówiąc, odsyłacz na głównej stronie umożliwiający wysłanie poczty do administratora jakoś nie chce działać - próbowałem kilkakrotnie, w kilkudniowych odstępach czasu; poczta zawsze była zwracana) wyjaśnił problem. Sieciowid może działać w dwu trybach: wyświetlania wierszy zawierających znalezione wyrazy i wyświetlania tylko tytułów znalezionych dokumentów. Ten drugi tryb - wybierany jako domyślny po wejściu na stronę serwisu! - charakteryzuje się właśnie wspomnianym błędem, którego przyczyny administratorzy Sieciowida na razie nie są w stanie ustalić.

Spróbowałem zatem działania wyszukiwarki w pierwszym trybie, nakazując jej wyszukać moje nazwisko. Program odnalazł 356 dokumentów, a zatem - zdawałoby się - wynik lepszy od konkurencyjnych wyszukiwarek: NEToskop odnalazł 291 dokumentów z tekstem "Jarosław Rafa", zaś Altavista - podająca przybliżoną liczbę znalezionych stron - stwierdziła, iż znalazła ich "około 300". Niestety, po przejrzeniu wykazu znalezionych dokumentów okazało się, że wszystkie bez wyjątku pochodzą z jednego serwera - www.man.lodz.pl, a konkretnie ze znajdujących się na nim archiwów listy dyskusyjnej "Polip", na której często zabieram głos. Program nie odnalazł ani jednej strony z żadnego innego serwera, w tym z www.wsp.krakow.pl, którego jestem administratorem. Istnieje wprawdzie możliwość - jak informują twórcy Sieciowida - wskazania programowi serwerów, które ma przeszukiwać, za pomocą opcji "Dodaj URL", cóż to jednak za wyszukiwarka, której trzeba ręcznie wskazywać, gdzie ma szukać? Istotą wyszukiwarek jest wszak to, że odnajdują one informację "same"...

Trzeba przy tym dodać, że przejrzenie wykazu owych 356 dokumentów było zajęciem niezwykle czasochłonnym, jako że wygenerowanie i wyświetlenie każdej strony (zawierającej odsyłacze do 10 dokumentów) zajmowało Sieciowidowi ok. 1.5 minuty - i nie było to opóźnienie spowodowane wolną transmisją przez sieć (strona wyświetlała się praktycznie błyskawicznie), lecz czasem działania samego programu wyszukującego. W dyskusji na temat Sieciowida na liście "Dziennikarz" zwracano zresztą uwagę, że oprogramowanie Harvesta jest znane ze swej powolności i prawdopodobnie nie da sobie rady jako wyszukiwarka tego rodzaju.

Konkurencyjny NEToskop na tym tle prezentuje się - trzeba to przyznać - znacznie lepiej. Możliwości formułowania zapytań są wprawdzie znacznie skromniejsze (brak operatorów logicznych) - jedyną dostępną opcją jest wybór wyszukiwania całych wyrazów bądź ich fragmentów (nazwane nie wiedzieć czemu zmyłkowo wyszukiwaniem "dokładnym" i "przybliżonym"). NEToskop działa za to szybko i faktycznie odnajduje szukane informacje. Wyszukiwarka charakteryzuje się oryginalnym podejściem do problemu polskich liter: wszystkie przeszukiwane strony są podczas indeksowania "wewnętrznie" konwertowane do postaci czystego ASCII (tzw. "polskawej"), i podobnie program postępuje z tekstem wprowadzonym jako wzorzec do poszukiwań. Powinno to zapewnić odszukanie strony niezależnie od tego, czy tekst na niej zawiera polskie litery, czy też nie.

Program usiłuje w pewien sposób klasyfikować znalezione strony, jednak kryteria tej klasyfikacji wydały mi się dość dziwne (najwyżej kwalifikowane są strony zawierające szukany tekst w tytule lub pierwszym nagłówku, następnie strony, na których tekst ten jest w jakiś sposób wyróżniony, np. kursywą lub pogrubieniem - ???, dopiero potem wszystkie inne). Uzyskany w ten sposób wykaz stron ma układ nieco chaotyczny, pocieszający jest jednakże fakt, że niewiele lepiej pod tym względem wypada renomowana Altavista. Pierwsze miejsca w wykazie znalezionych przez NEToskopa dokumentów z moim nazwiskiem zajmowały różne strony zawierające odsyłacze do stron tworzonych przeze mnie (nawet nie wiedziałem, że tyle ich jest...). Pierwsza z "moich" stron znalazła się dopiero na 27 miejscu, zaś moja home page (fakt, że bardzo prowizoryczna...) została wymieniona na pozycji czterdziestej. Altavista zaś umieściła pierwszą z "moich" stron (inną niż NEToskop) na pozycji 13, zaś home page - na 29. Ciekawe, że wśród dokumentów znalezionych przez NEToskopa nie znalazł się żaden z odszukanych przez Sieciowida tekstów z archiwów list dyskusyjnych - być może NEToskop je odfiltrowuje? (w opisie nie znalazłem żadnej informacji na ten temat). Znalazło się natomiast jedno odwołanie błędne - do strony poświęconej piosence żeglarskiej, która ze mną ani z moim nazwiskiem nie ma nic wspólnego.

Ciekawą zabawą proponowaną przez twórców NEToskopa jest strona pozwalająca wędrować przez polski Internet "po obrazkach". Program prezentuje nam losowy wybór grafik zaczerpniętych z polskich stron WWW. Kliknięcie na którąś z nich przenosi nas na stronę, z której dana ilustracja pochodzi.

Obie polskie wyszukiwarki są niewątpliwie inicjatywami ciekawymi i wartymi rozpropagowania (chociaż Sieciowid aktualnie jeszcze niezbyt nadaje się do użytku), ja jednak po zapoznaniu się z nimi postanowiłem na razie pozostać przy Altaviście. Oczywiście to tylko mój osobisty wybór...


Jarosław Rafa 1997. Tekst udostępniony na licencji Creative Commons (uznanie autorstwa - użycie niekomercyjne - bez utworów zależnych). Kliknij tutaj, aby dowiedzieć się, co to oznacza i co możesz z tym tekstem zrobić. W razie jakichkolwiek wątpliwości licencyjnych bądź w celu uzyskania zgody na rozpowszechnianie wykraczające poza warunki licencji proszę o kontakt e-mailem: raj@ap.krakow.pl.

Wersja HTML opracowana 22.04.97, usunięcie nieaktualnych odsyłaczy: 12.09.2000.


Powrót do wykazu artykułów o Internecie Statystyka