Googlebot widzi więcej. Ty też możesz.
21.12.2010 | aktual.: 21.12.2010 15:30
Słowem wstępu
Na początek wyjaśnię pokrótce, że Googlebot to robot indeksujący sieć. Robot ten pobiera niezliczone ilości stron. Podczas tego procesu Googlebot wykrywa nowe lub też zaktualizowane strony i dodaje je do indeksu Google. Taki proces sprawia, że robot widzi o wiele więcej niż widzi przeciętny użytkownik. Kiedy Googlebot trafia już na stronę to na początku zawsze sprawdza czy dostępny jest plik robots.txt, który służy do zawężenia zakresu działania robota na stronie. Tak więc istnieje możliwość ominięcia kilku miejsc przez bota i niezaindeksowanie ich. Najczęściej jednak zakazuje się wstępu (disallow) do katalogów cgi‑bin, prywatnych, tymczasowych. Jednak cała reszta strony jest dostępna do wglądu dla robota.
Zrób dobrze a wejdziesz
W Internecie można spotkać wiele stron do których użytkownik nie ma dostępu. Idąc jednak tropem podanym we wstępie można śmiało stwierdzić, że jednak do części takich stron Google ma dostęp. Sprawa ta jest zapewne dla wielu z Was irytująca, dodatkowo jeśli kiedyś dostęp do danej strony nie był kłopotem. Do takich sytuacji można zaliczyć wszelakie fora internetowe, portale z informacjami, poradnikami czy też opracowaniami gdzie widoczny jest tylko sam wstęp oraz magiczny odnośnik pokaż więcej. Po kliknięciu na magiczny odnośnik okazuje się, że aby zobaczyć dalszą część tego artykułu należy się w najlepszym wypadku zarejestrować, a w najgorszym wysłać SMS i wykupić sobie dostęp do witryny. Jak się okazuje często są to rzeczy zupełnie nie potrzebne, bowiem często Google widzi te strony w całości. A dokładniej rzecz ujmując to dostęp do całej strony ma Googlebot.
Przebieranie – udawanie
Tak więc czemu tego nie wykorzystać? Przebierzmy się za Googlebota i poudawajmy go. Jak zapewne wielu z Was wie nasze przeglądarki dysponują czymś co nazywane jest User Agent, czyli nagłówkami służącymi serwisom internetowym do rozpoznawania programu klienckiego.
Poniżej podam kilka UAStringów:
Opera/9.80 (Windows NT 6.1; U; pl) Presto/2.7.62 Version/11.00 Mozilla/5.0 (Windows NT 5.1; rv:2.0b7) Gecko/20100101 Firefox/4.0b7 Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.15 (KHTML, like Gecko) Chrome 10.0.612.1 Safari/534.15 Mozilla/5.0 (iPad; U; CPU OS 3_2_1 like Mac OS X; en-us) AppleWebKit/531.21.10 (KHTML, like Gecko) Mobile/7B405 Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) W3C_Validator/1.305.2.148 libwww-perl/5.803, Jigsaw/2.2.3 W3C_CSS_Validator_JFouffa/2.0 Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Same User Agenty przeglądarek powinny być użytkownikom dobrze znane. Tym bardziej, że coraz więcej portali daje możliwość podglądnięcia nie tylko swojego User Agenta ale też pozostałych internautów np. komentujących. Trzy ostanie przykłady UAStringów to identyfikatory popularnych robotów internetowych. I tak kolejno mamy Slupr - robot Yahoo, walidator W3C i Googlebota. Nas oczywiście w kontekście całego wpisu interesuje ostatni User Agent.
Opera
Tak więc mając podstawową wiedzę można przystąpić do działania. Na początek pokażę jak przebrać Operę za robota Google. Sprawa jest bardzo prosta i sprowadza się do edycji jednej opcji spod przeglądarki. Mianowicie naszym zadaniem jest zmiana wartości ID w sekcji ISP w edytorze preferencji. Wystarczy wkleić w pole adresu:
opera:config#ISP|Id
i automatycznie zostaniemy przekierowani do omawianej opcji. Teraz nie pozostaje nam nic innego jak wpisać wartość:
googlebot/2.1
zapisać i zrestartować Operę. Teraz możemy się cieszyć dostępem do całej witryny, która wcześniej była niedostępna w całości.
Firefox
Podobnie można postąpić w przypadku przeglądarki Firefox. Na pasku adresu wpisujemy about:config, a na liście wyszukujemy parametr:
general.useragent.extra.firefox
i wpisujemy nową wartość:
Googlebot 2.1
zapisuje i restartujemy przeglądarkę.
Internet Explorer
Uruchamiamy edytor rejestru (uruchom: regedit), odnajdujemy klucz:
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\5.0\User Agent
(jeśli klucz nie istnieje należy go utworzyć)
W tej lokalizacji powinna znajdować się wartość (Domyślna), a typ to REG_SZ. Teraz należy tę wartość zmodyfikować i jako "Dane wartości" podać:
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Chrome
W Chrome istnieją dwa sposoby na zmianę User Agenta. Można to zrobić na stałe modyfikując plik chrome.dll za pomocą edytora heksadecymalnego lub też można wykonać zmianę chwilową. Opiszę tutaj sposób drugi, który jest łatwiejszy a zarazem częściej wykorzystywany. Jednak jeśli zajdzie taka potrzeba i w komentarzach znajdą się prośby o pokazanie jak wykonać zmianę w chrome.dll to uzupełnię wpis.
Tak więc aby wykonać chwilową zmianę User Agent, na jedno uruchomienie, należy skorzystać z wiersza poleceń systemu Windows (uruchom: cmd). Gdy już mamy przed sobą command line musimy przejść do katalogu Google Chrome. Domyślnie przeglądarka jest zainstalowana w katalogu:
%HomePath%\AppData\Local\Google\Chrome\Application
W tym celu wpisujemy w wiersz poleceń komendę:
cd "%HomePath%\AppData\Local\Google\Chrome\Application"
zatwierdzając przyciskiem Enter. Następnie należy wykonać polecenie:
chrome --user-agent=" Googlebot/2.1 (+http://www.googlebot.com/bot.html)"
Efekty powinny być widoczne tak samo jak w pozostałych przeglądarkach.
Aby nie być gołosłownym przedstawiam screenshot wykonany pod Operą, na którym widać, że po drobnej zmianie, dostępny jest cały wpis:
Nie wszystko złoto, co się świeci
We wpisie tym pokazałem jak wykorzystać Googlebota. Jednak fragment dotyczący zmian User Agentów w przeglądarkach może Wam posłużyć jako mały instruktaż właśnie do zmian w nagłówkach przeglądarek. Wcale nie jest powiedziane, że musicie tam wpisywać UAString Googlebota. Może będziecie chcieli zmienić identyfikator Waszej przeglądarki na inną, wtedy również możecie kierować się tym wpisem. Pamiętajcie jednak, że zmiana UAStringów pomimo wielu swoich zalet niesie za sobą kilka zagrożeń. Podstawowym z nich jest fakt, że wiele stron zostało napisanych w kilku wersjach przygotowanych dla kilku przeglądarek. Tak więc zmieniając identyfikator możemy natrafić na nieoczekiwane problemy. Może to być na przykład zmiana budowy strony, która w efekcie uniemożliwia nam korzystanie z danej witryny. Najczęściej dzieje się tak gdy zmienimy nasz identyfikator na User Agent urządzeń mobilnych (identyfikator przeglądarki na systemy mobilne, takie jak Android, BadaOS, BlackBerry OS, iOS, Symbian, Windows Mobile/Phone). Zdarza się jednak też, że właśnie zmiana identyfikatora na któregokolwiek bota, również wywołuje problemy. Tak więc należy o tym pamiętać i zdawać sobie z tego sprawę, a zmieniony UAString używać tylko wtedy, kiedy jest to naprawdę konieczne.
Powyższy wpis jest tylko instruktażem oraz pokazuje zalążek szerszej działalności nazywanej Google Hacking. Wpis ma charakter bardziej teoretyczny niż praktyczny. Używać powyższej metody należy zgodnie z prawem.