Tetszik a bejegyzés? Iratkozz fel, oszd meg!


Intelligens (kereső) robotok

A Google folyamatosan kísérletezik robotjainak fejlesztésével, most is egy ilyen fejlesztésről lehet olvasni blogjukon: Crawling through HTML forms. A legújabb fejlesztésük lényege, hogy feldolgozzák a formokat is, és kitöltik azokat releváns információkkal, majd megnézik milyen választ kapnak. Ha a válasz olyan oldalakat mutat meg nekik, melyeket eddig nem ismertek, akkor ezt a módszert használni fogják az indexelésük során.

Robotok a Doctor Who-ban

A dolog nagyon hasonlít a spam botok működéséhez, fontos tehát hogy lássuk, mi az, amivel a Google-t megállítható, és hogy a hasonlóság mellett mi a különbség. Egyrészt a Google robotok csak a GET kéréseket indító formokat töltik ki, avagy ha jól van felépítve oldalunk, akkor regisztrációs, bejelentkező, kontakt formok nem kerülnek látókörükbe. A másik fontos szempont, hogy a robots.txt-t tiszteletben tartják, így ha valamiért kell, ezúton is kitilthatóak.

A dolog SEO szempontból is fontos lehet. A miner.hu Google felő érkező találatait nézve ugyanis egyáltalán nem jönnek látogatók keresési találati oldalakara – pedig az oldalon kevés ilyen oldal van direktben belinkelve. A Webakadémián nemrégiben átálltunk a “?p=1234″ formájú oldal URL-ről a beszédesekre, még a mai napig is sok GET paraméteres oldal szerepel a Google találati listáján. Ebből én azt a tapasztalatot vonnám le, hogy a Google képes arra is, hogy az oldalainkon levő formok felépítését felhasználva keresési találat jellegű oldalakat felismerjen, és akár ki is zárjon az indexelésből.

2 Hozzászólás - “Intelligens (kereső) robotok”


  • Érdekesnek tartom az elképzelést. Web developer toolbar tud azt hiszem autofill módot, amivel ki tudod tölteni “kedvenc” formjaidat “fake” inputtal. Kíváncsi vagyok milyen inputokat fog generálni a G :)

    A web mélységi felderítése minden dataminer álma, és üdvözlendő. Gondolom az ajaxos formokkal nem tud majd mit kezdeni, ami tulajdonképpen még jó is lehet, ha egy cég stb. nem szeretné engedni ezt a mélységi felderítést.

    Furcsamód azt vettem észre, hogy sokszor éppen az a probléma, hogy a keresők már túlságosan sok mindent látnak, és a tartalom elrejtése jelent gondot a fejlesztőknek.

  • Érthető, hogy a keresési találatokból alkotott oldalakat nem szereti a Google.
    Rengeteg olyan oldalt lehet vele generálni, ami duplikált tartalmat gyárt átvett adatbázisokból, újrapublikált adatokból és ezeknél az oldalaknál a kereső számára ráadásul nehézkesebb a duplikáció felismerése mint egy 100%-os copynál.

    Másik oldalon van rengeteg portál amelynek a tervezése során teljesen figyelmen kívűl hagyták a “keresőbarát” szempontokat, ezekre próbál meg koncentrálni ezzel az újítással a Google. Hangsúlyozzák is, hogy csak “jó minőségű” oldalakon alkalmazzák a dolgot.
    Sok adat van ami alapján mérni tudják melyik site tartalmaz több információt mint amit mutat, ott van a Google Analytics, látogatottsági arányok, backlinkek, oldalon töltött idő, stb.

Te mit gondolsz?