O Yahoo! a vyhledávací technologii Inktomi – část 2.

Inktomi je vyhledávací technologie pohánějící vyhledávač Yahoo! a patří mezi jednu z nejlepších vůbec. Její vyhledávací syntaxe ovšem nejsou příliš dobře dokumentovány, což je škoda, neboť Inktomi nabízí jedny z nejbohatších syntaxí se spoustou jedinečných vlastnosti a hodnocení, které fungují poměrně dobře. Tento článek a jeho minulý díl je zaměřen právě na onu dokumentaci technologie Inktomi spolu s několika příklady, které ukazují její využití, a vychází z poznatků řady partnerských webů Inktomi. Jádro syntaxí bylo postupem času vylepšováno, pokročila ku příkladu vyhledávání stránek, přibyly syntaxe feature:homepage, originurlextension: a stem:.

Přehled vlastností feature

Nyní se podívejme na několik vlastností Inktomi, které mohou značně usnadnit vaše vyhledávání. První z nich je feature:acrobat, která slouží k linkování stránek a PDF souborů. Spousta kvalitních dokumentů dnes totiž bývá psána právě ve formátu PDF a tento filtr usnadňuje jejich vyhledání. Uvedu tedy příklad a také zmíním, že některé PDF soubory nemusejí být z různých důvodů vyhledatelné a právě tato vlastnost vyhledávání by i přesto mohla poskytnout zajímavé výsledky. Další vlastností, kterou bych rád uvedl, je feature:activex, která usnadňuje vyhledávání zvukových či video souborů, flash a java aplikací a dalších, což vše může být začleněno ve stránkách. Tato detekce je založena na ověřování přítomnosti tagu <object>, ovšem tag <embed> pomocí této funkce vyhledat nelze.

Vlastnost feature:applet nalezne tag <applet> ve zdrojových kódech stránek, přičemž <object> (pro Internet Explorer) a <embed> (pro Netscape) mohou být také vloženy jako <applet>, ale vyhledávací technologie Inktomi je bohužel nerozpozná. Feature:audio zjišťuje, zda jsou na daném webu nějaké audio soubory, tedy přípony souborů wav, mp3, m3u, mid, midi a další. Tato funkce ovšem nenalezne audio soubory vložené přímo v internetových stránkách. Pokud takovéto soubory chcete hledat, musíte použít již zmíněnou feature:activex. Vlastnost feature:flash pak jednoduše vyhledává stránky, které odkazují na soubory typu fla, spl nebo swf, ovšem zase platí, že chcete-li nalézt flash do webu vložený, musíte použít funkci feature:activex. Další vlastnost feature:form vyhledává přítomnsot tagu <form>, feature:frame pak tagu <frame>, tedy všechny stránky používající rámce, feature:image zase weby odkazující na obrázky, s vlastnostmi feature:javascript, feature:meta, feature:script, feature:table, feature:title, feature:video a feature:vrml je to obdobné. Pomocí feature:title můžeme zjistit, kolik dokumentů obsahuje databáze Inktomi, neboť snad všechny webové stránky title obsahují, feature:video nám najde video soubory s patřičnými příponami, feature:vrml zase všechny VRML soubory.

Velice užitečné jsou funkce feature:homepage a feature:index. Feature:homepage vyhledává všechny osobní stránky, které z pravidla obsahují naučný obsah, feature:index pak omezí hledání pouze na ty nejhodnotnější stránky dané domény, přičemž domovská stránka je ta nejdůležitější, neboť je z ní většinou dále odkazováno na další důležité stránky.

Linkování

Nyní se dostáváme k vlastnosti link:, která najde text obsahující hypertextový odkaz přesně podle specifikací URL. Tato funkce je velice užitečná, když vyhledáte a vstoupíte na stránku, která se vám zalíbí, a rádi byste nalezli několik dalších, jí podobných. V takovémto případě pak můžete zkusit hledání podle obsahu dané stránky, jak uvádí tento příklad. Inteligentní čtenáři ale na internetu vyhledávají pozpátku. To znamená, že jakmile najdou dobrý web, prohlédnout si na něm ty nejzajímavější stránky a zjistí, kdo na ně odkazuje. Tento způsobe nám zajistí, že najdeme kvalitní webové stránky a vzápětí další a další, které na ně odkazují, neboť dobré weby logicky odkazují pouze na jiné dobré weby. Opět si jednou ukážeme, jak to funguje.

Vyhledávací technologie Inktomi bohužel neumožňuje vyhledávání klíčových slov v odkazech, tudíž není přímá možnost hledání odkazů v daných složkách. Jediná možnost, jak toho docílit, je zjistit seznam adres celé složky a ty vyhledat pomocí vyhledávače Yahoo! a operátoru link:. Operátor linkextension: nám pak vyhledá stránky odkazující na soubory s uvedenou příponou, čímž můžeme objevit soubory, které jinak nebyly staženy a nalezeny Inktomi roboty jako obrázky, audio video a jiné binární soubory. Jedním z velkých využití této funkce je hledání blogů, neboť naprostá většina z nich má dnes RSS kanál. Tento operátor pak umožňuje vyhledávat obsah RRS čtečky typu RSS, XML, RDF či ATOM. Však posuďte sami.

Jako poslední výbornou vlastnost linkování musím zmínit funkci linkdomain:, která hledá stránky odkazující na stránky jiné dané domény, což nám zajistí všestrannější vyhledávání webů pozpátku, o kterém jsem psal před chvílí. Kupříkladu tato funkce nám vypíše, kdo odkazuje na danou doménu, tuto zase použijeme v případě, kdy hledáme stránky a již víme o některých s podobnou tématikou a chceme je z hledání vyloučit.

Další možnosti vyhledávání

Pokud použijete slovo hostname:, omezíte své vyhledávání pouze na jednu vámi zvolenou doménu, což má v zásadě stejný význam jako domain:. Naopak napsáním inurl: a hledané fráze budete pátrat pouze po slovech obsažených v internetových adresách, takže můžete zkusit také některá klíčová slova. Originurlextension: vyhledává dokumenty podle jejich typu, přičemž mezi ty nejžádanější patří zřejmě .pdf, .doc, .xls, .ppt a další. Zde přidávám příklad praktického využití, outgoingurltype:[url_type] je pak téměř stejný jako linkextension:, ovšem navíc nabízí seskupení souborů podle typu. Další možností je využít path: (originurlpath:), který nám umožní vyhledávat slova a fráze v URL cestách, nabízí se také region:name, který nám vyhledá dokumenty s ohledem na zeměpisné oblasti, pro nás tedy mluvíme o Evropě, hledání lze ale omezit mnohem více. Za pomocí stem: lze vyhledávat dokumenty podle gramaticky slov, včetně jednotných a množných čísel a slovesných časů. A na úplný závěr, díky url: si každý webmaster může zkontrolovat, zda se ta a ta stránka jeho domény nachází v Inktomi databázi, tedy zda je již zaindexována.

Zdroj: http://www.searchlores.org/inktomi.html

Navigace pro příspěvek

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

Odesláním zprávy souhlasíte s podmínkami ochrany osobních údajů