O Yahoo! a vyhledávací technologii Inktomi – část 1.

()

Inktomi je vyhledávací technologie pohánějící vyhledávač Yahoo! a patří mezi jednu z nejlepších vůbec. Její vyhledávací syntaxe ovšem nejsou příliš dobře dokumentovány, což je škoda, neboť Inktomi nabízí jedny z nejbohatších syntaxí se spoustou jedinečných vlastnosti a hodnocení, které fungují poměrně dobře. Tento článek je zaměřen právě na onu dokumentaci technologie Inktomi spolu s několika příklady, které ukazují její využití, a vychází z poznatků řady partnerských webů Inktomi. Jádro syntaxí bylo postupem času vylepšováno, pokročila ku příkladu vyhledávání stránek, přibyly syntaxe feature:homepage, originurlextension: a stem:.

Inktomi pod lupou

Jak jsem již zmínil, pod technologií Inktomi v dnešní době běží vyhledávač Yahoo!. Do roku 2004 Inktomi měla dvě databáze – WebMap a Web Search 9. WebMap nebyla databáze určena k vyhledávání, Inktomi tvrdí, že obsahuje tři miliardy dokumentů. Tato databáze sloužila k analýze každé stránky a struktury odkazů, které stránky spojovaly, ale také k udělení popularity odkazů. Do databáze Web Search 9 pak Inktomi vybrala ty nejkvalitnější dokumenty a ta je dnes složena ze starších databází jako například Eurocluster (110 milionu dokumentů), the Asia Pacific cluster (55 milionu dokumentů), the Best of Web cluster (110 milionu dokumentů). Osobně si myslím, že databáze WebMap je dnes prohledávatelná, neboť Yahoo! píše o 19,2 miliardách dokumentů, a také je nadále používáno oddělení podskupiny s těmi nejlepšími dokumenty. Tomuto číslu můžeme podle mě věřit, jak si ale povíme dále.

Vyhledávací technologie Inktomi velice spoléhá na nadpisy, klíčová slova (meta tagy) a text pro třídění výsledků hledání, takže používání meta tagů je vskutku dobrý nápad – webmasteři zkrátka vědí, že se musejí zaměřit na vše. Inktomi se poučil a zmoudřel a již není zranitelný za pomocí dlouhých spamových nadpisů, dále si zakládá na kotvách v textu (anchor text) pro třídění vyhledávání. Používání klíčových slov a meta tagu description je pak stejně důležité jako nadpisy stránek či sdílení informací o hledání. Jednoho dne snad Inktomi také nabídne syntaxi inanchor: stejně jako Google nebo MSN či keywords: a description: operátory. Vložení některý z těchto polí však přispívá k možnému zneužití spammery. Doufejme také, že Inktomi brzy nabídne operátor text:.

Společnost Yahoo! koupila Inktomi v roce 2004 a také získala Altavista a AllTheWeb, avšak k jejich dalšímu používání nejsou žádné důvody, protože také sdílí Inktomi syntaxe. Můžeme jen doufat, že až ve vývoji doženou databázi Inktomi, konečně jí přidají chybějící operátory ze starších Altavista a AllTheWeb (anchor:, applet:, filesize:, image:, limip:, link: or link.all:, text: a další).

Inktomi syntaxe, hledání frází a váha klíčových slov

Veškeré víceslovné pojmy jsou při vyhledávání reprezentovány pomocí operátory AND, přičemž dále lze použít znaménko plus a mínus k obsažení či vyloučení některého pojmy při vyhledávání. Inktomi také plně nabízí Booleovo hledání se syntaxemi OR a NOT, což právě umožňuje použití mínus namísto NOT a do hledání lze vložit závorky (). Je ovšem velice doporučeno nepoužívat operátor OR pro klíčová slova, neboť váš hledaný výraz upoutá irelevantní výsledky ve vyhledávání.

Inktomi uzavírá vámi hledané výrazy do uvozovek “, vy ale můžete použít také podtržítko _ a různé fráze tak porovnat. Standardní způsob hledání výrazů uvnitř polí jako title:, inurl: bohužel nefunguje, nicméně existují dvě další možnosti. Ukážeme si alespoň jeden příklad pouze pro title:, neboť ostatní jsou stejné. Hledání pomocí frází je často používáno pro nalezení dokumentů generovaných různými druhy softwaru, přičemž právě „index of“ a title:index of jsou klasickým příkladem, jak hledat otevřené dokumenty. Fráze a výrazy jsou také dobrý nástroj, pokud spatříte na stránce část dokumentu a chcete jej vidět celý, ještě více však v případě, že jsou na internetu k dispozici dvě stejné či velice podobné dokumenty. Vše, co pak stačí udělat, je vzít a následně vyhledat frázi z požadovaného dokumentu, která vám většinou zajistí nalezení výsledku.

Ve vyhledávání můžete dále použít hvězdičku bez výrazu či fráze a porovnat tak typ souboru. Jde o velmi užitečnou věc, neboť díky ní můžeme na Yahoo! hledat obrázky, jelikož většina lidí dbá na správné pojmenování souborů. Pokud ku příkladu hledáme obrázky od Caravaggia, stačí napsat „caravaggio * jpg“. Tím nám vyběhnou všechny soubory s názvy „caravaggio_2.jpg“, „caravaggio 07.jpg“ a podobně, ovšem nečekejme takové výsledky jako u Googlu, jelikož Yahoo! neindexuje atribut alt obrázků ani scr a href jejich tagu <a>.

Vyhledávací technologie Inktomi nebere ohled na velká a malá písmena, tedy výsledek hledání je vždy úplně stejný. Rovněž neexistují ani žádná slova, co by zastavila hledání, respektive všechna slova je možné hledat. Co se týče hodnocení, samotná Inktomi je vůbec první technologií, která umožňuje uživatelům měnit její hodnotící algoritmus. To provedeme přidělením určité významové váhy všem klíčovým slovům. Tento faktor může být stanoven mezi hodnotami 0.0 a 9.9, přičemž defaultně je nastaven na 1.0. Zřejmě nejjednodušší způsob, jak použít tuto vlastnost, je pravidlo 80-20. Dále lze také navolit hloubku hledání depth:[number], která udává, jak hluboko budou hledány výrazy v adresářové struktuře webu, kde číslo 1 až 4 určuje maximální počet podsložek.

Tímto bych zakončil první část článku přeloženého z angličtiny o Yahoo! a vyhledávací technologii Inktomi. Na tu druhou, ve které si povíme něco málo o vlastnostech usnadňujících vyhledávání a dalších možnostech hledání, se můžete těšit zase někdy příště.

Zdroj: http://www.searchlores.org/

Jak se vám článek líbí?

Pro hodnocení klikněte na hvězdičku

Průměrné hodnocení / 5. Počet hodnocení:

Zatím žádné hodnocení. Buďte první!

Navigace pro příspěvek

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Odesláním zprávy souhlasíte s podmínkami ochrany osobních údajů