Jak snadno najít špatné zpětné odkazy

Je daleko snazší ji vyrobit, než se jí zbavit – co to je? Penalizace! Očistit svůj web od banu ve fulltextových vyhledávačích za pokřivený odkazový profil, to je krev, slzy a dřina. Na dané téma již byla v posledním roce sepsána řada podrobných návodů a postupů. Na začátku je ale vždy snaha zbavit se špatných zpětných odkazů mířících na váš web, první v pořadí těch zcela vadných, penalizovaných nebo podezřelých.

Klasické nástroje pro analýzu zpětných odkazů, jako je MajesticSEO nebo Ahrefs, se pro prvotní oddělení zrn od plev moc nehodí, mají příliš zastaralé údaje. Na řadu tak přicházejí třeba pokročilejší možnosti vyhledávání, jako jsou operátory site: a link:. V následujícím článku shrnujeme jednu z technik při odstraňování penalizace, která nám v Medio Interactive pomáhá odfiltrovat největší odkazové bahno snadno a rychle.

Na co se tedy nejdříve díváme u každé domény odkazující na náš web?

  • Operátor siteslouží k zobrazení zaindexovaných stránek pro zadanou doménu včetně subdomén. Nízký nebo dokonce nulový počet zaindexovaných stránek může signalizovat problematický či zabannovaný web, který chceme ze svého odkazového profilu dostat co nejdříve.
  • Operátor link: umožňuje zjistit, jaké důležité stránky na konkrétní doménu odkazují. Opět čím nižší počet zobrazených zpětných odkazů, tím větší pozornost bychom měli danému odkazujícímu webu věnovat.

Chtělo by to nějak elegantně a automatizovaně (domén mohou být tisíce) dostat data do přehledné tabulky, třeba takovéto:

Počet zaindexovaných a odkazujících stránek v Google vyhledávání

Jak jsem ji vytvořila?

Na začátek jsem si z nástroje pro analýzu zpětných odkazů vytáhla všechny odkazující domény. V tomto konkrétním případě mne zajímaly domény končící na .com, .info a .org. Seznam bez duplicit jsem zkopírovala do tabulky v Google Drive.

Do dalších sloupců v řádku jsem vložila následující hustokrutopřísný vzorec:

=VALUE(SUBSTITUTE(REGEXEXTRACT(IMPORTXML(CONCATENATE("https://www.google.cz/search?q=site%3A",A2),"//*[contains(@id, 'resultStats')]"),"\d+\s*\d*")," ",""))

=VALUE(SUBSTITUTE(REGEXEXTRACT(IMPORTXML(CONCATENATE("https://www.google.cz/search?q=link%3A",A2),"//*[contains(@id, 'resultStats')]"),"\d+\s*\d*")," ",""))

Co to přesně dělá? Přes příkaz CONCATENATE jsem vytvořila URL výsledků vyhledávání a vybraným operátorem. Z výsledkové stránky jsem přes funkci IMPORTXML vytáhla samotnou statistiku o přibližném počtu výsledků  – vzorec v ní umí pomocí XPath vystřihnout z HTML libovolný element a dále pracovat s jeho hodnotami a atributy. V tomto případě nás zajímá řádek se statistikou, který je označen id=resultStats. Pomocí REGEXEXTRACT jsem vytáhla pomocí regulárního výrazu podřetězec s hodnotou statistiky. Kombinace vzorců VALUE a SUBSTITUTE slouží k přetavení textového řetězce představující číslo skutečně v číslo. Protože, když už mám číselný údaj, tak podle něj chci filtrovat a řadit.

S vytvořením tabulky práce nekončí. Stále je třeba domény s nejhoršími výsledky (počet zaindexovaných stránek je menší než 10 nebo bez hodnoty) ručně projít a jednu po druhé vyhodnotit. Mravenčí práce nezbytná pro následující odpenalizační aktivity, největší část dřiny nám ale již zautomatizovala naše tabulka výše.

Jaké používáte techniky, nástroje a ulehčující postupy při zbavování se penalizace vy?

Související odkazy

Zveřejněno 28.4.2014 v rubrice Internetový marketing se štítky , , , .
velflova

Romana Velflová

Romanu baví webová analytika, co se koláčů a sloupců týče. Orientuje se taky ve vodách výkonnostního marketingu, protože alespoň zde vládne řád a jasná pravidla. Srdcem Krno, židlí Praha.

Google+ profil @chromanna velflova@medio.cz

Komentáře k článku

[1] Kuba | 30. 4. 2014 v 12.03

Nějak mi to nefunguje…jde o prosté vzití adres z MajesticSEO či GWT a překopírování uvedených vzorců (které nepovažuji za hustokrutopřísné ale přímo hustodémonskykrutopřísné) do sloupečků vedle? Pkud ano. Někde robím chybici:-(

[2] Dominik | 1. 5. 2014 v 20.12

Taky mě to nejde, v Google drive mi to hází ERROR po překopírování toho vzorce. Kde děláme chybu?

[3] Romana Velflová | 1. 5. 2014 v 22.36

Je potřeba při překopírování smazat „mezeru“ mezi řádky, která vznikla zalomením textu na blogu.

Pokud je výsledkem #N/A, tak to znamená, že pro daný operátor nebyl nalezen žádný odkaz – Na stránce se nenachází potřebný textový řetězec, ze kterého by vzorec dokázal vykousnout danou statistiku.

[4] kuba | 3. 5. 2014 v 13.20

tak zas takový jelito nejsem:-) jasně, že jsem smazal „mezeru“..stále error:-(

[5] kuba | 3. 5. 2014 v 13.35

Napád mě, nemohla byse prosím nějaký vzorový dokument nasdílet na můj mail?

[6] Stanislav Janů | 3. 5. 2014 v 14.18

Ahoj lidi. Errory Vám to píše protože je zde uvedený vzorec chybný. Zadávané parametry funkcí jsou tu oddělené čárkou, ale musejí tam být středníky.

=VALUE(SUBSTITUTE(REGEXEXTRACT(IMPORTXML(CONCATENATE(„https://www.google.cz/search?q=site%3A“;A2);“//*[contains(@id, ‚resultStats‘)]“);“\d+\s*\d*“);“ „;““))

=VALUE(SUBSTITUTE(REGEXEXTRACT(IMPORTXML(CONCATENATE(„https://www.google.cz/search?q=link%3A“;A2);“//*[contains(@id, ‚resultStats‘)]“);“\d+\s*\d*“);“ „;““))

[7] Stanislav Janů | 3. 5. 2014 v 14.21

A navíc tu nějaký chytrý programátor vymyslel, že se nahradí uvozovky těmi „hezčími“, takže vám to co jsem poslal taky fungovat nebude :-)

[8] Miloš Zavadil | 5. 5. 2014 v 12.00

díky za super myšlenku, pro ostatní co tu řeší proč to nejde: máte např. firebug ve FF? přes to vytáhnete vzorec hned a nemusíte řešit uvozovky – funguje to. Problém je jen s funkcí IMPORTXML, která Vám v google dokumentech dovolí jen cca 50 záznamů na jeden dokument, ale to se dá snadno obejít tím, že z toho pak uděláte textová data – jen je to otravné, nevíte někdo jak toto automatizovat?

[9] Romana Velflová | 5. 5. 2014 v 13.07

Středník/čárka určitě problém není vzhledem k tomu, že GDrive podporuje ve vzorcích dost striktně čárky namísto středníků. Uvozovky by mohly dělat problém snad jen při nevhodném kódování, kdy to drive automaticky nepřepíše do přijatelné podoby. Ale nechci věštit z křišťálové koule. Firebug? Super tip Miloši.

Vždycky můžete daná vzorec rozložit na těch pět podvzorců. Tím odchytit, jaký krok dělá drive reálně problém. Osobně to skutečně vidím na ten IMPORTXML, jak psal Miloš.

Ten limit je skutečně otravný. Jednorázově si to poradí s tisíci dotazy, ale neumí si to zapamatovat pro opětovné používání. Je možné využít Google Drive API k sestavení „full“ Google crawleru. Užitečný script je např. na http://www.davidsottimano.com/bulk-importxml-tool-source/. Zatím jsem ale skutečně neměla silnou potřebu to více řešit než tím ručním překopírováním do textových hodnot:)

Jinak přikládám odkaz na sdílenou tabulku s vloženými vzorci. https://docs.google.com/a/medio.cz/spreadsheets/d/1EPohzBN8N_5nxEo88k6hTchQDYDfG4t_8xeKqWacpPs/

[10] kuba | 7. 5. 2014 v 10.01

děkuji za všechny doplňující informace

[11] Karel | 13. 5. 2014 v 2.31

Dobrý den,

perfekto návod jak si lamička může přiblížit k něčemu, co dávno chtěl udělat, ale neměl berličku.

Poradíte mi ještě prosím někdo?
1) pokud nezadám adresu do A, ve sloupci B se vypočte 3270 a v C 1660. Netuším, kde se ta data berou :) .

2) 2 roviny

a) pokud zadám adresu mé obce a vyjede, že má 1800 zaindexovaných, ale link N/A znamená to, že byl spravovaný web obce penalizován?

b) pokud zadám odkazující adresy webu obce z MajSEO (viz váš návod), vidím u hodně domén podivnosti – např:
– zlin-net.cz , zaindex: 119000 , link: N/A => i přesto, že má tato doména dle Google zajímavý obsah, tak má špatné odkazové portfólio? => kontaktovat jejich admina a požádat ho o smazání odkazu na web obce? Jak jinak tento web odstřihnout od webu obce?
=> vede tam i plno zahraničních domén – s divným tím podrženým textem => kontaktovat s mou nee angličtinou se mi vysměje => jak odkaz smazat prosím? Nechci aby na web mé obce odkazoval nějaký mamlas z ruska nebo cizojazyčných fór. O čem si asi mohou o obci s 300 lidma diskutovat …

Moc opravdu moc děkuji za radu. Nejsem profík, ale čtu docela dost. Školení jen kvůli správě webu se mi nevyplatí a ani obec mi na něj nedá. Ale fandím Mediu.

[13] Romana Velflová | 14. 5. 2014 v 11.27

Dobrý den Karle, pokusím se postupně zodpovědět Vaše dotazy.

1. V případě prázdné vstupní hodnoty říkáte Googlu „hledej odpověď na dotaz site / link ve volné shodě“. Přibližný počet výsledků pak je např. 3 270 000 000. To, že Vám se ukáže 3 270 je jen líným vzorcem. Stačí jen upravit tuto část s regulárním výrazem (regexextract(A3,“\d+\s*\d*\s*\d*\s*\d*“) a poradí si to i s těmi miliony.

2. Operátor link: je lepší chápat spíše jako ukazatel zajímavosti stránky, jak ji vidí Google. Tento operátor nevrací všechno, ale jenom odkazy, které přijdou Googlu zajímavé. Tradičně se říkalo, že to jsou třeba odkazy ze stránek s Pagerankem > 3, což ale neplatí stoprocentně. Stačí vědět, že jde zkrátka o odkazy pro Google nějak zajímavé. Postup popsaný v článku je jen přípravná fáze pro jednodušší ruční procházení zejm. zahraničních domén. Pokud osobně věřím v kvalitu dané odkazující stránky, nevidím důvod odkaz mazat jen na základě toho, že ho nevrací operátor link.

3. Shodneme se, že v případě nekvalitních odkazů je stěžejní se pokusit je ručně smazat. Udělat maximum proto, abyste našli majitele webu, na němž už odkaz nechcete. Tato vzácná poučka naráží na praxi a jisté pochybné linkbuildingové praktiky. Nejzazší krokem, tam kde to smazat nejde, je využití Disavow Tool. Skrze rozhraní Google Webmaster Tools jednoduše sdělíte vyhledávači od jakých odkazů se chcete distancovat.

[15] Antonín Kučera | 14. 5. 2014 v 19.11

Existuje nějaká varianta vzorce pro Excel od MS? Nefunguje mi tam fce ImportXML.

[16] Antonín Kučera | 16. 5. 2014 v 9.55

Vzorec mi stále zobrazoval #N/A… pokusil jsem se ho rozložit po částech.

1. FCE Concatenate je v pořádku, tam se pouze skládá textový řetězec.

2. První a zásadní problém jsem měl s ImportXML, který mi vracel stále hodnotu #N/A. Změnil jsem tedy protokol https -> http a dostal jsem: Přibližný počet výsledků: XXX

3. FCE REGEXEXTRACT odstranila text a vrátila již pouze hodnotu.

Další FCE jako substitute a value jsem již nepotřeboval využít.

=(REGEXEXTRACT(IMPORTXML(CONCATENATE(„http://www.google.cz/search?q=site%3A“;A2);“//*[contains(@id,’resultStats‘)]“);“\d+\s*\d*“))

Mělo by v pohodě fungovat i pro operátor link.