"Wyciek" algorytmu Google — podsumowanie dyskursu - Michał Małysa

Jako że od wydarzenia określanego przez wiele osób jako "wyciek algorytmu Google" minęło już wiele miesięcy i wiemy, że nie było to wydarzenie nawet w drobnym promilu tak przełomowe, jak sugerowały to w pierwszych kilku tygodniach nagłówki, podsumować możemy dyskurs związany z tym wydarzeniem. Zapraszam do przeglądu materiałów, o których informowałem na bieżąco w MałySEO Newsletterze.

O co chodzi z wyciekiem algorytmu Google?

Nagłówki artykułów oraz posty na Linkedinie wydają się nie pozostawiać wątpliwości — poznaliśmy wszystkie czynniki rankingowe, zdemistyfikowane zostały wszystkie kłamstwa Google’a, wiemy już wszystko i o wszystkim. Czy tak jest jednak naprawdę?

Dokument, który wzbudził wśród seowczyń i seowców tak wiele emocji, to opublikowany na GitHubie zbiór ponad 14 tysięcy atrybutów, podzielonych na niemal 2600 modułów, które dotyczyć mają różnych aspektów contentu crawlowanego, indeksowanego oraz rankowanego przez różne produkty Google’a. Na chwilę obecną wszystko wskazuje na to, że są to dane jak najbardziej realne, co elegancko wykazał Rand Fishkin.

Oprócz podlinkowanego powyżej tekstu Fishkina drugim najchętniej udostępnianym materiałem w tym temacie jest wstępna analiza Mike’a Kinga. Co istotne, obaj autorzy już na wstępie podkreślają najważniejszy fakt dotyczący upublicznionych atrybutów: nie wiemy, do czego te atrybuty mają konkretnie służyć, jaka jest ich waga i jak konkretnie przypisywane są do nich wartości. Najlepiej opisał to sam Fishkin:

“This documentation doesn’t show things like the weight of particular elements in the search ranking algorithm, nor does it prove which elements are used in the ranking systems.”

Sprawia to, że traktowanie tego zbioru elementów jako potwierdzenia pewnych hipotez, jest zdecydowanie zbyt daleko idącą interpretacją. Ujawnione atrybuty są szalenie ciekawe, dodają do naszej wiedzy o SEO naprawdę wiele, a po uważnym przebadaniu oraz zestawieniu z doświadczeniami seowczyń i seowców mogą się okazać istotnymi elementami teorii SEO, ale na to zdecydowanie potrzeba czasu i dogłębnej analizy popartej czymś więcej niż istnieniem konkretnego atrybutu w wyciekłej dokumentacji.

Do "wycieku" warto podchodzić z rezerwą

Dlatego też radziłbym wstrzymać się z dawaniem wiary wszelkim śmiałym i kategorycznym potwierdzeniom, które zalewają obecnie świat SEO. Nie uniknęli ich również autorzy podlinkowanych powyżej materiałów. Przykłady? Argumenty? Proszę bardzo:

Google kłamał, mówiąc, że nie używa wskaźników podobnych do Domain Authority — bo istnieje atrybut site:Authorithy.
Google wykorzystuje kliknięcia do rankowania stron — bo istnieją atrybuty takie jak badClicks, goodClicks, lastLongestClicks.
Świeży content jest lepszy niż starszy — bo istnieją atrybuty takie jak bylineDate, syntacticDate czy semanticDate.
Google uwala małe strony — bo istnieje atrybut taki jak smallPersonalSite.
Keywordy trzeba umieszczać na początku tytułu — bo istnieje atrybut taki jak titleMatchScore.
Istnieje sandbox, który uniemożliwia skuteczne rankowanie świeżym domenom — bo istnieją domenowe atrybuty takie jak createdDate oraz expiredDate.
EEAT nie ma znaczenia — bo atrybuty związane z tymi czynnikami nie są zbyt liczne i mają charakter pośredni.

Czy część wymienionych hipotez jest prawdziwa? Jest to możliwe, ale możliwe jest również, że są absolutnie nieprawdziwe lub sprawdzają się tylko w bardzo ograniczonej liczbie przypadków.

Pewność możemy mieć głównie co do tego, że istnienie w wyciekłej dokumentacji konkretnych komponentów, które da się z tymi hipotezami powiązać (czy to poprzez opis, czy samą nazwę) nie jest potwierdzeniem czegokolwiek. Dodatkowo mógłbym dać sobie uciąć rękę, że będzie to jedno z najbardziej wybiórczo traktowanych źródeł wiedzy na temat działania Google, w przypadku którego wiele osób skrupulatnie wybierało będzie elementy pasujące do narracji czy pchanej akurat tezy. Ba, jestem przekonany, że i mnie się to zdarzy 😀

Tierlist artykułów na temat "wycieku" z Google'a

Aleyda Solis, autorka fantastycznego newslettera SEOFOMO (gorąco zachęcam do zasubskrybowania!), przygotowała listę analiz wycieku z Google’a. To bardzo fajny punkt wyjścia dla każdego, kto chciałby nadrobić temat tak istotny dla dyskursu o SEO. Na poniższej tierliście znalazło się jednak nieco więcej artykułów (również ze względu na fakt, że opisuję także analizy polskojęzyczne).

Zanim przejdziemy do konkretów, warto jednak przedstawić kryteria, według których klasyfikowałem analizowane materiały. Przyznaję, że były one dość elastyczne, ponieważ zabawa w matematykę mogłaby zdziałać tu więcej dobrego, niż złego. W trakcie lektury danego tekstu stawiałem sobie po prostu kilka podstawowych pytań:

Czy autorka lub autor artykułu stara się na wstępie zdyskredytować wszystkich, którzy mają co do natury wycieku inną opinię?
Czy autorka lub autor artykułu zauważa, że wyciek nie jest ścisłą “listą czynników rankingowych”?
Czy autorka lub autor artykułu, zauważywszy powyższe, ignoruje to w swoich dalszych rozważaniach?
Czy autorka lub autor artykułu formułuje hipotezy świadomie, a nie przedstawia je jako obiektywną prawdę?
Czy autorka lub autor artykułu podaje inne argumenty na potwierdzenie swoich hipotez (niezależnie od trybu ich formułowania) niż same atrybuty z wycieku?
Czy autorka lub autor artykułu twierdzi, że jest to niezwykle przełomowy moment wpływający na jego techniki oraz strategie SEO, nie mówiąc jednocześnie, w jakich aspektach tychże planuje dokonać zmian?
Czy autorka lub autor artykułu jako podbudowę swoich hipotez wykorzystuje białe plamy w wiedzy o SEO (“nikt nie wie, jak jest, więc mam rację”)?
Bonusowe pytanie: Czy autorka lub autor artykułu korzysta z okazji, aby potwierdzić swoją rzekomą dominację nad innymi specjalistkami i specjalistami SEO, którzy na niczym się nie znają?

Ważny disclaimer: mógłbym oczywiście tłumaczyć w rozwlekłych słowach, czemu akurat moje przemyślenia nie są skrzywione poznawczo, ale wszyscy wiemy, że są 😉

S Tier

Wspomniawszy o własnych skrzywieniach poznawczych, bez cienia zażenowania przechodzę do uzasadnienia, czemu do klasy S trafił artykuł Patricka Stoxa opublikowany na blogu Ahrefs. Otóż autor podchodzi do informacji w sposób stuprocentowo zgodny z wymarzonym przeze mnie podejściem, a przy tym uzasadnia opinię o wycieku dokładnie takimi argumentami, w które szczerze wierzę od samego początku zamieszania. Jeżeli nie wiecie jeszcze, co o tym wszystkim sądzić, polecam właśnie ten styl myślenia.

Temat “wycieku” na całe szczęście mocno się już rozmył, ale na blogu Moz pojawiły się skondensowane przemyślenia 20 ekspertek i ekspertów SEO na temat tego faktu medialno-społecznościowego. Nie byłbym sobą, gdybym nie dorzucił komentarza o bardzo wielu bardzo mocnych tezach opartych na bardzo wątłych podstawach, ale ogółem jest to super zbiór, pokazujący, jak wiele różnych podejść może obok siebie funkcjonować.

Z oczywistych względów najwięcej emocji wzbudzają w kontekście “wycieku” informacje dotyczące bardzo szerokiego zagadnienia, jakim jest wpływ user signals na ranking. W świetle licznych spekulacji to właśnie tego tematu dotyczy bodaj najobszerniejszy komentarz ze strony Google’a. Według deklaracji Danny’ego Sullivana Google agreguje dane o interakcjach użytkowników i przekształca je w sygnały, które pomagają algorytmom ocenić, czy wyniki wyszukiwania są odpowiednie do zapytań. Co ciekawe, mimo iż wiele osób uznaje to za wiedzę ukrywaną przez Google, te same informacje znaleźć można w oficjalnych materiałach na temat działania wyszukiwarki.

Jeżeli mówimy o wypowiedziach Google, które rzucały więcej światła na działanie systemu NavBoost, znacznie klarowniejsze wytłumaczenie niż dzikie interpretacje atrybutów z “wycieku” znaleźć mogliśmy w ubiegłorocznych zeznaniach z procesu antymonopolowego w USA. W doskonałym podsumowaniu Danny’ego Goodwina z grudnia 2023 roku znajdują się konkretne informacje, które uszczegóławiają proces zbierania danych behawioralnych oraz przekształcania ich w sygnały wpływające na ranking, o których w oficjalnych materiałach Google pisze bardzo ogólnikowo. Jeżeli ktoś sugeruje, że wyczytał te informacje z “wycieku”, musi być naprawdę wybitnym analitykiem, uzupełniającym liczne białe plamy praktycznie bezbłędnymi domysłami.

A Tier

Moim osobistym faworytem wśród analiz na temat wycieku jest przegląd sporządzony przez Andrew Ansleya. W dużej mierze ucieka ona od definitywnych stwierdzeń, będąc raczej przeglądem interesujących atrybutów autorstwa osoby, która od lat praktykuje SEO, ma własne teorie na temat działania Google i prowadzi analizę z ich perspektywy. Czynnikiem, który wyróżnia rzeczony materiał, jest badawcza pokora wręcz emanująca z kolejnych przemyśleń o atrybutach. Wszystko to rozjeżdza się teoretycznie pod sam koniec wraz z mocnymi stwierdzeniami w ramach “advice to consider”, ale ogólnego charakteru artykułu zdecydowanie to nie zaburza.

Bardzo fajny materiał z perspektywy Local SEO opublikowany został na stronie Local SEO Guide. Andrew Shotland nie stara się sprzedać swojego materiału jako niesamowitego odkrycia, a w zaktualizowanej części tekstu obwarowuje swoje przemyślenia rozsądnymi zastrzeżeniami. Może i artykuł składa się w 99% z mechanicznego podsumowania atrybutów, ale takie skromne i wyzute z ego cegiełki bywają najcenniejsze!

Analiza Digitaloft ograniczona do atrybutów związanych z linkami to modelowy przykład materiału, który nie tylko skupia się dogłębnie na jednym konkretnym zagadnieniu, ale też podchodzi do niego niezwykle uczciwie. Nie chodzi tutaj wyłącznie o podkreślanie niepewnego charakteru rozważań, czyli wszystkie “could be” czy “likely”, ale również sam charakter formułowanych hipotez. Atrybuty z wycieku są w tym przypadku punktem wyjścia do przemyśleń, a nie “potwierdzeniem”. Sprawia to, że omawiany artykuł jest niezwykle cennym głosem w dyskusji na temat wycieku.

B Tier

Artykuł Michaela Kinga opublikowany w Search Engine Journal pokazuje, jak bardzo zabawa w matematykę mogłaby skrzywdzić niniejszą tierlistę. W górnych partiach tekstu mamy bowiem do czynienia z absolutnie modelowym przykładem przekazu, którego zdecydowanie nie chciałbym więcej widzieć w dyskursie o SEO: celne i cenne argumenty wymieszane są z pełnymi sarkazmu figurami retorycznymi, które nie niosą absolutnie żadnej wartości, a mają na celu zdyskredytowanie przeciwnych głosów nie merytorycznym przekazem, lecz efekciarskimi metaforami. Ale gdy wykroczymy poza te pozy: cud, miód i orzeszki.

Autor obwarowuje mocne hipotezy istotnymi zastrzeżeniami, odwołuje się do źródeł wykraczających poza sam wyciek, a w większości istotnych przypadków dopuszcza także istnienie przeciwstawnych interpretacji. Do wyższej kategorii nie mogłem tego tekstu zaklasyfikować ze względu na określanie pewnych przypuszczeń jako obiektywnych prawd (spójrzcie chociażby na treść nagłówka “Do you really think Google is purposely torching small sites?”) czy wielokrotnie powtarzane osądy o przełomowym wpływie wycieku na działania SEO, podczas gdy wymienione w “How your approach to SEO should change tactically” porady od dawna należą do zestawu dobrych praktyk, w myśl których prowadzi się obecnie działania SEO. Ale poza tymi drobnymi zastrzeżeniami nie mam wątpliwości, że jest to lektura obowiązkowa.

Wręcz modelową odpowiedź na wyciek Google w artykule dla Search Engine Journal zaproponował Kevin Indig. Autor tekstu nie wikła się w spekulacje, nie stara się na podstawie pojedynczych atrybutów udowadniać swoich tez. Zamiast tego proponuje rzetelną kategoryzację atrybutów z wycieku, bazującą na możliwości ich eksperymentalnej weryfikacji — i do tego właśnie zachęca. Skoro jestem tak bardzo zachwycony tym materiałem, czemu zaklasyfikowałem go jako “B Tier”? Autor świadomie i nonszalancko utożsamia atrybuty z wycieku z czynnikami rankingowymi. Nawet jeżeli wskazuje, że ich waga nie jest jasna i wymaga testów, takie założenie uznaję za szkodliwe i zbyt daleko idące uproszczenie.

C Tier

Inną drogą poszedł Tom Capper w tekście na blogu Moz. Mimo iż przedstawienie interesujących z jego punktu widzenia atrybutów uzupełnia bardzo interesującymi komentarzami, jednocześnie z pełną dezynwolturą żongluje rzetelnymi zastrzeżeniami i daleko idącymi wnioskami. Samo w sobie nie byłoby to czymś złym, ponieważ uznać moglibyśmy nieobwarowywanie twardych hipotez za skrót myślowy, gdyby nie interesująca korelacja tego typu fragmentów z przedstawianiem teorii o charakterze spiskowym. Nawet jeżeli w przypadku działań Google’a okazują się one nad wyraz często prawdziwe, mieszanie podejrzeń i spekulacji z różnych bajek zdecydowanie nie wzbudza zaufania.

D Tier

Niezwykle jaskrawym przypadkiem powielania krzykliwych tez bez szczątkowej weryfikacji jest podsumowanie wycieku na blogu agencji Delante. Nawet jeżeli duża część “Praktycznych wskazówek płynących z ujawnionych danych” zakłada stosowanie solidnych praktyk, mających miliony sensownych uzasadnień, ogół artykułu wypełniony jest bardzo daleko idącymi wnioskami opartymi na bardzo wątpliwych podstawach, a konkretnie — powtarzaniu krążących po sieci hipotez w formie obiektywnych pewników. Po lekturze nie mam wątpliwości, że autor świetnie ogarnia SEO. Jednocześnie bardzo żałuję, że na potwierdzenie tegoż ogarniania wybrał tak grząski temat i zdecydował się na przedstawienie go w tak dalece nierzetelny sposób.

Podobne streszczenie pojawiło się także na stronie Content Writer. W tym przypadku mamy jednak do czynienia z tekstem, w którym bardzo wiele twardych stwierdzeń z nagłówków jest niemal natychmiast kontrowanych przez uczciwą w formie treść. Gdyby nie ten kuglarski zabieg z tytułem i nagłówkami, byłby to całkiem fajny materiał wstępny dla osób, które wolą zapoznać się w pierwszej kolejności z treścią w języku polskim.

E Tier

Truizm, w myśl którego forma bywa częstokroć znacznie ważniejsza niż treść, idealnie pokazuje pierwszy materiał Michaela Kinga na temat przecieku. Mimo iż zawiera on sporo ciekawych spostrzeżeń, charakteryzuje się też praktycznie wszystkimi czerwonymi flagami, o jakich pomyśleć można w kontekście artykułów w rzeczonym temacie.

Już w pierwszym nagłówku, przewidującym całkiem sensowne zastrzeżenia, King buduje obraz oblężonej twierdzy (“I think we all know people will work to discredit my findings and analysis from this leak.”). Mimo iż w wielu fragmentach podkreślana jest złożoność systemów algorytmicznych oraz niepewność co do kontekstu wyciekłych atrybutów, poszczególne fragmenty dokumentu stają się dla autora wyznacznikiem rzeczywistości (“Turns out there is a sandbox after all.”).

Jeżeli dodać do tego mocne tezy bazujące na pojedynczych atrybutach (“Page Titles Are Still Measured Against Queries” czy “Documents Get Truncated”) bez rozważenia innych prawdopodobnych interpretacji, trudno umieścić ten tekst w innej kategorii niż Tier E. Nie oznacza to oczywiście, że należy go automatycznie zdyskwalifikować — nawet jeżeli hipotezy autora przedstawiane są bezpodstawnie jako ostatecznie potwierdzone prawdy, i tak warto się z nimi zapoznać.

Wiele z powyższych zarzutów można odnieść do głośnego artykułu Randa Fishkina. W tekście tym mamy do czynienia nie tylko ze zdefiniowanymi powyżej problemami, ale również z klarownymi manipulacjami. Idealnymi przykładami będą tu sformułowania typu “This one’s fascinating, and comes directly from the anonymous source who first shared the leak”, mające sugerować, że za konkretnymi informacjami stoi insiderska wiedza — podczas gdy w rzeczywistości osoba stojąca za podzieleniem się wyciekiem nie ma i nie miała żadnych związków z działaniami Google.

Tego typu zabiegi są szczególnie nieprzyjemne ze względu na fakt, że Rand starał się dołożyć wszelkich starań względem rzetelności swojego materiału, a następnie zaprzepaścił to wikłaniem się w spiskowe teorie, autopromocję oraz toczenie własnych wojenek. Tak negatywna kategoryzacja artykułów Fishkina oraz Kinga wynika przede wszystkim z faktu, że były one pierwsze i ustawiały w dużej mierze naturę dyskursu na temat wycieku z Google. Z wielką mocą wiąże się wielka odpowiedzialność. Tej zaś obaj autorzy zdecydowanie nie unieśli.

Podsumowanie dyskursu na temat "wycieku" algorytmu Google

Celowo nie opisywałem w tym miejscu konkretnych elementów wycieku omawianych w powyższych artykułach, skupiwszy się na formalnych i retorycznych aspektach tekstów. Uważam, że w tym przypadku wszelkie skróty byłyby wobec toku myślowego autorek i autorów zwyczajnie krzywdzące. Prawda jest bowiem taka, że z każdym z wymienionych materiałów zwyczajnie warto się zapoznać - z bardzo różnorodnych i zależnych od artykułu powodów.

Wszystkie moje zastrzeżenia nie zmieniają ponadto faktu, że zdecydowana większość twardych wniosków wypływających z omawianych analiz nie wybiega poza standardowy zestaw solidnych praktyk SEO stosowanych w praktyce przez większość znanych mi seowczyń oraz seowców. To naprawdę ważna wiadomość, ponieważ oznacza, że z dużą dozą prawdopodobieństwa robimy naprawdę dobrą robotę. A jeżeli ktokolwiek deklarował, że na bazie "wycieku" jego praktyki zmienią się diametralnie - kilka ostatnich lat zdecydowanie przespał pod kątem aktualizowania wiedzy oraz dostosowywania technik pozycjonowania do zmian w Google'u.