Kilka miesięcy temu przeprowadziłem prosty eksperymencik związany z contentem AI. Wygenerowałem 350 tekstów i wrzuciłem je na absolutnie świeżą domenę, aby sprawdzić, czy mają szansę zaindeksować się i przynieść jakikolwiek ruch z Google'a. Po pięciu miesiącach wiem już, że odpowiedź brzmi TAK (choć ruch jest mikroskopijny, a stopień indeksacji daleki od pożądanego ). We wpisie pokazuję proces generowania tej treści oraz prezentuję dane z GSC.
Podstawowe informacje na temat eksperymentu
Przed przejściem do omówienia procesu generowania treści AI oraz prezentacji wyników z GSC chciałbym zarysować nieco szerszy kontekst.
- Zależało mi, żeby content trafił na absolutnie świeżą domenę bez żadnej historii. Domena psychologiaimion.pl została więc zarejestrowana przed wrzuceniem na stronę contentu.
- Tematyka tekstów miała pozwolić na przekazanie wybranemu modelowi danych wejściowych, na których będzie bazował przy generowaniu treści. Jednocześnie zależało mi, aby pozyskanie tych danych nie wymagało większych nakładów czasowych, a natura treści nie miała nic wspólnego z faktami. Stanęło na psychoezoteryce, bo dalej od faktów uciec się już nie da 😀
- Wybór modelu open-mixtral-8x7b nie wiązał się z jakimś szczególnie głębokim procesem
myślowymdecyzyjnym. Po prostu chciałem, żeby było względnie tanio, bez jednoczesnego bawienia się w korzystanie z darmowych modeli pobieranych na dysk i entliczek-pentliczek padło na Mistral. - Motorem napędowym całej akcji nie były plany stworzenia wyczerpującego case study, a raczej chęć zaspokojenia własnej ciekawości przez praktyczne działanie. Ani nie ustalałem dla eksperymentu żadnej metodologii, ani nie zależało mi na uzyskaniu klarownych odpowiedzi.
- Obecnie flagowe i znacznie sprawniejsze modele językowe nie są drogie i ta sama treść byłaby pozbawiona licznych literówek czy wątpliwej jakości randomowych komentarzy. Teksty wygenerowane na potrzeby poważniejszego case study, którego projekt już mam (a content AI wdrażany będzie na domenie michalmalysa.pl), mają znacznie wyższą jakość.
- Nie chciałem też, aby strona wymagała ode mnie jakichkolwiek działań SEO po wrzuceniu treści i w sumie nawet przed jej opublikowaniem. Dlatego też optymalizacja ograniczona była do automatycznego linkowania wewnętrznego (ogranego w procesie tworzenia contentu i stworzenia dwóch logicznych podstron z listą wpisów).
- Mając już przetrenowany proces tworzenia treści AI, nie musiałem poświęcać na ten eksperyment zbyt wiele czasu. Wadą robienia wszystkiego spontanicznie i na szybkości jest jednak brak przestrzeni na eliminowanie większych lub mniejszych niedociągnięć, nie wspominając już o zwykłym dopracowaniu treści poprzez iteracyjne poprawianie promptów.
- Wartość niniejszego wpisu widzę zatem raczej w opisie prostego procesu generowania contentu AI, a kwestie związane z rezultatami są raczej ciekawostką bez większego znaczenia dla twardej wiedzy o pozycjonowaniu czy treściach SEO.
Jak powstał content AI, który opublikowałem?
Na proces generowania contentu AI składa się zazwyczaj kilka etapów. Mądre zaprojektowanie przebiegu całego projektu pozwala stworzyć treść, która wymaga stosunkowo mało ingerencji.
Dobór tematyki i schematu
Pierwszym krokiem w procesie generowania treści za pomocą AI jest staranny dobór tematyki oraz zaprojektowanie odpowiedniego schematu. Co istotne, content AI mieszać może się z treścią ustawianą "na twardo" lub bazować na dużej ilości dostarczanych modelowi danych. W przypadku fragmentów generowanych w pełni przez AI tematyka powinna być natomiast albo odporna na ewentualne błędy, albo sama w sobie niepoważna, co pozwala na większą swobodę w tworzeniu.
W omawianym eksperymenciku taką treścią są psychoezoteryczne wynurzenia na temat znaczenia imion. Jedyne twarde fakty to w tym przypadku daty imienin (czego nie zostawiałem do generowania dla sztucznej inteligencji, tylko dodawałem w Google Spreadsheets na jednym schemacie przy pomocy formuły ZŁĄCZ.TEKSTY) oraz etymologie, z którymi LLM-y radzą sobie poprawnie.
W przypadku generowania dużej ilości treści bardzo pomaga zaprojektowanie uniwersalnego schematu, który zapewni spójność i jednolitość w całym zbiorze materiałów. Uniwersalny schemat pozwala na zachowanie spójności stylistycznej, strukturalnej oraz tematycznej. Niezależnie od różnorodności poszczególnych tekstów, cała treść tworzy dzięki temu harmonijną całość, która spełnia założenia projektowe i komunikacyjne. No i obejmuje keywordy, nie zapominajmy o tym 😀
Przygotowanie danych wejściowych
Na tym etapie niezbędne jest przygotowanie danych wejściowych, na których opierać się będzie generowana treść. Dane te mogą obejmować zarówno konkretne informacje, jak i struktury, które mają być zachowane w tekście. Ważne jest, aby były one odpowiednio dobrane i przygotowane, ponieważ to na ich podstawie AI będzie tworzyć treść.
Aby tworzona na potrzeby omawianego eksperymenciku treść była bardziej koherentna, przed przystąpieniem do generowania contentu AI wylosowałem dla każdego imienia cechy pozytywne i negatywne, żywioł, preferowalne znaki zodiaku, pasujące kolory oraz szczęśliwą planetę i porę roku.
Dzięki temu AI wiedziało, co opisywać, choć oczywiście ze względu na brak głębszego fine-tuningu promptów oraz brak późniejszej weryfikacji contentowi opublikowanemu na eksperymentalnej stronie daleko do ideału.
Drugim elementem jest precyzyjne opracowanie promptów. Warto zwrócić szczególną uwagę na ich sformułowanie, aby uzyskać pożądane rezultaty. Prompty powinny być jasne i szczegółowe, co zminimalizuje ryzyko powstawania błędów lub nieporozumień w wygenerowanej treści. Nie musi być to przy tym zaawansowany prompt-engeneering. Wystarczy wskazanie roli i docelowego odbiorcy, proste polecenie oraz ewentualne zakazy względem tego, co dany model potrafi dołożyć niepotrzebnie od siebie.
Przykład prostego promptu z jednego z moich obecnych projektów:
Jesteś ekspertem SEO. Piszesz artykuł dla początkujących na temat Autorytet (Authority). Napisz dwa akapity treści dla nagłówka "Jaki wpływ na SEO ma Autorytet (Authority)?". Używaj prostego i zwięzłego języka, nie zwracaj się do czytelników, tylko opisuj temat. Nie definiuj i nie tłumacz, co to jest, ponieważ sam zrobiłem to wcześniej. W odpowiedzi podaj wyłącznie wskazane akapity.
Generowanie treści przez API
Proces generowania treści można zautomatyzować, korzystając z narzędzi takich jak Make, które umożliwiają integrację z API, lub też można to zrobić samodzielnie, łącząc się z nimi bezpośrednio. Poradniki krok po kroku dla najpopularniejszych modeli wraz z odpowiednimi skryptami do odpalenia w Google Colab znajdziecie tutaj:
Ważnym krokiem jest wygenerowanie 4-5 pierwszych tekstów w celu identyfikacji potencjalnych błędów oraz doprecyzowania promptów. Często wpisuje się chociażby instrukcję, aby model nie dodawał niepotrzebnych komentarzy poza właściwą treścią, a także poucza się o konieczności unikania określonych form czy zwrotów. Z mojej praktyki wynika jednak, że zazwyczaj nie trzeba przesadzać z nadmiernymi udziwnieniami i komplikowaniem tematu, a po prostu jasno określić, na czym nam zależy.
Przygotowanie treści do wrzucenia do CMS-a
Przed finalnym umieszczeniem treści w CMS-ie warto przeprowadzić ich obróbkę w arkuszu kalkulacyjnym. Formuła ZŁĄCZ.TEKSTY powstała właśnie na takie okazje, chociaż z pomocą ChataGPT z łatwością dokonać można sensownych połączeń Pythonem bez babrania się godzinami w Arkuszu. Gdybym z tejże pomocy nie skorzystał, pewnie concatowałbym niektóre elementy do dziś 😀
Dzięki temu można masowo dodać tagi HTML, ustawić logikę linkowania wewnętrznego oraz wprowadzić inne drobne korekty, które ułatwią publikację. Taka obróbka zapewnia, że treść jest w pełni gotowa do wrzucenia do CMS-a, co znacznie usprawnia dalszy proces publikacji.
Jako że prostą stronę do omawianego eksperymentu postawiłem na WordPressie, skorzystałem z wtyczki Really Simple CSV Importer. Trudno mi jednak określić, jak jej jakość ma się do miliona innych podobnych pluginów dostępnych na rynku. Na pewno jest to wtyczka prosta i zadziałała szybko i bez konieczności przeklikiwania się przez kolejne ekrany konfiguracji, co stanowi zmorę wielu wordpressowych pluginów.
Tworzenie contentu AI — podsumowanie
Na koniec krótkie podsumowanie dotyczące danych, które mogą zainteresować was w kontekście całego procesu tworzenia contentu AI oraz publikowania ich na świeżej domenie.
- Przygotowanie danych wejściowych nie zajęło mi więcej niż 1 godzinę, ponieważ polegało to na wypisaniu imion, dociągnięciu dla nich imienin, a także wylosowania wartości ezoterycznych.
- Teksty generowały się 3 godziny i 21 minut.
- W tym czasie powstała prosta stronka na WordPressie.
- Wyszło 244 042 tokenów wejściowych i 953 017 tokenów wyjściowych.
- Koszt tych tokenów zamknął się w 0,84$.
Wyniki treści AI po pięciu miesiącach
Indeksacja contentu AI
Jeżeli dobrze przypominam sobie emocje towarzyszące wrzucaniu tych treści na świeżą domenę, ekscytowała mnie przede wszystkim perspektywa sprawdzenia, jak szybko (i czy w ogóle) content AI trafi w takiej sytuacji do indeksu. Po pierwszych dwóch tygodniach było ich niewiele i zdecydowana większość adresów tkwiła w limbo "Strona zeskanowana, ale jeszcze nie zindeksowana".
W międzyczasie Łukasz z Soul Indexer zaoferował przepuszczenie 100 linków przez swoją maszynkę. Po 72h niemal wszystkie te linki były w pełni zaindeksowane. Niestety, nie utrzymało się to długo i po kilku tygodniach nie było po tej zwyżce większego śladu.
Tutaj warto podkreślić, że nie jest to w żaden sposób negatywna recenzja narzędzia Łukasza. Absolutnie nie znam się na indekserach, ale nie sądzę, aby przypadek tego typu mechanicznego i niedoskonałego contentu można było traktować jako wyznacznik długofalowej skuteczności indeksera lub jej braku.
A jak wygląda to teraz? Wszystko wydaje się iść naturalnie swoim tempem, a podstrony w indeksie przyrastają elegancko z tygodnia na tydzień:
Ruch z contentu AI na świeżej domenie
Dane dla ostatnich 28 dni wyglądają następująco:
Natomiast tak prezentowało się to przez ostatnie pół roku:
Domena z treściami AI w narzędziach SEO
W ramach ciekawostki podrzucam też wykresy widoczności z narzędzi SEO. Jak mogliście zauważyć na danych z GSC, szacunki dotyczące ruchu organicznego z ahrefsa są nieco przestrzelone.
Senuto odnotowuje z kolei garstkę słów kluczowych w TOP3:
Co dalej z eksperymentem?
W sumie moja ciekawość została zaspokojona. Miałem jeszcze pomysł na publikację dodatkowych treści o imionach oraz ich polskich odpowiednikach w różnych krajach (przy rozbiciu na ogólne + męskie + żeńskie dałoby to prawdopodobnie około setki nowych tekstów). Stworzyłem sobie nawet wstępnie szablon takiego tekstu, ale eksperyment w tej formie absolutnie przestał mnie ciekawić.
Jeżeli nie wpadnę na żaden ekscytujący pomysł związany z tymi treściami, prawdopodobnie domena powisi sobie do następnego marca, a przed jej wygaśnięciem wyeksportuję content i będzie się kisił na Google Drive do samego końca (mojego lub Google'a). Chyba że ktoś potrzebuje stworzonych już treści tego typu na randomowe zaplecze, wówczas śmiało może pisać na priv i odkupić je w dowolnym momencie w preclowej cenie 😛