Kaip atpažinti spamą arba šiukšlinius komentarus

03:08 in Blogai, WordPress by popo

Žodis “spamas” kilo nuo “SPAM” firmos pavadinimo: šioji ilgai savo produktus reklamavo įvairiose TV laidose, kol iš jų neišsityčiojo Monty Python (nors net ir po to reklamuotis nenustojo). Nuo tada įkyri ir užveikianti reklama gavo pavadinimą – “spam”.

Vėliau, atsiradus internetui, spamas ėmė plisti elektroniniais laiškais, dažniausiai siūlančiais pasižiūrėti pornografinių nuotraukų, pasididinti kokius nors organus, nusipirkti viagros ir taip toliau. O dar vėliau, atsiradus tinklaraščiams, panašus spamas ėmė plisti ir įvairių tinklapių komentaruose.

Šiuolaikiniai spamo botai (programos, kurios automatiškai rašo komentarus) yra sudėtingi ir gerai padaryti. Jie sugeba automatiškai generuoti skirtingus tekstus, todėl dažnai būna, kad komentarai nepasikartoja. Kai kurie modernesni botai sugeba netgi atpažinti, kuo vardu straipsnio autorius, pacituoti kažką iš straipsnio ir dėl to jų komentarai atrodo išvis įtikinamai. Visa laimė, tokie botai kol kas nesugeba įveikti lietuvių kalbos. Tačiau Lietuvoje spameriai irgi auga, tad vis dažniau galima pamatyti ir šiukšlių, reklamuojančių lietuviškus puslapius.

Kadangi visi spameriai stengiasi apgauti tinklaraščių savininkus, jų komentarai būna panašūs į tikrus, todėl patirties dar negavusiems tinklaraščių autoriams svarbu įsidėmėti kelis esminius požymius arba taisykles, pagal kurias galima spamą atpažinti.

9 spamo atpažinimo taisyklės

  1. Būkite įtarūs. Pasaulyje kokie 99 procentai komentarų yra spamas. Todėl pirmiausiai galvokite apie tai, kad bet kuris komentaras yra spamas, o jį parašiusiam galioja kaltumo prezumpcija. Komentatorius, rašantis prasmingą tekstą, turi sugebėti parodyti, kad jis nėra spameris.
  2. Jei rašote lietuviškai, o komentaras yra parašytas angliškai, lenkiškai, rusiškai, vokiškai ar dar kokia kita kalba – tai praktiškai šimtaprocentinis spamas. Užsieniečiai neskaito lietuviškų puslapių, o jau juo labiau – nekomentuoja juose.
  3. Jei komentare yra nuoroda į neaiškios paskirties ar komercinį puslapį – tai greičiausiai spamas. Dauguma įprastų komentatorių niekaip nesisieja su visokiomis interneto parduotuvėmis. Aišku, čia gali būti išimčių, tačiau jos labai retos.
  4. Jei komentaras yra bekontekstis ir tiktų bet kokiam bet kokio autoriaus tekstui, labai tikėtina, kad jis yra spamas. Be abejonės, jei tas komentatorius rašė prasmingų komentarų anksčiau – gal tai ir ne spamas, tačiau tipinis spamo komentaras atrodo maždaug taip: “gražus puslapis, ačiū už straipsnį“. Arba taip: “ne su viskuo sutinku, bet jūsų nuomonė įdomi“. Arba taip: “Perskaičiau, pasidalinsiu nuoroda į šį straipsnį su draugais“. Tokie komentarai tinka visur. Tai yra tipiškas spamas.
  5. Nekreipkite dėmesio į tai, kad jūsų tinklaraštį koks nors botas giria: jam svarbu tik įdėti nuorodą. Jei jus kažkas perdėtai giria – tikėtina, kad tai gali būti spamas. Visame pasaulyje žmonės retai rašo pagiriamuosius komentarus: jei jie sutinka su teksto mintimi, jie tiesiog tyli.
  6. Nekreipkite dėmesio, kad iš pirmo žvilgsnio komentaras atrodo prasmingas. Kai kurie spamo komentarai būna rašomi pagal temas, tad gali būti, kad spamo botas parašys jums “gera nuotrauka, pasiilgau atostogų” prie jūsų atostogų nuotraukos. Spameriams didelis išlošimas net ir vienas iš 1000 sėkmingų komentarų, tad jie kartais rašo ir kontekstinius komentarus, kurie daugumoje vietų netiktų, tikėdamiesi, kad kažkur pataikys bent retkarčiais.
  7. Lietuviški komentarai rečiau būna spaminiai, tačiau naujesni botai neretai ima rašyti ir lietuvių kalba, tekstų prisirankiodami iš kitų interneto puslapių, iš Google Translate ir pan.. Negana to, čia kartais padirbėja ir Indijos darbštuoliai, mielai rašantys komentarus jiems nesuprantamomis kalbomis, tačiau sugebantys naudotis Google vertėju. Taigi, jei komentaras parašytas lietuviškai, tačiau su klaidomis, pradingusiomis lietuviškomis raidėmis arba išvis nelabai suprantamas – tikėtina, kad tai irgi spamas.
  8. Kai kurie gudresni spamo botai pirmus kartus netgi nededa nuorodų į niekur. Jų tikslas – kad jūs vieną kartą patvirtintumėte jų komentarą, o kitus kartus jis jau bus patvirtinamas automatiškai, todėl spamas praeis. Tai, kad komentare nėra jokios nuorodos – tai dar ne garantija, kad jį parašė ne spameris.
  9. Net jei komentaras yra prasmingas, kontekstualus ir taip toliau, jis irgi gali būti spamas. Spamą kartais rašinėja net ir tikri gyvi žmonės. Kartais tai būna tiesiog uždarbis studentams bei moksleiviams.

Kaip apsisaugoti nuo spamo?

Šimtaprocentinės apsaugos nėra nei Popo.lt, nei kokioje nors kitoje tinklaraščių sistemoje. Jei leidžiate komentuoti žmonėms, tai gali pakomentuoti ir žmonės, kurie skleidžia spamą. Jei gali pakomentuoti žmonės, tai gali pakomentuoti ir robotai. Taigi, spamo išnaikinti neįmanoma. Bet nepaisant to, yra priemonės kovai, tad jas truputį panagrinėsim. Mes tikim, kad jos pravers ne tik Popo.lt tinklaraščių savininkams, bet ir kitiems, kas tik naudoja WordPress blogus (taip, PoPo.lt irgi yra WordPress pagrindu sukurta sistema). Žemiau pavardintus įskiepius galima įsijungti PoPo.lt sistemoje, o jei turite atskirą blogą, juos gal būt verta susiinstaliuoti.

WordPress sistemoje populiariausia priemone nuo spamo yra tapęs Akismet pluginas. Šis pagal kažkokius nežinomus algoritmus kaupia spamo statistikas, analizuoja komentarus ir paskui pats nusprendžia, ar komentaras yra spamas, ar ne. Tačiau jis geriau padeda nuo užsieninių spamerių, tačiau ne nuo lietuviškų. Akismet turi įvairių trūkumų: jei norite jį naudoti, jums reikia gauti specialų kodą (API key), be to Akismet gali neveikti, jei sutriks ryšys tarp Lietuvos ir užsienio ar kils dar kokios nors bėdos.

Lietuviškus spamerius Akismet dažnai praleidžia, o dar blogiau, kad maždaug pusę (skaičius varijuoja) prasmingų lietuviškų komentarų klaidingai pažymi, kaip spamą. Dėl to jį naudojantys žmonės turi problemų. Bėdas padeda išspręsti kartu su Akismet įjungtas “Conditional Captcha” pluginas (įskiepis), kuris apriboja Akismet siautėjimą.

Contitional Captcha suveikia tada, jei suveikia Akismet. Tačiau Conditional Captcha neleidžia Akismet permesti komentaro į spamo katalogą, o perklausia rašančiojo, ar jis tikrai žmogus. Patikrinimui užduodamas koks nors klausimas. Jei komentarą rašo žmogus, jis į klausimą sugeba atsakyti, o jei botas – neįstengia. Taip atsisijoja daugelis spamo komentarų, tačiau komentatoriams būna kiek kebliau.

Paprastesnis būdas yra panaudoti SI Captcha įskiepį. Jis paprastesnis, ne toks patikimas, tačiau nuo spamerių apsaugo sąlyginai neblogai. Lankytojams, tiesa, šis įskiepis sukelia nepatogumų, nes reikia rankomis įvesti paveiksliuke pavaizduotą simbolių seką.

Dar vienas pluginas – tai NoSpamNX, kuris atpažįsta daugumą spamo botų pagal tai, kad jie perduoda duomenis, kokių neperduotų žmonės. Dažniausiai tai veikia patikimai, tačiau jei patys nuspręsite naudoti, būtinai susitikrinkite, ar kartais NoSpamNX neblokuoja išvis visų komentatorių. Taip gali būti, naudojant kai kurias WordPress temas, su kuriomis šis pluginas nesusikalba. Neveikimo atveju arba galima išjungti NoSpamNX, arba pabandyti pakeisti WordPress temą.

Jei NoSpamNX veikia gerai, tada neužmirškite ir dar vieno jo privalumo: jis gali naudoti centrinį ir atnaujinamą įtartinų žodžių sąrašą, kuris leidžia atpažinti spamerius. Įveskite to sąrašo URL (adresą, kurį matote naršyklėje) į plugino konfugūraciją ir spamo gaudymo efektyvumas padidės keleriopai.

Blogų žodžių sąrašas yra čia: http://popo.lt/blacklist-words.txt

Tiesa, šio sąrašo neverta matyt naudoti tiems, kas rašo angliškai. Jis yra kuriamas taip, kad pagal jame esančius žodžius būtų itin gerai atpažįstami angliški spamo pranešimai, tačiau nebūtų reaguojama į lietuviškus. Bet jei jūs rašote angliškai, gali būti, kad bus neteisingai palaikyti spamu ir tie komentarai, kuriuos angliškai parašė tikri žmonės.

Galų gale, neužmirškite ir paprasčiausių WordPress nustatymų: pažymėkite varnelę, kad prieš įdedant komentarą, komentaro autorius turi būti parašęs patvirtintą komentarą. Taip pat nurodykite, kad būtų sulaikomi visi komentarai, jei juose yra 1 nuoroda (pagal nutylėjimą yra nurodomos 2, tačiau dabartiniai spameriai pasitenkina viena). Taip užsitikrinsite, kad jūsų tinklaraštyje spaminiai komentarai nesiras savaime, o nuolatiniai komentatoriai galės rašyti savo pastabas patogiai.

Dar atnaujinimai ir atnaujinimai

00:49 in Planiniai darbai, Problemos by admin

Nuo savaitgalio bandom patiunint sistemą ir padidint našumą, nes tobulėti reikia ir yra kur pakankamai smarkiai. Taigi, jau kelis kartus darėm visokius dalykus, o daryti žadam ir dar, ir darysim gal dar ir ryt, ir poryt. Jei kartais kurį laiką neveiks – tai neveiks tam, kad veiktų geriau paskui. Nesigasdinkite, nors keiksnoti prašom į valias.

Taip atrodo popožuvė.

Pakilę iš dulkių į šviesų rytojų mes nešame savo popo… OpenBSD yra kebli sistema… Tai ten kokie nors kmapent, tai ten shmem, tai ten dar kažkas jai pasirodo per mažais, o paskui prasideda thrashingas per shmem su lipniais efektais, nors ir atrodo, kad resursų nenaudoja niekas.

Sistemos atnaujinimas. Neveiksim.

17:17 in Planiniai darbai by admin

Kadangi jau savaime vis palūžtam, tai išaiškėjo, kad sistemai trūksta failų deskriptorių. O tam reikia daryti sistemos atnaujinimą, nes tai ne šiaip sau kas, o OpenBSD. Taigi, šiandien vakare, naktį ir gal būt ryte neveiksime. Tikimės, kad visgi imsime veikti lengvai ir greitai, o neveikimai ilgai nesitęs.

Bet jei jau pamatysite, kad neveikia popo.lt, tai pernelyg nekeikite mūsų, nes neveikimas šįsyk planuotas. Jis skirtas tam, kad neveikimai baigtųsi.

Dėl viso pikto patariam naujų straipsnių šiandien nerašyti ir palūkėti, nes atnaujinimo metu, kas nespės išsisaugoti, tai gali ir pradingti. Planuojam pradėti griovimo darbus apie 8-9 vakaro.

Jau persikėlėme!

18:02 in Planiniai darbai by admin

Na, štai, jau ir esame naujame duomenų centre – kaip ir ruošėmės, taip ir persikėlėme. Serveris buvo nepasiekiamas maždaug valandą. Persikėlėme labai greitai, ypač, turint omeny, kad reikėjo serverį paimti iš vieno duomenų centro, nuvežti jį į kitą duomenų centrą, tenai pastatyti, prijungti, perkonfigūruoti, pakeisti DNS įrašus ir sulaukti, kol tie įrašai išsivaikščios.

Čia turim padėkoti labai šauniai dirbantiems Hostex administratoriams, nes užsilaikėm ir po darbo valandų, tačiau mums visvien padėjo.

Šiandien keliamės į naują vietą

10:23 in Planiniai darbai by admin

Serveris lyg ir apsitvarkė (atrodo, kova su botais padėjo – įdėjom dar ir modsecurity į Apache), tačiau kai kurie kiti techniniai dalykai kartais visvien turi būti daromi.

Šiandien su serveriu keliamės į naują vietą, tad popo.lt kurį laiką neveiks. Jei pavyks, tas neveikimo tarpas bus labai trumpas – kokia valanda ar panašus laiko tarpas. Viskas turėtų vykti maždaug tarp 16 ir 17 valandos.

Bandysime suspėti kuo greičiau, bet serverio gabenimas, o paskui – ir DNS duomenų pasikeitimas įvyksta ne akimirksniu, tad neišsigąskite, jei kurį laiką negalėsite prisijungti.

 

Truputis priedo kovai su spameriais

17:15 in Pagalba by admin

Tie, kas naudojate NoSpamNX pluginą, tiems duodame truputį pagerinimo – galima įsivesti į konfigūraciją blogųjų žodžių sąrašą. Tereikia kairėje, prie nuostatų surasti NoSpamNX ir įvesti dešinėje pusėje, kur “Update URL” įvesti šitą adresą:

http://popo.lt/blacklist-words.txt

Atnaujinimo laiką galima nurodyti apie 600 minučių arba panašų. Tą patį sąrašą galima ir šiaip pasižiūrėti ir jo žodžius nukopijuoti į komentarų nuostatas, į juodąjį sąrašą. Tiesa, vertėtų pasirinkti vieną metodą – jei veikia NoSpamNX, tai naudoti tik šį, o komentaruose nustatymus naudoti kaip alternatyvą, jei NoSpamNX neveiktų.

Kadangi NoSpamNX gali neveikti su kai kuriomis temomis, blokuodamas išvis visus komentarus, tai automatiškai jo neįjungiame. Kas norite jį naudoti, reikia užeiti į kairėje meniu “Įskiepiai” ir ten susirasti NoSpamNX. Pasitikrinti, kaip veikia, galima tiesiog įjungus pluginą ir pačiam kažką pakomentavus. Jei viskas tvarkoje, tai komentarą praleidžia, o jei netvarkoje, tai pagal nustatymus blokuoja iškart arba permeta į spamą.

Viskas atsitinka, kai to jau nesitiki

22:28 in Problemos by admin

Mums atrodė, kad po paskutinių lūžimų atradom kur problemos. Bet paaiškėjo kad tik laikinai. Serveris auga, duomenų bazės didėja ne dienom o valandom, lankomumas irgi didėja labai greitai. Todėl ankstesnis sprendimas buvo tik bėdų atitolinimas. Apribojom apache skaičių, nes ėmė aiškėti, kad kartais netikėtai greitai pritrūksta atminties, pereina į swapą, tada prasideda LABAI LĖTAS darbas ir tada serveris nueina į mirties spiralę jau nuo įprastų apkrovų. Atrodė, kad ir kažkokie memory leaking dalykai gali būti, todėl padarėm, kad apačiai mirtų po kiek laiko. Todėl atrodė, kad viskas ramu.

Vakar ryte, apie 8:30 serveris mirė. Kaip tik blogerių šventės proga. Tuo metu neturėjo būti jokių apkrovų. Po perkrovimų ir kapstymų lyg ir nieko įdomaus neradom, bet šiandien ryte, apie 6:30 serveris vėl mirė. Irgi taip pat netikėtai. Pakėlus serverį, jokių aiškesnių dosinimo požymių nesimatė, apkrovos buvo normalios (su visais servisais svyravo apie 0-20 procentų apkrovos per procesorių, 20 procentų naudojamos atminties).

MySQL slow query logas neparodė nieko aiškaus. Nepaisant to, jau optimizavom kai kurias SQL užklausas (radom tokių, kur laikai trukdavo ~7 sekundes). Išmetėm porą pluginų, susijusių su elektroninio pašto siuntimu pagal komentarus (šiuos labai smarkiai puolė spameriai, sukeldami apie 90 procentų nuolatinių serverio apkrovų ir daugumą lėtų SQL užklausų – atrodo, yra mechanizmas, leidžiantis spaminti per komentarų prenumeratą).

Visai tik ką (maždaug prieš valandą), atrodo, radom vieną galimą priežastį griuvimams (aišku tik spėjam), nes serveris staiga ėmė ir parėjo į mirties spiralę, stebint gyvai (pora gigų atminties suėdė per 1-2 sekundes). Visus apačius nukilinom, loge radom ko nematėm anksčiau: keli šimtai kreipimųsi per sekundę iš Kinijos, paskui ir iš kito IP. Pasirodo, kažkokia kompanija sugalvojo kažkokią “paiešką” daryti (UserAgent – COMODOspider/Nutch-1.0, vienas iš adresų – “search.comodo.com”). Kiek radom internete, ne mes vieni kenčiam, nes kompanija greičiausiai užsiima kažkokiu spamu. Problema, kuri neleidžia atsipalauduot yra tokia: ankstesniuose griuvimuose šitas botas nedalyvavo niekaip.

Padarėm kol kas labai paprastai: banai ant dviejų IP/subnetų per .htaccess (91.212.12.* ir 114.255.52.*). Žiūrėsim, ar dar panašių dosintojų nerasim. Pasimelskit už mus, nes jei čia kažkoks botnetas šposus daro mums, tai visam popo.lt gali būt batai. Nors ir nesuprantam, už ką.

Serveris bum

03:21 in Problemos by admin

Nagi tas serveris jau visai ima nervuoti, nes dėl neaiškių priežasčių ima ir kartais užsilėtina, galų gale pakibdamas. Ir nesuprantame, kodėl: porą kartų stebėjome tokį procesą: atminties pilna, procesorių resursų pilna, nieko netrūksta, bet sulėtėja ir bum.

Vakar tai atsitiko du kartus – vieną mirtinai, o antrą – pavyko išvesti serverį iš mirties spiralės. Neaišku, kodėl tai vyksta, bet tikrai pro kažkur išspręsim bėdą. Atrodo, tai kažkaip susiję su Apache: šį nudėjus, viskas pasitvarko. Anksčiau atrodė, kad problemą išsprendėm – ilgai nieko panašaus nevyko, bet panašu, kad kažkokie negerumai vis dar slepiasi.

PoPo.lt įveda apmokestinimą blogams ir lankytojams

18:50 in Blogai by popo

Prisidėdamas prie BATGA-A veiklos, PoPo.lt blogoferminis kolūkis irgi nusprendžia apmokestinti visus blogus ir tinklaraščius, tardamas “geriau vėliau, negu niekad”.

Serverio neveikimas buvo susijęs su tuo, kad diegėme apmokestinimo sistemą, kuri skaičiuos kiekvieną lankytojo apsilankymą ir parodytą puslapį ar paveiksliuką. Kiekvienas lankytojas už tai turės sumokėti 2 centus. Taip pat solidarumo vardan 2 centus už kiekvieną parodytą puslapį ar paveiksliuką turės sumokėti kiekvienas blogas. Tai labai maža suma, kuri nieko neskaudės. Mes turime milijonus apsilankymų kiekvieną dieną, todėl šitaip galų gale galėsim pagerinti savo finansinę padėtį.

Už puikią idėją dėkojame šiems blogeriams ir jų straipsniams:

Truputis atnaujinimų

05:28 in Blogai, Pagalba by admin

Truputį atnaujinome platformą. Dar ne iki galo, bet juntamai. Kas nemalonaus – SexyBookmarks pluginą teko išmesti, nes palaužinėjo sistemą. Taip, suprantam, kad gražus, bet buvo ir dar viena bėda – rodomų ikonyčių rinkinį jis nustatinėjo bendrai visiems vartotojams. Taigi kiekvienas pasirinkęs, kur ir ką dalinsis, patvarkydavo išvaizdą ir kitiems. Visa kita lyg ir veikė. Jei neskaitysim to, kad bandant atnaujinti, palaužinėjo serverį.

Ką naudoti vietoje Sexy Bookmarks? Gal būt truputį mažiau gražus, bet irgi labai neblogas Share This pluginas. O dar vienas variantas – Add to Any. Kokių nors geresnių kol kas nesuradom.

Jei tik kas neveiktų, sakykit, tiksliau rašykit. Žinoma, kad čia – į komentarus.

Popo.lt tinklaraščiai. Hosting powered by   serverių hostingas - Hostex