WordPress Sitenizi İçerik Kazıyıcılardan Korumanın 7 Kusursuz Yolu
İçerik kazıma (diğer bir deyişle web kazıma, web toplama, web veri çıkarma vb.), bir web sitesinden veri kopyalama işlemidir. İçerik kazıyıcıları, verileri kopyalayan kişiler veya yazılımlardır. Web kazımanın kendisi kötü bir şey değildir. Aslında, tüm web tarayıcıları esasen içerik kazıyıcılardır. Örneğin, arama motorları için web indeksleme gibi içerik kazıyıcıların birçok meşru amacı vardır.
Asıl endişe, sitenizdeki içerik kazıyıcıların zararlı olup olmadığıdır. Rakipler içeriğinizi çalmak ve kendilerininmiş gibi yayınlamak isteyebilirler. Meşru kullanıcılarla kötü adamları ayırt edebiliyorsanız, kendinizi koruma şansınız çok daha yüksektir. Bu makale, WordPress sitenizi korumanın 7 yolu ile birlikte web kazımanın temellerini açıklamaktadır.
İçerik Kazıyıcı Türleri
İçerik kazıyıcıların veri indirme konusunda kullandığı birçok farklı yol vardır. Çeşitli yöntemleri ve hangi teknolojiyi kullandıklarını bilmeye yardımcı olur. Yöntemler, düşük teknolojiden (bir kişinin manuel olarak kopyalayıp yapıştırması) karmaşık botlara (bir web tarayıcısında insan faaliyetlerini simüle edebilen otomatik yazılım) kadar uzanır. İşte neyle karşı karşıya olabileceğinizin bir özeti:
- Örümcekler: Web taraması, içerik kazıyıcıların nasıl çalıştığının büyük bir parçasıdır. Googlebot gibi bir örümcek, tek bir web sayfasını tarayarak başlayacak ve web sayfalarını indirmek için bağlantıdan bağlantıya gidecektir.
- Kabuk Komut Dosyaları: İçeriği indirmek için GNUs Wget gibi komut dosyalarıyla içerik kazıyıcıları oluşturmak için Linux Kabuğu'nu kullanabilirsiniz.
- HTML Kazıyıcıları: Bunlar kabuk komut dosyalarına benzer. Bu tip kazıyıcı çok yaygındır. Veri bulmak için bir web sitesinin HTML yapısını alarak çalışır.
- Ekran kazıyıcı : Ekran kazıyıcı, internette gezinmek için bilgisayar kullanan bir insan kullanıcının davranışını kopyalayarak bir web sitesinden veri yakalayan herhangi bir programdır.
- İnsan Kopyası: Bu, bir kişinin web sitenizdeki içeriği manuel olarak kopyaladığı yerdir. Daha önce çevrimiçi yayın yaptıysanız, intihalin yaygın olduğunu fark etmiş olabilirsiniz. İlk dalkavukluk ortadan kalktıktan sonra, birinin sizin çalışmanızdan kazanç sağladığı gerçeği ortaya çıkar.
Aynı şeyi yapmanın birçok yolu vardır. Yukarıda listelenen içerik kazıyıcı kategorileri hiçbir şekilde ayrıntılı değildir. Ek olarak, kategoriler arasında çok fazla örtüşme var.
İçerik Kazıyıcıların Kullandığı Araçlar
Resim medejaja / Shutterstock.com tarafından
Web kazıma işlemine yardımcı olacak çeşitli araçların yanı sıra çeşitli içerik kazıyıcıları mevcuttur. Veri çıkarma hizmetleri sunan bazı uzman kuruluşlar da mevcuttur. İçerik kazıyıcıların veri almak için kullanabileceği araç sıkıntısı yoktur. Bu araçlar, hobiler ve profesyoneller tarafından bir dizi farklı amaç için kullanılır. Çoğu zaman, HTML ve XML belgelerini ayrıştırmak için bir Python paketi olan Beautiful Soup gibi araçlarla dolu bir paket indirebilirsiniz. Aşağıda, içerik kazıyıcıları tarafından yaygın olarak kullanılan birkaç araç bulunmaktadır.
- cURL: Bu, HTTP istekleri yapmak için bir PHP kitaplığı olan libcurl'un bir parçasıdır.
- HTTrack: Çevrimdışı tarama için web sitelerini indiren ücretsiz ve açık kaynaklı bir web tarayıcısı.
- GNU Wget: FTP, HTTPS ve HTTP aracılığıyla sunuculardan içerik indirmek için bir araç. GNU'nun web sitesinden ücretsiz edinin.
- Kantu: Form doldurma gibi genellikle insanlar tarafından gerçekleştirilen görevleri otomatikleştiren ücretsiz görsel web otomasyon yazılımı.
WordPress Sitenizi İçerik Kazıyıcılardan Korumanın 7 Yolu
Resim 0beron / Shutterstock.com
Bir web sitesinin yöneticisi, bir botu durdurmak veya yavaşlatmak için çeşitli önlemler kullanabilir. Web sitelerinin içerik kazıyıcılarını engellemek için kullandığı, botların tespit edilmesi ve sayfalarını görüntülemesine izin vermemek gibi yöntemler vardır. Aşağıda sitenizi içerik kazıyıcılardan korumak için 10 yöntem bulunmaktadır.
1. Hız Sınırlama ve Engelleme
Önce sorunu tespit ederek botların büyük bir kısmıyla savaşabilirsiniz. Otomatik bir botun sunucunuzu alışılmadık derecede yüksek sayıda istekle spam yapması normaldir. Hız sınırlaması, adından da anlaşılacağı gibi, bir kural belirleyerek tek bir istemciden gelen sunucu isteklerini sınırlar.
İstekler arasındaki milisaniyeleri ölçmek gibi şeyler yapabilirsiniz. İlk sayfa yüklendikten sonra bir insanın bu bağlantıya tıklaması çok hızlıysa, bunun bir bot olduğunu bilirsiniz. Daha sonra bu IP adresini engelleyin. IP adreslerini, menşe ülkeleri de dahil olmak üzere bir dizi kritere göre engelleyebilirsiniz.
2. Kayıt ve Giriş
Kayıt ve Giriş, içeriği meraklı gözlerden korumanın popüler bir yoludur. Bu yöntemlerle bilgisayar görüntüleme kullanamayan botların ilerlemesini engelleyebilirsiniz. Yalnızca izleyicileriniz için istediğiniz içerik için kayıt ve giriş yapmanız yeterlidir. Oturum açma güvenliğinin temelleri burada geçerlidir. Kayıt ve giriş gerektiren sayfaların arama motorları tarafından indekslenmeyeceğini unutmayın.
3. Honeypot'lar ve Sahte Veriler
Bilgisayar biliminde bal küpleri sanal sokma işlemleridir. İçerik kazıyıcılardan gelen trafiği algılamak için bir bal küpü ile tuzaklar kurarak olası saldırganları toplarsınız. Bunu yapmanın sonsuz sayıda yolu vardır.
Örneğin, web sayfanıza görünmez bir bağlantı ekleyebilirsiniz. Ardından, bağlantıyı tıklayan istemcinin IP adresini engelleyen bir algoritma oluşturun. Daha karmaşık bal küplerinin kurulumu ve bakımı zor olabilir. İyi haber şu ki, çok sayıda açık kaynaklı bal küpü projesi var. Github'daki bu harika bal küpleri listesine göz atın.
4. Bir CAPTCHA kullanın
Captcha, Computers and Humans Apart'ı anlatmak için Tamamen Otomatikleştirilmiş Genel Turing testi anlamına gelir. Captcha'lar can sıkıcı olabilir ama aynı zamanda yararlıdırlar. İletişim formunuzdaki bir e-posta düğmesi gibi bir botun ilgilenebileceğinden şüphelendiğiniz alanları engellemek için birini kullanabilirsiniz. Jetpack'in Captcha modülü de dahil olmak üzere WordPress için birçok iyi Captcha eklentisi mevcuttur. Ayrıca WordPress'te CAPTCHA Kullanmanın Faydaları hakkında bilgilendirici bir yazımız var.
5. HTML'yi Sık Sık Değiştirin
Bu, web sitenizin bölümlerini tanımlamak için öngörülebilir HTML işaretlemesine dayanan içerik kazıyıcıları karıştırabilir. Beklenmedik unsurlar ekleyerek bu sürece bir İngiliz anahtarı atabilirsiniz. Facebook bunu rastgele öğe kimlikleri oluşturarak yapardı ve siz de yapabilirsiniz. Bu, içerik kazıyıcılarını kırılana kadar hayal kırıklığına uğratabilir. Bu yöntemin güncellemeler ve önbelleğe alma gibi şeylerde sorunlara neden olabileceğini unutmayın.
6. Gizleme
Sitenizin dosyalarını değiştirerek daha az erişilebilir hale getirmek için verilerinizi gizleyebilirsiniz. Metni resim olarak sunan bir avuç web sitesine rastladım, bu da insanların metninizi manuel olarak kopyalayıp yapıştırmasını çok daha zor hale getiriyor. Görüntülerin adlarını gizlemek için CSS hareketli grafiklerini de kullanabilirsiniz.
7. Göndermeyin!
Şifreleme söz konusu olduğunda gerçek dünya en iyi seçeneğinizdir. Kesinlikle özel olmanız gereken bir bilginiz varsa, internete koymayın. Bilgileri internete koymamak, içeriğinizi güvende tutmanın gerçekten tek yoludur. Burada bahsettiğimiz yöntemlerin tümü, içerik kazıyıcıların verilerinizi çalmasını önlemenin etkili yolları olsa da hiçbir garanti yoktur. Bu yöntemler işi daha da zorlaştırıyor ama imkansız değil.
Toplama
Bazı güvenlik önlemleri kullanıcı deneyimini etkiler. Güvenlik ve erişilebilirlik arasında bir uzlaşmaya varmanız gerekebileceğini unutmayın. Önce düşük asılı meyvenin peşinden gitmek en iyisidir. Çoğu durumda, yardımcı olacak bir eklenti bulabilirsiniz. WordFence ve Sucuri gibi güvenlik eklentileri, diğer şeylerin yanı sıra hız sınırlama ve engellemeyi otomatikleştirebilir. Karşılaştığım en etkili yöntemler şunları içeriyor:
- Bal küplerini kullanma
- Kodu gizleme
- Hız sınırlama ve diğer algılama biçimleri
Sitenizi içerik kazıyıcılardan korumak için kurşun geçirmez çözümler yoktur. Daha karmaşık içerik kazıyıcıların evrimi, bilgili web yöneticilerine bir yanıt olarak ortaya çıktı. 1990'ların başından beri devam eden ileri geri bir savaş. Kazıyıcılar, bir insan kullanıcının neredeyse her yönünü taklit edebilir, bu da kötü adamların kim olduğunu bulmayı zorlaştırabilir. Bu göz korkutucu olsa da, ilgileneceğiniz içerik kazıyıcıların çoğu kolayca durdurulacak kadar basit olacaktır.
Kötü amaçlı içerik kazıyıcılarla ilgili herhangi bir deneyiminiz var mı? Onları durdurmak için ne yaptın? Aşağıdaki yorumlar bölümünde paylaşmaktan çekinmeyin.
Lucky clover / Shutterstock.com'dan makale küçük resmi
ev borcu WordPress sitesi