|
Post by account_disabled on Dec 11, 2023 5:00:37 GMT
因此,我们决定仅依赖 Google Search Console 提供的链接,仅针对 Google 看到的内容(或者至少应该是这样)。不幸的是,控制台只允许您下载前 1000 个主域(下载此表按钮),然后下载 100,000 个链接(下载更多示例链接按钮),此外我们还使用按日期排序的 100,000 个链接(下载最新链接按钮) 。我们无法获得所有传入链接,但我们仍然有一个很好的起点来开始分析,我们最初手动和随机进行分析,以便了解并识别有毒反向链接的模式。幸运的是,正如一开始所提到的,克隆者也复制了分析跟踪代码。 通过这种方式,可以通过 Google Analytics 跟踪哪些损坏的网站复制了客 澳大利亚数据库 户端网站。事实上,在 Google Analytics 中,通过转到“公共”->“技术”->“网络”部分并将“主机名”设置为主要维度,您可以获得一个域列表(至少已收到一次访问),其中分析代码已加载该特定域的帐户。排除我们网站的域,我们获得了大约 90 个其他主机的列表,这些主机很可能代表了已损坏且我们的网站被复制的网站。我们说可能是因为在过去几个月中,大多数分析帐户中都出现了或多或少强烈的垃圾邮件访问活动。为了验证这 90 个域中的哪些域包含我们网站的副本,我们使用 Screaming Frog,利用 自定义过滤器 来获取在 HTML 中包含我们的分析代码的域的单独列表。此时,为了明确它是重 复的,特别是在Google 反垃圾邮件团队的眼中 (他们可能会在不久后检查一些反向链接),我们决定通过 htaccess 使用反盗链策略。这是可能的,因为复制了我们网站的整个 html 代码后,所有资源都从我们的域中调用(图像、css 和 js)。使用以下代码,当加载重复的站点页面时,style.css 文件被替换为 logo.css,logo.png 文件被替换为 site-hacked.jpg重写引擎开启RewriteCond %{HTTP_REFERER} L]目的是获得以下结果一旦解决了这个问题并确定了损坏的域,就必须区分近 600,000 个链接,哪些链接应包含在拒绝文件中,哪些要保留,因为如上所述,随着时间的推移,该网站已获得了几个有价值的链接。由于手动分析是不可想象的,我们再次使用 Screaming Frog,将反向链接分为 50,000 个链接组,以免出现常见的内存问题。通过这种方式,使用自定义过滤器来搜索反向链接的 html 中是否存在我们网站的域名就足够了。
|
|