独立站SEO优化之Robots.txt设置,TDK优化及固定链接

一切从我在百度输入 site:www.usdtx.com 查询百度收录我的网站页面开始,结果我发现一些惨不忍睹的事情。

1 . 首页分页被收录,链接不同

首页1链接:https://www.kuajingyuan.com

 

首页2链接: https://www.kuajingyuan.com/page/2

然而我网站首页内容没有分页,只有加载更多按钮,所以这俩链接都指向相同内容。需要在robots.txt里设置禁止首页分页收录。

2 . 同一篇文章,被收录两次,收录链接都不同

由于我以前没设置过固定链接,文章链接是以 ?p= 结尾,后来文章链接改成以%postname%结尾的,又被收录一次。

文章链接1 :

文章链接2 :

但我记得写这篇文章时,固定链接好像已经设置了。所以我为求保险,在robots.txt里设置禁止收录带 ?p= 结尾的文章 (该设置效果有待观察,看是否对文章收录有影响).

3 . 被收录的文章默认描述不同

可以看到下图中第一篇文章把按钮里的文字都当作默认描述了,正常来讲是下图中第二篇文章这种抓取文章内容作为描述。

这个其实需要SEO插件来辅助,在写文章时填写TDK(Title标题,Description描述,Keywords关键词)

4 . 用户页面被收录

用户页面收录的链接都快赶上我的文章收录链接了,抓取这些页面毫无意义,还会影响排名。

下面进入SEO优化设置正文

一. Robots.txt 编写

Robots.txt 是配置搜索引擎蜘蛛抓取规则的文件,这里面涉及到一个抓取成本的问题,如果页面太多,蜘蛛就会忽略一些页面。这样势必造成一些想要被收录的页面没有及时收录,无关的页面却被收录了。像独立站后台的页面都可以禁止抓取,只抓取产品页面和博客页面就可以了。

登录宝塔面板在线管理界面 (关于宝塔面板请看 VPS服务器安装宝塔面板教程 ) ,点击左侧栏网站进入网站列表,点击”根目录”下面链接进入网站根目录。

然后点击上面按钮新建一个空白文件,名称为robots.txt . 选中这个文件,点击右边编辑按钮进入编辑模式。

以下为我的robots.txt 配置

# 所有搜索引擎蜘蛛抓取规则
User-agent:*
Disallow: /users/
Disallow: /?p=*
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /feed
Disallow: /articles/*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Disallow: /page/
Disallow: /category/*/page/
Disallow: /tags/*/page/

Sitemap: https://www.kuajingyuan.com/sitemap.xml

我来解释一下配置内容。

User-agent 描述搜索引擎蜘蛛名字 , * 的意思是全部搜索引擎蜘蛛 ,当然你后面可以加baiduspider 就只针对百度搜索引擎蜘蛛。

Disallow 禁止抓取的意思。

Disallow: /users/  禁止抓取用户页面

Disallow: /page/ 禁止抓取首页分页

Disallow: /*/comment-page-*  禁止抓取评论分页

Disallow: /*?replytocom=*     禁止抓取回复链接

Disallow: /?s=*     禁止抓取搜索结果页

Disallow: /category/*/page/  禁止抓取目录分页
Disallow: /tags/*/page/          禁止抓取标签分页

 

二.文章 TDK 优化

TDK是Title(标题),Description(描述)和Keywords(关键词)的缩写。

使用SEO工具可以在文章编辑里设置TDK :

  • Title可以不填,文章是有标题的。不过分类目录可以设置,参考本站分类目录,标题弄得长一点。
  • Description可以截取文章内容前面部分,或者自己归纳全文内容。
  • Keywords很重要,搜索引擎会参考关键词归类文章,关键词不是随便填的,文章内容应该多次出现关键词才对,要不然搜索引擎会认为内容与关键词不符。

这些内容都会保存到页面源码meta标签里,被搜索引擎的爬虫抓取到。

我的主题自带了TDK选项,以本文为例

三. 固定链接设置 

其实就是配置伪静态,如果链接带有动态参数,搜索引擎会认为文章内容是变化的,不太愿意抓取,所以要将文章链接改成固定链接。我的是wordpress程序很好配置,在wordpress后台点击设置-固定链接,选择文章名格式链接,然后保存。

为什么选择文章名而不选择id或者时间格式呢?因为显示时间这种都没意义,文章名里面的关键词能传输给搜索引擎的。

链接不能过长,长链接没有不能突出主要关键词,最好是10个单词以下。

然后第二步设置,配置nginx伪静态规则。

登录宝塔面板,在你的站点设置,选中伪静态一栏。在选项中选择wordpress ,就会自动给出伪静态规则,保存立即生效。

然后你的文章链接就变成了固定链接形式。

 

 

 

类似文章