网站建设初始相关的SEO技术（一）-优化师博文-云客网SEO众包服务平台

网站建设初始相关的SEO技术（一）

阅读(202) | 2018-08-01

　网站建设初始技术即网站在建立阶段，就必须全盘综合考虑的技术细节，因为后续在网站运营过程中再进行调整，会牵涉太多方面，甚至无法执行。

　　1.网站站点地图(Sitemap)的设置和技术细节

　　Sitemap是一种通知机制，就是通过创建一个文件的方式，把网站网页的URL提交给搜索引擎，在Sitemap中定义好页面的URL地址、权重、更新频率等。通过把Sitemap提交给搜索引擎，搜索引擎爬虫沿着Sitemap里面的链接地址进行爬行，这就是Sitemap的机制。

　　普通Sitemap文件的建立如下。通过XML的方式创建Sitemap，这是最常见也是最简单的一种方式。

　　网址

　　2015.01.03T04:20.08:00

　　always

　　1.O

　　网址

　　2015.01.02T20:20:36Z

　　daily

　　O.8

　　1.百度Sitemap

　　网页地址

　　2015-01-01

　　dafly

　　1.0

　　2.重要字段含义

　　・changefreq：指定提交的URL对应页面内容的更新频率，例如，daily、weeIdb，、monthly、yearly。这个参数用于设置搜索引擎页面变动的频率，即考量是否需要蜘蛛经常爬行并更新网页的内容。

　　・lastmod：当前页面内容最后的修改时间，这个参数可以给搜索引擎一个参考，就是时效性的参考，某些内容，特别是咨询类的，搜索引擎会将内容的更新时间作为排序的一个因子。

　　・priority：定义页面的权重，权重越高，相对于其他页面，当前页面的优先级越高。

　　・：用描述具体的链接地址，这里需要注意的是链接地址中的一些特殊字符必须转换为XML(HTML)定义的转义字符，简化版的

　　Sitemap也可以采用记事本方式，就是直接打开一个记事本，然后把URL填入，每个URL一行，然后直接提交搜索引擎，也能实现同样的目的。

　　3.超级门户的Sitemap模式

　　搜索引擎并不限定每个网站提交的Sitemap文件的个数，因此，如果网页

　　URL条目比较多，可以对新增的页面进行差额提交。

　　在创建多个Sitemap文件时，可以通过一个父Sitemap文件链接多个子

　　Sitemap文件，子Sitemap文件通过填充实际URL条目的模式完成，这样可以确保

　　每个Sitemap文件的URL条目不会特别多，建议一个Sitemap文件的URL条目不

　　要超过1000个。

　　下面是一个例子。

　　http://www.abc.com/sitemap1.xml.gz

　　http://www.abc.com/sitemap2.xml.gz

　　Sitemapl：

　　URLl

　　2015-01-01

　　daily

　　1.0

　　URL2

　　20 1 5..0 1.，0 1

　　daily

　　1.0

　　URL3

　　2015.01.01

　　dafly

　　1.0

　　URL4

　　20 l 5―0 1.0 1

　　daily

　　1.0

　　提交Sitemap的方式有多种，通常的做法是创建百度或者其他搜索引擎的站长账户，然后在站长后台把Sitemap的uRL提交上去，在站长后台可以看到每个Sitemap的处理进度和收录的数据。

　　2.Robots文件设置和技术细节

　　Robots.txt文件放在网站的根目录下，主要用于通知蜘蛛在该网站上的抓取范围，SEO可以在这个文件中声明该网站中不想被搜索引擎收录的部分，或者指定搜索引擎只收录特定的部分。

　　(1).经常使用到Robots.txt文件的情况

　　・网站升级，老版本网站的很多页面在新版本网站中去掉了，在这种情况下，可以通过Robots文件告诉蜘蛛不再抓取这些已经被去掉的页面。

　　・网站存在很多重复的内容，比如一个网站同时存在动态页面和已经经过静态化处理的页面，这些页面在内容上都是完全重复的内容，为了解决重复的问题，可以在Robots文件中禁止蜘蛛抓取动态页面。

　　・网站内部有些内容不便于公开发布，但是需要允许内部查阅。遇到这种情况，可以在Robots中告诉蜘蛛不要抓取。

　　(2).Robots文件的基本写法

　　User-agent：

　　Allow： /cgi.bin/see

　　Allow： /tmp/hi

　　Allow： /~joe/look

　　Disallow： /cgi.bin/

　　Disallow： /t.mp/

　　Disallow：|00e|

　　Allow是允许蜘蛛爬行的页面，而Disallow后面则是不允许蜘蛛访问的路径和文件。

　　3.Robots的使用示例

　　(1)仅允许访问某目录下某个后缀的文件。

　　这里仅允许访问带“$”符号的网址，如下。

　　User―agent：*

　　Allow：.asp$

　　Disallow：/

　　(2)禁止索引网站中所有的动态页面。

　　这里是限制访问带“?”的网址，例如，index.asp?id=1。

　　User―agent：*

　　DisallOW：/*?*

　　(3)使用“*”，限制访问带某个后缀的域名。

　　这里是禁止访问admin目录下所有htm文件，如下。

　　User―agent：*

　　DisaUow：/admin/*.htm

草根香蕉皮 +关注TA