米粒在线分享记录一篇关于gid、fid、tid、uid的说明。来源于DZ论坛。
为了动态了解网站的变化情况,经常在后台关注蜘蛛爬行的情况,在蜘蛛爬行记录中,经常出现gid、fid、tid、uid网页打不开。
大家知道,gid=x代表分区编号为x,
fid=x代表板块编号为x,
tid=x代表主题编号为x,
uid=x代表用户(会员)编号为x。
理论上来说,这些编号,应该是按顺序自动编号的,除非网站结构和内容调整,每个部分的编号顺序应该是连贯的。但这几天我发现,蜘蛛爬行到不存在的gid、fid时,就会弹出“抱歉,指定的版块不存在”的对话框。当爬行到不存在的tid时,就弹出“抱歉,指定的主题不存在或已被删除或正在被审核”。当爬行到不存在的用户id(uid)时,就弹出“抱歉,您指定的用户空间不存在”的对话框。
为追根溯源,我将蜘蛛爬行到而打不开的地址,输入浏览器中,并按顺序更换每一项的编号,测试的结果是,凡是打不开并弹出对话框的网页,实际上是不存在的,这些不存在的网页地址,都是中间间断的编号部分。按编号顺序查下去,如果id存在,则一定能够打开。但蜘蛛的搜索记录是,遇到打不开的情况后,似乎就没有再按编号顺序爬下去。
这种情况,已验证与论坛合并有关,例如,合并后,我们最明显可以知道的就是,会员编号顺序发生紊乱,中间总是出现间断的空号。通过上述验证,实际上,不仅仅是UID出现间断的空号,gid、fid、tid同样出现间断的空号。而蜘蛛爬行,一遇到间断的空号,就会弹出打不开的“抱歉...”对话框。从这一点,似乎可以判断,蜘蛛搜索是按顺序,有规则的爬行的,那么,当蜘蛛爬行到不存在的id后,相当于爬行受阻,还会不会继续往下按顺序爬行呢?如果是,则无足轻重。如果不再继续按编号顺序往下爬行,而是调转方向或者跳出,那结果会是怎样呢?岂不是严重影响网页收录?甚至严重影响蜘蛛对网站的信任?我虽然如此分析,但毕竟不了解蜘蛛搜索和抓取网页的规则和规律,因此发帖向行家求助。