日期:2014-05-19  浏览次数:20512 次

.Net网站效率问题,把Googlebot设置为以更快的速度抓取网页时,CPU持续100%
情况简介:
www.ohr.cn   网站以   Asp.net   2.0   +   MS   SQL   2000开发

在Google的网站管理员工具中,有以下提示:
我们检测到   Googlebot   限制了在您的网站上抓取页面的速度,以确保您的服务器不会被占用过多的资源。如果您的服务器能够处理额外的   Googlebot   点击量,我们建议您选择下面的更快。  

所以,我设置使用Googlebot以更快的速度抓取
Googlebot每天在23点左右会到网站进行高速抓取网页,持续时间大约20多分钟

我在对服务器的流量进行监测时发现了以上问题,当服务器的流量突然持续维持4M左右时,Googlebot一般在抓取,这里我监测了一下服务器的CPU状态(根据进程对CPU和内存的消耗),Googlebot抓取时,服务器的CPU一直在95-100%之间徘徊,其中两个线程消耗CPU最多,一个是负责ohr.cn下网站的进程w3wp.exe(根据iisapp   -a命令指示的进程ID),一个是MS   SQL   Server的进程,这两个线程,总是一个是40%以上,一个是50%以上。

服务器配置:Intel   双核   2.8G/   1G   DDR2内存   /   160G   Santa硬盘  

*****************************
我的问题:
ohr.cn的开发没有什么尖端的技术,但是我们一般还是较侧重于性能,对sql较多地使用了存储过程。而且也尽量减少了其他方面对性能的需求。

虽然www.ohr.cn上的简历和职位是动态,每显示一个简历/职位要从多个SQL表中读取数据显示,但是Googlebot抓取会有多少线程?如果照目前的状况,是否说明ohr.cn的网站当前不足以支持5000人同时在线?

请高人指点:
象这种情况如何能更好地提高.net网站的处理性能,以减少CPU的消耗?
对.Net的程序和sql有什么优化的方案?
如何提高.net网站处理大量用户同时在线的处理能力?

------解决方案--------------------
正常情况下cpu不高就可以了,那个快速抓取难免的
------解决方案--------------------
jf
------解决方案--------------------
我顶
------解决方案--------------------
我顶 顶顶顶顶
------解决方案--------------------
用其他机器抓 不要用服务器抓
------解决方案--------------------
加缓存,
并且楼主机器内存不够呀,
SQL Server和Web在一台机器上,最好分开。
等bot来抓的时候你开启性能监视器存一下记录,看看到底那里消耗资源。
SQL Server开事件察看器。
找到瓶颈解决之……
------解决方案--------------------
可以不让GOOGLE抓取的
------解决方案--------------------
可以用个专门的HTPPHANDLE处理Googlebot,处理方法自己琢磨下,估计有门
------解决方案--------------------
只能先找出性能瓶颈的位置,找不到位置解决不了啊
------解决方案--------------------
快速抓取能有多少并发呢,如果快速抓取都不行的话,是不是说明同时在线人数太多了,也不行呢?

说对了!~
同时,网站和数据库服务器怎么可能在同一台呢?这可不是在开发调试中,分开分开
------解决方案--------------------
抓取的并发不是太高..
我曾经记录过,下面是部分日志,你可以参考一下 IP:66.249.72.41 就是google的

IP:66.249.72.41 DateTime:2007-4-18 2:42:09
IP:66.249.72.41 DateTime:2007-4-18 2:42:10
IP:66.249.72.41 DateTime:2007-4-18 2:44:16
IP:66.249.72.41 DateTime:2007-4-18 2:46:27
IP:66.249.72.41 DateTime:2007-4-18 2:46:27
IP:66.249.72.41 DateTime:2007-4-18 2:48:33
IP:66.249.72.41 DateTime:2007-4-18 2:48:33
IP:66.249.72.41 DateTime:2007-4-18 2:49:45
IP:66.249.72.41 DateTime:2007-4-18 2:49:46
IP:66.249.72.42 DateTime:2007-4-18 2:50:43
IP:66.249.72.42 DateTime:2007-4-18 2:50:44
IP:127.0.0.1 DateTime:2007-4-18 2:52:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 2:52:49
IP:66.249.72.41 DateTime:2007-4-18 2:52:55
IP:66.249.72.41 DateTime:2007-4-18 2:54:58
IP:66.249.72.42 DateTime:2007-4-18 2:59:15
IP:66.249.72.42 DateTime:2007-4-18 2:59:16
IP:66.249.72.41 DateTime:2007-4-18 3:03:32
IP:66.249.72.41 DateTime:2007-4-18 3:03:33
IP:66.249.72.41 DateTime:2007-4-18 3:04:33
IP:66.249.72.41 DateTime:2007-4-18 3:04:34
IP:127.0.0.1 DateTime:2007-4-18 3:04:42 自动更新脚本已完成
IP:66.249.72.41 DateTime:2007-4-18 3:05:44
IP:66.249.72.41 DateTime:2007-4-18 3:05:45