蓝锂网络

蓝锂动态

多线程并发采集测试,结果:系统占用很小,效率高,速度快,很稳定!

时间: 2013-07-22 19:39:22 | 来源: 蓝锂网络 | 作者: 蓝锂网络 | 浏览:1397| 阅读设置: 【

声明:本文属蓝锂网络原创,欢迎转载,但请保留作者版权,作者在此表示感谢。
作者:深蓝  QQ: 1668142999
CMS技术交流QQ群:  213723527 (主要交流齐博系统采集技术,特别是地方门户和b2b系统的采集)
蓝锂官方站:https://www.lanelead.com
蓝锂技术论坛:http://bbs.lanelead.com  主要讨论如何有效利用定时自动采集结合伪原创技术, 帮助站长更好的运营网站。
今天借着给客户采集信息的机会,测试了并发采集效率。测试设置:
1、多线程设置为 10 ,即10线程并发采集;
2、单条规则中,列表页设置为100,即每次采集100个列表页,单条规则采集共100*10=1000篇文章。
3、共设置规则20条。数据总量约2万条。
4、采集字段:名称,电话,qq,地址等8字段。
5、采集平均效率: 5篇/秒 ,即0.2秒采集一篇文章。
6、采集目标网站信息,需要登录后查看。所以需要在高级设置cookies。
 
采集结果:
采集过程无卡死现象,系统资源占用比较小,cup约10-20%,内存占用不足100M,可忽略。采集失败约500篇,成功约1.8万,成功率为97%。失败原因为,规则不通用,与程序执行效率无关。
 
测试主机:
本机,双核4G联想家用电脑。操作系统:win2003 ,网站服务器为IIS6.0
 
小结:
多线程并发采集很稳定,占用服务器资源相对比较小,甚至可以在虚拟主机运行多线程采集。
分享到QQ空间
分享到: 
Tags: 责任编辑:admin
】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
销售咨询:
QQ: 1668142999
Email: 1668142999@qq.com
TEL: 13884867561
联系人:深蓝