Dai Chong's blog

引言

 之前公司有需求要做一个采集信息的工具,包括获取商品信息导入数据库,比价什么的功能,没办法只能尝试这做一下。
 考虑到是做定向爬取,我就选择了jquery,因为jquery相比其他语言做爬虫是简单轻松很多。

不同语言自然会有不同用处。离开环境谈哪个好,哪个不好都是耍流氓。
1,如果是自己做着玩的话,定向爬几个页面,效率不是核心要求的话,问题不会大,什么语言都行的,性能差异不会大。当然,如果碰到十分复杂的页面,正则写的很复杂的话,爬虫的可维护性就会下降。

关于前端存储的方法用很多,最为常见的是cookie和locationStorage。

其中cookie的限制比较大,比如必须需要cookie.js、浏览器对cookie的数量限制(之前的浏览器每个域名限制cookie之恶能存储50个),数据长度的限制(大部分浏览器是4085字节左右,但实际更小)。

locationstorage能存储4-5M大小的数据,有效期未永久。

application cache 是离线缓存,存储大小也是5M左右,他与其他两种方式的不同在与浏览器缓存是对单个文件,而applocation cache是对整个应用,当整个应用都缓存下来的时候可以达到无网络连接。

今天我要写的是locationstorage的sessionStorage,他们的用法完全相同,很简单,但是真的很实用。今天使用之后我觉得这个sessionStorage真的是太方便了。