不要盗取别人网站中的信息.
注意别人的爬取规则.
不要重复爬取.
不要影响人家的服务器.
只要是机器,比人快,效能就是最好的原则.
注意爬取信息的对象与集磊分类,便可以更准确的获取有用的信息.
就目前而言,好似没有会遵守规则的爬取者.
基于目标数据模式的爬虫针对的是网页上的数据,所抓取的数据一般要符合一定的模式,或者可以转化或映射为目标数据模式。另一种描述方式是建立目标领域的本体或词典,用于从语义角度分析不同特征在某一主题中的重要程度。