看了一些关于建网站的论坛,里面常常见到“采集”这个词,今天终于明白了。郁闷……
所谓的“采集”原来就是在自己的服务器上运行一个类似于搜索引挚爬虫的程序,设置好关键字,放出去让它在网上爬,把找到的内容统统下载到自己的服务器上,再发布到自己的网站。说白了这不和抄袭一样吗?说抄袭还轻了,手工复制粘贴虽然也常常侵权,但起码还算有所劳动。采集是自动化作业,几个小时就能抄下几十万的文章。
刚才在写一段C++程序时,忘了有关于Deque容器的一点东西,于是在Google里用“C++ deque”在中文网页里找。大家有兴趣可以试试,看看有多少个“深入研究C++中的STL Deque 容器”,或者干脆就用“深入研究C++中的STL Deque 容器”作关键字搜,这样效果更明显一些。这么多一样的东西,估计全是托“采集”的福。
中国在版权保护方面薄弱呀,这要是在某些国家可是要构成犯罪的。前些天在CSDN上听说一个留学美国的中国学生因贩卖盗版软件而被抓起来了。据说在美国做网站的,只要在你的网页里出现了未经授权的内容,并且有人举报,你就要因此付出代价,大家不是听说过Youtube惹来的官司吗?人家管得严呀。怪不得当我搜索英文资料时,很少会发现重复的内容,原来是人家管得严呀。
反观中文网页,一篇文章到处出现,到处被采集。看似内容挺多,其实全是冗余,信息量很少,可供压缩的余地很大,浪费了存储资源,浪费了CPU运算资源(采集软件要长时间运行),最可恨的是,浪费了用户的时间(大量被采集的东西很可能不是用户想找的,他只能慢慢地在大量相同的东西之间找到那些不同的)。
为什么采集这么流行?因为很多人想快速地建一个网站,获取很多的流量,在上面放很多的广告,赚很多的钱。于是有了很多的“垃圾站”,很多的Google Adsense账号被停用。有人抱怨Google Adsense规定得太严,对作弊打击得太狠。我看是太轻了。Adsense规定不得在网站中放置未经授权的内容,如果Google真的在这点上较真儿,不知道有多少站长能幸免于难。
当然不能否认的是,采集也有它的好处。当你的服务器数据丢失时,你可以通过搜索引挚做“数据恢复”,只要你的网站上的东西被采集过。
一个有意思的现象是,有绞尽脑汁采集的,也有想方设法防采集的,而且这两种人大多是某个网站的管理者。这纯粹成了技术上的较量了。
网站盈利非但无可厚非,还是一种值得鼓励的行为。但既想赚钱又不想劳动创造价值的人就可耻了。个人网站或者Blog如果保证所有的东西都是合法的,那么利用广告赚钱是几乎不可能的。我当初弄了个Adsense只是因为对它的关键字匹配感兴趣,放在页面上当图片用,自动更换。玩玩而已,现在一年多过去了,账上也才$1多一点。
所以,总而言之,做人要厚道。
评论
qichunren 2008-02-17
是的
发表评论

您还没有登录,请登录后发表评论

ggggqqqqihc
搜索本博客
存档
最新评论