[zz]写给和百度作战的文艺工作者们

原作者:virushuo 发表于 2011-03-26 12:03 最后更新于 2011-03-26 20:03
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://blog.devep.net/virushuo/2011/03/26/post_78.html


我是一个靠写代码生活的人,我觉得我们这个行业,和创造文艺产品的人–比如写书的作家–是非常一致的,盗版问题同样影响着我们,只不过我们用的是和作家不一样的语言来创造产品。比作家们幸运的是,我们可以完全脱离中国市场,去做英文的德文的日文的法文的软件,而且特别不要做中文的软件,这样才能让自己的作品在一个正常市场内销售并获得应有的收益。我们认为中国的问题无解,于是我们放弃了。我们不再愿意创造中国人普遍可用的工具,因为赚不到钱。作家们比我们悲哀一些,因为文化和语言是有民族性的,你们不能把中文的作品卖给其他国家的人,也很难快速学会用其他文字写作。于是,你们只能死磕。

在前面的这些年,大家始终没意识到这个问题的严重性,也从来没有什么行动,虽然你们可能早就从百度mp3下载音乐,下载盗版软件,损害着其他领域的创造者们。今天你们也面临着一样困境。现在痛苦终于降临到了你们身上。

或许你们还记得,不到一年之前,google books索引你们的书,仅仅是索引(用户只能在搜索的时候展现片段内容做为提示),而不是让用户阅读,google就愿意付给你们60美元。但你们嘲讽的拒绝了,你们认为那是作恶。比如王晓峰这篇 《股沟挖了一条沟》 当时我就明白,过不了多久,你们会后悔的,但是确实没想到来的这么快。事实上google books确实没有作恶,他们做的事情和书商摘取你们作品的片段放在广告宣传页上一样,让读者搜索感兴趣的内容的时候,知道你的书中有提及,如果要阅读,需要付费。

数字化大潮势不可挡,这本来是全球搜索巨人释放的极大的善意,这大概也是数字阅读解决方案中,技术和商业结合最好的方式。可惜王晓峰这种自傲的文人认为是作恶。他那篇讽刺google的文字到现在还能搜索到很多,我承认王晓峰影响力不小,但他错了。大部分作家或许都是这样,他们活在自己理解的世界中,不愿意学习新东西,甚至连多想一些都不愿意。在他们的世界里,就是出版卖书赚钱,从来没想到世界变化如此之快。在上一次对google的攻击中,只有韩寒认真的了解了google到底干了什么,并公开发文支持。对这个事情有兴趣的可以读韩寒这篇blog:http://blog.sina.com.cn/s/blog_4701280b0100fzmm.html

而今天你们看到了百度文库可以不花钱看你们的文字,于是你们集体愤怒了。我今天要告诉你的是,这还不算什么,对你们更有杀伤力的,是百度和爱国者一起做的叫做”百看”的电子书。新闻见此:http://tech.sina.com.cn/digi/mp4/2011-02-23/19475209593.shtml 这是爱国者出的电子书阅读器,它的特点是可以直接连接到百度文库。今天你们知道了百度文库是什么,那你们终于可以想象当人手一本这样的电子书的时候,会发生什么。就是人们只要买这么一个设备,就可以想看什么就看什么,而且阅读体验和纸书差不多,可以随身带着,比纸书方便多了。这个计划如果成功,那就是你们这个行业的灭顶之灾。百看我一不小心就会打成白看,这名字起的真好啊。

呵,对于百度和爱国者,他们管这个叫做”希望能将更海量的知识、文档和消费者分享”,对于你们,意思是人们再也不用花钱买你们的书了,到时候恐怕不仅作家会死,出版公司也会死,大出版社或许不会死,但他们也只能靠印教材活着了,印厂的日子也不会太好过。要说什么破坏了社会稳定,这东西才是,他会瞬间摧毁几个行业,摧毁文化的基础。盗版从来都不是最可怕的事情,最可怕的事情是成建制的盗版,百看和百度文库都是成建制的盗版。所谓成建制的盗版,意思是说盗版者不需要付出任何东西,甚至不需要知识和技巧,直接就可以”享受”盗版,这种盗版用起来比正版还舒服(正版无论如何都要有个购买过程,总是多了一步)。这时候,谁会傻瓜的麻烦去付钱呢?在和成建制盗版对抗的过程中,我们软件作者们想出了最多的花样,各种加密,各种功能限制都被用来保护软件,软件作者以牺牲产品体验为代价进行加密,甚至曾经不惜破坏盗版者的电脑。最终的结果,是我们失败了,至少在中国失败了,到今天还有专门盗版iPhone软件的网龙活的很好,并以此做为盈利模式。幸好在美国,通过法律,大家都成功了。对于搜索引擎所谓的”避风港原则”,美国也有”数字千年法案”应对。(google的数字千年法案看这里 http://www.google.com/intl/zh-CN/dmca.html )。按照这个历史看,如果不改变方法,对文字作品的斗争,在中国一样会失败。

这次所有作家写出来关于这件事的文字,看着都是那么的无力。请问你们面对抢劫者的时候,哭穷,叫惨,这些都有用吗?没用的。你们需要战斗,而且要用自己擅长的方式来战斗,把对方拖入你们擅长的战场中,并击败他。对于作家,我觉得最好的办法就是用文化摧毁对方的品牌。做法很简单,不用正面去攻击骂对方,你们只需在自己创造的文化作品中,让作品中的角色说话。比如很酷的主人公会对别人说”用百度真丢人”,漂亮的女主角拒绝追求者的时候会说”你还用百度,这么土,我才不跟你交往”。我这只当扔块砖,具体的技巧你们擅长,就像前面提到王晓峰那篇愚蠢的blog,影响了很多人,他们会拿着这个来说”你看,google也作恶嘛”。作家本身就是媒体和文化的创造者,你们有能力不依靠别人,仅靠自己在文化和品牌上摧毁对方。。特别需要注意的是,”把作品中反面角色的名字起成李彦宏”的办法并不好,因为你们要对付的是百度这个品牌,并不是其创始人。换言之,李彦宏卸任百度CEO,盗版的状况大概也不会变好。

前面很多年,google被欺负你们不说话,甚至你们还参与欺负google。现在,你们知道了google的好。虽然我觉得你们活该,但现在还不算太晚,来战一场吧!这战斗不会一帆风顺,因为对方有钱,你们很有可能会被要求删除相关内容,很有可能百度在你所谓的媒体投放了巨额广告,你的领导要保护他。但这其实都不算什么,百度虽然势力庞大,但也比不上***强大,你们不也在作品中变着方的挖苦他们吗?这就是所谓”你们擅长的战场”。

你们大概会质疑这种办法的效果。这确实是一个长期的缓慢的过程,但确实有杀伤力,文化的威力,你们最清楚。只不过,你们得丢掉心理的幻想,不要觉得对方是可以谈价钱的。你见过拉磨的驴子和主家谈价成功过吗?对于百度,你们就是那驴子。这是你死我活的战争,甚至不是你们自己的战争,是文化行业的战争。请你们不要拒绝新媒体,传统出版一定会消亡,而且消亡速度在逐渐加速,要学会正确的使用新媒体。或许当你们这么干了,百度会付出公关费来摆平你们,他们现在每年也支付着大量的公关费对付各种负面,但这些钱不会给你们这些创造内容的人。甚至将来百度变成唯一渠道的时候,你惹急了了他们,他们会干脆在搜索结果中封杀掉你。如果大家都用百度,你这个人在互联网的世界就像不存在一样了,不要以为荒唐,这就是现在网站站长们碰上的问题。所以现在动手还不算太晚。除此之外,你还能做的了什么?

至于不用百度还能用什么,我的妈妈65岁,用google几乎所有的产品。其他,你们自己看着办。

Google退出中国的时候,你们一声不吭,之后的两个月,你们对google books口诛笔伐。今天,如果你决定不做什么,不写什么,至少也应该把我这文章让更多人看到吧。

注1:王晓峰并非错字”王小峰(真名王晓峰,笔名王小峰,网名带三个表)” 来自互动百科

注2:去年我写过一篇关于百度和google的blog,如果你看完本文有兴趣知道更多,请看这里 http://blog.devep.net/virushuo/2010/01/14/blog56google_blogtinyfool_1_go.html

====================================================================

我已经不用百度的任何检索产品了。正常情况下,对搜索引擎的选择是这样的:

计算机方面的和英文内容的问题:google.com/ncr (ncr意思是no country redirect)

中文内容:首选youdao (预览功能很强大,也是有道首创的), 对结果不满意就用google.com.hk(因为总是不太稳定),实在不行用bing(搜索结果明显差强人意)

我也希望身边的程序员朋友,以自己的专业知识,号召你的朋友不要用百度。如果不能釜底抽薪,至少咱也别助纣为虐吧。

关于CMD的小事

当时的情况是这样的,我需要在基于Eclipse 3.6+jre6的RCP中调用一个使用jre1.5工具。通过Runtime.exec(command)的方式执行,这个事儿本事很平淡,简单的调用而已。

生成的命令应该是如下的模样:(因为有名称带空格的文件夹,为了偷懒,我把整个路径都用双引号引上了。)

cmd /c “c:\Programe Files\Java\jdk1.5\bin\java.exe” -jar aaa.jar -name xxx -file “D:\a.file”

这种做法硬是让我碰到了一个棘手的问题:粘贴到CMD窗口里可以正常执行,但是在代码里就是没法运行。没头苍蝇一样google了一通也没找到合理的解决方法。

最终我决定老老实实的把CMD /?里面的东西看看,果然给我找到解决方法了:
这段文字复制自CMD的帮助文档,详细解释了双引号在命令中的用法

If /C or /K is specified, then the remainder of the command line after
the switch is processed as a command line, where the following logic is
used to process quote (“) characters:

1. If all of the following conditions are met, then quote characters
on the command line are preserved:

– no /S switch
– exactly two quote characters
– no special characters between the two quote characters,
where special is one of: &<>()@^|
– there are one or more whitespace characters between the
the two quote characters
– the string between the two quote characters is the name
of an executable file.

2. Otherwise, old behavior is to see if the first character is
a quote character and if so, strip the leading character and
remove the last quote character on the command line, preserving
any text after the last quote character.

我将命令改成如下形状便一切正常了

cmd /c c:\”Programe Files\Java\jdk1.5\bin\java.exe” -jar aaa.jar -name xxx -file “D:\a.file”

这位老兄在stackoverflow的自问自答也很有借鉴意义

如何复制“无法复制、转换”的PDF文件

总有些时候,我们需要从一个pdf文件中拷贝点儿文字出来,尤其是在“写”论文的时候。但是有些pdf文件因为排版或加密等等多种原因导致无法复制其中的内容,pdf2word之类的工具对它也是无可奈何。这时候就需要点非常规手段来搞定这个看似不可能的任务。

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。—wiki上对于OCR的解释。

实现复制无法复制pdf文件的原理就是: 1, 将pdf变成特定格式的图片; 2, 利用OCR工具识别图片中的文字, 3, 完事儿

首先,要确认我们需要的工具已经安装好了。这里以MS Office2007为例:在开始菜单Microsoft Office分类->Microsoft Office工具下找到Microsoft Office Document Imaging,如果有这个程序那么就可以开整了,如果没有,请运行你的Office安装文件,选择“添加或删除功能”,在“Office工具”结点下选择“Microsoft Office Document Imaging”,安装即可。

然后,使用PDF Reader (Adobe Reader, Foxit Reader等),选择“打印”,打印机选择“Microsoft Office Document Image Writer”,(如果原PDF文件面积较大,如报纸等,点击属性将页面设置的足够大即可),输出格式选择TIFF 超精细,反正尽量的精细,毕竟打印出来的文件咱还要用OCR识别的。一路完成即可。

最后,使用Microsoft Office Document Imaging打开刚才生成的tif文件,用光标选中需要复制的文字区块,然后选择“工具”->“使用OCR识别文本”。待进度条走完后,就可以选择复制或直接导入到word中了。

综上,该方法能解决绝大多数PDF无法复制的问题。