henry200
第1楼2006/11/19
3.2 反编译
反编译的目的,是将不能编辑、查找的打包电子书,包括EXE、CHM、EBX等,解包成原始的HTML、文本等格式。对反编译技术有兴趣的可以参阅我写的《常见电子书格式及其反编译思路》、《用JavaScript获取网页中的js、css、Flash等文件》,在我的网站上都有全文。
名称版本说明
UnEBook*1.01可能是目前最好的CHM、HLP、EBX批量反编译软件之一,纯免费。由于曾经连续下载到几个暗含木马的CHM文件,现在在用UnEBook反编译前,我绝不在本机上打开任何下载到的CHM文件。
miniKillEBook*1.05KillEBook的缩水版,对付基于IE内核的电子书还可以。
CtrlN*1.04IECracker的脱水+减料版,对付基于IE内核电子书。
KillEBook 这个与各位无关。
IECracker 同上。
unEbookWorkshop1.42批量反编译EbookWorkshop电子书的专用工具。
Acrobat
Professional7.03忘记那些杂七杂八的PDF2Word、PDF2Txt吧,这个才是将PDF转换成Word、txt的王道。7.0升级到7.02后打开PDF速度快了许多。
VMware Workstation4.0.5大名鼎鼎的虚拟机软件,可以在Windows
2000/XP下构筑一台虚拟计算机,安装其它版本的操作系统。对于从网上下载的EXE电子书,在虚拟机里打开、反编译可能会更安全些。
对于目前不能反编译的电子书,如用Desktop
Author制作的EXE电子书,我一般看完就删,有必要保留的就根据内容用google查找原始素材网页,毕竟现在绝大多数电子书素材都来自网上。
3.3 整理
我收藏的电子书多半打算在电脑上看,因此保持原始的素材格式(HTML、TXT)就好,不过HTML中可能会有一些无聊的广告链接,或让我看了心烦的css设置,因此在收藏前,我都会删掉或替换掉不想要的内容。一般使用TextForever*的“文本替换”、“整理HTML”、“正则表达式”功能足矣。
而对于TXT文件,整理过程可能还包括文件合并、重新排版等工作。可能的步骤包括:
HTML转TXT->编码转换(繁体转简体)->段落合并->文本替换(或用正则表达式替换)。
有些书我也会在手机上看,整理过程要多一个打成TCR包的环节,可能的步骤包括:
HTML转TXT->编码转换(繁体转简体)->文件合并->打包成TCR。
以前我曾经在不同步骤使用过不同的工具,但是慢慢地就只用TextForever*——我所需要的全部书籍整理功能都已经集成在这个软件中了,而且支持批量处理、参数记忆。未来如果还会出现目前未知的整理技术,我相信也会被集成到TextForever中,只要这种技术真的对我有用。
3.4 压缩
素材文件整理完后,当然不可能就这么一堆放在那里,我都是每本书打包成一个zip文件。由于我都用MyReader*看书,看的时候也没有必要解压。
压缩普通电子书的时候我推荐用Winzip,压缩漫画的时候我只用Zip2Dir*,并且勾选“只打包不压缩”选项。
我不将我收藏的电子书打包成任何其它电子书格式(如EXE、CHM格式)的原因,我想我在本文前言和《常见电子书格式及其反编译思路》一文中已经说清了。而我收藏的所有书籍都只打包成zip格式,绝对不打包成rar格式(除非是不得已)的原因也非常简单:zip文件有目录表(Table
of
Contents,TOC),随机访问速度很快,而rar文件没有这种优势。至于漫画,都是jpg文件,压缩也压缩不到哪里去,还不如只打包不压缩,ComicsViewer*访问起来还快点。
4. 读书
4.1 读书软件
在电脑上阅读HTML、TXT格式的电子书,我以前曾经用过好几个读书软件,现在我只用MyReader*。虽然它还远远称不上完美(我手上就有长长一串改进计划),但是已经足够让我删掉其它读书软件了。另外MyReader*可以与Findstr*联动,实现文本搜索功能,包括zip/rar中的搜索。
对于漫画、影集等纯图片书,我都用ComicsViewer*看,支持加密zip/rar、支持书签,还允许加注释。
由于业务关系,很多外文资料我只能看PDF版的,这些东西我认为用Acrobat Professional阅读,要比用Adobe
Reader方便,专业版就是专业版,不论是复制/粘贴,还是转存成Word格式都强多了。
在手机上读书,我只用MicroReader,有兴趣的可以参阅我写的《几个J2ME读书软件的比较与猜想》。
henry200
第2楼2006/11/19
4.2 读书环境
在我看来,读书不是有了书、有了读书的软件就可以读的,尤其是对于长期阅读来说,环境是否合适不仅直接影响到阅读时的心情和效果,对阅读者的身体健康也有长期影响,不可不慎。遗憾的是,能够把读书环境的重要性上升到如此高度的人实在不多,下面说的东西其实我早就和不少人说过,但是能够引起共鸣的人实在没有几个,不过我还是忍不住要说,我是不是正在变成唐僧呢?担心ing...
在PC上读书,我认为好的读书环境应该包括以下几个方面:
合适的灯光,以保证显示器周围的光亮,不致于与显示器本身的光亮差太多,并且避免明显的斜射光源。这个比较容易解决,就算是葛朗台再世,我想对目前节能灯的花费应该也能容忍。
买一台您买得起的最好的显示器。我见过太多人在采购PC时,把显示器当作压缩预算的对象。在俺看来,这些人根本不把自己当人看,他们给自己的标价还不够那区区几百块钱:CPU慢点、硬盘小点将来都可以慢慢换,可是眼睛如果坏了,您打算上哪个柜台去换?
如果由于种种原因,您现在只能用普通CRT显示器(用液晶的可以忽略本条建议),那么即使显示器厂家已经承诺显示器符合十七八个国家的标准,俺还是建议您再花几十(15")到100多(17")元(中关村实际单块不含税采购价),买一个真正起作用的视保屏挂在显示器前面。我周围的人初听到这个建议时都不以为然,不过在实际试过我买的视保屏效果后,过半数的人都跟着去采购了一块。那么什么样的视保屏才算有效呢?我认为最起码需要满足以下两点:
1、必须是真正含铅的铅玻璃,金属丝网的绝对不能考虑,树脂的材料则实在难于确认。
2、必须带防炫光涂层。这个比较好鉴别:把带涂层一面对着您垂直放置,如果在视保屏上只能隐约看到您的尊容,马马虎虎就算合格了;如果能当镜子用,建议您还是趁早别买。某些品牌的涂层斜对着光能够看到兰紫色的金属质感反光(正对光看不到),可以当作是鉴别正品的标志之一。
别看只有两个小小的要求,能够满足的已经越来越少了,俺最后一次买的时候,花了两个周末走遍中关村,才在一个小摊位上找到满意的视保屏,假货率都快赶上潘家园了。
如果您已经换了液晶,建议不要用缺省的最高分辨率。以我的17"液晶为例,缺省最高分辨率是1280*1024,相当于19"CRT的分辨率,但是它的尺寸确确实实到不了19",所以使用1280*1024的时候,文字看起来未免有点费劲,我还是设置为1024*768,看起来爽多了。
在装好显卡驱动后,将显示器的刷新速率调合适了。尤其是是CRT显示器,65Hz的缺省刷新率简直就是视力杀手。这个一般老手都知道,新手只会抱怨一看显示器就头晕眼花。
不论您买的是CRT还是液晶,在灯光调好后,将显示器的亮度、对比度调到您能够忍受的最低限。这个不仅能够避免太强光刺激造成视觉疲劳,而且能够延长显示器寿命:将来如果因为老化出现亮度、对比度下降,还可以调回去;如果一开始就看惯了出厂时设置的最大亮度、对比度,老化后就没法调了。注意这个调整要适当,别一听我说能省钱就死命往下调,调太暗对视力也不好。
除了硬件外,俺还习惯在软件方面做两个设置,这都是我经过长期人体疲劳试验得出的结论:
1、将Windows窗口背景色设置为对话框前景色,即灰色。
2、在IE的Internet选项的“常规”页,点“辅助功能”按钮,选择“不使用网页中的颜色”,然后确认退出。以后网页上的所有背景色都是Windows窗口背景色,即前面设置的灰色。不仅保护视力,而且能够突出内容。
基本上到目前为止,我接触到的人中能够理解以上两点的人没有几个,不过能够理解的人,都不是路人甲之类的角色,起码能够理解“五色令人盲”的哲学意义。
有人习惯在眼睛发干时点两滴眼药水,我更习惯含一颗鱼肝油胶囊:不仅比眼药水便宜(北京价),而且感觉更健康一些。
上小学时老师有没有告诉你要每天坚持做眼保健操?听老师的话吧,至少我到目前为止还在每天坚持做。
以上建议的效果如何呢?在您身上效果如何我不敢说,不过对我来说,每年365天,每天看屏幕的时间平均近10小时,已经持续10年以上了(家里的刚换成液晶近一年,在公司一直用CRT),但是到现在为止我还没有戴眼镜:左眼能够看到视力表最下面一行,右眼能看倒数第2、3行,这还是小时候斜坐着看电视造成的影响。
在手机上看书时的环境设置,我在《几个J2ME读书软件的比较与猜想》中已经说过,有兴趣的可以去看看。
5. 管书
电子书收多了,如何有效管理、有效使用自然就成了一个问题。
在软件界,相关的管理系统原先叫“文档管理”,后来叫“内容管理”,最近似乎“知识管理”这个词更时髦一些。由于业务关系,我不仅参与过企业级知识管理系统的研发、部署,而且我的同事中还有专人对知识管理系统进行研究,包括大名鼎鼎的Documentum、Interwoven、IBM等公司的产品。这些产品当然功能强大,不过软件报价动辄上百万,服务器一报一大堆,就算经过一再瘦身的开发版,也要服务器级PC才跑得动,所以相信除了象我等偶尔利用工作之便搭搭顺风车外,不会有几个常人消受得起。
专门针对个人的PC版电子书管理软件我也用过几个,甚至还自己写过。所有这些软件虽然在规模上与Documentum等企业级产品没法比,但是在原理上都是一样的:将需要管理的数据分为结构化数据和非结构化数据两个部分分别存储,然后建立相关索引,再提供检索、管理等功能。结构化数据包括文件的编目信息,如书名、作者、出版社、分类号、内容摘要、关键字、目录等,非结构化数据就是书籍文件本身。这种管理方式其实是从传统图书馆学来的:书籍按书库、书架存放,然后建立书籍卡片供人检索。
在我对企业级、个人级的知识管理软件都有所了解,并且用它们实际管理过一段时间自己的电子书后,我终于悟了:对我这样的超级大懒人来说,所有基于编目的管理都是胡说八道,只有全文检索才是真的。原因很简单:十本、二十本书的时候,我可能还会敲一敲编目;一百、二百本的时候,基本上就要不想了;到上千本的时候,根本就是在自虐:毕竟我不是以敲编目为业的文档管理员。而全文检索是不需要建编目的。
henry200
第3楼2006/11/19
5.1 全文检索
在对本地文件进行全文检索方面,我也用过几个工具,包括Google等公司的产品,但是这些工具用了没多久就被我放弃了:这些工具虽然都说是针对个人桌面系统的,但是在原理上还是基于海量检索算法,因此要先对文件建立索引,然后才能基于索引进行检索。虽然建立索引这个过程是自动的,不需要我自己敲什么,但是一来索引需要消耗磁盘空间,二来要随时保持最新索引也不是件容易的事情,对系统性能总会造成影响,所以连Windows本身的索引功能都被我关了,这些软件的索引就更加不能容忍。
好在不需要建立索引的全文检索工具也不是没有,不过除了PDF外,其他能够被检索的文件多半都是文本格式,这也就是为什么我在前面说了半天要把电子书进行反编译,只保留文本或HTML的原因。
名称版本说明
FindStr*4.69可以在指定的文件夹(包括文件夹中的普通文件、压缩文件)中查找字符串,支持多关键字,碰到加密zip/rar时能够自动记忆密码,能够与MyReader*等软件联动,查看搜索结果很方便。
WinRAR3.42可以在指定的文件夹(包括文件夹中的普通文件、压缩文件)中查找字符串,不过感觉功能比FindStr弱,尤其是对加密zip/rar的支持。
UltraEdit3210.10a查找文本信息的速度超快,支持正则表达式,但是不支持在压缩文件中查找。
Adobe Reader
Acrobat
Professional7.03不论是Reader还是Professional,现在都可以对指定文件夹下的PDF进行全文检索,当然只能检索带文本信息的PDF,对纯图像的PDF没招。
5.2 文件夹分类
即使有了全文检索工具,也不可能把所有文件往硬盘里一扔就不管。如果按照合理的分类准则建立文件夹,将文件分类后再放入文件夹保存,不仅自己找起来会快一些,就是用工具检索,也可以缩小检索范围,缩短检索时间。
曾经有人建议用国家标准的图书分类来管理自己的图书,我的意见是:除非您自己就是专业的图书馆管理员,不然还是不要给自己出难题了,如此复杂的东东不是业余人士玩得动的。自己规定一个能搞懂的文件夹结构就好,没有必要大而全,但是拿到一本书后,自己一定要知道该放到哪个文件夹。
下表给出我自己的部分目录结构(二级以下从略),供各位参考。这个结构不一定是最合理的,但一定是我自己最熟悉的。另外分类可能显得有点粗,我的经验是:如果分得太细,有时候反而不知道该归哪类。
一级文件夹二级文件夹
动漫游戏
儿童文学
科幻科普科幻小说、科普专著
历史军事西方历史军事、东方历史军事
时尚生活爱好收藏、传统文化、机械交通、建筑美术、旅游风光、美食文化、摄影艺术、时文选读、书画艺术、数码影音、体育健身、性福生活、医疗健康、阴阳命理、语言学习
外国文学名家名著、英文原作
武侠作品名家名著、侠骨柔情、网络武侠
言情浪漫
幽默笑话
侦探小说
政经法哲经济管理、论理法律、政治哲学、宗教哲学
中国文学古典文学(传说演义、经史子集、散文笔记、诗词戏曲、香艳春宫、刑兵工礼)、现代文学
6、结论
不管别人怎么说,最适合自己的才是最好的。但是要搞清楚什么最适合自己,可能需要一个过程,关键是要在不断借鉴、尝试过程中进行总结。期待能够看到其他人的类似经验。