czq8
第5楼2006/10/14
-- PDF文件格式转换心得
世事无绝对,首先解密方面,试过几种软件,最好用的还是Passware_Acrobat Key,其次是Adult PDF Password Recovery v2.2.0和PDF Password Remover v2.2,再次,至于图像扫描的文本转换,中文的话,比较麻烦,将图片存为不压缩的TIF格式,用清华TH-OCR 9.0版或者汉王文本王进行识别转换,如只是部分识别也可以不存图片,用文通慧视小灵鼠进行屏幕捕获识别,上面这3个OCR软件可以在VeryCD.Com上面下载,如果是文本格式可用Solid Converter PDF转换成Word编辑翻译,不过,Solid Converter PDF支持的语言较多,英文和繁体中文应该也没问题,至于英文方面,文本格式的PDF可以通过ABBYY PDF Transformer 1.0进行文本转换,格式为RTF可以在Word中编辑,图像格式可以使用最近刚推出的OCR软件_IRIS Readiris Pro v10.0,速度效果都还不错,最后翻译软件方面就看大家自己的喜好了。以上是个人的小小心得,仅供各位参考!
最近更新的Recosoft PDF2Office Personal v2.0软件也可以将PDF文件转换成DOC格式,也支持中文,如果有专业版就更好了。IRIS Readiris Pro v10.0也有亚洲语言支持包OCR,如果可以下载到带Keygen的最新版本就可以转换中文了!目前看来只有再等等看了!
部分软件可以在eastgame.net的ISO和0day下载到,也可以去Verycd.com找不到部分!
如果是英文就太简单了,
Abbyy.FineReader.v7.0.Professional可以直接将图片形式的PDF转化为DOC,
而且文字和图表的格式都基本不变,
可惜的是FineReader连祖鲁语都支持,
就是不支持中文。
abbyy 下载地址
http://www.russky.net/down/list.asp?id=296
所以中文稍微复杂一些,
先用Adobe Acrobat 5.0/6.0将PDF另存为JPG,
然后想怎么OCR就怎么OCR了,
Ken推荐的汉王6.0不错,
我用过的所有中文OCR软件中最好的。
看清楚,
是Adobe Acrobat,
不是Acrobat Reader哈!
简介:
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。
工具:
1,清华文通Th-OCR 9.0
TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。
本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。
TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。
TH-OCR的六大优势:
1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。
原版地址: http://www.downxp.com/soft/4839.htm
破解下载: http://www.ihdown.com/soft/2252.htm 选择第三个链接下载即可
说明:把下载的winocr.exe文件放到安装的目录里面,运行即可winocr.exe即可,不要删除和运行winocr32.exe.如果你以前安装过其他的破解补丁,请卸载软件重新安装原始版本.因为程序有自校检功能所以不要把winocr32.exe文件删除和修改.运行补丁包的winocr.exe文件即可.修改快捷方式指向winocr.exe即可(原来指向winocr32.exe)没有字体限制,没有扫描限制,没有通用错误警告,完美破解
这是最新的破解版,据说没有任何限制了,我试了一下,在批量导出为RTF格式时仍会出错。
汉王和紫光各有千秋,喜欢紫光的就去下吧。
2,汉王文豪5800
文豪5800除了具备文本王经典版的各项功能,诸如操作简单快捷、一键即可实现扫描识别输出到Word文档外,它还能准确识别各种表格和图像,并新增加了批量工程处理、表格拼接、ACDSee图文索引和摘抄高手等人性化的功能设计。它配备了一台光学分辨率为1200dpi×2400dpi、48位色彩增强技术、USB2.0接口的超薄高速扫描仪,对印刷文稿的识别率能达到99.5%以上,能够轻松识别百余种印刷字体和各种图文混排格式的文本。
对于有批量录入需求的用户来说,文豪5800的“工程文件”能够解决批量录入中的很多问题,它能将工作进度自动进行保存,用户再次打开此项工程的时候它就能自动指向工作的断点,免去了重复查找、识别、校对的麻烦。
要提醒用户的是:如果想将扫描的文字或者表格直接转换为doc、rtf、txt等格式保存的话,一定要注意印刷品的放置方向,如果方向反了的话,识别出来的文字会全部都是乱码,虽然在扫描仪上有印刷品放置方向的提示,但是若非实际使用,用户很难把握怎样放置才能得到正确的扫描输出结果——这也在一定程度上反应出产品细节设计的不足。
总体而言,汉王文本王文豪5800在识别印刷品的时候识别率高,识别速度也比较快,对于有大量文字录入需求以及需要将传统印刷品转换为电子档的用户来说,汉王文本王文豪5800是一个非常不错的选择。不过整体来看,文豪5800的配套软件设计得还不够精致,界面不够美观,风格也不够统一,很多细微的地方应该加以改进。和汉王名片通的配套管理软件比较起来,汉王文本王文豪5800的配套软件显然要逊色得多。
汉王文本王文豪5800的使用比较简单,其配套的印刷版使用手册图文并茂,对硬件安装和软件使用进行了非常详尽的介绍;电子帮助文档比较简单。
czq8
第12楼2006/11/05
Office2003实现PDF文件转Word文档
经过本人尝试,发现可以利用Office 2003中的Microsoft Office Document Imaging组件来实现PDF转WORD文档,也就是说利用WORD来完成该任务。方法如下:
用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的名称设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中“Office 工具 Microsoft DRAW转换器”。
然后,运行“Microsoft Office Document Imaging”,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。
以上仅在word2003中可用,其他版本没有Microsoft Office Document Image Writer。
czq8
第13楼2006/11/05
PDF 文件处理
1. 问:PDF 与WORD 之间如何通过软件实现格式转换 答:PDF—>DOC 使用软
件Acrobat,pdf2word;DOC—>PDF 使用软件Acrobatpdf->Tiff(JPEG,PNG)
->OCR 输出word,效果极佳,如果是English几乎不用怎么修改就可
以用了.推荐OCR 软件:ABBYY FineReader 7.0;ScanSoft OmniPage Pro
14.0(最强
2. 问:如何把WORD 文档转换成PDF 答:安装Acrobat(不只是Reader)完
全版,在安装选项里有的,把这一项选上,选pdfmaker.在word 的工具条
上会有一个转换按钮.装好之后在WORD 的工具栏里面会有Adobe PDF,下拉
菜单里面会有convert to Adobe PDF,按那个就行了.在控制面板里的打印
机里多了两个关于Acrobat 的,说明可以了.装了Acrobat 的话,默认会装
一个distiller,你也可以装acrobat 里面的pdfwriter,它们两个都会成为
虚拟的打印机的.然后在Word 里,File->Print 选择刚过装好的虚拟打印机
就可以了.
3. 问:如何将PDF 文档直接转为WORD 除了ACROBAT 还有其它软件工具吗,用
这个图片走样很厉害答:使用pdf2word,pdffactory 这些软件可以实现
4. 问:DOC 转换成PDF 时,图很不清楚,怎么办 论文的提交的格式是DOC,
但 在DOC 转PDF 时,图很不清楚.答:不要用pdfwriter,用distiller 可能
会好一些.或者用Letex,图的清晰度损失不大
5. 问:很多用VISIO 画的图,插入在WORD 文档里面的,怎么专成PDF 以后,
图
里面的字母位置变了 而且变的很夸张,满屏幕乱窜,这个问题怎么办啊
答:Word 中所有图片都变成tif 格式的.其他的一律事先转成tif,压缩的,
这样文件也不大.或者变成BMP 位图也可以,但图片容量比较大.
6. 问:我想把PDF 格式文档直接转成DOC(就是WORD 文档)或者TXT(纯文本
文档),可以吗 答:PDF 格式的文档是不能直接转换成DOC(WORD 文档)
的,但是可以先转换成RTF 格式,然后再转成DOC 格式,前提是该PDF 文档
必须是纯英文的,中文的PDF 转换之后会出现乱码.此时,需要用到一个工
具:Aerial,这个工具是Acrobat 的一个插件,可以用来把PDF 文档转换成
RTF 文档.原PDF 文档可以包含图片,图片能正常转换到RTF 文档中.如果
只需转换成TXT 文档,那么直接转换就可以了(图片就没了).
7. 问:PDF 文件中的文字怎么转换成WORD 答:如果是文本的,可以用Acroba
t 选中文字功能,如果是图片格式的,可以用最新豪华版的维普的OCR 功能,
但是要自己改错字.
8. 问:我的PDF 转WORD 的时候怎么排版变了 答:有些地方没有用固定的东
"在经济学的边缘上" 网站欢迎你!
http://web.cenet.org.cn/web/fanyq 2
西 固定,比如分页符,软回车,图片不统一也很有可能排版变掉
9. 问:PDF 转换成WORD,提示PDF 有密码,怎么办呢 答:找一个PDF 密码破
解器,破解后,再转换就可以了.比如Advanced pdf Password Recovery;
pdf Password Remover;HB-pdfpr21-fxj.zip;Advanced Password Recove
ry5.3.后者是一个各种破解的集成,里面的Acrobat 是针对PDF 的.
10. 问:PDF 文件到TXT 文件的转换,除了copy 和paste 得方法外,还有什
么办法吗 答:将WORD 转为PDF,然后用方法2 另存为rtf 文件,WORD 可以
识别.但是一般的下载文献,因为本身是图形,所以第二种方法不能实现.
以上所说的是针对中文文本.PDF-—>WORD 方法总结如下:●如果PDF 本身
就是图形的话处理方法如下:(1)英文处理方法:A,用photoshop6.0 打
开PDF 将之转化为tif 格式文件.B,用Omnipagepro10.0 打开tif 文件,识别.这个东东识别准确率极高.
(2)中文处理方法:A,用photoshop 打开PDF 将之转化为tif 格式文件.B,
用th-ocr2000 专业版或者Shocr6.0 打开tif 文件,识别.●如果PDF 本身
是文本的话处理方法如下:(1)使用BCL 公司的drake 软件(Acrobat 的插
件)转换.使用第一种方法转换成的rtf 文件格式比较乱,不过可以直接拷
贝出其中的图形.使用的二种方法转换成的rtf 文件格式遵循原文,不过不
能拷贝原文中的图形.
11. 问:为什么我的PDF 文档不能选取文字内容或者存为rtf 或者txt 答:
如果不属于这种情况,很可能是因为这个文档中的所谓的文字是从图像文件
(比如扫描仪得到的结果)打印出来的.这种情况下是肯定不能直接选取文
本的.顺便说一下,在Acrobat 6.0 中是另存为WORD 文档.解决办法:使用
OCR 软件识别图像中的文本内容.识别英文的软件推荐Abbyy Fine Reader,
中文推荐北大汉王,清华紫光.扫描仪一般会附带这种软件的.
12. 问:怎么把pdf 格式中的图表拷贝出来 答:如下方式均可:●acroba
t6.0 以上里面有复制表格这一个选项的●尚书六号软件●snagit●print s
creen 一键即可
13. 问:visio 的图转化为pdf 文件时出问题了,框图中的文字位置跑到外
面去了,不知道怎么回事,其它几张都是好的,如何处理 答:即使转成wm
f 格式插在word 中有时也会这样.把它转成emf 就没问题,应该在pdf 中也
可以;或者把word 中的visio 框图换成位图,然后再转成pdf 就可以了;图
片不要存成默认格式,存成tiff 格式,分辨率设得高一点,再插入到word
中,再转成pdf 文件
14. 问:如何把pdf 文件连起来 答:用acrobat,全选,右键然后选择合
并...;有个combine pdf 选项可以实现,文件(File)—创建PDF—从
多个文件—浏览—添加多个文件—确定
15. 问:怎么将PDF 文件的其中几页保存为另一个文件 打印了之后,文件
"在经济学的边缘上" 网站欢迎你!
http://web.cenet.org.cn/web/fanyq 3
打不开!怎么回事呢 答:可以试试选中要的几页,点击右键,选"选取文
件"项,然后另存为另外一个文件即可
16. 问:怎么选中几页呢 就算只要一页,我点击右键也没有找到选取文件
项,对啦,我在PDF 文件上加了一些阅读过的符号,如画线,加亮之类的,
这个有影响吗 答:不知道你用的是哪个版本的acrobat,根据我用7.0 版
的看来,在PDF 上作改动不会影响选页保存.我的是英文版,选页保存操作
如下:先打开左侧的pages 栏,选择你要取出来的那些页,后右键选extrac
t pages(我这边看来是第二项),之后会自动弹出来由选取的页组成的pdf
文件,保存它就可以了.如果你要每一页分开保存,钩选那个extract page
s as seperate files 即可.或者安装软件PDFFACTORY,打开你的PDF 文档,
点击打印,选择PDFFACTORY,打印机选择打印的起始终止页码,确定打印,
出来的就是原文中的你选择的某几页
17. 问:为什么我的PDF 不能用打印机打印 PDF 文件设置密码加密后不可
复制打印怎么办 答:PDF 文档在创建的时候可以设置密码保护和权限,这
一点可以在File—>Document Properties(文件-)文件属性)的安全选项
里面找到.同时,如果文档设置了权限限制,在Acrobat(Reader)窗口的
下方会出现一个金黄色的钥匙图标(6.0 版本是左下角的一把锁).在安全
选项里面包括打印,对文章修改的各种权限的设置,如果你使用的是Acroba
t,可以在这里自行设置密码保护.解决办法:使用PDF 文档解密软件可以解
决这个问题.推荐:Advanced pdf Password Recovery;pdf Password Rem
over;Advanced Password Recovery5.3.后者是一个各种破解的集成,里面
的Acrobat 是针对PDF 的.
18. 问:为什么我的Adobe Acrobat Distiller 打印机不能正常打印文档到
文件或PDF 是把控制面板打印机里面的Acrobat 或者Distiller 打印机的p
reference 中"不发送字体到Acrobat(或者Distiller)"的复选框去掉,
然后就可以了.
19. 问:金山词霸如何在Acrobat(Reader)上取词 答:要先装acrobat,
后装词霸.将词霸目录下的xdict32.api 插件复制到Acrobat(Reader)的P
lug_ins 目录下,两个软件都需要重新运行.文件是图形不能取词
20. 问:词霸在acrobat 5 中的取词解决方法答:在acrobat5.0 里的"edi
t"菜单,选择"Preferences",取消选择"Certified Plug-ins only"选
项,再重新启动Acrobar reader 就可以取词了.中文的是这样的:编辑->
首选项->一般->选项->启动->仅认证的增效工具,勾勾去掉.中文
5.0 默认就是去掉的,词霸可以识别
21. 问:英文的pdf 文件中如有中文字符该怎么办 投个国际会议,结果反
馈的信息是说我的pdf 文件有postscript error,有人说是中文字符的问题,
用一个英文版的acrobat 打开,果然到有些页面要提示下载中文包,否则无
法显示那些页面.原来是用word 写的,能想到的就是查找中文的逗号句号什
"在经济学的边缘上" 网站欢迎你!
软件,其中中
有个高级编辑,有个图标像T+ 的,这个是编辑的工具