急!在線(xiàn)等!如何將掃描的PDF格式文件轉換為word文字格式的文件?

3年前 (2021-07-03)閱讀1062回復0
江蘇印刷廠(chǎng)
江蘇印刷廠(chǎng)
  • 管理員
  • 發(fā)消息
  • 注冊排名876
  • 經(jīng)驗值55
  • 級別管理員
  • 主題11
  • 回復0
樓主
印刷廠(chǎng)直印加工●彩頁(yè)1000張只需要69元●名片5元每盒-更多產(chǎn)品印刷報價(jià)?聯(lián)系電話(huà):138-1621-1622(微信同號)

急!在線(xiàn)等!如何將掃描的PDF格式文件轉換為word文字格式的文件?現在已經(jīng)嘗試了很多種不同的軟件,但是轉換后雖然都變成了word文件,但是都是word圖片文件,沒(méi)有用??!lz必須要word文字文件??!

  用清華OCR文字識別軟件也試過(guò)了,總是大部分都是亂碼,而且lz的文件是中英文對照的,所以英文部分也無(wú)法識別,怎么辦??!急!

  下面是lz在網(wǎng)上搜到的相關(guān)文件轉換知識,可是所有的方法lz都試過(guò)了,木有用啊木有用, 請教高手指導,哭... ...

  PDF轉換word格式的方法總結

  2009-12-09

021yin.com 、e-PDF To Word Converter等轉換方法。

  0. 說(shuō)明

    pdf 無(wú)法編輯,這不是缺點(diǎn),而是它的定位。

    pdf 雖然無(wú)法編輯,但可以進(jìn)行注釋。

    為什么轉換PDF到其他格式?技術(shù)角度,是為了二次編輯和后續利用;但這樣做的時(shí)候,請注意版權問(wèn)題。

    一定要轉到word格式?不一定。如果文檔只有文字,則建議轉為txt或rtf。如果還有一些不算復雜的圖表、圖片,轉為htm也是可以接受的。但如果格式復雜,或者你對 html 不了解,也不妨轉為doc格式[1]。

    本文以及善用佳軟全站的關(guān)注點(diǎn)是“原則、思考方法、解決方案”,而不是“軟件”。如果念條咒語(yǔ),或揮幾下手就能把pdf轉為word,為什么一定要軟件呢?

  一、推薦的PDF轉換word方案

  1. 莫忘最基本的“復制/粘貼”法

    尋找“高級”辦法之前,不妨先試一下最基本的方法:打開(kāi)PDF文檔,復制全文;然后,在Word中粘貼。如果文檔格式不復雜,這樣得到的結果就夠用了。

  2. Gmail、QQ郵箱中直接查看PDF格式

     Gmail很早就解決了PDF查看問(wèn)題。把PDF作為附件發(fā)送至Gmail信箱,在附件一側,點(diǎn)擊“view”或“查看”鏈接,進(jìn)入在線(xiàn)PDF閱讀器后,點(diǎn)擊“純html”鏈接,即可以網(wǎng)頁(yè)格式顯示pdf內容。如果你一定需要doc格式,請復制html內容到Word。

    而QQ郵箱中,PDF附件旁邊也有類(lèi)似的“純文本方式查看”鏈接,只是相比Gmail,缺少文字格式。

    另外,這種轉換還能破解PDF防止復制內容的限制。

    優(yōu)點(diǎn):速度快、可信、很多人已經(jīng)有Gmail信箱(沒(méi)有?那就注冊一個(gè)吧);各種語(yǔ)言編碼的文字都應該可以轉換。

    缺點(diǎn):pdf中的圖片好象有問(wèn)題。

021yin.com 在線(xiàn)轉換

021yin.com 號稱(chēng)是目前最為精準的pdf to word文件轉換器,出自著(zhù)名的PDF解決方案供應商NitroPDF。

021yin.com 是在線(xiàn)應用,完全免費,使用方便:

021yin.com :①上傳pdf→②選定格式(doc/rtf)→③輸入接收郵箱;

    - 進(jìn)入郵箱:查收轉換后的word文檔。

    Web 2.0 Share的評價(jià):“……Pdftoword 無(wú)愧于精準之王,對中文同樣轉換很好,文字方面不多說(shuō)了,大家可以自己測試。Pdftoword 在排版方面確實(shí)有獨到之處,特別介紹一個(gè)細節,Pdftoword 轉換后的文檔仍以段落為單位,沒(méi)有很多的換行符,而以前大多轉換器都是以行為單位,以致末尾有很多的換行符,你復制粘貼時(shí)會(huì )有許多麻煩……”

  二、其他軟件或在線(xiàn)應用

    注:網(wǎng)站已失效。

  更多在線(xiàn)PDF轉Word應用

    電腦玩物曾做過(guò)一個(gè) 測試 ,對比了4個(gè)在線(xiàn)應用。但由于測試的特殊要求——11MB,立即轉換——只有最好一個(gè)應用達成了目標。因此,并未對轉換質(zhì)量進(jìn)行對比。

021yin.com /,多格式轉換網(wǎng)站,文檔上限1GB,轉換工作需要排隊等待。

021yin.com /,上限 10MB,需要等待。

021yin.com ,文件名須為英文。

021yin.com /pdf2word/index.asp ,速度較快,“PDF的版面樣式與文字「基本上」都有成功轉換,仔細檢查的話(huà)會(huì )發(fā)現在一些特殊格式的地方會(huì )漏掉一兩個(gè)字沒(méi)有轉出來(lái),但這都很好解決,只要自己補上就好”。

  共享軟件 e-PDF To Word Converter

    共享軟件 e-PDF To Word Converter(USD 35)在轉換PDF到Word類(lèi)軟件中,也屬于效果較好的一款。

    小眾軟件評價(jià):…… e-PDF 可以把 PDF 文件比較完美的轉換成 Word 文檔,我用104頁(yè)的 PDF 做了測試,除了少數地方,其余都屬于完美轉換了……

    網(wǎng)上其他介紹:e-PDF To Word Converter 是一款將AdobePDF文檔轉換成 Word 文檔的工具軟件,它支持文字,圖像及其它內容的輸出。這款軟件可以脫離 Microsoft Word,Adobe Acrobat 或 Acrobat Reader 獨立運行。完美的中文支持和原始版面轉換,基本做到了百分百的原汁原味……目前唯一發(fā)現的不足,數字會(huì )被轉換成全角數字,不知道可否在word中批量把數字換回半角,另外有些文字大小會(huì )小一號。試用了超多的PDF轉Word工具了,應該說(shuō)這個(gè)是所見(jiàn)過(guò)版面保留最好的了,雖然還是有點(diǎn)缺憾。

  MS Office Document Imaging 將PDF轉為Word

    如果你購買(mǎi)了MS Office的相應套件,則可通過(guò)MS Office Document Imaging進(jìn)行PDF到Word的轉換。

    Microsoft Office Document Imaging 是MS Office的一款選裝組件,用于印刷文檔的圖像化掃描存儲,并具有OCR功能。因此,也可以先把PDF虛擬打印為 Microsoft Office Document Imaging 格式 (MDI) ;再通過(guò)OCR轉為可編輯的Word文檔。(官方幫助: 2)

    轉載一下操作步驟:

   ?、?從PDF到MDI:在PDF閱讀器中,打印PDF,打印機選“Microsoft Office Document Image Writer”,確認后將該PDF文件輸出為MDI格式的虛擬打印文件。 (注:如果沒(méi)有找到“Microsoft Office Document Image Writer”項,使用Office 2003安裝光盤(pán)中的“添加/刪除組件”更新安裝該組件,選中“Office 工具 Microsoft DRAW轉換器”。 )

   ?、?從MDI到Word:Document Imaging 轉換為運行“Microsoft Office Document Imaging”,并利用它來(lái)打開(kāi)剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,在彈出的窗口中選中“在輸出時(shí)保持圖片版式不變”,確認后系統會(huì )提示“必須在執行此操作前重新運行OCR。這可能需要一些時(shí)間”,確認即可。

  三、結論

    偶爾有pdf2doc需求的網(wǎng)友,建議先試用在線(xiàn)的Gmail、PDFtoWord。如果質(zhì)量不能滿(mǎn)足需求,或轉換的數量、速度有更多要求,可以試用/注冊 e-PDF To Word Converter 等軟件。

    但無(wú)論哪種方法,在行動(dòng)之前都值得想一下:真有必要從pdf轉為word嗎?

  附錄:注釋

    [1]:早期版本MS Word采用封閉格式,WPS和OOo通過(guò)各種技術(shù)手段才能與之保持盡力兼容,而其他無(wú)此實(shí)力(經(jīng)濟實(shí)力)的軟件則不能編輯Word。當然,可以用免費的WordViewer查看(應該也能復制到其他程序中吧)。新的MS Office采取了XML格式,相對開(kāi)放了一些。所以,也不應該基于過(guò)時(shí)的理由過(guò)于反對doc格式。但無(wú)論如何,請有如下意識:除了昂貴的MS Office,還有個(gè)人免費的WPS(非常小巧)、開(kāi)源的OOo、在線(xiàn)的Google Doc;在很多情況下,你只使用了MS Office的3%的功能;很多文檔沒(méi)有必要存為word格式。(感謝danei補充)

  附錄:文章更新歷史

    2010-04-05:更新Gmail、QQ郵箱的轉換說(shuō)明。

    2009-12-08:更新圖片;標示失效內容;更新結論;補充QQ郵箱。

    2009-11-24:更新較多(但尚未完成)

021yin.com 并作為第2推薦。

    2008-11-04:初稿。

  看看真正的高手是怎樣把PDF轉換word格式的。

  首先說(shuō)明一下,我是讀書(shū)狂,我想盡一切辦法把各種格式的電子書(shū)轉換為txt.

  1.使用adobe acrobat professional打開(kāi)pdf文件,另存為網(wǎng)頁(yè)(不要另存為rtf,這樣會(huì )打斷段落,而且出現很多莫名奇妙的文字框),使用frontpage,記事本,IE另存為功能等工具整理并去除源代碼中的廢代碼,最后得到完美的html文檔,還有圖片,把html轉換成doc文檔不用我教你吧。

  2.第三方的pdf轉換軟件應屬Solid Converter PDF效果最好,甚至它的轉換速度比adobe acrobat professional還要快,而且支持批量轉換,下載地址

021yin.com /zh-cn/files/344c4a87-a26f-11dd-909a-0014221b798a/

021yin.com /zh-cn/files/344c4a87-a26f-11dd-909a-0014221b798a/

021yin.com /soft/4/85/2006/Soft_29750.html

  使用其中的PDF編輯器刪除某些特殊的字符。

  3.如果pdf內容為圖片,使用PDF Image Extraction Wizard提取其中的圖片。

  好了,以上三種方法通吃所有類(lèi)型pdf。

  直接用pdf閱讀器打開(kāi)文件,在模式下面選鼠標選選擇模式,選中文件中需編輯的文字,復制到記事本中,就OK了

  如何復制 pdf 文件內容 將pdf轉換成word格式

  現在網(wǎng)上的許多資料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是它們不是效率低,就是只能提取其中部分文本。本文所述利用微軟提供的OCR識別技術(shù)從CAJ、PDF等文件中提取全部文本的方法,簡(jiǎn)便快捷,效-

  現在網(wǎng)上的許多資料都是以CAJ、PDF等文件格式提供的,其中的文本不能被直接編輯。網(wǎng)上提供了許多處理這種情況的軟件,但是它們不是效率低,就是只能提取其中部分文本。本文所述利用微軟提供的OCR識別技術(shù)從CAJ、PDF等文件中提取全部文本的方法,簡(jiǎn)便快捷,效率很高。

  從不同格式的文件中提取文本前需要做好以下準備工作,安裝CAJViewer5.5瀏覽器軟件和acrobat 5 專(zhuān)業(yè)版瀏覽器軟件安裝Office2003,并完全安裝Of?鄄fice工具M(jìn)icrosoft Office Document Imaging,然后在打印機里面會(huì )增加Microsoft Office Document Image Writer打印機。 Microsoft Office Document Image可以非常準確的全文件識別轉化中文、英文、表格。

    一、CAJ文件的識別

   ?。ㄒ唬┦紫?,從網(wǎng)上下載CAJ格式的資料文件保存到本地硬盤(pán)上。

   ?。ǘ┤缓?,啟動(dòng)CAJViewer瀏覽器程序,并在該程序中打開(kāi)剛才保存的CAJ格式的文件。瀏覽文件到最后一頁(yè)后,不要關(guān)閉CAJ瀏覽器程序。

   ?。ㄈ┰贑AJ瀏覽器程序窗口中,選擇“文件”→“打印”,并選擇打印機為Microsoft Office Document Image Writer打印機,勾選打印到文件選項和確定打印頁(yè)數。

   ?。ㄋ模┍4娲蛴∥募?.prn)到適當位置。等待打印完成后,Microsoft Office Document Image 自動(dòng)打開(kāi)剛才保存的打印文件。

   ?。ㄎ澹┰贛icrosoft Office Document Image窗口中,選擇“頁(yè)面”菜單中的“選擇所有頁(yè)面”菜單項,然后選擇“工具”菜單中的“使用OCR識別文本”提取文本。

   ?。┻x擇“工具”下的 “將文本發(fā)送到word”,最后將把整個(gè)CAJ文件識別輸出到word文件中。

    二、PDF文件的識別

   ?。ㄒ唬┮晕谋拘问奖4娴腜DF文件,用acrobat 5 專(zhuān)業(yè)版,識別整個(gè)文件。直接打開(kāi)從網(wǎng)上下載的PDF格式文件另存為RTF文件,或者選擇工具欄上的文字選擇按鈕,然后選擇文字區域,然后復制到Word中即可。

   ?。ǘ┮詧D片形式保存的PDF文件,將PDF文件打印到Microsoft Office Document Image Writer打印機,選擇打印形成的文件的保存位置,然后會(huì )自動(dòng)形成一個(gè)MDI文件,并且自動(dòng)用Microsoft Office Document Image打開(kāi)此文件,然后在Microsoft Office Document Im?鄄age中選擇“工具”菜單中的“使用OCR識別文本”,識別完成后,在選擇“工具”下的,“將文本發(fā)送到word”,最后將把整個(gè)PDF文件識別輸出到word文件中。

   ?。ㄈ┘用艿腜DF文件先下載解密軟件,解密后在參照上述步驟1),2) 進(jìn)行。

   ?。ㄋ模┓斌wPDF文件用上述步驟2)的方法識別到word后,用word中的“工具”→“語(yǔ)言”→“中文繁簡(jiǎn)轉換”

    三、超星文件的識別

    (一)全文件識別打印到Microsoft Office Document Image Writer打印機,然后按上述PDF文件的識別步驟中第二點(diǎn)操作,要注意的是,超星打印功能有點(diǎn)區別,因為超星是目錄和全文分開(kāi)的,所以打印時(shí),需要分別把目錄和正文識別到Word中,再合并到一起。打印時(shí)要填入打印頁(yè)碼從1到最后一頁(yè),不要選擇打印全部。在打印選項中,要將頁(yè)面比例設成真實(shí)大小,而不是整寬。注意識別速度比其他格式要慢很多,請保持耐心。一般一本200多頁(yè)的書(shū),識別需要幾分鐘的時(shí)間。

   ?。ǘ┏俏募R別相對比較麻煩一些,如果還有問(wèn)題,可以先把超星打印成完整的PDF文件,然后再用上述識別PDF文件的方法轉成Word。

    四、后記

    經(jīng)過(guò)試驗,發(fā)現Microsoft Office Document Image 存在一些不穩定的問(wèn)題,如在用CAJ打印到Microsoft Office Document Image Writer時(shí),發(fā)現用CAJ5.5版本比較快,而CAJ5.0有時(shí)出現假死機。頁(yè)面顯示大時(shí),轉化的識別率較高。如果頁(yè)數多的文件,包括超星,可以分多次轉化。

    由于虛擬打印到Microsoft Office Document Image Writer 比較慢,并且形成的虛擬文件很大,1本200多頁(yè)的書(shū)大約是60M,因此會(huì )嚴重影響機器的運行速度、C盤(pán)和內存空間。建議配置好的機器一次轉化不要超過(guò)200頁(yè),配置差的不要超過(guò)100頁(yè),同時(shí)打印時(shí)在任務(wù)欄中會(huì )出現打印機圖標,可以雙擊,看到打印任務(wù)的進(jìn)度,避免誤以為死機。轉化完成后請刪除c:\windows\temp目錄下的虛擬打印文件,否則C盤(pán)很快會(huì )被用光。

0
0
收藏0
回帖

急!在線(xiàn)等!如何將掃描的PDF格式文件轉換為word文字格式的文件? 期待您的回復!

取消
載入表情清單……
載入顏色清單……
插入網(wǎng)絡(luò )圖片

取消確定

圖片上傳中
編輯器信息
提示信息