當前位置:編程學習大全網 - 源碼下載 - java 有關word,excel,pdf轉換成html 有幾種方式

java 有關word,excel,pdf轉換成html 有幾種方式

java將Word/Excel/PDF文件轉換成HTML整理

項目開發過程中,需求涉及到了各種文檔轉換為HTML或者網頁易顯示格式,現在將實現方式整理如下:

壹、使用Jacob轉換Word,Excel為HTML

“JACOB壹個Java-COM中間件.通過這個組件妳可以在Java應用程序中調用COM組件和Win32 libraries。”

首先下載Jacob包,JDK1.5以上需要使用Jacob1.9版本(JDK1.6尚未測試),與先前的Jacob1.7差別不大

1、將壓縮包解壓後,Jacob.jar添加到Libraries中;

2、將Jacob.dll放至“WINDOWS\SYSTEM32”下面。

需要註意的是:

使用IDE啟動Web服務器時,系統讀取不到Jacob.dll,例如用MyEclipse啟動Tomcat,就需要將dll文件copy到MyEclipse安裝目錄的“jre\bin”下面。

壹般系統沒有加載到Jacob.dll文件時,報錯信息為:“java.lang.UnsatisfiedLinkError: no jacob in java.library.path”

新建類:

1public class JacobUtil

2{

3 public static final int WORD_HTML = 8;

4

5 public static final int WORD_TXT = 7;

6

7 public static final int EXCEL_HTML = 44;

8

9 /** *//**

10 * WORD轉HTML

11 * @param docfile WORD文件全路徑

12 * @param htmlfile 轉換後HTML存放路徑

13 */

14 public static void wordToHtml(String docfile, String htmlfile)

15 {

16 ActiveXComponent app = new ActiveXComponent("Word.Application"); // 啟動word

17 try

18 {

19 app.setProperty("Visible", new Variant(false));

20 Dispatch docs = app.getProperty("Documents").toDispatch();

21 Dispatch doc = Dispatch.invoke(

22 docs,

23 "Open",

24 Dispatch.Method,

25 new Object[] { docfile, new Variant(false),

26 new Variant(true) }, new int[1]).toDispatch();

27 Dispatch.invoke(doc, "SaveAs", Dispatch.Method, new Object[] {

28 htmlfile, new Variant(WORD_HTML) }, new int[1]);

29 Variant f = new Variant(false);

30 Dispatch.call(doc, "Close", f);

31 }

32 catch (Exception e)

33 {

34 e.printStackTrace();

35 }

36 finally

37 {

38 app.invoke("Quit", new Variant[] {});

39 }

40 }

41

42 /** *//**

43 * EXCEL轉HTML

44 * @param xlsfile EXCEL文件全路徑

45 * @param htmlfile 轉換後HTML存放路徑

46 */

47 public static void excelToHtml(String xlsfile, String htmlfile)

48 {

49 ActiveXComponent app = new ActiveXComponent("Excel.Application"); // 啟動word

50 try

51 {

52 app.setProperty("Visible", new Variant(false));

53 Dispatch excels = app.getProperty("Workbooks").toDispatch();

54 Dispatch excel = Dispatch.invoke(

55 excels,

56 "Open",

57 Dispatch.Method,

58 new Object[] { xlsfile, new Variant(false),

59 new Variant(true) }, new int[1]).toDispatch();

60 Dispatch.invoke(excel, "SaveAs", Dispatch.Method, new Object[] {

61 htmlfile, new Variant(EXCEL_HTML) }, new int[1]);

62 Variant f = new Variant(false);

63 Dispatch.call(excel, "Close", f);

64 }

65 catch (Exception e)

66 {

67 e.printStackTrace();

68 }

69 finally

70 {

71 app.invoke("Quit", new Variant[] {});

72 }

73 }

74

75}

76

當時我在找轉換控件時,發現網易也轉載了壹偏關於Jacob使用幫助,但其中出現了比較嚴重的錯誤:String htmlfile = "C:\\AA";

只指定到了文件夾壹級,正確寫法是String htmlfile = "C:\\AA\\xxx.html";

到此WORD/EXCEL轉換HTML就已經差不多了,相信大家應該很清楚了:)

二、使用XPDF將PDF轉換為HTML

1、下載xpdf最新版本,地址:/xpdf/download.html

我下載的是xpdf-3.02pl2-win32.zip

2、下載中文支持包

我下載的是xpdf-chinese-simplified.tar.gz

3、下載pdftohtml支持包

地址:/projects/pdftohtml/

我下載的是:pdftohtml-0.39-win32.tar.gz

4、解壓調試

1) 先將xpdf-3.02pl2-win32.zip解壓,解壓後的內容可根據需要進行刪減,如果只需要轉換為txt格式,其他的exe文件可以刪除,只保留pdftotext.exe,以此類推;

2) 然後將xpdf-chinese-simplified.tar.gz解壓到剛才xpdf-3.02pl2-win32.zip的解壓目錄;

3) 將pdftohtml-0.39-win32.tar.gz解壓,pdftohtml.exe解壓到xpdf-3.02pl2-win32.zip的解壓目錄;

4) 目錄結構:

+---[X:\xpdf]

|-------各種轉換用到的exe文件

|

|-------xpdfrc

|

+------[X:\xpdf\xpdf-chinese-simplified]

|

|

+-------很多轉換時需要用到的字符文件

xpdfrc:此文件是用來聲明轉換字符集對應路徑的文件

5) 修改xpdfrc文件(文件原名為sample-xpdfrc)

修改文件內容為:

Txt代碼

#----- begin Chinese Simplified support package

cidToUnicode Adobe-GB1 xpdf-chinese-simplified\Adobe-GB1.cidToUnicode

unicodeMap ISO-2022-CN xpdf-chinese-simplified\ISO-2022-CN.unicodeMap

unicodeMap EUC-CN xpdf-chinese-simplified\EUC-CN.unicodeMap

unicodeMap GBK xpdf-chinese-simplified\GBK.unicodeMap

cMapDir Adobe-GB1 xpdf-chinese-simplified\CMap

toUnicodeDir xpdf-chinese-simplified\CMap

fontDir C:\WINDOWS\Fonts

displayCIDFontTT Adobe-GB1 C:\WINDOWS\Fonts\simhei.ttf

#----- end Chinese Simplified support package

6) 創建bat文件pdftohtml.bat(放置的路徑不能包含空格)

內容為:

Txt代碼

@echo off

set folderPath=%1

set filePath=%2

cd /d %folderPath%

pdftohtml -enc GBK %filePath%

exit

7) 創建類

JAVA代碼

public class ConvertPdf

{

private static String INPUT_PATH;

private static String PROJECT_PATH;

public static void convertToHtml(String file, String project)

{

INPUT_PATH = file;

PROJECT_PATH = project;

if(checkContentType()==0)

{

toHtml();

}

}

private static int checkContentType()

{

String type = INPUT_PATH.substring(INPUT_PATH.lastIndexOf(".") + 1, INPUT_PATH.length())

.toLowerCase();

if (type.equals("pdf"))

return 0;

else

return 9;

}

private static void toHtml()

{

if(new File(INPUT_PATH).isFile())

{

try

{

String cmd = "cmd /c start X:\\pdftohtml.bat \"" + PROJECT_PATH + "\" \"" + INPUT_PATH + "\"";

Runtime.getRuntime().exec(cmd);

}

catch (IOException e)

{

e.printStackTrace();

}

}

}

}

  • 上一篇:關於淘寶壹元起拍
  • 下一篇:JSP中怎麽讓頁面刷新後,保持滾動條的位置?
  • copyright 2024編程學習大全網