無料ブログはココログ

« ASUS社のEee PC-901の再インストール(システムリカバリー)について | トップページ | PDFファイルにリンクを貼ると、「このファイルを開くか、または保存しますか?」と聞いてきます。 »

2008年10月19日 (日)

紙の文書のHTmL化について(PDFとかWord(.doc)をHTML化)

あるNPO法人から頼まれたのですが、その法人が発行している機関紙のバックナンバー(紙で保存してあるのみ)を、その法人のホームページに載せたいという依頼でした。

PDF化すれば一番簡単で、実際プリンタに付いているスキャナの機能を利用して、PDFファイルを作りました。しかし、ここで困った問題に気づきました。PDFファイルのサイズが意外に大きいのです。1冊あたりA4で、6~10ページ位のものですが、PDFにしますと、500KBから1000KB位あります。全部で36冊ありますので、25MB位を占有してしまいます。

プロバイダから提供されるホームページの容量は50MBなので、バックナンバーだけで半分の容量を使うことになってしまいます。これではとてもPDF化は無理です。
無料で使えるホームページスペースを提供しているプロバイダがありますので、バックナンバーだけを、そこへ入れることも考えました。

しかしそれでも、何年か経過すると一杯になってしまいます。そこで考えたのは、Wordに変換することでした。Wordですと、テキスト情報が多いので、サイズが小さくなるだろうと思ってWord化してみました。私は「読んde!!ココ」というソフトを持っていますが、PDFをWord化することが出来ます。Word化しても、劇的にサイズが小さくなりません。その冊子はカット集が沢山入っていますので、画像データなので、そんなに効果が出ないのです。PDFよりサイズは小さくなったのですが、300KBはあります。

そこで、カットを全部割愛しました。これでようやく、1冊150KBを切るようになり、全部合わせても2~3MBで済むところまできました。

次の難関が待ち受けていました。Wordは、「Webページとして保存」することが出来ますので、その形式で保存してみました。それをIEで見ますととんでもないことに、Wordでは1行の文字数が決まっていて、次の行に移りますが、Web化しますと、改行が行われないのです。それで、間隔の全く空かない、文字がずらずら並ぶだけの全く使い物にならないものが出来てしまいました。

そこで、次に考えたのは、Wordの文字情報をテキストエディタに移すことでした。テキストエディタ(例えばフリーのterapad等)ですと、改行の文字数が適当に決められますので、テキストエディタに移せば、改行情報が入るので、テキストエディタからhtml形式で保存すれば、整頓されたWebページが出来るのではないか、と思いましたが、結果はWordをWeb化したのと同じ結果でした。

ウェブでいろいろ情報を集めました。Magellan Desktopというソフトがあり、Wordを格好よくWebページ化出来るようです。試用版で試してみましたが、そんなに恰好よくならないし、価格が1万円位します。これは諦めました。

次に「Wordから出力されるHTMLをクリーンアップするHTML Filter」というタイトルが付いているサイトを見つけました。これはWord2000にプラグインされるフリーソフトのようでして、これを使えば整然としたhtmlファイルが出来るようです。Office2000を持っている人でないとダメです。私はOffice2003なので、残念ながらこれは使えません。

Word2003用のHTML Filterはないかと探しましたら、ありました。アンテナハウスから無償で提供されています。ここにあります。但し次のような条件が付いています。
”お客様ご自身のドキュメントをHTMLに変換する目的で使用すること。すなわち第三者に対してドキュメントを変換するサービスを行わないこと。”という条件です。
これで試してみましたら、見事にhtmlに変換してくれます。

このように、いろいろと試行錯誤してみましたが、纏めますと、次のようになります。

紙の文書(A4版10ページもの)の電子化後のサイズ

a)PDF   827KB(紙の文書をそのままPDF化)
b) a)のPDF文書から、そのままWord化     327KB
c) b)のWordから画像(カット集)を除外     146KB
d) c)をアンテナハウスのHTML FilterでHTML化 201KB
e) c)をテキストエディタにコピーしてテキスト形式で保存 17KB
f) e)をホームページビルダーにコピーして、文章の体裁を整えてHTMLで保存 18KB

という結果になりました。やはりここは、横着せず、f)項のようにして、ホームページに載せるのが、一番サイズが小さくなり、体裁も整いますという結論になりました。


10月20日(月)追記

パソコンを立ち上げましたら、Printer Driverをインストールするよう促されるメッセージが出てきました。何もPrinterは触っていないので、無視しました。ところが印刷する必要があって、印刷しようとすると印刷できないのです。
どうも、Wordから、格好よくhtml化が出来るソフト、Magellan Desktopか、HTML Filterかどちらか分かりませんが、これらをインストールしたことが原因で、PrinterDriverがおかしくなったとしか考えられません。システムの復元で、これらのソフトをインストールする前の状態に戻し、Printer Driverを一旦「プログラムの追加と削除」から削除し、再インストールしてようやく復旧しました。この間いろいろ試行錯誤して、2時間あまりかかってしまいました。パソコンというのはなかなか難しいものです。

2010年2月27日追記

紙の文書をPDF化するために現在私が愛用していますのは、「PDFI」というフリーソフトです。これは画像データをPDF化してくれるもので、プリンターでスキャンした画像ファイルをデスクトップに置いたPDFIのショートカットアイコンの上にドラッグするだけで簡単にPDF化してくれます。出来上がったPDFファイルのサイズが大変小さく、しかも鮮明で、これは大変よいソフトであると思いました。

« ASUS社のEee PC-901の再インストール(システムリカバリー)について | トップページ | PDFファイルにリンクを貼ると、「このファイルを開くか、または保存しますか?」と聞いてきます。 »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/150691/42839714

この記事へのトラックバック一覧です: 紙の文書のHTmL化について(PDFとかWord(.doc)をHTML化):

« ASUS社のEee PC-901の再インストール(システムリカバリー)について | トップページ | PDFファイルにリンクを貼ると、「このファイルを開くか、または保存しますか?」と聞いてきます。 »

2017年8月
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31