ゼファーネットのロゴ

PDF を視覚的に比較する

日付:

難しい問題に見えることもありますが、正しい洞察があれば簡単に解決できます。 XNUMX つの PDF ファイルを比較して違いを表示するプログラムを作成するように求められたら、それはどれほど難しいと思いますか? あなたが[serhack]なら、あなたはそれを作るでしょう はるかに簡単 あなたが推測するよりも。

もちろん、何かを単純化することは、仮定を単純化することに依存する場合があります。 挿入と削除を表示する「diff のような」ユーティリティを期待している場合は、ここで行われていることではありません。 代わりに、変更が赤いボックスで強調表示された PDF の画像が表示されます。 プログラムは利用可能なユーティリティを使用して PDF を画像としてレンダリングし、結果の画像のピクセルを単純に比較して、一致しない部分に赤いボックスを描画するため、これは簡単です。

明らかに、これはほんの少しの変更がある PDF に最適です。 たとえば、段落を挿入すると、出力がかなり役に立たなくなります。 そのためには、pdf2text などを使用して PDF からテキストを抽出することを検討できます (これは、画像の生成に使用するのと同じ基本ライブラリを使用します)。

プログラムは、不足しているファイルに関する多くのメッセージを表示しますが、とにかく仕事をしているようです. 以下は、数分間隔で PDF にキャプチャされた Hackaday ホームページの XNUMX つのバージョンを比較した結果です。

ただし、新しい記事が投稿され、すべてが XNUMX つ下にスライドした場合、巨大な赤いブロックしかないことがわかります。

それはまだ賢い考えです。 これを行うためのツールは驚くほど少ないですが、私たちはそうしました 他のいくつかを見つける. もちろん、たくさんあります PDF を操作するための Linux ツール。 それらの多くは 他のツールのマッシュアップ これのように。

スポット画像

最新のインテリジェンス

スポット画像

私たちとチャット

やあ! どんな御用でしょうか?