機能、制約、および制限事項
機能
Glasswall Conform は、PDF ドキュメントの前処理用に設計されたコマンドラインツールです。視覚コンテンツを抽出して再構築し、ドキュメントが PDF 標準を満たすようにすることで、包括的な Content Disarm and Reconstruction (CDR) 保護を提供するGlasswall Embedded Engineによる後続処理に備えます。
主な機能:
- テキスト、グラフィック、および画像の抽出: PDF からテキスト、グラフィック、および画像を抽出して再構築し、クリーンで標準準拠の出力ドキュメントを生成します。
- 処理率しきい値: グラフィック、画像、またはテキストに対する最小処理率を設定できます。このしきい値を満たさないファイルは失敗として分類され、保存されません。
- カスタム透かし: 再構築された PDF の各ページにカスタム透かしテキストを追加でき、個別のブランディングやメッセージ表示が可能です。
- 文字識別子 (CID) とグリフ抑制: サポートされていないグリフおよび文字識別子 (CID) を抑制し、デフォルトの疑問符文字 (?) に置き換えます。
- フォント置換: カスタム埋め込みフォントを既知の安全な Microsoft フォントに変換し、必要に応じて Cambria Math をデフォルトとして使用します。この処理は、カスタムフォントがサポートされていない場合でも、可能な限り最適なテキスト表示を提供することを目的としています。
- 標準準拠: PDF 標準に準拠した再構築 PDF を生成し、完全な Content Disarm and Reconstruction (CDR) 保護のために Glasswall Embedded Engine による後続の CDR 処理を可能にします。
- Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
- 最速の処理速度。
- 最良の視覚的外観。
- カスタム埋め込みフォントは置換されません。
- PDF 標準への非常に厳格な準拠が求められるシナリオには適さない場合があります。
- Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
- 処理速度が遅くなります。
- In a small number of cases, may result in reduced visual appearance, such as:
- 画像やグラフィックが劣化または欠落する場合があります。
- テキストの見た目に差異が生じる場合があります(例: サイズ、フォントスタイル、または間隔)。
- 不明な埋め込みフォントが使用されている場合、テキストが欠落することがあります。
- 仕様により厳格に準拠して PDF を処理します。
- カスタム埋め込みフォントを既知の安全なフォントに置換します。
- 視覚的忠実性を犠牲にしてでも、PDF 標準への非常に厳格な準拠が必要なシナリオでのみ推奨されます。
- ファイルの包含および除外フィルタリング: 絶対パスまたはワイルドカードパターンを使用して、処理するファイルまたは除外するファイルを指定します。
- 出力ファイルの分類: 出力ファイルをどのように整理するかを定義します。
categorisedは、処理ステータス(engine_success、conform_success、failure)に基づいて出力ファイルをサブディレクトリに整理します。mirroredは、正常に処理された出力ファイルを元の入力ディレクトリ構造を維持したまま出力ディレクトリに直接配置し、失敗したファイルはコピーされません。 - 後処理サマリー: ファイルステータス、メモリ使用量、処理時間など、処理結果に関する詳細情報を提供します。
- インメモリ処理:
engine_memoryおよびconform_only_memoryモードをサポートしており、標準入力経由のbase64エンコードされた入力を使用してファイルを完全にメモリ内で処理し、base64エンコードされた出力ファイルを標準出力経由で返すことができます。ディスクベースのI/Oを回避するシステムとの統合に最適です。
制約事項と制限
Glasswall Conform は強力なツールですが、考慮すべき一定の制約事項と制限があります。
-
画像処理: 一部の画像カラースペースはサポートされておらず、無視される場合があります。さらに、画像処理によって圧縮画像が可逆形式に変換され、ファイルサイズが増加することがあります。
-
フォント処理: Glasswall Conform は Base 14 と多くの Microsoft フォントをサポートしていますが、サポートされていないカスタムフォントは潜在的なリスクを軽減するために置き換えられます。
-
PDF 構造: 必須の構造要素(例: ルートカタログ、クロスリファレンステーブル)が欠落している PDF は復旧できない場合があります。
-
メモリ使用量: 多数の画像を含む PDF は大量のメモリを消費する可能性があります。このツールは最大 50 MB のファイルでテストされていますが、それより大きいファイルではパフォーマンス上の問題が発生する場合があります。
-
カラースペース: CalRGB カラースペースはサポートされていません。
-
グラフィックス処理: 図形、チャート、グラフなどの複雑なグラフィックスのサポートは限定的です。このバージョンではテキストの完全性を優先しています。
-
ドキュメント復旧: 深刻に破損した PDF や構造要素が欠落している PDF は復旧できない場合があります。
-
プラットフォームサポート: Glasswall Conform は Windows と Linux の両方で利用できます。Windows 向けには
.exeインストーラーを提供しています。Linux 向けには.rpmおよび.debパッケージを提供しており、Rocky 9、Rocky 8、Ubuntu 24、Ubuntu 22 などの Linux ディストリビューションをサポートしています。 -
タイムアウトおよびメモリ設定: 以下の表は、16 vCPUs and 64GB RAM を備えた d16-v3 VMs 上で実行した際に、設定可能なタイムアウトおよびメモリ設定が全体的な処理成功率と総実行時間にどのような影響を与えるかについての当社の調査結果を示しています。
タイムアウト メモリ上限 実行時間 (7 VMs) 総処理時間 処理時間の増加 処理済みファイル数 成功率 成功率の向上 180s 4GB 65分 350分 ベースライン 2,875 / 3,073 93.56% ベースライン 300s 8GB 79分 428分 +23% 2,939 / 3,073 95.64% +2.08% 600s 12GB 96分 514分 +47% 2,947 / 3,073 95.90% +2.34% 1200s 20GB 145分 689 分 +97% 2,952 / 3,073 96.06% +2.50% - タイムアウトとメモリを増やすと、成功率が向上しますが、その代償として実行時間が増加します。
- 300s / 8GB configuration では、180s / 4GB と比較して成功率が +2.08% 向上しますが、処理時間は 23% 増加します。
- 600s / 12GB configuration では、180s / 4GB と比較して成功率が +2.34% 向上しますが、処理時間は 47% 増加します。
- 1200s / 20GB configuration では、処理済みファイル数の増加はごくわずかです(600s と比較して +5 のみ)。
- 最適な構成は、速度と処理成功率のどちらをより優先するかによって異なります。少なくとも 64GB RAM を利用できる場合、300s / 8GB configuration はバランスの取れた選択肢です。これにより、8+ files to be processed in parallel が可能になり、180s / 4GB と比較して高い成功率の改善(+2.08%)を実現しつつ、妥当な 23% の処理時間増加に抑えられるため、速度と処理成功の中間点として効率的です。
ライセンス
Glasswall Conform には PyMuPDF ソフトウェアが含まれており、これはオープンソースの AGPL と、Artifex を通じた商用ライセンス契約の両方で利用可能です。Glasswall は、Glasswall Conform の文脈における商用配布ライセンス契約を保有しています。