Lewati ke konten utama

Fitur, batasan, dan limitasi

Fitur

Glasswall Conform adalah alat command-line yang dirancang untuk prapemrosesan dokumen PDF. Alat ini mengekstrak dan merekonstruksi konten visual untuk memastikan dokumen memenuhi standar PDF, mempersiapkannya untuk pemrosesan lebih lanjut oleh Glasswall Embedded Engine, yang menyediakan perlindungan Content Disarm and Reconstruction (CDR) yang komprehensif.

Fitur Utama:

  • Ekstraksi Teks, Grafik, dan Gambar: Mengekstrak dan merekonstruksi teks, grafik, dan gambar dari PDF, menghasilkan dokumen keluaran yang bersih dan sesuai standar.
  • Ambang Tingkat Penanganan: Memungkinkan pengaturan tingkat penanganan minimum untuk grafik, gambar, atau teks. File yang gagal memenuhi ambang ini diklasifikasikan sebagai gagal dan tidak akan disimpan.
  • Watermark Kustom: Mendukung penambahan teks watermark kustom pada setiap halaman PDF yang direkonstruksi, memungkinkan branding atau pesan yang dipersonalisasi.
  • Penekanan Character Identifier (CID) dan Glyph: Menekan glyph dan character identifier (CID) yang tidak didukung, menggantinya dengan karakter tanda tanya default (?).
  • Penggantian Font: Mengonversi font tersemat kustom menjadi font Microsoft yang tepercaya atau menggunakan default Cambria Math bila diperlukan. Proses ini bertujuan memberikan tampilan teks sebaik mungkin, bahkan ketika font kustom tidak didukung.
  • Kepatuhan Standar: Menghasilkan PDF yang direkonstruksi dan mematuhi standar PDF, sehingga memungkinkan pemrosesan CDR lanjutan oleh Glasswall Embedded Engine untuk perlindungan penuh Content Disarm and Reconstruction (CDR).
  • Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
    • Kecepatan pemrosesan tercepat.
    • Tampilan visual terbaik.
    • Font tersemat kustom tidak diganti.
    • Mungkin tidak cocok untuk skenario yang memerlukan kepatuhan yang sangat ketat terhadap standar PDF.
  • Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
    • Kecepatan pemrosesan lebih lambat.
    • In a small number of cases, may result in reduced visual appearance, such as:
      • Gambar dan grafik menurun kualitasnya atau hilang.
      • Perbedaan pada tampilan teks (mis. ukuran, gaya font, atau spasi).
      • Teks hilang saat font tersemat yang tidak dikenal sedang digunakan.
    • Memproses PDF dengan kepatuhan yang lebih ketat terhadap spesifikasi.
    • Mengganti font tersemat kustom dengan font yang tepercaya.
    • Sebaiknya hanya digunakan untuk skenario yang memerlukan kepatuhan yang sangat ketat terhadap standar PDF, meskipun harus mengorbankan fidelitas visual.
  • Pemfilteran Penyertaan dan Pengecualian File: Tentukan file mana yang akan diproses atau dikecualikan menggunakan path absolut atau pola wildcard.
  • Kategorisasi File Output: Menentukan bagaimana file output diatur. categorised mengatur file output ke dalam subdirektori berdasarkan status pemrosesan (engine_success, conform_success, failure). mirrored menempatkan file output yang berhasil diproses langsung di direktori output, sambil mempertahankan struktur direktori input asli, dan file yang gagal tidak akan disalin.
  • Ringkasan Pasca-Pemrosesan: Menyediakan informasi terperinci tentang hasil pemrosesan, termasuk status file, penggunaan memori, dan waktu pemrosesan.
  • Pemrosesan Dalam Memori: Mendukung mode engine_memory dan conform_only_memory, yang memungkinkan file diproses sepenuhnya di memori menggunakan input berkode base64 melalui standard input, dan mengembalikan file output berkode base64 melalui standard output. Ideal untuk integrasi dengan sistem yang menghindari I/O berbasis disk.

Batasan dan keterbatasan

Meskipun Glasswall Conform adalah alat yang andal, ada beberapa batasan dan keterbatasan yang perlu dipertimbangkan:

  • Penanganan Gambar: Beberapa ruang warna gambar tidak didukung dan mungkin diabaikan. Selain itu, pemrosesan gambar dapat mengonversi gambar terkompresi ke format lossless, yang dapat meningkatkan ukuran file.

  • Penanganan Font: Glasswall Conform mendukung Base 14 dan banyak font Microsoft, tetapi font kustom yang tidak didukung akan diganti untuk memitigasi potensi risiko.

  • Struktur PDF: PDF yang tidak memiliki elemen struktural penting (misalnya, root catalog, tabel referensi silang) mungkin tidak dapat dipulihkan.

  • Penggunaan Memori: PDF dengan banyak gambar dapat mengonsumsi memori yang signifikan. Meskipun alat ini telah diuji dengan file hingga 50 MB, file yang lebih besar mungkin mengalami masalah performa.

  • Ruang Warna: Ruang warna CalRGB tidak didukung.

  • Penanganan Grafik: Dukungan untuk grafik kompleks, seperti bentuk, bagan, dan grafik, terbatas. Versi ini memprioritaskan integritas teks.

  • Pemulihan Dokumen: PDF yang rusak parah atau yang memiliki elemen struktural yang hilang mungkin tidak dapat dipulihkan.

  • Dukungan Platform: Glasswall Conform tersedia untuk Windows dan Linux. Untuk Windows kami menyediakan installer .exe. Untuk Linux kami menyediakan paket .rpm dan .deb yang mendukung distribusi Linux seperti Rocky 9, Rocky 8, Ubuntu 24, dan Ubuntu 22.

  • Konfigurasi Timeout dan Memori: Tabel berikut menyajikan temuan kami tentang bagaimana pengaturan timeout dan memori yang dapat dikonfigurasi memengaruhi tingkat keberhasilan pemrosesan secara keseluruhan dan total runtime saat dijalankan pada d16-v3 VMs, masing-masing dengan 16 vCPUs and 64GB RAM:

    TimeoutBatas MemoriRuntime (7 VMs)Total Waktu PemrosesanPeningkatan Waktu PemrosesanFile yang DiprosesTingkat KeberhasilanPeningkatan Keberhasilan
    180s4GB65 menit350 menitDasar2,875 / 3,07393.56%Dasar
    300s8GB79 menit428 menit+23%2,939 / 3,07395.64%+2.08%
    600s12GB96 menit514 menit+47%2,947 / 3,07395.90%+2.34%
    1200s20GB145 menit689 menit+97%2,952 / 3,07396.06%+2.50%
    • Meningkatkan timeout dan memori menghasilkan tingkat keberhasilan yang lebih tinggi tetapi dengan konsekuensi peningkatan waktu proses.
    • Konfigurasi 300s / 8GB meningkatkan keberhasilan sebesar +2.08% dibandingkan 180s / 4GB, dengan peningkatan waktu pemrosesan sebesar 23%.
    • Konfigurasi 600s / 12GB meningkatkan keberhasilan sebesar +2.34% dibandingkan 180s / 4GB, dengan peningkatan waktu pemrosesan sebesar 47%.
    • Konfigurasi 1200s / 20GB hanya memberikan peningkatan yang kecil pada file yang diproses (+5 dibandingkan 600s).
    • Konfigurasi optimal bergantung pada apakah kecepatan atau tingkat keberhasilan pemrosesan menjadi prioritas yang lebih tinggi. Konfigurasi 300s / 8GB menawarkan pilihan yang seimbang ketika setidaknya 64GB RAM tersedia, memungkinkan 8+ file diproses secara paralel sambil memberikan peningkatan tingkat keberhasilan yang kuat (+2.08%) dibandingkan 180s / 4GB dan mempertahankan peningkatan waktu pemrosesan yang wajar sebesar 23%, sehingga menjadikannya titik tengah yang efisien antara kecepatan dan keberhasilan pemrosesan.

Lisensi

Glasswall Conform menyertakan perangkat lunak PyMuPDF yang tersedia di bawah lisensi open-source AGPL maupun perjanjian lisensi komersial melalui Artifex. Glasswall memiliki perjanjian lisensi distribusi komersial untuk konteks Glasswall Conform.