Langkau ke kandungan utama

Ciri, kekangan dan had

Ciri-ciri

Glasswall Conform ialah alat baris perintah yang direka untuk prapemprosesan dokumen PDF. Ia mengekstrak dan membina semula kandungan visual untuk memastikan dokumen memenuhi piawaian PDF, menyediakannya untuk pemprosesan lanjut oleh Glasswall Embedded Engine, yang menyediakan perlindungan Content Disarm and Reconstruction (CDR) yang menyeluruh.

Ciri Utama:

  • Pengekstrakan Teks, Grafik dan Imej: Mengekstrak dan membina semula teks, grafik dan imej daripada PDF, menghasilkan dokumen output yang bersih dan mematuhi piawaian.
  • Ambang Kadar Pengendalian: Membolehkan penetapan kadar pengendalian minimum untuk grafik, imej atau teks. Fail yang gagal memenuhi ambang ini diklasifikasikan sebagai gagal dan tidak akan disimpan.
  • Tera Air Tersuai: Menyokong penambahan teks tera air tersuai pada setiap halaman PDF yang dibina semula, membolehkan penjenamaan atau pemesejan yang diperibadikan.
  • Pengecam Aksara (CID) dan Penyekatan Glyph: Menyekat glyph yang tidak disokong dan pengecam aksara (CID), menggantikannya dengan aksara tanda soal lalai (?).
  • Penggantian Fon: Menukar fon terbenam tersuai kepada fon Microsoft yang diketahui selamat atau lalai kepada Cambria Math apabila perlu. Proses ini bertujuan untuk memberikan paparan teks yang terbaik, walaupun apabila fon tersuai tidak disokong.
  • Pematuhan Piawaian: Menghasilkan PDF yang dibina semula yang mematuhi piawaian PDF, membolehkan pemprosesan CDR seterusnya oleh Glasswall Embedded Engine untuk perlindungan penuh Content Disarm and Reconstruction (CDR).
  • Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
    • Kelajuan pemprosesan terpantas.
    • Penampilan visual terbaik.
    • Fon terbenam tersuai tidak digantikan.
    • Mungkin tidak sesuai untuk senario yang memerlukan pematuhan yang sangat ketat terhadap piawaian PDF.
  • Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
    • Kelajuan pemprosesan lebih perlahan.
    • In a small number of cases, may result in reduced visual appearance, such as:
      • Imej dan grafik merosot atau hilang.
      • Perbezaan dalam penampilan teks (cth. saiz, gaya fon, atau jarak).
      • Teks hilang apabila fon terbenam yang tidak diketahui sedang digunakan.
    • Memproses PDF dengan pematuhan yang lebih ketat terhadap spesifikasi.
    • Menggantikan fon terbenam tersuai dengan fon yang diketahui selamat.
    • Lebih sesuai hanya untuk senario yang memerlukan pematuhan yang sangat ketat terhadap piawaian PDF, walaupun dengan mengorbankan kesetiaan visual.
  • Penapisan Kemasukan dan Pengecualian Fail: Tentukan fail yang hendak diproses atau dikecualikan menggunakan laluan mutlak atau corak kad bebas.
  • Pengkategorian Fail Output: Menentukan cara fail output disusun. categorised menyusun fail output ke dalam subdirektori berdasarkan status pemprosesan (engine_success, conform_success, failure). mirrored meletakkan fail output yang berjaya diproses terus dalam direktori output, sambil mengekalkan struktur direktori input asal, dan fail yang gagal tidak akan disalin.
  • Ringkasan Pasca Pemprosesan: Menyediakan maklumat terperinci tentang hasil pemprosesan, termasuk status fail, penggunaan memori, dan masa pemprosesan.
  • Pemprosesan Dalam Memori: Menyokong mod engine_memory dan conform_only_memory, membolehkan fail diproses sepenuhnya dalam memori menggunakan input berkod base64 melalui input standard, dan memulangkan fail output berkod base64 melalui output standard. Sesuai untuk integrasi dengan sistem yang mengelakkan I/O berasaskan cakera.

Kekangan dan had

Walaupun Glasswall Conform ialah alat yang berkuasa, terdapat kekangan dan had tertentu yang perlu dipertimbangkan:

  • Pengendalian Imej: Sesetengah ruang warna imej tidak disokong dan mungkin diabaikan. Selain itu, pemprosesan imej mungkin menukar imej termampat kepada format tanpa kehilangan, yang boleh meningkatkan saiz fail.

  • Pengendalian Fon: Glasswall Conform menyokong Base 14 dan banyak fon Microsoft, tetapi fon tersuai yang tidak disokong akan digantikan untuk mengurangkan potensi risiko.

  • Struktur PDF: PDF yang tiada elemen struktur penting (cth., katalog akar, jadual rujukan silang) mungkin tidak dapat dipulihkan.

  • Penggunaan Memori: PDF dengan banyak imej mungkin menggunakan memori yang ketara. Walaupun alat ini telah diuji dengan fail sehingga 50 MB, fail yang lebih besar mungkin mengalami isu prestasi.

  • Ruang Warna: Ruang warna CalRGB tidak disokong.

  • Pengendalian Grafik: Sokongan untuk grafik kompleks, seperti bentuk, carta, dan graf, adalah terhad. Versi ini mengutamakan integriti teks.

  • Pemulihan Dokumen: PDF yang rosak teruk atau yang mempunyai elemen struktur yang hilang mungkin tidak dapat dipulihkan.

  • Sokongan Platform: Glasswall Conform tersedia untuk kedua-dua Windows dan Linux. Untuk Windows kami menyediakan pemasang .exe. Untuk Linux kami menyediakan pakej .rpm dan .deb yang menyokong distribusi Linux seperti Rocky 9, Rocky 8, Ubuntu 24, dan Ubuntu 22.

  • Konfigurasi Timeout dan Memori: Jadual berikut membentangkan dapatan kami tentang cara tetapan timeout dan memori yang boleh dikonfigurasikan mempengaruhi kadar kejayaan pemprosesan keseluruhan dan jumlah masa jalan apabila dijalankan pada d16-v3 VMs, setiap satu dengan 16 vCPUs and 64GB RAM:

    TimeoutHad MemoriMasa Jalan (7 VMs)Jumlah Masa PemprosesanPeningkatan Masa PemprosesanFail DiprosesKadar KejayaanPeningkatan Kejayaan
    180s4GB65 minit350 minitGaris dasar2,875 / 3,07393.56%Garis dasar
    300s8GB79 minit428 minit+23%2,939 / 3,07395.64%+2.08%
    600s12GB96 minit514 minit+47%2,947 / 3,07395.90%+2.34%
    1200s20GB145 minit689 minit+97%2,952 / 3,07396.06%+2.50%
    • Meningkatkan timeout dan memori menghasilkan kadar kejayaan yang lebih tinggi tetapi datang dengan kos masa jalan yang meningkat.
    • Konfigurasi 300s / 8GB meningkatkan kejayaan sebanyak +2.08% berbanding 180s / 4GB, dengan peningkatan 23% dalam masa pemprosesan.
    • Konfigurasi 600s / 12GB meningkatkan kejayaan sebanyak +2.34% berbanding 180s / 4GB, dengan peningkatan 47% dalam masa pemprosesan.
    • Konfigurasi 1200s / 20GB memberikan hanya peningkatan kecil dalam fail yang diproses (+5 berbanding 600s).
    • Konfigurasi optimum bergantung pada sama ada kelajuan atau kadar kejayaan pemprosesan menjadi keutamaan yang lebih tinggi. Konfigurasi 300s / 8GB menawarkan pilihan yang seimbang apabila sekurang-kurangnya 64GB RAM tersedia, membolehkan 8+ fail diproses secara selari sambil memberikan peningkatan kadar kejayaan yang kukuh (+2.08%) berbanding 180s / 4GB dan mengekalkan peningkatan masa pemprosesan yang munasabah sebanyak 23%, menjadikannya titik tengah yang cekap antara kelajuan dan kejayaan pemprosesan.

Pelesenan

Glasswall Conform merangkumi perisian PyMuPDF yang tersedia di bawah kedua-dua perjanjian lesen sumber terbuka AGPL dan lesen komersial melalui Artifex. Glasswall memegang perjanjian lesen pengedaran komersial bagi konteks Glasswall Conform.