Ciri, kekangan dan had
Ciri-ciri
Glasswall Conform ialah alat baris perintah yang direka untuk prapemprosesan dokumen PDF. Ia mengekstrak dan membina semula kandungan visual untuk memastikan dokumen memenuhi piawaian PDF, menyediakannya untuk pemprosesan lanjut oleh Glasswall Embedded Engine, yang menyediakan perlindungan Content Disarm and Reconstruction (CDR) yang menyeluruh.
Ciri Utama:
- Pengekstrakan Teks, Grafik dan Imej: Mengekstrak dan membina semula teks, grafik dan imej daripada PDF, menghasilkan dokumen output yang bersih dan mematuhi piawaian.
- Ambang Kadar Pengendalian: Membolehkan penetapan kadar pengendalian minimum untuk grafik, imej atau teks. Fail yang gagal memenuhi ambang ini diklasifikasikan sebagai gagal dan tidak akan disimpan.
- Tera Air Tersuai: Menyokong penambahan teks tera air tersuai pada setiap halaman PDF yang dibina semula, membolehkan penjenamaan atau pemesejan yang diperibadikan.
- Pengecam Aksara (CID) dan Penyekatan Glyph: Menyekat glyph yang tidak disokong dan pengecam aksara (CID), menggantikannya dengan aksara tanda soal lalai (?).
- Penggantian Fon: Menukar fon terbenam tersuai kepada fon Microsoft yang diketahui selamat atau lalai kepada Cambria Math apabila perlu. Proses ini bertujuan untuk memberikan paparan teks yang terbaik, walaupun apabila fon tersuai tidak disokong.
- Pematuhan Piawaian: Menghasilkan PDF yang dibina semula yang mematuhi piawaian PDF, membolehkan pemprosesan CDR seterusnya oleh Glasswall Embedded Engine untuk perlindungan penuh Content Disarm and Reconstruction (CDR).
- Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
- Kelajuan pemprosesan terpantas.
- Penampilan visual terbaik.
- Fon terbenam tersuai tidak digantikan.
- Mungkin tidak sesuai untuk senario yang memerlukan pematuhan yang sangat ketat terhadap piawaian PDF.
- Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
- Kelajuan pemprosesan lebih perlahan.
- In a small number of cases, may result in reduced visual appearance, such as:
- Imej dan grafik merosot atau hilang.
- Perbezaan dalam penampilan teks (cth. saiz, gaya fon, atau jarak).
- Teks hilang apabila fon terbenam yang tidak diketahui sedang digunakan.
- Memproses PDF dengan pematuhan yang lebih ketat terhadap spesifikasi.
- Menggantikan fon terbenam tersuai dengan fon yang diketahui selamat.
- Lebih sesuai hanya untuk senario yang memerlukan pematuhan yang sangat ketat terhadap piawaian PDF, walaupun dengan mengorbankan kesetiaan visual.
- Penapisan Kemasukan dan Pengecualian Fail: Tentukan fail yang hendak diproses atau dikecualikan menggunakan laluan mutlak atau corak kad bebas.
- Pengkategorian Fail Output: Menentukan cara fail output disusun.
categorisedmenyusun fail output ke dalam subdirektori berdasarkan status pemprosesan (engine_success,conform_success,failure).mirroredmeletakkan fail output yang berjaya diproses terus dalam direktori output, sambil mengekalkan struktur direktori input asal, dan fail yang gagal tidak akan disalin. - Ringkasan Pasca Pemprosesan: Menyediakan maklumat terperinci tentang hasil pemprosesan, termasuk status fail, penggunaan memori, dan masa pemprosesan.
- Pemprosesan Dalam Memori: Menyokong mod
engine_memorydanconform_only_memory, membolehkan fail diproses sepenuhnya dalam memori menggunakan input berkod base64 melalui input standard, dan memulangkan fail output berkod base64 melalui output standard. Sesuai untuk integrasi dengan sistem yang mengelakkan I/O berasaskan cakera.
Kekangan dan had
Walaupun Glasswall Conform ialah alat yang berkuasa, terdapat kekangan dan had tertentu yang perlu dipertimbangkan:
-
Pengendalian Imej: Sesetengah ruang warna imej tidak disokong dan mungkin diabaikan. Selain itu, pemprosesan imej mungkin menukar imej termampat kepada format tanpa kehilangan, yang boleh meningkatkan saiz fail.
-
Pengendalian Fon: Glasswall Conform menyokong Base 14 dan banyak fon Microsoft, tetapi fon tersuai yang tidak disokong akan digantikan untuk mengurangkan potensi risiko.
-
Struktur PDF: PDF yang tiada elemen struktur penting (cth., katalog akar, jadual rujukan silang) mungkin tidak dapat dipulihkan.
-
Penggunaan Memori: PDF dengan banyak imej mungkin menggunakan memori yang ketara. Walaupun alat ini telah diuji dengan fail sehingga 50 MB, fail yang lebih besar mungkin mengalami isu prestasi.
-
Ruang Warna: Ruang warna CalRGB tidak disokong.
-
Pengendalian Grafik: Sokongan untuk grafik kompleks, seperti bentuk, carta, dan graf, adalah terhad. Versi ini mengutamakan integriti teks.
-
Pemulihan Dokumen: PDF yang rosak teruk atau yang mempunyai elemen struktur yang hilang mungkin tidak dapat dipulihkan.
-
Sokongan Platform: Glasswall Conform tersedia untuk kedua-dua Windows dan Linux. Untuk Windows kami menyediakan pemasang
.exe. Untuk Linux kami menyediakan pakej.rpmdan.debyang menyokong distribusi Linux seperti Rocky 9, Rocky 8, Ubuntu 24, dan Ubuntu 22. -
Konfigurasi Timeout dan Memori: Jadual berikut membentangkan dapatan kami tentang cara tetapan timeout dan memori yang boleh dikonfigurasikan mempengaruhi kadar kejayaan pemprosesan keseluruhan dan jumlah masa jalan apabila dijalankan pada d16-v3 VMs, setiap satu dengan 16 vCPUs and 64GB RAM:
Timeout Had Memori Masa Jalan (7 VMs) Jumlah Masa Pemprosesan Peningkatan Masa Pemprosesan Fail Diproses Kadar Kejayaan Peningkatan Kejayaan 180s 4GB 65 minit 350 minit Garis dasar 2,875 / 3,073 93.56% Garis dasar 300s 8GB 79 minit 428 minit +23% 2,939 / 3,073 95.64% +2.08% 600s 12GB 96 minit 514 minit +47% 2,947 / 3,073 95.90% +2.34% 1200s 20GB 145 minit 689 minit +97% 2,952 / 3,073 96.06% +2.50% - Meningkatkan timeout dan memori menghasilkan kadar kejayaan yang lebih tinggi tetapi datang dengan kos masa jalan yang meningkat.
- Konfigurasi 300s / 8GB meningkatkan kejayaan sebanyak +2.08% berbanding 180s / 4GB, dengan peningkatan 23% dalam masa pemprosesan.
- Konfigurasi 600s / 12GB meningkatkan kejayaan sebanyak +2.34% berbanding 180s / 4GB, dengan peningkatan 47% dalam masa pemprosesan.
- Konfigurasi 1200s / 20GB memberikan hanya peningkatan kecil dalam fail yang diproses (+5 berbanding 600s).
- Konfigurasi optimum bergantung pada sama ada kelajuan atau kadar kejayaan pemprosesan menjadi keutamaan yang lebih tinggi. Konfigurasi 300s / 8GB menawarkan pilihan yang seimbang apabila sekurang-kurangnya 64GB RAM tersedia, membolehkan 8+ fail diproses secara selari sambil memberikan peningkatan kadar kejayaan yang kukuh (+2.08%) berbanding 180s / 4GB dan mengekalkan peningkatan masa pemprosesan yang munasabah sebanyak 23%, menjadikannya titik tengah yang cekap antara kelajuan dan kejayaan pemprosesan.
Pelesenan
Glasswall Conform merangkumi perisian PyMuPDF yang tersedia di bawah kedua-dua perjanjian lesen sumber terbuka AGPL dan lesen komersial melalui Artifex. Glasswall memegang perjanjian lesen pengedaran komersial bagi konteks Glasswall Conform.