Mga feature, constraint at limitasyon
Mga Tampok
Ang Glasswall Conform ay isang command-line tool na idinisenyo para sa preprocessing ng mga PDF document. Ini-extract at nire-reconstruct nito ang visual content upang matiyak na natutugunan ng mga document ang mga pamantayan ng PDF, inihahanda ang mga ito para sa karagdagang pagproseso ng Glasswall Embedded Engine, na nagbibigay ng komprehensibong Content Disarm and Reconstruction (CDR) na proteksyon.
Mga Pangunahing Feature:
- Pag-extract ng Text, Graphic, at Image: Ini-extract at nire-reconstruct ang text, graphics, at images mula sa mga PDF, na gumagawa ng malinis at sumusunod-sa-pamantayang output document.
- Threshold ng Handling Rate: Nagbibigay-daan sa pagtatakda ng minimum na handling rate para sa graphics, images, o text. Ang mga file na hindi nakakatugon sa threshold na ito ay ikinaklasipika bilang failure at hindi mase-save.
- Custom Watermarking: Sinusuportahan ang pagdaragdag ng custom na watermark text sa bawat pahina ng nire-reconstruct na PDF, na nagbibigay-daan sa personalized na branding o messaging.
- Character Identifier (CID) at Glyph Suppression: Sini-suppress ang mga hindi sinusuportahang glyph at character identifier (CIDs), at pinapalitan ang mga ito ng default na question mark character (?).
- Pagpapalit ng Font: Kino-convert ang mga custom na naka-embed na font sa mga kilalang ligtas na Microsoft font o nagde-default sa Cambria Math kapag kinakailangan. Layunin ng prosesong ito na maibigay ang pinakamahusay na posibleng pagpapakita ng teksto, kahit na hindi suportado ang mga custom na font.
- Pagsunod sa mga Pamantayan: Gumagawa ng reconstructed PDF na sumusunod sa mga pamantayan ng PDF, na nagbibigay-daan sa kasunod na pagproseso ng CDR ng Glasswall Embedded Engine para sa ganap na proteksyon ng Content Disarm and Reconstruction (CDR).
- Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
- Pinakamabilis na bilis ng pagproseso.
- Pinakamagandang biswal na anyo.
- Hindi pinapalitan ang mga custom na naka-embed na font.
- Maaaring hindi angkop para sa mga sitwasyong nangangailangan ng napakahigpit na pagsunod sa mga pamantayan ng PDF.
- Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
- Mas mabagal na bilis ng pagproseso.
- In a small number of cases, may result in reduced visual appearance, such as:
- Sirâ o nawawalang mga larawan at graphics.
- Mga pagkakaiba sa hitsura ng teksto (hal. laki, istilo ng font, o pagitan).
- Nawawalang teksto kapag ginagamit ang mga hindi kilalang naka-embed na font.
- Nagpoproseso ng mga PDF nang may mas mahigpit na pagsunod sa mga espesipikasyon.
- Pinapalitan ang mga custom na naka-embed na font ng mga kilalang ligtas na font.
- Mas mainam lamang para sa mga sitwasyong nangangailangan ng napakahigpit na pagsunod sa mga pamantayan ng PDF, kahit kapalit nito ang biswal na katapatan.
- Pag-filter ng Pagsasama at Pagbubukod ng File: Tukuyin kung aling mga file ang poprosesuhin o ibubukod gamit ang absolute paths o wildcard patterns.
- Kategoryalisasyon ng Output File: Tinutukoy kung paano inaayos ang mga output file.
categorisedinaayos ang mga output file sa mga subdirectory batay sa status ng pagproseso (engine_success,conform_success,failure).mirroredinilalagay ang matagumpay na naprosesong mga output file nang direkta sa output directory, habang pinananatili ang orihinal na istruktura ng input directory, at ang mga nabigong file ay hindi kokopyahin. - Buod Pagkatapos ng Pagproseso: Nagbibigay ng detalyadong impormasyon tungkol sa mga resulta ng pagproseso, kabilang ang mga status ng file, paggamit ng memorya, at oras ng pagproseso.
- In-Memory Processing: Sinusuportahan ang mga mode na
engine_memoryatconform_only_memory, na nagbibigay-daan para maproseso ang mga file nang buo sa memory gamit ang base64-encoded na input sa pamamagitan ng standard input, at ibalik ang mga base64-encoded na output file sa pamamagitan ng standard output. Mainam para sa integrasyon sa mga system na umiiwas sa disk-based I/O.
Mga constraint at limitasyon
Bagama't ang Glasswall Conform ay isang makapangyarihang tool, may ilang constraint at limitasyon na dapat isaalang-alang:
-
Image Handling: May ilang image colour space na hindi sinusuportahan at maaaring hindi pansinin. Bukod dito, maaaring i-convert ng image processing ang mga compressed na image sa lossless na format, na maaaring magpalaki ng laki ng file.
-
Font Handling: Sinusuportahan ng Glasswall Conform ang Base 14 at maraming Microsoft font, ngunit pinapalitan ang mga hindi sinusuportahang custom font upang mabawasan ang mga posibleng panganib.
-
PDF Structure: Ang mga PDF na kulang sa mahahalagang structural element (hal., root catalog, cross-reference tables) ay maaaring hindi na marekober.
-
Memory Usage: Ang mga PDF na may maraming image ay maaaring gumamit ng malaking memory. Bagama't nasubukan ang tool sa mga file na hanggang 50 MB, maaaring makaranas ng mga isyu sa performance ang mas malalaking file.
-
Color Spaces: Hindi sinusuportahan ang CalRGB colour space.
-
Graphics Handling: Limitado ang suporta para sa mga kumplikadong graphic, gaya ng mga shape, chart, at graph. Inuuna ng bersyong ito ang integridad ng teksto.
-
Document Recovery: Ang mga PDF na malubhang sira o yaong may nawawalang mga structural element ay maaaring hindi na marekober.
-
Platform Support: Available ang Glasswall Conform para sa parehong Windows at Linux. Para sa Windows, nagbibigay kami ng
.exeinstaller. Para sa Linux, nagbibigay kami ng mga package na.rpmat.debna sumusuporta sa mga Linux distribution gaya ng Rocky 9, Rocky 8, Ubuntu 24, at Ubuntu 22. -
Timeout and Memory Configuration: Ipinapakita ng sumusunod na talahanayan ang aming mga natuklasan kung paano naaapektuhan ng nako-configure na timeout at mga setting ng memory ang pangkalahatang success rate ng pagproseso at kabuuang runtime kapag tumatakbo sa d16-v3 VMs, na bawat isa ay may 16 vCPUs and 64GB RAM:
Timeout Memory Limit Runtime (7 VMs) Kabuuang Oras ng Pagproseso Pagtaas ng Oras ng Pagproseso Mga Naprosesong File Antas ng Tagumpay Pagtaas ng Tagumpay 180s 4GB 65 minuto 350 minuto Baseline 2,875 / 3,073 93.56% Baseline 300s 8GB 79 minuto 428 minuto +23% 2,939 / 3,073 95.64% +2.08% 600s 12GB 96 minuto 514 minuto +47% 2,947 / 3,073 95.90% +2.34% 1200s 20GB 145 minuto 689 minuto +97% 2,952 / 3,073 96.06% +2.50% - Ang pagtaas ng timeout at memory ay nagreresulta sa mas mataas na success rate ngunit may kapalit na mas mahabang runtime.
- Ang 300s / 8GB configuration ay nagpapahusay ng success nang +2.08% kumpara sa 180s / 4GB, na may 23% pagtaas sa oras ng pagproseso.
- Ang 600s / 12GB configuration ay nagpapahusay ng success nang +2.34% kumpara sa 180s / 4GB, na may 47% pagtaas sa oras ng pagproseso.
- Ang 1200s / 20GB configuration ay nagbibigay ng maliit lamang na pagtaas sa mga naprosesong file (+5 kumpara sa 600s).
- Ang pinakamainam na configuration ay nakadepende sa kung alin ang mas mataas na prayoridad: bilis o success rate ng pagproseso. Ang 300s / 8GB configuration ay nag-aalok ng balanseng pagpipilian kapag may hindi bababa sa 64GB RAM na available, na nagbibigay-daan sa 8+ file na maproseso nang sabay-sabay habang naghahatid ng malakas na pagbuti sa success rate (+2.08%) kumpara sa 180s / 4GB at pinananatili ang makatwirang 23% pagtaas sa oras ng pagproseso, kaya ito ay isang episyenteng gitnang opsyon sa pagitan ng bilis at tagumpay ng pagproseso.
Paglilisensya
Kasama sa Glasswall Conform ang PyMuPDF software na available sa ilalim ng parehong open-source na AGPL at mga komersyal na kasunduan sa lisensya sa pamamagitan ng Artifex. May hawak ang Glasswall ng komersyal na kasunduan sa lisensya para sa distribusyon sa konteksto ng Glasswall Conform.