मुख्य सामग्री पर जाएँ

विशेषताएँ, प्रतिबंध और सीमाएँ

विशेषताएँ

Glasswall Conform एक command-line tool है जिसे PDF दस्तावेज़ों के preprocessing के लिए डिज़ाइन किया गया है। यह दृश्य सामग्री को extract और reconstruct करता है ताकि दस्तावेज़ PDF standards को पूरा करें, और उन्हें Glasswall Embedded Engine द्वारा आगे की processing के लिए तैयार करता है, जो व्यापक Content Disarm and Reconstruction (CDR) सुरक्षा प्रदान करता है।

मुख्य विशेषताएँ:

  • पाठ, ग्राफ़िक और छवि निष्कर्षण: PDFs से पाठ, ग्राफ़िक्स और छवियों को extract और reconstruct करता है, जिससे एक स्वच्छ, standards-compliant output document तैयार होता है।
  • Handling Rate Threshold: ग्राफ़िक्स, छवियों या पाठ के लिए न्यूनतम handling rate सेट करने की अनुमति देता है। जो फ़ाइलें इस threshold को पूरा नहीं करतीं, उन्हें failure के रूप में वर्गीकृत किया जाता है और सहेजा नहीं जाएगा।
  • कस्टम वॉटरमार्किंग: reconstructed PDF के प्रत्येक पृष्ठ पर कस्टम watermark text जोड़ने का समर्थन करता है, जिससे personalised branding या messaging संभव होती है।
  • Character Identifier (CID) और Glyph Suppression: असमर्थित glyphs और character identifiers (CIDs) को suppress करता है, और उन्हें डिफ़ॉल्ट प्रश्नवाचक चिह्न (?) से बदल देता है।
  • फ़ॉन्ट प्रतिस्थापन: कस्टम एम्बेडेड फ़ॉन्ट्स को ज्ञात-सुरक्षित Microsoft फ़ॉन्ट्स में बदलता है या आवश्यकता होने पर Cambria Math को डिफ़ॉल्ट के रूप में उपयोग करता है। यह प्रक्रिया सर्वोत्तम संभव टेक्स्ट प्रदर्शन प्रदान करने का प्रयास करती है, भले ही कस्टम फ़ॉन्ट्स समर्थित न हों।
  • मानक अनुपालन: एक पुनर्निर्मित PDF तैयार करता है जो PDF मानकों का पालन करता है, जिससे पूर्ण Content Disarm and Reconstruction (CDR) सुरक्षा के लिए Glasswall Embedded Engine द्वारा बाद में CDR प्रोसेसिंग संभव होती है।
  • Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
    • सबसे तेज़ प्रोसेसिंग गति।
    • सर्वोत्तम दृश्य रूप।
    • कस्टम embedded fonts को प्रतिस्थापित नहीं किया जाता है।
    • उन परिदृश्यों के लिए उपयुक्त नहीं हो सकता जिनमें PDF standards के साथ बहुत सख्त अनुपालन आवश्यक हो।
  • Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
    • प्रोसेसिंग गति धीमी।
    • In a small number of cases, may result in reduced visual appearance, such as:
      • छवियाँ और ग्राफ़िक्स खराब गुणवत्ता वाले हो सकते हैं या अनुपस्थित हो सकते हैं।
      • टेक्स्ट के स्वरूप में अंतर (उदा. आकार, font style, या spacing)।
      • जब अज्ञात embedded fonts उपयोग में हों, तो टेक्स्ट गायब हो सकता है।
    • PDFs को specifications के साथ अधिक सख्त अनुपालन के साथ प्रोसेस करता है।
    • कस्टम embedded fonts को ज्ञात-सुरक्षित fonts से प्रतिस्थापित करता है।
    • केवल उन परिदृश्यों के लिए वांछनीय है जिनमें PDF standards के साथ बहुत सख्त अनुपालन आवश्यक हो, भले ही इसके लिए visual fidelity की कीमत चुकानी पड़े।
  • फ़ाइल समावेशन और बहिष्करण फ़िल्टरिंग: absolute paths या wildcard patterns का उपयोग करके यह निर्दिष्ट करें कि किन फ़ाइलों को प्रोसेस करना है या बाहर रखना है।
  • आउटपुट फ़ाइल वर्गीकरण: यह परिभाषित करता है कि आउटपुट फ़ाइलें कैसे व्यवस्थित की जाती हैं। categorised प्रोसेसिंग स्थिति (engine_success, conform_success, failure) के आधार पर आउटपुट फ़ाइलों को उपनिर्देशिकाओं में व्यवस्थित करता है। mirrored सफलतापूर्वक प्रोसेस की गई आउटपुट फ़ाइलों को सीधे आउटपुट निर्देशिका में रखता है, मूल input directory structure को बनाए रखते हुए, और विफल फ़ाइलों की प्रतिलिपि नहीं बनाई जाएगी।
  • पोस्ट-प्रोसेसिंग सारांश: प्रोसेसिंग परिणामों के बारे में विस्तृत जानकारी प्रदान करता है, जिसमें फ़ाइल स्थितियाँ, memory usage, और processing time शामिल हैं।
  • इन-मेमोरी प्रोसेसिंग: engine_memory और conform_only_memory मोड्स का समर्थन करता है, जिससे फ़ाइलों को standard input के माध्यम से base64-encoded input का उपयोग करके पूरी तरह मेमोरी में प्रोसेस किया जा सकता है, और base64-encoded output files को standard output के माध्यम से लौटाया जाता है। उन सिस्टम्स के साथ इंटीग्रेशन के लिए आदर्श जो disk-based I/O से बचते हैं।

सीमाएँ और प्रतिबंध

हालाँकि Glasswall Conform एक शक्तिशाली टूल है, कुछ सीमाएँ और प्रतिबंध हैं जिन पर विचार किया जाना चाहिए:

  • इमेज हैंडलिंग: कुछ इमेज colour spaces समर्थित नहीं हैं और उन्हें अनदेखा किया जा सकता है। इसके अतिरिक्त, इमेज प्रोसेसिंग compressed images को lossless format में बदल सकती है, जिससे फ़ाइल का आकार बढ़ सकता है।

  • फ़ॉन्ट हैंडलिंग: Glasswall Conform Base 14 और कई Microsoft fonts का समर्थन करता है, लेकिन संभावित जोखिमों को कम करने के लिए असमर्थित custom fonts को बदल दिया जाता है।

  • PDF संरचना: जिन PDFs में आवश्यक structural elements (उदा., root catalog, cross-reference tables) नहीं होते, वे पुनर्प्राप्त नहीं किए जा सकते।

  • मेमोरी उपयोग: कई इमेज वाली PDFs महत्वपूर्ण मात्रा में मेमोरी का उपभोग कर सकती हैं। यद्यपि इस टूल का परीक्षण 50 MB तक की फ़ाइलों के साथ किया गया है, बड़ी फ़ाइलों में performance issues हो सकते हैं।

  • कलर स्पेसेस: CalRGB colour space समर्थित नहीं है।

  • ग्राफ़िक्स हैंडलिंग: complex graphics, जैसे shapes, charts, और graphs, के लिए समर्थन सीमित है। यह संस्करण text integrity को प्राथमिकता देता है।

  • दस्तावेज़ रिकवरी: गंभीर रूप से corrupted PDFs या वे जिनमें structural elements गायब हैं, पुनर्प्राप्त नहीं किए जा सकते।

  • प्लेटफ़ॉर्म समर्थन: Glasswall Conform Windows और Linux दोनों के लिए उपलब्ध है। Windows के लिए हम एक .exe installer प्रदान करते हैं। Linux के लिए हम .rpm और .deb packages प्रदान करते हैं, जो Rocky 9, Rocky 8, Ubuntu 24, और Ubuntu 22 जैसी Linux distributions का समर्थन करते हैं।

  • Timeout और मेमोरी कॉन्फ़िगरेशन: निम्न तालिका हमारे निष्कर्ष प्रस्तुत करती है कि configurable timeout और memory settings, d16-v3 VMs पर चलाने पर, जहाँ प्रत्येक में 16 vCPUs and 64GB RAM है, समग्र processing success rate और total runtime को कैसे प्रभावित करती हैं:

    टाइमआउटमेमोरी सीमारनटाइम (7 VMs)कुल प्रोसेसिंग समयप्रोसेसिंग समय में वृद्धिप्रोसेस की गई फ़ाइलेंसफलता दरसफलता में वृद्धि
    180s4GB65 मिनट350 मिनटआधाररेखा2,875 / 3,07393.56%आधाररेखा
    300s8GB79 मिनट428 मिनट+23%2,939 / 3,07395.64%+2.08%
    600s12GB96 मिनट514 मिनट+47%2,947 / 3,07395.90%+2.34%
    1200s20GB145 मिनट689 मिनट+97%2,952 / 3,07396.06%+2.50%
    • timeout और memory बढ़ाने से सफलता दर अधिक होती है, लेकिन इसकी कीमत बढ़े हुए runtime के रूप में चुकानी पड़ती है।
    • 300s / 8GB configuration, 180s / 4GB की तुलना में +2.08% सफलता में सुधार करता है, साथ ही processing time में 23% वृद्धि होती है।
    • 600s / 12GB configuration, 180s / 4GB की तुलना में +2.34% सफलता में सुधार करता है, साथ ही processing time में 47% वृद्धि होती है।
    • 1200s / 20GB configuration processed files में केवल मामूली वृद्धि देता है (+5 over 600s)।
    • उत्तम configuration इस बात पर निर्भर करती है कि speed या processing success rate में से किसे अधिक प्राथमिकता दी जाती है। 300s / 8GB configuration एक संतुलित विकल्प प्रदान करता है जब कम से कम 64GB RAM उपलब्ध हो, जिससे 8+ files को parallel में process किया जा सकता है, साथ ही 180s / 4GB की तुलना में सफलता दर में मजबूत सुधार (+2.08%) मिलता है और processing time में उचित 23% वृद्धि बनी रहती है, जिससे यह speed और processing success के बीच एक प्रभावी मध्य मार्ग बनता है।

लाइसेंसिंग

Glasswall Conform में PyMuPDF software शामिल है, जो open-source AGPL और commercial license agreements, दोनों के अंतर्गत Artifex के माध्यम से उपलब्ध है। Glasswall के पास Glasswall Conform के संदर्भ में एक commercial distribution license agreement है।