ข้ามไปยังเนื้อหาหลัก

ฟีเจอร์ ข้อกำหนด และข้อจำกัด

คุณสมบัติ

Glasswall Conform เป็นเครื่องมือบรรทัดคำสั่งที่ออกแบบมาสำหรับการประมวลผลเอกสาร PDF ล่วงหน้า โดยจะดึงและสร้างเนื้อหาภาพขึ้นใหม่เพื่อให้แน่ใจว่าเอกสารเป็นไปตามมาตรฐาน PDF และเตรียมพร้อมสำหรับการประมวลผลเพิ่มเติมโดย Glasswall Embedded Engine ซึ่งให้การป้องกัน Content Disarm and Reconstruction (CDR) อย่างครอบคลุม

คุณสมบัติหลัก:

  • การดึงข้อความ กราฟิก และรูปภาพ: ดึงและสร้างข้อความ กราฟิก และรูปภาพจาก PDF ขึ้นใหม่ เพื่อสร้างเอกสารผลลัพธ์ที่สะอาดและเป็นไปตามมาตรฐาน
  • เกณฑ์อัตราการจัดการ: อนุญาตให้ตั้งค่าอัตราการจัดการขั้นต่ำสำหรับกราฟิก รูปภาพ หรือข้อความ ไฟล์ที่ไม่ผ่านเกณฑ์นี้จะถูกจัดประเภทว่าไม่สำเร็จและจะไม่ถูกบันทึก
  • การใส่ลายน้ำแบบกำหนดเอง: รองรับการเพิ่มข้อความลายน้ำแบบกำหนดเองในแต่ละหน้าของ PDF ที่สร้างขึ้นใหม่ ช่วยให้สามารถใส่แบรนด์หรือข้อความเฉพาะบุคคลได้
  • การระงับ Character Identifier (CID) และ Glyph: ระงับ glyph และ character identifier (CID) ที่ไม่รองรับ โดยแทนที่ด้วยอักขระเครื่องหมายคำถามเริ่มต้น (?)
  • การแทนที่แบบอักษร: แปลงแบบอักษรฝังตัวแบบกำหนดเองเป็นแบบอักษร Microsoft ที่เชื่อถือได้ หรือใช้ค่าเริ่มต้นเป็น Cambria Math เมื่อจำเป็น กระบวนการนี้มีเป้าหมายเพื่อให้การแสดงผลข้อความดีที่สุดเท่าที่เป็นไปได้ แม้ในกรณีที่ไม่รองรับแบบอักษรแบบกำหนดเอง
  • การปฏิบัติตามมาตรฐาน: สร้าง PDF ที่สร้างใหม่ซึ่งเป็นไปตามมาตรฐาน PDF เพื่อให้สามารถประมวลผล CDR ต่อโดย Glasswall Embedded Engine สำหรับการป้องกัน Content Disarm and Reconstruction (CDR) อย่างครบถ้วน
  • Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
    • ความเร็วในการประมวลผลสูงสุด
    • ลักษณะการแสดงผลดีที่สุด
    • ไม่มีการแทนที่แบบอักษรฝังตัวแบบกำหนดเอง
    • อาจไม่เหมาะสำหรับสถานการณ์ที่ต้องการการปฏิบัติตามมาตรฐาน PDF อย่างเข้มงวดมาก
  • Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
    • ความเร็วในการประมวลผลช้าลง
    • In a small number of cases, may result in reduced visual appearance, such as:
      • รูปภาพและกราฟิกเสื่อมคุณภาพหรือหายไป
      • ความแตกต่างของลักษณะข้อความ (เช่น ขนาด รูปแบบแบบอักษร หรือระยะห่าง)
      • ข้อความหายไปเมื่อมีการใช้แบบอักษรฝังตัวที่ไม่รู้จัก
    • ประมวลผล PDF โดยปฏิบัติตามข้อกำหนดอย่างเข้มงวดมากขึ้น
    • แทนที่แบบอักษรฝังตัวแบบกำหนดเองด้วยแบบอักษรที่เชื่อถือได้
    • เหมาะสำหรับสถานการณ์ที่ต้องการการปฏิบัติตามมาตรฐาน PDF อย่างเข้มงวดมากเท่านั้น แม้ต้องแลกกับความเที่ยงตรงของภาพลักษณ์การแสดงผล
  • การกรองการรวมและการยกเว้นไฟล์: ระบุไฟล์ที่จะประมวลผลหรือยกเว้นโดยใช้พาธแบบสัมบูรณ์หรือรูปแบบไวลด์การ์ด
  • การจัดหมวดหมู่ไฟล์ผลลัพธ์: กำหนดวิธีจัดระเบียบไฟล์ผลลัพธ์ categorised จะจัดไฟล์ผลลัพธ์ลงในไดเรกทอรีย่อยตามสถานะการประมวลผล (engine_success, conform_success, failure) mirrored จะวางไฟล์ผลลัพธ์ที่ประมวลผลสำเร็จไว้ในไดเรกทอรีผลลัพธ์โดยตรง พร้อมคงโครงสร้างไดเรกทอรีอินพุตเดิมไว้ และไฟล์ที่ล้มเหลวจะไม่ถูกคัดลอก
  • สรุปหลังการประมวลผล: ให้ข้อมูลโดยละเอียดเกี่ยวกับผลลัพธ์การประมวลผล รวมถึงสถานะไฟล์ การใช้หน่วยความจำ และเวลาในการประมวลผล
  • การประมวลผลในหน่วยความจำ: รองรับโหมด engine_memory และ conform_only_memory ซึ่งช่วยให้ประมวลผลไฟล์ทั้งหมดในหน่วยความจำได้โดยใช้อินพุตที่เข้ารหัสแบบ base64 ผ่าน standard input และส่งคืนไฟล์เอาต์พุตที่เข้ารหัสแบบ base64 ผ่าน standard output เหมาะอย่างยิ่งสำหรับการผสานรวมกับระบบที่หลีกเลี่ยง disk-based I/O

ข้อจำกัดและข้อพึงระวัง

แม้ว่า Glasswall Conform จะเป็นเครื่องมือที่ทรงพลัง แต่ก็ควรพิจารณาข้อจำกัดและข้อพึงระวังบางประการดังต่อไปนี้:

  • การจัดการรูปภาพ: ไม่รองรับ image colour space บางประเภทและอาจถูกละเว้น นอกจากนี้ การประมวลผลรูปภาพอาจแปลงรูปภาพที่ถูกบีบอัดให้เป็นรูปแบบไม่สูญเสียข้อมูล ซึ่งอาจทำให้ขนาดไฟล์เพิ่มขึ้น

  • การจัดการฟอนต์: Glasswall Conform รองรับ Base 14 และฟอนต์ Microsoft จำนวนมาก แต่ฟอนต์กำหนดเองที่ไม่รองรับจะถูกแทนที่เพื่อลดความเสี่ยงที่อาจเกิดขึ้น

  • โครงสร้าง PDF: PDF ที่ไม่มีองค์ประกอบโครงสร้างสำคัญ (เช่น root catalog, cross-reference tables) อาจไม่สามารถกู้คืนได้

  • การใช้หน่วยความจำ: PDF ที่มีรูปภาพจำนวนมากอาจใช้หน่วยความจำอย่างมาก แม้ว่าเครื่องมือนี้จะได้รับการทดสอบกับไฟล์ขนาดสูงสุด 50 MB แล้ว แต่ไฟล์ที่ใหญ่กว่านี้อาจประสบปัญหาด้านประสิทธิภาพ

  • Color Spaces: ไม่รองรับ colour space แบบ CalRGB

  • การจัดการกราฟิก: การรองรับกราฟิกที่ซับซ้อน เช่น รูปร่าง แผนภูมิ และกราฟ มีข้อจำกัด เวอร์ชันนี้ให้ความสำคัญกับความสมบูรณ์ของข้อความเป็นหลัก

  • การกู้คืนเอกสาร: PDF ที่เสียหายอย่างรุนแรงหรือมีองค์ประกอบโครงสร้างที่ขาดหายไปอาจไม่สามารถกู้คืนได้

  • การรองรับแพลตฟอร์ม: Glasswall Conform พร้อมใช้งานสำหรับทั้ง Windows และ Linux สำหรับ Windows เรามีตัวติดตั้ง .exe สำหรับ Linux เรามีแพ็กเกจ .rpm และ .deb ซึ่งรองรับ Linux distributions เช่น Rocky 9, Rocky 8, Ubuntu 24 และ Ubuntu 22

  • การกำหนดค่า Timeout และหน่วยความจำ: ตารางต่อไปนี้แสดงผลการค้นพบของเราเกี่ยวกับผลกระทบของการตั้งค่า timeout และหน่วยความจำที่ปรับแต่งได้ต่ออัตราความสำเร็จโดยรวมของการประมวลผลและเวลารันรวม เมื่อทำงานบน d16-v3 VMs ซึ่งแต่ละเครื่องมี 16 vCPUs and 64GB RAM:

    หมดเวลาขีดจำกัดหน่วยความจำเวลารัน (7 VMs)เวลาประมวลผลรวมเวลาการประมวลผลที่เพิ่มขึ้นไฟล์ที่ประมวลผลอัตราความสำเร็จการเพิ่มขึ้นของความสำเร็จ
    180s4GB65 นาที350 นาทีค่าพื้นฐาน2,875 / 3,07393.56%ค่าพื้นฐาน
    300s8GB79 นาที428 นาที+23%2,939 / 3,07395.64%+2.08%
    600s12GB96 นาที514 นาที+47%2,947 / 3,07395.90%+2.34%
    1200s20GB145 นาที689 นาที+97%2,952 / 3,07396.06%+2.50%
    • การเพิ่ม timeout และหน่วยความจำส่งผลให้มีอัตราความสำเร็จสูงขึ้น แต่ต้องแลกกับระยะเวลาการทำงานที่เพิ่มขึ้น
    • การกำหนดค่า 300s / 8GB ช่วยเพิ่มความสำเร็จขึ้น +2.08% เมื่อเทียบกับ 180s / 4GB โดยมีเวลาในการประมวลผลเพิ่มขึ้น 23%
    • การกำหนดค่า 600s / 12GB ช่วยเพิ่มความสำเร็จขึ้น +2.34% เมื่อเทียบกับ 180s / 4GB โดยมีเวลาในการประมวลผลเพิ่มขึ้น 47%
    • การกำหนดค่า 1200s / 20GB ให้การเพิ่มขึ้นเพียงเล็กน้อยในจำนวนไฟล์ที่ประมวลผลได้ (+5 เมื่อเทียบกับ 600s)
    • การกำหนดค่าที่เหมาะสมที่สุดขึ้นอยู่กับว่าสิ่งใดมีความสำคัญมากกว่าระหว่างความเร็วหรืออัตราความสำเร็จในการประมวลผล การกำหนดค่า 300s / 8GB เป็นตัวเลือกที่สมดุลอย่างดีเมื่อมี RAM 64GB เป็นอย่างน้อย ซึ่งช่วยให้สามารถประมวลผลไฟล์แบบขนานได้มากกว่า 8 ไฟล์ พร้อมทั้งให้อัตราความสำเร็จที่ดีขึ้นอย่างชัดเจน (+2.08% เมื่อเทียบกับ 180s / 4GB) และยังคงรักษาการเพิ่มขึ้นของเวลาในการประมวลผลที่สมเหตุสมผลที่ 23% ทำให้เป็นจุดกึ่งกลางที่มีประสิทธิภาพระหว่างความเร็วและความสำเร็จในการประมวลผล

การให้สิทธิ์การใช้งาน

Glasswall Conform มีซอฟต์แวร์ PyMuPDF ซึ่งพร้อมใช้งานภายใต้ทั้งข้อตกลงสิทธิ์การใช้งานแบบโอเพนซอร์ส AGPL และแบบเชิงพาณิชย์ผ่าน Artifex Glasswall ถือข้อตกลงสิทธิ์การใช้งานการเผยแพร่แบบเชิงพาณิชย์สำหรับบริบทของ Glasswall Conform