ฟีเจอร์ ข้อกำหนด และข้อจำกัด
คุณสมบัติ
Glasswall Conform เป็นเครื่องมือบรรทัดคำสั่งที่ออกแบบมาสำหรับการประมวลผลเอกสาร PDF ล่วงหน้า โดยจะดึงและสร้างเนื้อหาภาพขึ้นใหม่เพื่อให้แน่ใจว่าเอกสารเป็นไปตามมาตรฐาน PDF และเตรียมพร้อมสำหรับการประมวลผลเพิ่มเติมโดย Glasswall Embedded Engine ซึ่งให้การป้องกัน Content Disarm and Reconstruction (CDR) อย่างครอบคลุม
คุณสมบัติหลัก:
- การดึงข้อความ กราฟิก และรูปภาพ: ดึงและสร้างข้อความ กราฟิก และรูปภาพจาก PDF ขึ้นใหม่ เพื่อสร้างเอกสารผลลัพธ์ที่สะอาดและเป็นไปตามมาตรฐาน
- เกณฑ์อัตราการจัดการ: อนุญาตให้ตั้งค่าอัตราการจัดการขั้นต่ำสำหรับกราฟิก รูปภาพ หรือข้อความ ไฟล์ที่ไม่ผ่านเกณฑ์นี้จะถูกจัดประเภทว่าไม่สำเร็จและจะไม่ถูกบันทึก
- การใส่ลายน้ำแบบกำหนดเอง: รองรับการเพิ่มข้อความลายน้ำแบบกำหนดเองในแต่ละหน้าของ PDF ที่สร้างขึ้นใหม่ ช่วยให้สามารถใส่แบรนด์หรือข้อความเฉพาะบุคคลได้
- การระงับ Character Identifier (CID) และ Glyph: ระงับ glyph และ character identifier (CID) ที่ไม่รองรับ โดยแทนที่ด้วยอักขระเครื่องหมายคำถามเริ่มต้น (?)
- การแทนที่แบบอักษร: แปลงแบบอักษรฝังตัวแบบกำหนดเองเป็นแบบอักษร Microsoft ที่เชื่อถือได้ หรือใช้ค่าเริ่มต้นเป็น Cambria Math เมื่อจำเป็น กระบวนการนี้มีเป้าหมายเพื่อให้การแสดงผลข้อความดีที่สุดเท่าที่เป็นไปได้ แม้ในกรณีที่ไม่รองรับแบบอักษรแบบกำหนดเอง
- การปฏิบัติตามมาตรฐาน: สร้าง PDF ที่สร้างใหม่ซึ่งเป็นไปตามมาตรฐาน PDF เพื่อให้สามารถประมวลผล CDR ต่อโดย Glasswall Embedded Engine สำหรับการป้องกัน Content Disarm and Reconstruction (CDR) อย่างครบถ้วน
- Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
- ความเร็วในการประมวลผลสูงสุด
- ลักษณะการแสดงผลดีที่สุด
- ไม่มีการแทนที่แบบอักษรฝังตัวแบบกำหนดเอง
- อาจไม่เหมาะสำหรับสถานการณ์ที่ต้องการการปฏิบัติตามมาตรฐาน PDF อย่างเข้มงวดมาก
- Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
- ความเร็วในการประมวลผลช้าลง
- In a small number of cases, may result in reduced visual appearance, such as:
- รูปภาพและกราฟิกเสื่อมคุณภาพหรือหายไป
- ความแตกต่างของลักษณะข้อความ (เช่น ขนาด รูปแบบแบบอักษร หรือระยะห่าง)
- ข้อความหายไปเมื่อมีการใช้แบบอักษรฝังตัวที่ไม่รู้จัก
- ประมวลผล PDF โดยปฏิบัติตามข้อกำหนดอย่างเข้มงวดมากขึ้น
- แทนที่แบบอักษรฝังตัวแบบกำหนดเองด้วยแบบอักษรที่เชื่อถือได้
- เหมาะสำหรับสถานการณ์ที่ต้องการการปฏิบัติตามมาตรฐาน PDF อย่างเข้มงวดมากเท่านั้น แม้ต้องแลกกับความเที่ยงตรงของภาพลักษณ์การแสดงผล
- การกรองการรวมและการยกเว้นไฟล์: ระบุไฟล์ที่จะประมวลผลหรือยกเว้นโดยใช้พาธแบบสัมบูรณ์หรือรูปแบบไวลด์การ์ด
- การจัดหมวดหมู่ไฟล์ผลลัพธ์: กำหนดวิธีจัดระเบียบไฟล์ผลลัพธ์
categorisedจะจัดไฟล์ผลลัพธ์ลงในไดเรกทอรีย่อยตามสถานะการประมวลผล (engine_success,conform_success,failure)mirroredจะวางไฟล์ผลลัพธ์ที่ประมวลผลสำเร็จไว้ในไดเรกทอรีผลลัพธ์โดยตรง พร้อมคงโครงสร้างไดเรกทอรีอินพุตเดิมไว้ และไฟล์ที่ล้มเหลวจะไม่ถูกคัดลอก - สรุปหลังการประมวลผล: ให้ข้อมูลโดยละเอียดเกี่ยวกับผลลัพธ์การประมวลผล รวมถึงสถานะไฟล์ การใช้หน่วยความจำ และเวลาในการประมวลผล
- การประมวลผลในหน่วยความจำ: รองรับโหมด
engine_memoryและconform_only_memoryซึ่งช่วยให้ประมวลผลไฟล์ทั้งหมดในหน่วยความจำได้โดยใช้อินพุตที่เข้ารหัสแบบ base64 ผ่าน standard input และส่งคืนไฟล์เอาต์พุตที่เข้ารหัสแบบ base64 ผ่าน standard output เหมาะอย่างยิ่งสำหรับการผสานรวมกับระบบที่หลีกเลี่ยง disk-based I/O
ข้อจำกัดและข้อพึงระวัง
แม้ว่า Glasswall Conform จะเป็นเครื่องมือที่ทรงพลัง แต่ก็ควรพิจารณาข้อจำกัดและข้อพึงระวังบางประการดังต่อไปนี้:
-
การจัดการรูปภาพ: ไม่รองรับ image colour space บางประเภทและอาจถูกละเว้น นอกจากนี้ การประมวลผลรูปภาพอาจแปลงรูปภาพที่ถูกบีบอัดให้เป็นรูปแบบไม่สูญเสียข้อมูล ซึ่งอาจทำให้ขนาดไฟล์เพิ่มขึ้น
-
การจัดการฟอนต์: Glasswall Conform รองรับ Base 14 และฟอนต์ Microsoft จำนวนมาก แต่ฟอนต์กำหนดเองที่ไม่รองรับจะถูกแทนที่เพื่อลดความเสี่ยงที่อาจเกิดขึ้น
-
โครงสร้าง PDF: PDF ที่ไม่มีองค์ประกอบโครงสร้างสำคัญ (เช่น root catalog, cross-reference tables) อาจไม่สามารถกู้คืนได้
-
การใช้หน่วยความจำ: PDF ที่มีรูปภาพจำนวนมากอาจใช้หน่วยความจำอย่างมาก แม้ว่าเครื่องมือนี้จะได้รับการทดสอบกับไฟล์ขนาดสูงสุด 50 MB แล้ว แต่ไฟล์ที่ใหญ่กว่านี้อาจประสบปัญหาด้านประสิทธิภาพ
-
Color Spaces: ไม่รองรับ colour space แบบ CalRGB
-
การจัดการกราฟิก: การรองรับกราฟิกที่ซับซ้อน เช่น รูปร่าง แผนภูมิ และกราฟ มีข้อจำกัด เวอร์ชันนี้ให้ความสำคัญกับความสมบูรณ์ของข้อความเป็นหลัก
-
การกู้คืนเอกสาร: PDF ที่เสียหายอย่างรุนแรงหรือมีองค์ประกอบโครงสร้างที่ขาดหายไปอาจไม่สามารถกู้คืนได้
-
การรองรับแพลตฟอร์ม: Glasswall Conform พร้อมใช้งานสำหรับทั้ง Windows และ Linux สำหรับ Windows เรามีตัวติดตั้ง
.exeสำหรับ Linux เรามีแพ็กเกจ.rpmและ.debซึ่งรองรับ Linux distributions เช่น Rocky 9, Rocky 8, Ubuntu 24 และ Ubuntu 22 -
การกำหนดค่า Timeout และหน่วยความจำ: ตารางต่อไปนี้แสดงผลการค้นพบของเราเกี่ยวกับผลกระทบของการตั้งค่า timeout และหน่วยความจำที่ปรับแต่งได้ต่ออัตราความสำเร็จโดยรวมของการประมวลผลและเวลารันรวม เมื่อทำงานบน d16-v3 VMs ซึ่งแต่ละเครื่องมี 16 vCPUs and 64GB RAM:
หมดเวลา ขีดจำกัดหน่วยความจำ เวลารัน (7 VMs) เวลาประมวลผลรวม เวลาการประมวลผลที่เพิ่มขึ้น ไฟล์ที่ประมวลผล อัตราความสำเร็จ การเพิ่มขึ้นของความสำเร็จ 180s 4GB 65 นาที 350 นาที ค่าพื้นฐาน 2,875 / 3,073 93.56% ค่าพื้นฐาน 300s 8GB 79 นาที 428 นาที +23% 2,939 / 3,073 95.64% +2.08% 600s 12GB 96 นาที 514 นาที +47% 2,947 / 3,073 95.90% +2.34% 1200s 20GB 145 นาที 689 นาที +97% 2,952 / 3,073 96.06% +2.50% - การเพิ่ม timeout และหน่วยความจำส่งผลให้มีอัตราความสำเร็จสูงขึ้น แต่ต้องแลกกับระยะเวลาการทำงานที่เพิ่มขึ้น
- การกำหนดค่า 300s / 8GB ช่วยเพิ่มความสำเร็จขึ้น +2.08% เมื่อเทียบกับ 180s / 4GB โดยมีเวลาในการประมวลผลเพิ่มขึ้น 23%
- การกำหนดค่า 600s / 12GB ช่วยเพิ่มความสำเร็จขึ้น +2.34% เมื่อเทียบกับ 180s / 4GB โดยมีเวลาในการประมวลผลเพิ่มขึ้น 47%
- การกำหนดค่า 1200s / 20GB ให้การเพิ่มขึ้นเพียงเล็กน้อยในจำนวนไฟล์ที่ประมวลผลได้ (+5 เมื่อเทียบกับ 600s)
- การกำหนดค่าที่เหมาะสมที่สุดขึ้นอยู่กับว่าสิ่งใดมีความสำคัญมากกว่าระหว่างความเร็วหรืออัตราความสำเร็จในการประมวลผล การกำหนดค่า 300s / 8GB เป็นตัวเลือกที่สมดุลอย่างดีเมื่อมี RAM 64GB เป็นอย่างน้อย ซึ่งช่วยให้สามารถประมวลผลไฟล์แบบขนานได้มากกว่า 8 ไฟล์ พร้อมทั้งให้อัตราความสำเร็จที่ดีขึ้นอย่างชัดเจน (+2.08% เมื่อเทียบกับ 180s / 4GB) และยังคงรักษาการเพิ่มขึ้นของเวลาในการประมวลผลที่สมเหตุสมผลที่ 23% ทำให้เป็นจุดกึ่งกลางที่มีประสิทธิภาพระหว่างความเร็วและความสำเร็จในการประมวลผล
การให้สิทธิ์การใช้งาน
Glasswall Conform มีซอฟต์แวร์ PyMuPDF ซึ่งพร้อมใช้งานภายใต้ทั้งข้อตกลงสิทธิ์การใช้งานแบบโอเพนซอร์ส AGPL และแบบเชิงพาณิชย์ผ่าน Artifex Glasswall ถือข้อตกลงสิทธิ์การใช้งานการเผยแพร่แบบเชิงพาณิชย์สำหรับบริบทของ Glasswall Conform