Chuyển đến nội dung chính

Tính năng, ràng buộc và giới hạn

Tính năng

Glasswall Conform là một công cụ dòng lệnh được thiết kế để tiền xử lý tài liệu PDF. Công cụ này trích xuất và tái tạo nội dung trực quan để bảo đảm tài liệu đáp ứng các tiêu chuẩn PDF, chuẩn bị cho quá trình xử lý tiếp theo bởi Glasswall Embedded Engine, vốn cung cấp khả năng bảo vệ Content Disarm and Reconstruction (CDR) toàn diện.

Các tính năng chính:

  • Trích xuất văn bản, đồ họa và hình ảnh: Trích xuất và tái tạo văn bản, đồ họa và hình ảnh từ PDF, tạo ra tài liệu đầu ra sạch và tuân thủ tiêu chuẩn.
  • Ngưỡng tỷ lệ xử lý: Cho phép thiết lập tỷ lệ xử lý tối thiểu cho đồ họa, hình ảnh hoặc văn bản. Các tệp không đạt ngưỡng này sẽ được phân loại là thất bại và sẽ không được lưu.
  • Đóng dấu chìm tùy chỉnh: Hỗ trợ thêm văn bản dấu chìm tùy chỉnh trên mỗi trang của PDF đã được tái tạo, cho phép cá nhân hóa thương hiệu hoặc thông điệp.
  • Ẩn Character Identifier (CID) và glyph: Ẩn các glyph và mã định danh ký tự (CID) không được hỗ trợ, thay thế chúng bằng ký tự dấu hỏi mặc định (?).
  • Thay thế phông chữ: Chuyển đổi các phông chữ nhúng tùy chỉnh thành các phông chữ Microsoft an toàn đã biết hoặc mặc định sang Cambria Math khi cần. Quy trình này nhằm mang lại khả năng hiển thị văn bản tốt nhất có thể, ngay cả khi các phông chữ tùy chỉnh không được hỗ trợ.
  • Tuân thủ tiêu chuẩn: Tạo ra một PDF được tái cấu trúc tuân thủ các tiêu chuẩn PDF, cho phép xử lý CDR tiếp theo bởi Glasswall Embedded Engine để có khả năng bảo vệ Content Disarm and Reconstruction (CDR) đầy đủ.
  • Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
    • Tốc độ xử lý nhanh nhất.
    • Hiển thị trực quan tốt nhất.
    • Các phông chữ nhúng tùy chỉnh không được thay thế.
    • Có thể không phù hợp với các trường hợp yêu cầu tuân thủ rất nghiêm ngặt các tiêu chuẩn PDF.
  • Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
    • Tốc độ xử lý chậm hơn.
    • In a small number of cases, may result in reduced visual appearance, such as:
      • Hình ảnh và đồ họa bị suy giảm chất lượng hoặc bị thiếu.
      • Có sự khác biệt về hình thức hiển thị văn bản (ví dụ: kích thước, kiểu phông chữ hoặc khoảng cách).
      • Thiếu văn bản khi đang sử dụng các phông chữ nhúng không xác định.
    • Xử lý PDF với mức độ tuân thủ đặc tả nghiêm ngặt hơn.
    • Thay thế các phông chữ nhúng tùy chỉnh bằng các phông chữ an toàn đã biết.
    • Chỉ nên ưu tiên cho các trường hợp yêu cầu tuân thủ rất nghiêm ngặt các tiêu chuẩn PDF, ngay cả khi phải đánh đổi độ trung thực hiển thị.
  • Lọc bao gồm và loại trừ tệp: Chỉ định những tệp cần xử lý hoặc loại trừ bằng đường dẫn tuyệt đối hoặc mẫu ký tự đại diện.
  • Phân loại tệp đầu ra: Xác định cách tổ chức các tệp đầu ra. categorised sắp xếp các tệp đầu ra vào các thư mục con dựa trên trạng thái xử lý (engine_success, conform_success, failure). mirrored đặt các tệp đầu ra được xử lý thành công trực tiếp trong thư mục đầu ra, đồng thời giữ nguyên cấu trúc thư mục đầu vào ban đầu, và các tệp thất bại sẽ không được sao chép.
  • Tóm tắt sau xử lý: Cung cấp thông tin chi tiết về kết quả xử lý, bao gồm trạng thái tệp, mức sử dụng bộ nhớ và thời gian xử lý.
  • Xử lý trong bộ nhớ: Hỗ trợ các chế độ engine_memoryconform_only_memory, cho phép xử lý tệp hoàn toàn trong bộ nhớ bằng dữ liệu đầu vào mã hóa base64 qua đầu vào tiêu chuẩn, và trả về các tệp đầu ra mã hóa base64 qua đầu ra tiêu chuẩn. Lý tưởng để tích hợp với các hệ thống tránh I/O dựa trên đĩa.

Các ràng buộc và giới hạn

Mặc dù Glasswall Conform là một công cụ mạnh mẽ, vẫn có một số ràng buộc và giới hạn cần được cân nhắc:

  • Xử lý hình ảnh: Một số không gian màu hình ảnh không được hỗ trợ và có thể bị bỏ qua. Ngoài ra, quá trình xử lý hình ảnh có thể chuyển đổi hình ảnh nén sang định dạng không mất dữ liệu, điều này có thể làm tăng kích thước tệp.

  • Xử lý phông chữ: Glasswall Conform hỗ trợ Base 14 và nhiều phông chữ Microsoft, nhưng các phông chữ tùy chỉnh không được hỗ trợ sẽ được thay thế để giảm thiểu rủi ro tiềm ẩn.

  • Cấu trúc PDF: Các tệp PDF thiếu những thành phần cấu trúc thiết yếu (ví dụ: root catalog, bảng tham chiếu chéo) có thể không khôi phục được.

  • Sử dụng bộ nhớ: Các tệp PDF có nhiều hình ảnh có thể tiêu thụ lượng bộ nhớ đáng kể. Mặc dù công cụ đã được kiểm thử với các tệp có dung lượng lên tới 50 MB, các tệp lớn hơn có thể gặp vấn đề về hiệu năng.

  • Không gian màu: Không hỗ trợ không gian màu CalRGB.

  • Xử lý đồ họa: Khả năng hỗ trợ đồ họa phức tạp, chẳng hạn như hình dạng, biểu đồ và đồ thị, còn hạn chế. Phiên bản này ưu tiên tính toàn vẹn của văn bản.

  • Khôi phục tài liệu: Các tệp PDF bị hỏng nghiêm trọng hoặc thiếu các thành phần cấu trúc có thể không thể khôi phục.

  • Hỗ trợ nền tảng: Glasswall Conform khả dụng cho cả WindowsLinux. Đối với Windows, chúng tôi cung cấp trình cài đặt .exe. Đối với Linux, chúng tôi cung cấp các gói .rpm.deb hỗ trợ các bản phân phối Linux như Rocky 9, Rocky 8, Ubuntu 24Ubuntu 22.

  • Cấu hình thời gian chờ và bộ nhớ: Bảng sau trình bày các phát hiện của chúng tôi về cách các thiết lập thời gian chờ và bộ nhớ có thể cấu hình ảnh hưởng đến tỷ lệ thành công xử lý tổng thể và tổng thời gian chạy khi chạy trên d16-v3 VMs, mỗi máy có 16 vCPUs and 64GB RAM:

    Thời gian chờGiới hạn bộ nhớThời gian chạy (7 VMs)Tổng thời gian xử lýMức tăng thời gian xử lýSố tệp đã xử lýTỷ lệ thành côngMức tăng thành công
    180s4GB65 phút350 phútCơ sở2,875 / 3,07393.56%Cơ sở
    300s8GB79 phút428 phút+23%2,939 / 3,07395.64%+2.08%
    600s12GB96 phút514 phút+47%2,947 / 3,07395.90%+2.34%
    1200s20GB145 phút689 phút+97%2,952 / 3,07396.06%+2.50%
    • Việc tăng thời gian chờ và bộ nhớ mang lại tỷ lệ thành công cao hơn nhưng phải đánh đổi bằng thời gian chạy tăng lên.
    • Cấu hình 300s / 8GB cải thiện tỷ lệ thành công thêm +2.08% so với 180s / 4GB, với thời gian xử lý tăng 23%.
    • Cấu hình 600s / 12GB cải thiện tỷ lệ thành công thêm +2.34% so với 180s / 4GB, với thời gian xử lý tăng 47%.
    • Cấu hình 1200s / 20GB chỉ mang lại mức tăng rất nhỏ về số lượng tệp được xử lý (+5 so với 600s).
    • Cấu hình tối ưu phụ thuộc vào việc tốc độ hay tỷ lệ xử lý thành công là ưu tiên cao hơn. Cấu hình 300s / 8GB là một lựa chọn cân bằng tốt khi có sẵn ít nhất 64GB RAM, cho phép xử lý song song hơn 8 tệp đồng thời mang lại mức cải thiện tỷ lệ thành công đáng kể (+2.08%) so với 180s / 4GB và duy trì mức tăng thời gian xử lý hợp lý là 23%, khiến đây trở thành điểm cân bằng hiệu quả giữa tốc độ và khả năng xử lý thành công.

Cấp phép

Glasswall Conform bao gồm phần mềm PyMuPDF, phần mềm này được cung cấp theo cả giấy phép mã nguồn mở AGPL và các thỏa thuận cấp phép thương mại thông qua Artifex. Glasswall nắm giữ thỏa thuận cấp phép phân phối thương mại trong bối cảnh của Glasswall Conform.