기능, 제약 사항 및 제한 사항
기능
Glasswall Conform은 PDF 문서를 전처리하도록 설계된 명령줄 도구입니다. 시각적 콘텐츠를 추출하고 재구성하여 문서가 PDF 표준을 충족하도록 보장하고, 포괄적인 Content Disarm and Reconstruction (CDR) 보호를 제공하는 Glasswall Embedded Engine에서 추가 처리할 수 있도록 준비합니다.
주요 기능:
- 텍스트, 그래픽 및 이미지 추출: PDF에서 텍스트, 그래픽 및 이미지를 추출하고 재구성하여 깨끗하고 표준을 준수하는 출력 문서를 생성합니다.
- 처리율 임계값: 그래픽, 이미지 또는 텍스트에 대한 최소 처리율을 설정할 수 있습니다. 이 임계값을 충족하지 못하는 파일은 실패로 분류되며 저장되지 않습니다.
- 사용자 지정 워터마킹: 재구성된 PDF의 각 페이지에 사용자 지정 워터마크 텍스트를 추가할 수 있어, 맞춤형 브랜딩이나 메시지 적용이 가능합니다.
- 문자 식별자(CID) 및 글리프 억제: 지원되지 않는 글리프와 문자 식별자(CID)를 억제하고, 이를 기본 물음표 문자(?)로 대체합니다.
- 글꼴 대체: 사용자 지정 포함 글꼴을 신뢰할 수 있는 Microsoft 글꼴로 변환하거나, 필요한 경우 기본값으로 Cambria Math를 사용합니다. 이 프로세스는 사용자 지정 글꼴이 지원되지 않는 경우에도 가능한 최상의 텍스트 표시를 제공하는 것을 목표로 합니다.
- 표준 준수: PDF 표준을 준수하는 재구성된 PDF를 생성하여, 완전한 Content Disarm and Reconstruction (CDR) 보호를 위해 Glasswall Embedded Engine에서 후속 CDR 처리가 가능하도록 합니다.
- Fast Mode: Enabled by default, Fast Mode processes files quickly while maintaining accurate visual appearance.
- 가장 빠른 처리 속도.
- 가장 뛰어난 시각적 표현.
- 사용자 지정 포함 글꼴은 대체되지 않습니다.
- PDF 표준에 대한 매우 엄격한 준수가 필요한 시나리오에는 적합하지 않을 수 있습니다.
- Cautious Mode: This fallback mode is automatically used when Fast Mode cannot process a file or is disabled.
- 처리 속도가 더 느립니다.
- In a small number of cases, may result in reduced visual appearance, such as:
- 이미지 및 그래픽이 손상되거나 누락될 수 있습니다.
- 텍스트 모양의 차이(예: 크기, 글꼴 스타일 또는 간격).
- 알 수 없는 포함 글꼴이 사용 중인 경우 텍스트가 누락될 수 있습니다.
- 사양을 더 엄격하게 준수하여 PDF를 처리합니다.
- 사용자 지정 포함 글꼴을 신뢰할 수 있는 글꼴로 대체합니다.
- 시각적 충실도를 희생하더라도 PDF 표준에 대한 매우 엄격한 준수가 필요한 시나리오에서만 권장됩니다.
- 파일 포함 및 제외 필터링: 절대 경로 또는 와일드카드 패턴을 사용하여 처리하거나 제외할 파일을 지정합니다.
- 출력 파일 분류: 출력 파일이 어떻게 구성되는지 정의합니다.
categorised는 처리 상태(engine_success,conform_success,failure)에 따라 출력 파일을 하위 디렉터리로 구성합니다.mirrored는 성공적으로 처리된 출력 파일을 원래 입력 디렉터리 구조를 유지한 채 출력 디렉터리에 직접 배치하며, 실패한 파일은 복사되지 않습니다. - 후처리 요약: 파일 상태, 메모리 사용량, 처리 시간을 포함한 처리 결과에 대한 자세한 정보를 제공합니다.
- 메모리 내 처리:
engine_memory및conform_only_memory모드를 지원하여, 표준 입력을 통한 base64 인코딩 입력을 사용해 파일을 전적으로 메모리에서 처리하고 표준 출력을 통해 base64 인코딩된 출력 파일을 반환할 수 있습니다. 디스크 기반 I/O를 피하는 시스템과의 통합에 이상적입니다.
제약 사항 및 제한 사항
Glasswall Conform은 강력한 도구이지만, 다음과 같은 제약 사항 및 제한 사항을 고려해야 합니다:
-
이미지 처리: 일부 이미지 색 공간은 지원되지 않으며 무시될 수 있습니다. 또한 이미지 처리 과정에서 압축 이미지가 무손실 형식으로 변환될 수 있어 파일 크기가 증가할 수 있습니다.
-
글꼴 처리: Glasswall Conform은 Base 14 및 많은 Microsoft 글꼴을 지원하지만, 지원되지 않는 사용자 지정 글꼴은 잠재적 위험을 완화하기 위해 대체됩니다.
-
PDF 구조: 필수 구조 요소(예: 루트 카탈로그, 교차 참조 테이블)가 누락된 PDF는 복구되지 않을 수 있습니다.
-
메모리 사용량: 이미지가 많은 PDF는 상당한 메모리를 소비할 수 있습니다. 이 도구는 최대 50 MB 파일로 테스트되었지만, 더 큰 파일에서는 성능 문제가 발생할 수 있습니다.
-
색 공간: CalRGB 색 공간은 지원되지 않습니다.
-
그래픽 처리: 도형, 차트, 그래프와 같은 복잡한 그래픽에 대한 지원은 제한적입니다. 이 버전은 텍스트 무결성을 우선합니다.
-
문서 복구: 심하게 손상된 PDF 또는 구조 요소가 누락된 PDF는 복구할 수 없을 수 있습니다.
-
플랫폼 지원: Glasswall Conform은 Windows 및 Linux 모두에서 사용할 수 있습니다. Windows용으로는
.exe설치 프로그램을 제공합니다. Linux용으로는.rpm및.deb패키지를 제공하며, 이는 Rocky 9, Rocky 8, Ubuntu 24, Ubuntu 22와 같은 Linux 배포판을 지원합니다. -
시간 초과 및 메모리 구성: 다음 표는 각각 16 vCPUs and 64GB RAM을 갖춘 d16-v3 VMs에서 실행할 때, 구성 가능한 시간 초과 및 메모리 설정이 전체 처리 성공률과 총 실행 시간에 어떤 영향을 미치는지에 대한 당사의 결과를 보여줍니다:
시간 초과 메모리 제한 실행 시간 (7 VMs) 총 처리 시간 처리 시간 증가 처리된 파일 수 성공률 성공 증가율 180s 4GB 65분 350분 기준값 2,875 / 3,073 93.56% 기준값 300s 8GB 79분 428분 +23% 2,939 / 3,073 95.64% +2.08% 600s 12GB 96분 514분 +47% 2,947 / 3,073 95.90% +2.34% 1200s 20GB 145분 689분 +97% 2,952 / 3,073 96.06% +2.50% - 시간 초과 및 메모리를 늘리면 성공률이 높아지지만, 그만큼 실행 시간이 증가합니다.
- 300s / 8GB 구성은 180s / 4GB 대비 성공률을 +2.08% 향상시키지만, 처리 시간은 23% 증가합니다.
- 600s / 12GB 구성은 180s / 4GB 대비 성공률을 +2.34% 향상시키지만, 처리 시간은 47% 증가합니다.
- 1200s / 20GB 구성은 처리된 파일 수에서 미미한 증가만 제공합니다(+5, 600s 대비).
- 최적의 구성은 속도와 처리 성공률 중 무엇을 더 우선시하는지에 따라 달라집니다. 300s / 8GB 구성은 최소 64GB RAM을 사용할 수 있을 때 균형 잡힌 선택지를 제공합니다. 이 구성은 8개 이상의 파일을 병렬로 처리할 수 있게 하면서, 180s / 4GB 대비 의미 있는 성공률 향상(+2.08%)을 제공하고 합리적인 수준인 23%의 처리 시간 증가를 유지하므로, 속도와 처리 성공 사이에서 효율적인 절충안이 됩니다.
라이선스
Glasswall Conform에는 PyMuPDF 소프트웨어가 포함되어 있으며, 이 소프트웨어는 AGPL 오픈 소스 라이선스와 Artifex를 통한 상용 라이선스 계약 모두로 제공됩니다. Glasswall은 Glasswall Conform의 맥락에서 상용 배포 라이선스 계약을 보유하고 있습니다.