Xuất & nhập nội dung
Glasswall cung cấp khả năng xuất và nhập các mục nội dung cho các loại tệp được hỗ trợ.
Điều này cho phép các thành phần nội bộ của các tệp đã được xử lý được cung cấp cho các quy trình và ứng dụng bên ngoài để xử lý bổ sung bên ngoài phạm vi của Glasswall Embedded Engine. Sau khi được xuất, các thành phần này có thể được xác thực bên ngoài trước khi Glasswall Engine nhập các thành phần và tái cấu thành các tệp.
Để cho phép người dùng thực hiện phân tích bổ sung trên các thành phần trong tệp, các tệp phải được xử lý bởi Glasswall Embedded Engine hai lần; một lần để trích xuất một gói chứa các thành phần cấu thành một tệp (xuất), và lần thứ hai để tích hợp lại các thành phần đã được phân tích và/hoặc sửa đổi bên ngoài vào tệp (nhập). Các tệp cũng tự động được bảo vệ thông qua quy trình Embedded Engine CDR trong suốt cả chu kỳ xuất và nhập.
Ví dụ về các trường hợp sử dụng
Các ví dụ về trường hợp sử dụng cho xử lý Xuất-Nhập bao gồm nhưng không giới hạn ở:
- Mẫu để nhập dữ liệu an toàn - Glasswall hiển thị cấu trúc tệp nội bộ ở dạng chuẩn như XML, cho phép bên thứ ba thực hiện xác minh phần cứng như một phần của mẫu để nhập dữ liệu an toàn
- Ngăn ngừa thất thoát dữ liệu - Nội dung đã xuất như văn bản được chú thích để cho phép xác định toàn bộ văn bản, giúp người dùng thực hiện các quy trình DLP như tìm kiếm văn bản và biên tập xóa thông tin.
- Phân tích hình ảnh - Xử lý hình ảnh bổ sung để phát hiện và/hoặc ngăn chặn các cuộc tấn công steganography.
Nội dung có thể xuất
Glasswall cung cấp khả năng xuất một mô hình đối tượng tài liệu (DOM), bao gồm toàn bộ nội dung, cho tất cả các định dạng tệp được hỗ trợ. DOM được xuất được trình bày ở một trong hai định dạng trung gian, XML hoặc SISL. Người dùng có tùy chọn trích xuất các hình ảnh nhúng ở dạng gốc của chúng hoặc xuất chúng dưới dạng biểu diễn DOM.
Nội dung có thể nhập
Glasswall cung cấp khả năng nhập lại một mô hình đối tượng tài liệu (DOM) cho tất cả các định dạng tệp được hỗ trợ, bất kể các sửa đổi bên ngoài được thực hiện đối với nội dung đã xuất (miễn là các sửa đổi tuân thủ đặc tả định dạng tệp).
Nội dung gói xuất
Gói Xuất là một kho lưu trữ ZIP chứa các luồng tệp XML hoặc SISL, các hình ảnh nhúng và các tệp JSON tương ứng chứa siêu dữ liệu (đối với hình ảnh PDF).
Tên nội bộ của các thẻ/thuộc tính XML và các loại/tham số SISL được rút gọn để giảm thiểu kích thước của các luồng tệp đã xuất.
Thẻ XML và loại SISL:
| Thẻ / Loại (Rút gọn) | Thẻ / Loại (Đầy đủ) | Mô tả |
|---|---|---|
| "S" | STRUCT | Biểu thị một nút cấu trúc từ cây của chúng tôi. |
| "SA" | STRUCTARRAY | Mảng các đối tượng STRUCT. |
| "I" | ITEM | Một thuộc tính trong đối tượng STRUCT (ví dụ: chỉ báo khoảng trắng, dấu kết thúc tệp, v.v.) |
| "V" | VALUE | Biểu thị giá trị số nguyên đã lưu được đọc từ một tệp. |
| "VA" | VALUEARRAY | Biểu thị một khối dữ liệu được đọc từ một tệp. |
Thuộc tính XML và tham số SISL
| Thuộc tính / Tham số (Rút gọn) | Thuộc tính / Tham số (Đầy đủ) | Kiểu dữ liệu | Mô tả |
|---|---|---|---|
| "o" | offset | Thuộc tính này chứa độ lệch của mục hiện tại trong bộ đệm. Bộ đệm có thể biểu diễn những thứ như tệp, một tệp trong kho lưu trữ, sự kết hợp của các luồng từ một đối tượng CFB, v.v. | |
| "s" | kích thước | Tổng độ dài của cấu trúc hiện tại tính bằng byte. | |
| "i" | itemEnum | <integer string> | Biểu diễn số nội bộ của ITEM hiện tại. |
| "n" | tên | <string> | Tên nội bộ của cấu trúc hiện tại. |
| "t" | isText | [ "true | "false" ] | Cho biết phần tử có chứa văn bản hay không. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ. |
| "se" | structEnum | <integer string> | Biểu diễn số nội bộ của STRUCT hiện tại. |
| "sn" | streamName | <string> | Tên luồng hiện tại. |
| "c" | cameraName | <string> | Tên camera hiện tại (parser/validator/writer). |
| "st" | isStructuralText | [ "true | "false" ] | Thuộc tính để phân biệt giữa thông tin cấu trúc và nội dung văn bản hiển thị của tệp. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ. |
| "e" | mã hóa | [ "UTF 8 | "Base64"] | Thuộc tính này chỉ định mã hóa của dữ liệu trong phần tử hiện tại. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ. |
Các tham số dành riêng cho SISL
| Tham số (Rút gọn) | Tham số (Đầy đủ) | Kiểu dữ liệu | Mô tả |
|---|---|---|---|
| "__s" | struct | <dictionary> | Cấu trúc SISL chung thuộc loại: [ S | SA | I | V | VA ] |
| "__m" | meta | <dictionary> | Từ điển của các tham số cấu trúc SISL hiện tại |
| "__d" | data | Dữ liệu được lưu trữ của ITEM, VALUE hoặc VALUEARRAY | |
| "__l" | độ dài | Kích thước gốc của dữ liệu được lưu trữ trong __d trước khi các ký tự không thể in được bị escape. |
Xuất bản kết xuất văn bản (alpha)
Tính năng Export Text Dump giới thiệu tùy chọn tạo một tệp chứa toàn bộ văn bản trong tệp đầu vào đang được xuất. Tệp được tạo ra và lưu trữ trong cùng thư mục với tệp ZIP đầu ra.
Có thể xuất bản kết xuất văn bản cùng với hoặc không kèm các tệp zip xuất nội dung.
| Định dạng tệp | Được hỗ trợ |
|---|---|
| Office 2003 | ✓ |
| Office 1997 | ✓ |
| ✓ * | |
| Định dạng nhị phân | ✗ |
| Định dạng âm thanh | ✗ |
| Định dạng hình ảnh | ✗ |
| Các định dạng MPEG | ✗ |
Lưu ý: Text Dump cho PDF hiện hiện không khả dụng khi công tắc sysConfig
export_embedded_imagesđược đặt thànhtrue. Tính năng này cũng chỉ giới hạn ở một tập con các mã hóa văn bản PDF.