Chuyển đến nội dung chính

Xuất & nhập nội dung

Glasswall cung cấp khả năng xuất và nhập các mục nội dung cho các loại tệp được hỗ trợ.

Điều này cho phép các thành phần nội bộ của các tệp đã được xử lý được cung cấp cho các quy trình và ứng dụng bên ngoài để xử lý bổ sung bên ngoài phạm vi của Glasswall Embedded Engine. Sau khi được xuất, các thành phần này có thể được xác thực bên ngoài trước khi Glasswall Engine nhập các thành phần và tái cấu thành các tệp.

Để cho phép người dùng thực hiện phân tích bổ sung trên các thành phần trong tệp, các tệp phải được xử lý bởi Glasswall Embedded Engine hai lần; một lần để trích xuất một gói chứa các thành phần cấu thành một tệp (xuất), và lần thứ hai để tích hợp lại các thành phần đã được phân tích và/hoặc sửa đổi bên ngoài vào tệp (nhập). Các tệp cũng tự động được bảo vệ thông qua quy trình Embedded Engine CDR trong suốt cả chu kỳ xuất và nhập.

Ví dụ về các trường hợp sử dụng

Các ví dụ về trường hợp sử dụng cho xử lý Xuất-Nhập bao gồm nhưng không giới hạn ở:

  • Mẫu để nhập dữ liệu an toàn - Glasswall hiển thị cấu trúc tệp nội bộ ở dạng chuẩn như XML, cho phép bên thứ ba thực hiện xác minh phần cứng như một phần của mẫu để nhập dữ liệu an toàn
  • Ngăn ngừa thất thoát dữ liệu - Nội dung đã xuất như văn bản được chú thích để cho phép xác định toàn bộ văn bản, giúp người dùng thực hiện các quy trình DLP như tìm kiếm văn bản và biên tập xóa thông tin.
  • Phân tích hình ảnh - Xử lý hình ảnh bổ sung để phát hiện và/hoặc ngăn chặn các cuộc tấn công steganography.

Nội dung có thể xuất

Glasswall cung cấp khả năng xuất một mô hình đối tượng tài liệu (DOM), bao gồm toàn bộ nội dung, cho tất cả các định dạng tệp được hỗ trợ. DOM được xuất được trình bày ở một trong hai định dạng trung gian, XML hoặc SISL. Người dùng có tùy chọn trích xuất các hình ảnh nhúng ở dạng gốc của chúng hoặc xuất chúng dưới dạng biểu diễn DOM.

Nội dung có thể nhập

Glasswall cung cấp khả năng nhập lại một mô hình đối tượng tài liệu (DOM) cho tất cả các định dạng tệp được hỗ trợ, bất kể các sửa đổi bên ngoài được thực hiện đối với nội dung đã xuất (miễn là các sửa đổi tuân thủ đặc tả định dạng tệp).

Nội dung gói xuất

Gói Xuất là một kho lưu trữ ZIP chứa các luồng tệp XML hoặc SISL, các hình ảnh nhúng và các tệp JSON tương ứng chứa siêu dữ liệu (đối với hình ảnh PDF).

Tên nội bộ của các thẻ/thuộc tính XML và các loại/tham số SISL được rút gọn để giảm thiểu kích thước của các luồng tệp đã xuất.

Thẻ XML và loại SISL:

Thẻ / Loại (Rút gọn)Thẻ / Loại (Đầy đủ)Mô tả
"S"STRUCTBiểu thị một nút cấu trúc từ cây của chúng tôi.
"SA"STRUCTARRAYMảng các đối tượng STRUCT.
"I"ITEM Một thuộc tính trong đối tượng STRUCT (ví dụ: chỉ báo khoảng trắng, dấu kết thúc tệp, v.v.)
"V"VALUE Biểu thị giá trị số nguyên đã lưu được đọc từ một tệp.
"VA"VALUEARRAYBiểu thị một khối dữ liệu được đọc từ một tệp.
       

Thuộc tính XML và tham số SISL

Thuộc tính / Tham số (Rút gọn)Thuộc tính / Tham số (Đầy đủ)Kiểu dữ liệuMô tả
"o"offset Thuộc tính này chứa độ lệch của mục hiện tại trong bộ đệm. Bộ đệm có thể biểu diễn những thứ như tệp, một tệp trong kho lưu trữ, sự kết hợp của các luồng từ một đối tượng CFB, v.v.
"s"kích thước Tổng độ dài của cấu trúc hiện tại tính bằng byte.
"i"itemEnum<integer string>Biểu diễn số nội bộ của ITEM hiện tại.
"n"tên <string>Tên nội bộ của cấu trúc hiện tại.
"t"isText[ "true | "false" ]Cho biết phần tử có chứa văn bản hay không. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ.
"se"structEnum<integer string>Biểu diễn số nội bộ của STRUCT hiện tại.      
"sn"streamName<string>Tên luồng hiện tại.
"c"cameraName<string>Tên camera hiện tại (parser/validator/writer).
"st"isStructuralText[ "true | "false" ]Thuộc tính để phân biệt giữa thông tin cấu trúc và nội dung văn bản hiển thị của tệp. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ.
"e"mã hóa[ "UTF 8 | "Base64"]Thuộc tính này chỉ định mã hóa của dữ liệu trong phần tử hiện tại. Chỉ áp dụng cho các mục được đánh dấu là văn bản trong các schema nội bộ.

Các tham số dành riêng cho SISL

Tham số (Rút gọn)Tham số (Đầy đủ)Kiểu dữ liệuMô tả
"__s"struct<dictionary>Cấu trúc SISL chung thuộc loại: [ S | SA | I | V | VA ]
"__m"meta<dictionary>Từ điển của các tham số cấu trúc SISL hiện tại 
"__d"data Dữ liệu được lưu trữ của ITEM, VALUE hoặc VALUEARRAY
"__l"độ dài Kích thước gốc của dữ liệu được lưu trữ trong __d trước khi các ký tự không thể in được bị escape.

Xuất bản kết xuất văn bản (alpha)

Tính năng Export Text Dump giới thiệu tùy chọn tạo một tệp chứa toàn bộ văn bản trong tệp đầu vào đang được xuất. Tệp được tạo ra và lưu trữ trong cùng thư mục với tệp ZIP đầu ra.

Có thể xuất bản kết xuất văn bản cùng với hoặc không kèm các tệp zip xuất nội dung.

Định dạng tệpĐược hỗ trợ
Office 2003
Office 1997
PDF*
Định dạng nhị phân
Định dạng âm thanh
Định dạng hình ảnh
Các định dạng MPEG

Lưu ý: Text Dump cho PDF hiện hiện không khả dụng khi công tắc sysConfig export_embedded_images được đặt thành true. Tính năng này cũng chỉ giới hạn ở một tập con các mã hóa văn bản PDF.