การจัดการเนื้อหา
policy การจัดการเนื้อหา คือชุดของสวิตช์การจัดการเนื้อหาที่สามารถนำไปใช้กับประเภทไฟล์ที่กำหนดได้
สวิตช์การจัดการเนื้อหาใช้เพื่อระบุประเภทองค์ประกอบของไฟล์และการดำเนินการที่เกี่ยวข้อง
การตั้งค่าการจัดการเนื้อหาระบุการดำเนินการที่ Glasswall จะดำเนินการสำหรับสวิตช์การจัดการเนื้อหาแต่ละรายการ สวิตช์การจัดการเนื้อหาแต่ละรายการสามารถตั้งค่าเป็นหนึ่งในสามการตั้งค่าต่อไปนี้:
-
Allow - Glasswall Embedded Engine ประมวลผลประเภทองค์ประกอบไฟล์ที่เกี่ยวข้องทั้งหมด และองค์ประกอบเหล่านั้นจะยังคงอยู่ในไฟล์ที่สร้างใหม่ โครงสร้างที่เกี่ยวข้องจะถูกบันทึกในรายงาน Analysis เป็น Allowed Item
-
Disallow - หากตรวจพบประเภทองค์ประกอบไฟล์ที่เกี่ยวข้องรายการใดก็ตามในไฟล์ Glasswall Embedded Engine จะระบุว่าไฟล์ไม่เป็นไปตามข้อกำหนด และไฟล์จะไม่ถูกสร้างใหม่ โครงสร้างที่เกี่ยวข้องจะถูกบันทึกในรายงาน Analysis เป็น Issue Item
-
Sanitise - หากตรวจพบประเภทองค์ประกอบไฟล์ที่เกี่ยวข้องรายการใดก็ตามในไฟล์ Glasswall Embedded Engine จะลบองค์ประกอบเหล่านั้นออกจากเอกสารที่สร้างใหม่ โครงสร้างที่เกี่ยวข้องจะถูกบันทึกในรายงาน Analysis เป็น Sanitisation Item
การรายงานการจัดการเนื้อหา
ส่วนต่อไปนี้แสดงวิธีที่เนื้อหาซึ่งอยู่ภายใต้การควบคุมของสวิตช์การจัดการเนื้อหาจะถูกนำเสนอในรายงาน XML Analysis โดยขึ้นอยู่กับการตั้งค่าของสวิตช์เนื้อหา
Allow
นี่คือตัวอย่างบางส่วนจากรายงาน XML สำหรับไฟล์ Word (.doc) Binary ซึ่งมี metadata โดยสวิตช์การจัดการเนื้อหา metadata ถูกตั้งค่าเป็น allow
<gw:Camera cameraName="wordConfig">
<gw:ContentSwitch>
<gw:ContentName>metadata</gw:ContentName>
<gw:ContentValue>allow</gw:ContentValue>
</gw:ContentSwitch>
...
<gw:AllowedItems itemCount="1">
<gw:AllowedItem>
<gw:TechnicalDescription>Metadata detected in #05SummaryInformation</gw:TechnicalDescription>
<gw:InstanceCount>1</gw:InstanceCount>
<gw:TotalSizeInBytes>4096</gw:TotalSizeInBytes>
</gw:AllowedItem>
</gw:AllowedItems>
ไม่อนุญาต
นี่คือตัวอย่างบางส่วนจากรายงาน XML สำหรับไฟล์ไบนารี Word (.doc) ที่มีข้อมูลเมตาอยู่ภายใน สวิตช์การจัดการเนื้อหา metadata ถูกตั้งค่าเป็น disallow ใน Protect Mode การตั้งค่านี้จะทำให้ไฟล์ถูกทำเครื่องหมายว่าไม่เป็นไปตามข้อกำหนด
<gw:Camera cameraName = "wordConfig">
<gw:ContentSwitch>
<gw:ContentName>metadata</gw:ContentName>
<gw:ContentValue>disallow</gw:ContentValue>
</gw:ContentSwitch>
...
<gw:IssueItem>
<gw:TechnicalDescription> Metadata detected in #05SummaryInformation</gw:TechnicalDescription>
<gw:IssueId>96</gw:IssueId>
<gw:InstanceCount>1</gw:InstanceCount>
<gw:RiskLevel>Medium</gw:RiskLevel>
</gw:IssueItem>
ทำให้ปลอดภัย
นี่คือตัวอย่างบางส่วนจากรายงาน XML สำหรับไฟล์ไบนารี Word (.doc) ที่มีข้อมูลเมตาอยู่ภายใน สวิตช์การจัดการเนื้อหา metadata ถูกตั้งค่าเป็น sanitise ใน Protect Mode การตั้งค่านี้จะส่งผลให้ข้อมูลเมตาถูกลบออกจากไฟล์ที่สร้างขึ้นใหม่
<gw:Camera cameraName = "wordConfig">
<gw:ContentSwitch>
<gw:ContentName>metadata</gw:ContentName>
<gw:ContentValue>sanitise</gw:ContentValue>
</gw:ContentSwitch>
...
<gw:SanitisationItem>
<gw:TechnicalDescription>Metadata detected in #05SummaryInformation</gw:TechnicalDescription>
<gw:InstanceCount>1</gw:InstanceCount>
<gw:TotalSizeInBytes>4096</gw:TotalSizeInBytes>
</gw:SanitisationItem>
policy การจัดการเนื้อหา
ต่อไปนี้คือ policy การจัดการเนื้อหาที่พร้อมใช้งาน:
| สวิตช์การจัดการเนื้อหา | คำอธิบาย |
|---|---|
| pdfConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ PDF |
| wordConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ Word |
| pptConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ PowerPoint |
| xlsConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ Excel |
| tiffConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ TIFF |
| svgConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ SVG |
| webpConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ WebP |
| jpegConfig | สวิตช์การจัดการเนื้อหาสำหรับประเภทไฟล์ JPEG |
| sysConfig | สวิตช์การจัดการเนื้อหาเพื่อควบคุมการตั้งค่า Engine ที่แตกต่างกัน |
หมายเหตุ: policy การจัดการเนื้อหาของ xlsConfig, pptConfig และ wordConfig ครอบคลุมทั้งประเภทไฟล์ Office Open XML และ Office Binary
สวิตช์การจัดการเนื้อหาที่พร้อมใช้งานและประเภทไฟล์ที่ใช้ได้แสดงอยู่ในตารางด้านล่าง:
| สวิตช์การจัดการเนื้อหา | คำอธิบาย |
|---|---|
| acroform | ควบคุมเนื้อหาฟอร์มแบบโต้ตอบ (AcroForm) |
| javascript | ควบคุมโค้ด JavaScript ที่ฝังอยู่ในไฟล์ |
| external_hyperlinks | ควบคุมไฮเปอร์ลิงก์ไปยังตำแหน่งภายนอกไฟล์ |
| embedded_files | ควบคุมเนื้อหาไฟล์ที่ฝังอยู่ |
| metadata | ควบคุมข้อมูลเมตาของไฟล์ |
| actions_all | ควบคุม PDF Actions เช่น Rendition, Sound, Movie, Hide, SetOCGState, GoTo3DView |
| internal_hyperlinks | ควบคุมไฮเปอร์ลิงก์ไปยังตำแหน่งภายในไฟล์ |
| value_outside_reasonable_limits | ควบคุมข้อจำกัดที่ Glasswall กำหนด เช่น ค่าที่เกินช่วงที่สมเหตุสมผล เช่น ขนาดออบเจ็กต์ |
| digital_signatures | ควบคุมเนื้อหาลายเซ็นดิจิทัลสำหรับไฟล์ที่มีการลงนามหรืออ็อบเจ็กต์ที่มีการลงนามภายในไฟล์ หมายเหตุ: ไม่สามารถใช้การตั้งค่า 'allow' สำหรับสวิตช์การจัดการเนื้อหา digital_signatures ได้ |
| macros | ควบคุม VBA Macros ที่ใช้โค้ด Visual Basic เพื่อสร้างฟังก์ชันแบบกำหนดเองที่ผู้ใช้สร้างขึ้น |
| review_comments | ควบคุมความคิดเห็นการตรวจทานเอกสารภายในไฟล์ |
| embedded_images | ควบคุมเนื้อหารูปภาพที่ฝังไว้สำหรับรูปแบบรูปภาพที่ Glasswall รองรับ |
| dynamic_data_exchange | ควบคุมคำสั่ง DDE และเนื้อหา DDE ในเอกสาร |
| tracked_changes | ควบคุมการติดตามการเปลี่ยนแปลงในเอกสาร |
| hidden_data | ควบคุมข้อมูลที่ซ่อนอยู่ในเอกสาร |
| in_text_comments | ควบคุมความคิดเห็นในข้อความในเอกสาร |
| slide_notes | ควบคุมบันทึกย่อของสไลด์ในเอกสาร |
| การเชื่อมต่อ | ควบคุมการเชื่อมต่อไปยังแหล่งข้อมูลภายนอกและข้อมูลสำหรับองค์ประกอบต่างๆ เช่น สูตร OLAP, QueryTables หรือ PivotTables |
| สคริปต์ | ควบคุม XML Scripts ที่อนุญาตให้สร้าง จัดเก็บ และจัดการตัวแปรและข้อมูลระหว่างการประมวลผล |
| foreign_objects | ควบคุมอ็อบเจ็กต์ที่ฝังอยู่ในรูปแบบที่อิง XML เช่น SVG |
| ไฮเปอร์ลิงก์ | ควบคุมไฮเปอร์ลิงก์ภายนอกและภายใน |
| geotiff | ควบคุมข้อมูลการอ้างอิงพิกัดทางภูมิศาสตร์ที่ฝังอยู่ภายในไฟล์ TIFF |
| jfif | ควบคุมส่วน marker ของ JFIF ภายในไฟล์ภาพ JPEG |
| undefined_type | ควบคุมส่วน TIFF IFD ที่เป็นชนิดไม่ได้กำหนด |
| doc_variables | ควบคุมตัวแปรเอกสารใน docx |
| web_video_extension | ควบคุมการใช้ Web Video Extensions ใน DOCX |
| headers_footers | ควบคุมเนื้อหาส่วนหัวและส่วนท้ายใน DOCX |
สวิตช์ที่มีให้ใช้งานในปัจจุบันสำหรับแต่ละรูปแบบแสดงอยู่ในตารางด้านล่าง:
| สวิตช์ | DOC | DOCX | PPT | PPTX | XLS | XLSX | GIF | JPEG | SVG | WEBP | TIFF | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| acroform | ✓ | |||||||||||
| actions_all | ✓ | |||||||||||
| การเชื่อมต่อ | ✓ | |||||||||||
| digital_signatures | ✓ * | |||||||||||
| dynamic_data_exchange | ✓ | ✓ | ||||||||||
| embedded_files | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |||||
| embedded_images | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |||||
| external_hyperlinks | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |||||
| foreign_objects | ✓ | |||||||||||
| geotiff | ✓ | |||||||||||
| hidden_data | ✓ | ✓ | ✓ | |||||||||
| ไฮเปอร์ลิงก์ | ✓ | |||||||||||
| internal_hyperlinks | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | |||||
| in_text_comments | ✓ | |||||||||||
| javascript | ✓ | |||||||||||
| jfif | ✓ † | |||||||||||
| macros | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||||||
| metadata | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ † | ✓ | |||
| retain_exported_streams | ✓ * | |||||||||||
| review_comments | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ||||||
| slide_notes | ✓ * | |||||||||||
| สคริปต์ | ✓ | |||||||||||
| tracked_changes | ✓ | ✓ | ||||||||||
| value_outside_reasonable_limits | ✓ | |||||||||||
| undefined_type | ✓ † | |||||||||||
| doc_variables | ✓ | |||||||||||
| web_video_extension | ✓ | |||||||||||
| headers_footers | ✓ |
[ *]: สวิตช์การจัดการเนื้อหาที่พร้อมใช้งานในโหมด "enablerebuild" (ค่าเริ่มต้น) ของ Editor หรือ Rebuild เท่านั้น [ †]: สวิตช์การจัดการเนื้อหาที่พร้อมใช้งานในโหมด "editoronly" ของ Editor ซึ่งสามารถใช้ได้เฉพาะกับฟีเจอร์ Export/Import เท่านั้น
ประเภทเนื้อหาทั้งหมดที่ไม่มีประเภทการจัดการเนื้อหาสำหรับรูปแบบไฟล์ที่ระบุจะได้รับการแก้ไขโดยอัตโนมัติโดย Glasswall engine หากถูกระบุว่าเป็นอันตราย
ไฟล์ที่ฝังไว้
ประเภทการจัดการเนื้อหา "Embedded Files" ใช้กับรูปแบบไฟล์ที่ไม่ใช่รูปภาพซึ่งอยู่ภายในไฟล์คอนเทนเนอร์ที่แยกต่างหาก สำหรับรูปแบบ MS-Office จะมีการใช้ policy สำหรับไฟล์ที่ฝังไว้แตกต่างกันไป ขึ้นอยู่กับว่าไฟล์ที่พิจารณานั้นได้รับการรองรับและเข้าถึงได้โดย engine หรือไม่:
การดำเนินการที่ใช้กับไฟล์ที่ฝังไว้ตาม policy การจัดการเนื้อหาสำหรับไฟล์ Microsoft Office:
| อนุญาต | ทำให้ปลอดภัย | ไม่อนุญาต | |
|---|---|---|---|
| รองรับ | ถือว่าเป็นไฟล์แบบสแตนด์อโลน หากไฟล์ไม่เป็นไปตามข้อกำหนด ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ และรายงานเหตุผลของการไม่เป็นไปตามข้อกำหนดเป็น Issue Item | ถือว่าเป็นไฟล์แบบสแตนด์อโลน หากไฟล์ไม่เป็นไปตามข้อกำหนด ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ และรายงานเหตุผลของการไม่เป็นไปตามข้อกำหนดเป็น Issue Item | ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ โดยอธิบายไฟล์ที่ฝังอยู่ใน Issue Item |
| ไม่รองรับ | สร้างใหม่โดยไม่มีการเปลี่ยนแปลง และรายงานเป็น Allowed Item | ลบออกจากไฟล์ที่บรรจุอยู่ พร้อมทั้งการอ้างอิงทั้งหมดถึงไฟล์นั้น และรายงานเป็น Sanitisation Item | ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ โดยอธิบายไฟล์ที่ฝังอยู่ใน Issue Item |
ตารางด้านล่างสรุปว่ารูปแบบไฟล์ที่ฝังใดบ้างที่รองรับ (✓) ภายในไฟล์คอนเทนเนอร์แต่ละประเภท และรูปแบบใดที่ไม่รองรับ (✗)
[†]: ไม่อนุญาตโดยรูปแบบคอนเทนเนอร์
[‡]: ไม่ถูกลบโดยสวิตช์ Embedded Files แต่อาจถูกลบโดยสวิตช์ All Actions ไฟล์ที่ฝังจะถูกสร้างใหม่โดยไม่ผ่านการประมวลผล
⚠️ หมายเหตุ: เพื่อรักษาความสมบูรณ์ของลักษณะที่มองเห็นระหว่างไฟล์เวอร์ชันต้นฉบับและเวอร์ชันที่ผ่านการ sanitised แล้ว องค์ประกอบภาพที่เกี่ยวข้อง (เช่น ภาพขนาดย่อและการอ้างอิง
blip) ของไฟล์ที่ฝังที่ไม่รองรับจะไม่ถูกลบระหว่างการ sanitisation ทั้งนี้เพื่อให้แน่ใจว่าไฟล์หลังการประมวลผลยังคงมีลักษณะที่มองเห็นสอดคล้องกับเวอร์ชันต้นฉบับ
การรองรับความลึกของการฝัง
Embedded Engine รองรับเนื้อหาที่ฝังแบบซ้อนกันได้สูงสุด เก้า ระดับภายในไฟล์ OfficeXML หากพบไฟล์ที่ฝังอยู่ลึกเกินกว่าระดับนี้ ไฟล์คอนเทนเนอร์จะถูกปฏิเสธ และจะมีการสร้าง Issue Item เพื่อระบุว่าเกินขีดจำกัดการเรียกซ้ำสูงสุด ขีดจำกัดนี้ใช้เฉพาะกับความลึกของการซ้อนกันเท่านั้น และไฟล์ที่ฝังหลายไฟล์ในระดับเดียวกันจะไม่นับรวมในขีดจำกัดนี้
รูปภาพที่ฝัง
สำหรับรูปแบบไฟล์ภาพ ควรใช้สวิตช์การจัดการเนื้อหา "Embedded Images" โดยจะมีพฤติกรรมดังต่อไปนี้ขึ้นอยู่กับการตั้งค่าของสวิตช์:
การดำเนินการที่ใช้กับภาพที่ฝังอยู่ตาม policy การจัดการเนื้อหา:
| อนุญาต | ทำให้ปลอดภัย | ไม่อนุญาต | |
|---|---|---|---|
| รองรับ | ถือว่าเป็นไฟล์แบบสแตนด์อโลน หากไฟล์ไม่เป็นไปตามข้อกำหนด ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ และรายงานเหตุผลของการไม่เป็นไปตามข้อกำหนดเป็น Issue Item | ถือว่าเป็นไฟล์แบบสแตนด์อโลน หากไฟล์ไม่เป็นไปตามข้อกำหนด ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ และรายงานเหตุผลของการไม่เป็นไปตามข้อกำหนดเป็น Issue Item | ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ โดยมีการอธิบายภาพที่ฝังอยู่ใน Issue Item |
| ไม่รองรับ* | สร้างใหม่โดยไม่มีการเปลี่ยนแปลงและรายงานเป็น Allowed Item | นำออกจากไฟล์ที่บรรจุอยู่ พร้อมทั้งการอ้างอิงทั้งหมดถึงไฟล์นั้น และรายงานเป็น Sanitisation Item | ไฟล์ที่บรรจุอยู่จะถูกปฏิเสธ โดยมีการอธิบายภาพที่ฝังอยู่ใน Issue Item |
[ * ] : ภาพที่ฝังอยู่ซึ่งไม่รองรับอาจถูกจัดการแทนด้วยสวิตช์ "embedded_files" หากเอนจินไม่รู้จักประเภทไฟล์
ตารางด้านล่างแสดงรูปแบบภาพที่เราพยายามสร้างใหม่ (✓) เมื่อ "Embedded Images" ถูกตั้งค่าเป็น sanitise เทียบกับรูปแบบที่ถูกนำออก (✗):
[⸸]: จะถูกแปลงเป็นรูปแบบอื่นโดยไฟล์คอนเทนเนอร์
โปรดทราบว่าเมื่อ "Embedded Images" ถูกตั้งค่าเป็น "Disallow" หากพบภาพใด ๆ จะส่งผลให้ไฟล์ที่บรรจุอยู่นั้นถูกปฏิเสธ ซึ่งรวมถึงภาพขนาดย่อของเอกสารที่บรรจุอยู่หรือเอกสารที่ฝังอยู่ด้วย และดังนั้นอาจมีผลเหนือกว่าสวิตช์การจัดการเนื้อหา "Embedded File"
แมโคร
สวิตช์เนื้อหา macros สำหรับไฟล์ MS Office ใช้กับทั้ง Microsoft Visual Basic for Applications (VBA) และแมโคร Excel 4.0
Microsoft Visual Basic for Applications
แมโคร VBA เขียนด้วยภาษาโปรแกรม Visual Basic และสามารถรวมอยู่ในรูปแบบไฟล์ MS Office ใดก็ได้ การจัดการแมโคร VBA สามารถกำหนดค่าได้ดังนี้:
- Sanitise - แมโคร VBA จะถูกลบออกจากไฟล์
- Disallow - ไม่อนุญาตให้ใช้แมโคร VBA หากพบ ระบบจะปฏิเสธไฟล์ที่มีแมโครนั้น
- Allow - แมโคร VBA จะถูกประมวลผลและสร้างใหม่เป็นส่วนหนึ่งของไฟล์ที่บรรจุอยู่ โดยมีเงื่อนไขว่าต้องเป็นไปตามข้อกำหนด
พฤติกรรมของโหมด Export
ในโหมด Export, VBA Project Binaries จะถูกนับรวมในขีดจำกัดการเรียกซ้ำ ซึ่งหมายความว่าความลึกสูงสุดของการซ้อนจะลดลงเหลือ eight หากไฟล์ที่ฝังลึกที่สุดมีแมโคร VBA
แมโคร Excel 4.0
แมโคร Excel 4.0 เป็นฟีเจอร์แบบดั้งเดิมที่รวมอยู่ในไฟล์ XLSX และ XLS ไฟล์ XLSX ที่มีแมโคร Excel 4.0 จะถูกบันทึกโดยใช้นามสกุลไฟล์ ".xlsm" และจะเกิดข้อผิดพลาดหากมีการแก้ไขนามสกุลนี้ การจัดการแมโคร Excel 4.0 สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ในไฟล์ XLS ไฟล์จะถูกบล็อก และรายงาน
Excel 4.0 Macro found: Not supportedเป็นรายการปัญหา ในไฟล์ XLSX/XLSM แผ่นงานที่มีแมโครจะถูกลบออกจากเอกสารและรายงานเป็นรายการการ sanitisation หากส่งผลให้ไฟล์มีโครงสร้างไม่ถูกต้อง (เช่น ทำให้จำนวนแผ่นงานที่มองเห็นได้ลดลงเหลือศูนย์) ไฟล์จะถูกปฏิเสธและมีการรายงานรายการปัญหาที่เหมาะสม - Disallow - ไม่อนุญาตให้ใช้แมโคร Excel 4.0 หากพบ ระบบจะปฏิเสธไฟล์ที่มีแมโครนั้น
- Allow - ในไฟล์ XLS ไฟล์จะถูกบล็อก และรายงาน
Excel 4.0 Macro found: Not supportedเป็นรายการปัญหา ในไฟล์ XLSX/XLSM ไฟล์จะถูกสร้างใหม่โดยคงแมโครไว้ครบถ้วน
ข้อมูลเมตา
ใน OOXML ข้อมูลเมตาหมายถึงข้อมูลที่ใช้อธิบายเนื้อหา โครงสร้าง และคุณสมบัติของเอกสาร แต่ไม่ได้เป็นส่วนหนึ่งของเนื้อหาหลักของเอกสาร ข้อมูลเมตาในเอกสาร OOXML จะถูกจัดเก็บหลัก ๆ ในไฟล์ XML ที่อยู่ภายในไดเรกทอรี docProps:
- core.xml: มีคุณสมบัติหลักตาม Dublin Core Metadata Element Set
- app.xml: มีคุณสมบัติเพิ่มเติมที่เฉพาะเจาะจงสำหรับแอปพลิเคชัน Microsoft Office
- custom.xml: มี custom properties อยู่
การจัดการ metadata ของ OOXML สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ไฟล์จะถูกสร้างใหม่โดยลบ metadata ออก (ดูรายการ properties ทั้งหมดที่ sanitise อยู่ในปัจจุบันด้านล่าง)
- Disallow - ไม่อนุญาตให้มี Metadata หากพบ metadata ใด ๆ (properties ที่แสดงด้านล่าง) ไฟล์ที่มีข้อมูลดังกล่าวจะถูกปฏิเสธ
- Allow - ไฟล์จะถูกประมวลผล และ metadata จะถูกสร้างขึ้นใหม่
ภายใต้สวิตช์การจัดการเนื้อหา 'metadata' ขณะนี้เราทำ sanitise รายการต่อไปนี้ใน:
- core.xml: title, subject, creator, keywords, description, lastModifiedBy, revision, lastPrinted, created, modified, category, contentStatus, language และ version
- app.xml: manager, company และ hyperlinkBase
- custom.xml: custom properties ใด ๆ ที่เพิ่มเข้าไปในเอกสาร OOXML
สวิตช์เฉพาะสำหรับ OfficeXML (DOCX, XLSX, PPTX)
ข้อมูลที่ซ่อนอยู่
รูปแบบไฟล์ Office มีหลายวิธีที่ถูกต้องตามปกติในการ "ซ่อน" ข้อความหรือข้อมูล รวมถึงทั้งชีตของ Excel, สไลด์ของ PowerPoint หรือบรรทัดข้อความในเอกสาร Word ทั้งหมด Glasswall engine จัดการข้อมูลที่ซ่อนอยู่ด้วยวิธีต่อไปนี้ โดยขึ้นอยู่กับการตั้งค่าสวิตช์การจัดการเนื้อหา:
- Sanitise - ไฟล์จะถูกสร้างใหม่โดยทำให้ข้อมูลที่ซ่อนอยู่ทั้งหมด "แสดงออกมา" เพื่อให้ผู้ใช้มองเห็นได้ทั้งหมด
- Disallow - ไม่อนุญาตให้มีข้อมูลที่ซ่อนอยู่ หากพบข้อมูลที่ซ่อนอยู่ใด ๆ ไฟล์ที่มีข้อมูลดังกล่าวจะถูกปฏิเสธ
- Allow - ข้อมูลที่ซ่อนอยู่ทั้งหมดจะถูกสร้างขึ้นใหม่และยังคงซ่อนอยู่ต่อไป
หมายเหตุ: สำหรับวัตถุประสงค์ของการตั้งค่าการจัดการเนื้อหานี้ “Hidden Data” ไม่ได้หมายถึงวิธีการต่าง ๆ ในการทำให้ข้อมูลคลุมเครือหรือซ่อนลึกไว้ในไฟล์ Office 2007 แต่หมายถึงวิธีการซ่อนข้อมูลที่มีให้ใช้งานได้โดยตรงใน GUI ของ Office 2007 โดยเฉพาะ ข้อมูลที่ถูกทำให้คลุมเครือหรือปกปิดไว้จะถูกจัดการโดยการตั้งค่า policy ที่สอดคล้องกับวิธีที่ใช้ เช่น metadata จะลบข้อมูลที่ถูกซ่อนอยู่ภายในช่องข้อความอิสระที่อยู่ใน metadata ของเอกสาร
การติดตามการเปลี่ยนแปลง
สวิตช์การจัดการเนื้อหา tracked_changes หมายถึงเนื้อหาที่เพิ่มโดยฟังก์ชัน "Track Changes" ในไฟล์ DOCX และ XLSX ซึ่งเรียกอีกอย่างว่า "revisions" เนื้อหาเหล่านี้อาจมีข้อมูลย้อนหลังที่เกี่ยวข้องกับเอกสารเวอร์ชันก่อนหน้า รวมถึงชื่อของผู้มีส่วนร่วมและบันทึกของเนื้อหาที่ถูกลบหรือทำให้ไม่ชัดเจนไปแล้ว การจัดการ tracked changes สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ข้อมูลย้อนหลังทั้งหมดจะถูกลบออก และปิดใช้งาน "Track Changes" เอกสารที่สร้างขึ้นใหม่จะเทียบเท่ากับสถานะสุดท้ายของเอกสารต้นฉบับ
- Disallow - ไม่อนุญาตให้มี tracked changes หากมีหลักฐานใด ๆ ของ revisions ก่อนหน้าหรือ tracked changes ที่ยังคงอยู่ในไฟล์ ไฟล์จะถูกปฏิเสธ
- Allow - ไฟล์จะถูกสร้างขึ้นใหม่โดยคง historic changes, revisions และ tracked changes ทั้งหมดไว้
บันทึกย่อสไลด์
สวิตช์การจัดการเนื้อหา slide_notes หมายถึงเนื้อหาที่เพิ่มโดยฟังก์ชัน "Notes" ในไฟล์ PPTX ซึ่งเรียกอีกอย่างว่า "slide notes" (และ/หรือ "speaker notes") Glasswall engine จัดการกับบันทึกย่อสไลด์เหล่านี้ด้วยวิธีต่อไปนี้ โดยขึ้นอยู่กับการกำหนดค่าของการตั้งค่าสวิตช์การจัดการเนื้อหา:
- Sanitise - ไฟล์จะถูกสร้างขึ้นใหม่โดยลบบันทึกย่อสไลด์ทั้งหมดออก
- Disallow - ไม่อนุญาตให้มีบันทึกย่อสไลด์ หากพบบันทึกย่อสไลด์ใด ๆ ไฟล์ที่มีบันทึกดังกล่าวจะถูกปฏิเสธ
- Allow - บันทึกย่อสไลด์ใด ๆ จะถูกสร้างขึ้นใหม่และยังคงอยู่ในไฟล์
ความคิดเห็นในข้อความ
สวิตช์ in_text_comments หมายถึงเนื้อหาที่เพิ่มโดยฟังก์ชัน "In-Text Comments" ในไฟล์ DOCX การจัดการสวิตช์นี้สามารถกำหนดค่าได้ดังนี้:
- Sanitise - In-Text Comment จะถูกลบออกพร้อมกับข้อมูลเมตาของเอกสารที่เกี่ยวข้องซึ่งพบใน
core.xml - Disallow - ไม่อนุญาตให้มี In-Text Comment DOCX ใด ๆ ที่มี in-text comment จะทำให้ไฟล์ไม่สามารถถูกสร้างขึ้นใหม่ได้
- Allow - ไฟล์จะถูกสร้างขึ้นใหม่โดยมี In-Text Comment อยู่ในไฟล์ DOCX
หมายเหตุ: เมื่อกำหนด in_text_comments sanitise เป็น allow และกำหนดสวิตช์ metadata เป็น sanitise ไฟล์ที่สร้างขึ้นใหม่จะยังมี in-text comment อยู่แต่จะไม่มีข้อมูลใด ๆ เนื่องจากสวิตช์ metadata จะ sanitise คำอธิบายที่เกี่ยวข้องออกจากไฟล์ core.xml
ตัวแปรเอกสาร
สวิตช์ doc_variables หมายถึงเนื้อหาที่เพิ่มเข้ามาโดยฟังก์ชัน "Document Variables" ในไฟล์ DOCX การจัดการสวิตช์นี้สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ไฟล์จะถูกสร้างใหม่โดยลบตัวแปรเอกสารทั้งหมดออก
- Disallow - ไม่อนุญาตให้ใช้ตัวแปรเอกสาร DOCX ใด ๆ ที่มีตัวแปรเอกสารจะทำให้ไฟล์ไม่สามารถถูกสร้างใหม่ได้
- Allow - ไฟล์จะถูกสร้างใหม่โดยคงตัวแปรเอกสารไว้ในไฟล์ DOCX
ส่วนขยายวิดีโอบนเว็บ
สวิตช์ web_video_extension หมายถึงเนื้อหาที่เพิ่มเข้ามาโดยใช้ฟังก์ชัน "Web Videos Extension" ในไฟล์ DOCX การจัดการสวิตช์นี้สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ไฟล์จะถูกสร้างใหม่โดยลบส่วนขยายวิดีโอบนเว็บทั้งหมดออก
- Disallow - ห้ามใช้ส่วนขยายวิดีโอบนเว็บ DOCX ใด ๆ ที่มีส่วนขยายวิดีโอบนเว็บจะทำให้ไฟล์ไม่สามารถถูกสร้างใหม่ได้
- Allow - ไฟล์จะถูกสร้างใหม่โดยรวมส่วนขยายวิดีโอบนเว็บที่อยู่ในไฟล์ DOCX ไว้
ส่วนหัวและส่วนท้าย
สวิตช์ headers_footers หมายถึงเนื้อหาที่เพิ่มเข้าไปในส่วนหัวหรือส่วนท้ายของหน้าใน DOCX โดยเนื้อหานี้อาจแตกต่างกันในหน้าแรก หน้าคู่ และหน้าคี่ หรืออาจเหมือนกันทั้งเอกสารก็ได้ การจัดการสวิตช์นี้สามารถกำหนดค่าได้ดังนี้:
- Sanitise - ไฟล์จะถูกสร้างใหม่โดยลบเนื้อหาในส่วนหัวและส่วนท้ายทั้งหมดออก
- Disallow - ห้ามใช้ส่วนหัวและส่วนท้าย DOCX ใด ๆ ที่มีส่วนหัวหรือส่วนท้ายจะทำให้ไฟล์ไม่สามารถถูกสร้างใหม่ได้
- Allow - ไฟล์จะถูกสร้างใหม่โดยรวมส่วนหัวและส่วนท้ายที่อยู่ในไฟล์ DOCX ไว้
สวิตช์เฉพาะสำหรับ PDF
ลายเซ็นดิจิทัล
ภาพรวม ไฟล์ PDF อาจมีลายเซ็นดิจิทัลและ AcroForms โดย AcroForms บางประเภทสามารถมีลายเซ็นดิจิทัลได้ แม้ว่าลายเซ็นดิจิทัลจะใช้เพื่อตรวจสอบความถูกต้องและความสมบูรณ์ของเอกสาร แต่ AcroForms จะทำหน้าที่เป็นโครงสร้างพื้นฐานสำหรับช่องแบบฟอร์มแบบโต้ตอบ เมื่อมีลายเซ็นดิจิทัลอยู่ใน PDF แล้ว AcroForm จะแสดงผลลักษณะที่มองเห็นได้ของลายเซ็นนั้นเอง
เมื่อประมวลผลไฟล์ PDF ที่มีลายเซ็นดิจิทัล Glasswall CDR engine จะใช้กระบวนการทำความสะอาดที่ออกแบบมาเพื่อคงความสมบูรณ์ของการแสดงผลไว้ ขณะเดียวกันก็ลบเนื้อหาที่ทำงานได้และ/หรืออาจมีความเสี่ยงออก
วิธีที่ CDR Engine จัดการกับลายเซ็นดิจิทัล เพื่อให้มั่นใจทั้งด้านความปลอดภัยและความสอดคล้องของเอกสาร Glasswall CDR engine จะดำเนินการต่อไปนี้ระหว่างการทำความสะอาด:
- ลบข้อมูลลายเซ็นเชิงเข้ารหัส รวมถึงใบรับรองที่ฝังอยู่ ตรรกะการตรวจสอบความถูกต้อง หรือสคริปต์ใด ๆ
- ลบข้อมูลเมตาที่เกี่ยวข้องกับลายเซ็นและพฤติกรรมแบบโต้ตอบ เพื่อกำจัดช่องทางการทำงานหรือการโจมตีที่อาจเกิดขึ้น
- คงลักษณะการแสดงผลของวิดเจ็ตลายเซ็นไว้ เช่น รูปลายเซ็น ชื่อผู้ลงนาม และข้อความวันที่/เวลา โดยทำได้ด้วยการ flatten ลงในเลเยอร์เนื้อหาแบบคงที่ของ PDF
| AcroForm | ลายเซ็นดิจิทัล | พฤติกรรม AcroForm ที่คาดหวัง | พฤติกรรมลายเซ็นดิจิทัลที่คาดหวัง | พฤติกรรมของส่วน AcroForm ที่มีลายเซ็นดิจิทัล | มีการสร้างไฟล์ใหม่หรือไม่? |
|---|---|---|---|---|---|
| อนุญาต | อนุญาต | สร้างใหม่โดยไม่มีการทำความสะอาด | สร้างใหม่โดยไม่มีการทำความสะอาด | คงทั้งส่วนไว้ตามเดิม (รวมถึงแบบฟอร์มแบบโต้ตอบและลายเซ็นดิจิทัล) | ใช่ |
| ทำให้ปลอดภัย | อนุญาต | ผ่านการทำให้ปลอดภัยแล้ว (ลบออกหรือทำให้แบนราบ) | สร้างใหม่โดยไม่มีการทำความสะอาด | ลายเซ็นดิจิทัลแบบมองเห็นได้ยังคงถูกรักษาไว้; ฟิลด์ AcroForm ที่ลายเซ็นอยู่ภายในจะถูกทำให้ปลอดภัยหรือลบออก | ใช่ |
| อนุญาต | ทำให้ปลอดภัย | สร้างใหม่โดยไม่มีการทำความสะอาด | ผ่านการทำให้ปลอดภัยแล้ว (ลบองค์ประกอบทางคริปโตกราฟีออก) | ส่วนที่มองเห็นได้ของลายเซ็นดิจิทัลยังคงถูกรักษาไว้เป็นส่วนหนึ่งของ AcroForm; ลายเซ็นจะไม่สามารถใช้งานได้อีกต่อไป | ใช่ |
| ทำให้ปลอดภัย | ทำให้ปลอดภัย | ผ่านการทำให้ปลอดภัยแล้ว | ผ่านการทำให้ปลอดภัยแล้ว | ส่วนลายเซ็นดิจิทัลทั้งหมด รวมถึงฟิลด์ AcroForm จะถูกลบออกหรือทำให้แบนราบในเชิงภาพ | ใช่ |
| ไม่อนุญาต | * | ไม่เกี่ยวข้อง | ไม่เกี่ยวข้อง | ไฟล์จะไม่ถูกสร้างใหม่เนื่องจากมี AcroForm ที่ไม่ได้รับอนุญาต | ไม่ |
| * | ไม่อนุญาต | ไม่เกี่ยวข้อง | ไม่เกี่ยวข้อง | ไฟล์จะไม่ถูกสร้างใหม่เนื่องจากมี Digital Signature ที่ไม่ได้รับอนุญาต | ไม่ |
ความสามารถในการตรวจสอบย้อนหลังและ chain of custody
เพื่อรองรับการติดตามย้อนกลับและความรับผิดชอบในสภาพแวดล้อมที่ปลอดภัย Glasswall CDR engine จะบันทึกค่าแฮชเชิงคริปโตกราฟีของทั้งไฟล์ขาเข้าและไฟล์ขาออก ซึ่งช่วยให้ system integrator สามารถ:
- ตรวจสอบแหล่งที่มาของไฟล์ผ่านการเปรียบเทียบค่าแฮช
- ให้ความมั่นใจได้ว่า ในกรณีที่ลายเซ็นดิจิทัลใช้การไม่ได้อีกต่อไป chain of custody ยังคงถูกรักษาไว้และสามารถพิสูจน์ได้