当用户将文件作为新文档或版本上传到 Vault 时,Vault 会自动生成 PDF 格式副本(“可视格式副本”)。可视格式副本显示在内联查看器中,并允许拥有适当访问权限的用户向文档添加注释。文档的每个版本都有一个唯一的可视格式副本,以反映在编辑过程中所做的任何更改有关自动生成的可视格式副本信息,请参阅支持文件格式列表。

本文不提供有关视频或音频文件的可视格式副本的信息。创建视频音频文件的可视格式副本。

下载可视格式副本

与源文件一样,可视格式副本也可供下载。如果用户向文档添加了注释,则可以使用额外的带有注释的 PDF 下载选项。此选项通过合并备注与可视格式副本来新建 PDF 文件。

请注意,您必须拥有授予文档:下载格式副本权限的安全配置文件。

卫生局合规格式副本

Vault 生成的所有可视格式副本均采用 PDF 版本 1.7,其依据是 ICH 导出工作组 M2 建议 - 监管信息传输电子标准 (ESTRI) 文件格式建议 - PDF。(有关详细信息,请参阅 ICH 网站。)

Vault 还会将快速 Web 视图设置为“true”,并将带有书签的可视格式副本的默认视图设置为“页面加书签”。

PDF/A-1b 文件

默认情况下,Vault 会以 PDF 的格式呈现文档。管理员可以配置格式副本设置,以 PDF/A-1b 兼容的格式呈现文档。如果已启用 PDF/A-1b 格式副本,Vault 将不再以标准 PDF 格式呈现文档。

关于受保护的 PDF 格式副本

默认情况下,Vault 生成的 PDF 格式副本不受保护。管理员可以配置其 Vault 的格式副本设置,以呈现受保护的文档并应用保护措施来限制 PDF 格式副本被更改。如果已启用受保护的格式副本,Vault 将不再以不受保护的 PDF 格式呈现文档。

安全的 PDF 文件

一些 PDF 文件包含 Adobe® Acrobat® 安全设置,可防止在 Vault 内联查看器中查看文件。管理员可以在管理区域中启用处理这些 PDF 文件。如果启用,Vault 可以显示和允许 PDF 文件的注释,并通过 Adobe® Acrobat® 安全设置启用权限密码,以及使用 Adobe Experience Manager® 或 Adobe LiveCycle Designer® 生成的基于 XFA 的 PDF 文件。

Vault 不支持利用文档打开密码或证书安全性来查看 PDF 文件。此外,Vault 无法向受保护的文件应用叠加图或电子签名页。

MS Word™ 文件中的锁定字段

Veeva 支持人员可以为 Microsoft Word™ 文档启用锁定字段,以防止在文档呈现时更新字段。目前,文档页眉和页脚中的字段不会锁定。

请注意,每次 Vault 呈现文档时,Microsoft™ DATE 字段都会自动更新。如果您不希望随呈现而更新日期,请手动输入所需的日期,或使用 Microsoft™ SAVEDATE 字段,该字段存储文档上次保存的日期和时间。

如需了解有关 Microsoft Word™ 字段的更多信息,请查看 Microsoft Word™ 文档

受密码保护的文件

如果在 Microsoft Office™ 文件中使用密码保护来控制视图访问,Vault 将无法创建可视格式副本。如果您需要对 Microsoft Office™ 文件使用密码保护,但希望 Vault 自动生成可视格式副本,则可以更改文件设置,以仅保护文件编辑。

透明图像

当上传带有透明背景的图像文件时,“文档信息”页面将以白色背景显示这些图像。在某些情况下,例如带有透明背景的白色徽标,您可能无法在 Vault 中正常看到该图像。

Word 文件的图像质量

图像质量设置保留了 PNG、JPEG 和 TIFF 光栅图像的原生图像分辨率(高达 5000 像素),这些图像是 Vault 从 MS Word™ DOCX 源文件生成的可视格式副本。启用此设置后,Vault 需要更长的时间来生成可视格式副本,而格式副本的文件可能会更大。必须在源文件中将 MS Word™ 的图像大小和质量选项设置为在插入图像前不压缩文件中的图像。这是因为 MS Word’s™ 的默认下采样为 220 PPI。

Vault 还可以为 EMF 和 WMF 格式的矢量图像呈现原生分辨率的光栅化图像。这避免了矢量图像中出现 Vault 不能正确呈现某些字符或行的问题。请注意,这会使得图像中的文本在可视格式副本上不可搜索。

扫描文件和 Veeva Snap 文件的 OCR

OCR(光学文字识别)提取扫描图像和无可编辑文本的 PDF 源文件中的文本并为其编制索引。然后,Vault 将文本合并到可视格式副本中,以支持文档查看器中的文本注释和搜索。

请注意,此流程只能提取输入的文本。

部分文本提取和限制

Vault 可以在批量上传(迁移)时提取多达 50 页,在手动上传或重新重现高质量扫描文档时提取多达 100 页。如有需要,可以手动重新呈现迁移后的文档,以提取更多页面的文本。提取文本时,Vault 会根据单词的匹配程度和文档的可读性来分配一个可信度评分。在某些情况下,如果可信度评分太低,Vault 就不会提取文本。如果您怀疑特定文档的 OCR 流程可能失败,请检查文档审计跟踪。在审计跟踪中,可以看到 OCR 状态和有关所提取内容的信息。

在以下情况下,Vault 将无法提取文本:

  • 单词可信度评分较低
  • OCR 未检测到任何文本
  • 因为文档非常长(超过 100 页)或扫描的文档质量不高而导致流程超时

OCR 状态通知

OCR 已请求页面已进行 OCR 两个共享文档字段提供有关 OCR 内容提取的状态信息。在生成报告时,您可以使用这些字段作为筛选器。

  • OCR 已请求显示是否已提出提取内容的请求。
  • 页面已进行 OCR 显示已成功进行 OCR 的页面百分比。

请注意,管理员必须将这些共享字段分配给特定的文档类型,以便您查看它们。

OCR 支持的语言

OCR 能为英文文本提供最佳性能,但确实可以为其他语言提取字符。在启用了多语言文档处理的 Vault 中,Vault 会在呈现文档时使用基本 Vault 语言和英语一起传递文档语言字段。

OCR 会自动尝试提取包含以下支持语言的文件上的文本:

  • 中文(简体)
  • 中文(繁体)
  • 荷兰语
  • 英语
  • 法语
  • 德语
  • 匈牙利语
  • 意大利语
  • 韩语
  • 日语
  • 波兰语
  • 葡萄牙语(巴西)
  • 葡萄牙语(葡萄牙)
  • 俄语
  • 西班牙语
  • 泰国语
  • 土耳其语

OCR 支持的格式

OCR 将自动尝试在具有以下受支持格式的文件中提取文本:

  • 无可编辑文本的 PDF 或 PDF/A-1b
  • 可移植网络图形 (PNG)
  • 标签图像文件格式(TIF、TIFF)
  • JPEG(JPEG、JPG)
  • 图形交换格式 (GIF) 图像
  • 位图 (BMP)

OCR 的文件大小限制

默认情况下,Vault 不会为超过以下任意限制的文档提取 OCR 文本:

  • PDF 或 PDF/A-1b 文件:100 页,20MB
  • TIFF 文件:100 页,20MB
  • 其他受支持的格式:5MB

关于叠加图和签名页

如果 Vault 管理员已配置叠加图或电子签名显示页,Vault 将在您下载可视格式副本时自动添加这些内容。叠加图在页眉、页脚和/或文档页的对角上显示文本。签名页可以在文档页之前或之后的单独页面上显示电子签名的详细信息。

在一些文档上,可以看到禁用 Vault 叠加图文档字段。如果特定文档需要跳过叠加图,可以将此字段设置为。如果此字段设置为、为空或未应用到文档,则 Vault 将根据配置应用叠加图。

如果源文件为以下格式,Vault 将把可视格式副本中的嵌入式 Web (http://veeva.com)、“mailto”(help@veeva.com) 和内部(目录、交叉引用等)链接设置为“可单击”:

  • PDF 或 PDF/A-1b
  • HTML
  • Microsoft Office™(DOC、DOCX、PPTX 等)
  • MSG
  • EML

将光标悬停在文档查看器中的嵌入式链接上方时,URL 将显示在浏览器的左下角,或者显示为弹出信息卡(仅在注释模式下)。在任一模式下,单击链接将在单独的窗口或标签页中打开 URL。

查看模式下单击嵌入式链接时,会在新的迷你浏览器窗口中打开 URL,以便于审查文档。单击文档中的另一个链接会刷新当前的迷你浏览器窗口以显示新目标。启用视图模式下链接注释后,Vault 还会在此迷你浏览器窗口中打开注释目标。在注释模式下,系统会像往常一样在单独的标签页或窗口中打开链接。

Vault 支持一组有限的嵌入式链接类型。Vault 将不受支持的链接显示为纯文本(例如在 Acrobat 或 Word 中创建的用于调用特定于软件函的数的链接),或者显示为超文本。不受支持的超文本链接会显示一个不可单击的不受支持的链接提示框。

受支持的链接满足以下部分或全部条件:

  • 目标 URL 是绝对的(完整路径),并使用白名单协议(httphttpsmailto)。
  • 目标不包含尖括号< >或方括号[ ],除非用字符编码转义。
  • 目标 URL 没有协议,但以 www. 开头;在这些情况下,Vault 添加了 http://
  • 目标是同一文档中的书签。
  • 目标 URL 是相对路径,并指向同一个活页夹中的文档,例如:../folder/file.pdf

不受支持的链接包括:

  • 指向不在同一个活页夹中的文档的相对路径 URL,例如:../folder/file.doc
  • 本地文件链接,例如:C://My%20Documents/folder/file.doc
  • 以非白名单协议(例如 FTP、Sopcast 或 Telnet)或有效格式协议(例如 http: //example.com,冒号后有空格)开头的链接。
  • 没有有效协议且不以 www 开头的链接。
  • 包含可执行内容的链接(例如包含“Javascript”一词)。
  • 特定于软件的链接类型(例如各种特定于 Acrobat 的链接类型)。

当 Vault 呈现 DOC 或 DOCX 文件时,可视格式副本会在蓝色文本中显示链接。这些链接包括 Web 链接(例如 http://www.veeva.com)和 MS Word™ 文件中的内部链接(目录链接、交叉引用等)。

此功能取决于 Vault 的配置。管理员可以在管理区域启用呈现链接

请注意,在 PDF 格式副本过程中,MS Word™ 源文件中的一些链接会转换为图像。发生这种情况时,链接文本不能以蓝色显示,Vault 也不能为转换成图像的文本编制索引用于全文搜索。要避免这种情况,请在创建可视格式副本之前清除 MS Word™ 源文件上的格式。

书签

Vault 在 PDF 和 PDF/A-1b 文档中自动显示标签。当 Vault 呈现 DOC 或 DOCX 文件时,可视格式副本会显示书签。管理员可以在格式副本设置页面中配置书签。

有关书签的更多信息,请参阅书签支持

目的地

当 Vault 呈现 PDF 或 PDF/A-1b 源文件以及手动创建的目的地时,可视格式副本将在目的地面板中显示它们。有关目的地的更多信息,请参阅导航至文档查看器中的目的地

格式副本选项

MS Office™

管理员启用后,Vault 将根据源文档属性,对 Vault 生成的 PDF 和 PDF/A-1b 可视格式副本自动填充基本文档元数据。Vault 将填充可视格式副本的文档属性中的题目作者主题关键字字段,其依据是源文档文件属性中的这些字段。

此功能仅兼容 Microsoft Word、Excel 和 PowerPoint 源文件。

MS Word™

MS Word™ 文档的可视格式副本包含源文件中的所有标记和备注。管理员可以为 Vault 中的所有文档启用可视格式副本(无文档标记)。拥有 Vault 所有者操作:重新呈现管理可视格式副本权限的用户还可以为单个文档启用此设置,方法是在文档的操作菜单中,选择 Word 格式副本设置

MS PowerPoint™

Vault 不包含 MS PowerPoint 文档的可视格式副本中的发言人备注。管理员可以为 Vault 中的所有文档启用可视格式副本(带发言人备注)。拥有 Vault 所有者操作:重新呈现管理可视格式副本权限的用户还可以为单个文档启用此设置,方法是在文档的操作菜单中,选择 PowerPoint 格式副本设置

关于文件编码

为帮助保证正确呈现基于文本的文件,请确保文件指定了目标编码(UTF-8、ANSI 等)。如果没有声明正确的编码,则 Vault 生成的可视格式副本中的文本可能显示不正确。

关于 HWP 可视格式副本

Vault 自动为 Hangul Word Processor (HWP) 源文件创建可视格式副本。有关 HWP 可视格式副本的更多信息,请参阅关于 Hangul Word Processor 可视格式副本