如果管理员为 Vault 启用了多语言文档处理,则所有文档都会包含标准文档字段语言。用户执行搜索时,Vault 会通过合并语言特定元素(例如单词分隔符、停止词(忽略英语中的 "a" 和 "the" 等)以及词干),来遵循文档语言Vault 还会尝试自动从文档的源文件识别文档的语言,并自动为新文档填充语言字段(如果可能)。

请参阅支持的文档处理语言列表

关于文档语言

多语言 Vault 中的每个文档都包含语言字段。对于 PDF 和文本文件,例如 HTML 或 CSV,Vault 会尝试在根据文档的语言进行导入时自动分配一种语言。否则,Vault 将使用当前用户的语言作为文档的默认语言,并允许用户编辑此字段。默认情况下,语言字段是必填字段,但管理员可以将其设置为可选字段。

在某些情况下,Vault 不会尝试自动检测语言:

  • 文档具有一个 Microsoft Office™ 源文件,例如 DOC、DOCX、PPT 等等。
  • 源文件的字符少于 100 个。

用户可以选择使用筛选器面板,按文档语言筛选自己的库或文档标签页结果。

导出为 CSV 和 TXT

当启用了多语言文档处理时,用户将会在整个 Vault 中看到导出为 TXT导出为文本而不是导出为 CSV。Vault 会将文件作为 TXT 导出,以防止在 Excel 中打开和重新保存包含多字节字符的文件时崩溃。