如何在trados Studio中处理带标记的Excel文件
我所说的taggy文件是指“嵌入的xml或html内容”,它和可翻译的文本一起被写入Excel文件。在我的上一篇文章中,我记录了人们有时用来处理Word文件中标记内容的方法...有趣的是,我今天遇到了一个包含IDML文件的XML组件的Word文件,我认为它必须以非常相似的方式准备。大量的标签使用tw4win风格隐藏任何SDL Trados版本打开时!证明这种做法是遗憾的,也是好的。但是我跑题了...因为这次我要介绍的是当你在Excel文件中发现HTML或者XML标签时,如何处理类似的问题。这个在ProZ上占了相当大的位置,所以我觉得一劳永逸的录下来可能更好,所以除了Studio的帮助,我还有别的可以引用。
Studio在创建自定义XML文件时使用了一个概念,根据XML解析器规则的文档结构类型再次解析文件,并用标签替换解析文本中创建的模式。现在让我再说一遍英语...Studio可以查看提取出来进行翻译的文字,然后挑出你不想看的,把它们变成标签。例如,如果您有一个包含以下内容的Excel文件:
然后在Studio中打开该文件,您将看到类似Excel电子表格的内容,但您可能更喜欢它可以更改的内容,如下所示:
因此,您希望保护所有尖括号及其之间的文本。万一你不喜欢在所见即所得中看到这一切,别忘了你不喜欢。你可以改变Kevin Lossner和Jayne Fox在一个简单的小视频中显示的字体大小,也可以选择默认值始终显示一致的纯文本和所有标签(因为我们知道即使在所见即所得模式下它们也是存在的!)下面是这个选项...所以有足够的选择来满足你的喜好:
当然,您不必将纯文本excel文件转换为我在此展示的疯狂格式!
但重要的是,我们已经将Excel文件中的所有标记内容转换为Studio中受保护的标记,这样您就可以安全、独立地翻译文本。你是怎么做到的...简单!
你只需要使用一个小的正则表达式创建一些规则来挑选应该被标记的文本。这些规则是通过XLS和XLSX文件类型的Excel文件类型设置添加到这里的(截图显示XLSX):
因此,该过程首先通过选中复选框,然后从可用类型列表中选择单元格来启用嵌入内容处理。这是因为对于Excel来说,唯一管用的就是“单元格”。当您在自定义XML文件类型中使用相同的“嵌入式内容处理器”时,其余的都是可用类型的一部分,但它们对Excel文件类型没有影响。当你在Excel中处理“单元格”时,你会认为它是有意义的...但这不是这个解决方案最直观的部分。

一旦启用了处理,就可以像我在2中所做的那样添加规则。在这种情况下,我把它们夸大了一点,只是想告诉你,如果你想做某事...我可以转换这个文件中的所有标签...有三条规则...如果我真的聪明,可能会少一些。事实上,我看到大多数Excel文件,我看到问题中的翻译只包含非常简单的XML/HTML。在这些情况下,以下第一条“全部捕获”规则可以处理整个文件:
可翻译标签配对-捕获所有[az][a-z0-9]*[]*/[az][a-z0-9]*[]*占位符{[0-9]}Alt属性。* alt = " "有趣的是,在我的实际例子中,通过变得稍微华丽一点,我实际上已经展示了它是多么简单,因为我只是将形成标签的文本作为规则添加进来。比如,我不希望b/b被标记为文本。所以我把它们作为可翻译的标签对添加到这里:
这样看的话就很简单了...但缺点是,你需要为文件中的每种类型的标签添加规则,这就是我在上面创建颜色视图时所做的。如果您有许多不同的标签,并且它是一个大文件(或许多文件),那么平滑正则表达式规则要好得多,并且您可能只需要捕获所有标签:
一旦你添加了所有的规则,并使它们像你喜欢的那样花哨,你就可以打开Excel文件,一切都很顺利。你会看到受保护的标签或一个奇怪的所见即所得的格式来处理文件。
刚刚完成...用上面提到的“无所见即所得”选项显示的同一个文件将显示如下,尽管我已经设置了所有我制定的花哨规则。不显示任何标签的段是这样的,因为标签其实在单元格的开头和结尾,所以没有必要。如果我真的想看到它们(并且必须处理它们),也可以通过在高级规则中将它们改为内部而不是外部来添加正则表达式: