绩效差距是真实且经过衡量的
尽管开放机器学习研究文献中的多语言进展稳步推进,但除了资源最丰富的普通话、日语和韩语之外,前沿模型在大多数亚太地区语言上的表现仍然不佳。这种模式在各个基准测试中是一致的:英语流利的模型在越南语、泰语、印度尼西亚语、他加禄语、高棉语、老挝语、缅甸语和德顿语任务上通常会下降 10-30 分——不是因为智力缺陷,而是因为语言训练和评估数据的缺陷。
这种模式在专门为亚太地区构建的评估工作中重复出现。 AI4Bharat 是印度理工学院马德拉斯分校牵头的研究项目,它连续发布了印度语言基准测试,结果显示,在英语上表现最好的模型在泰米尔语、孟加拉语、泰卢固语和马拉雅拉姆语任务上的性能下降显着——通常超出了预期的差距。 VinAI 的 PhoBERT 和 PhoGPT 系列在越南语方面也取得了同样的经验:越南语训练的越南语任务模型通常会击败一个更大的以英语为中心的模型,该模型只看到翻译后的越南语。
对于瞄准亚太市场的人工智能生产团队来说,这意味着很简单。 Translated training data underperforms in-language training data in production by a margin that compounds across model size, compute, and evaluation effort.获得亚太地区语言模型质量的最便宜的途径是语言内注释,而不是与更大模型配对的翻译注释。
为什么翻译管道不能解决这个问题
刚刚接触亚太地区语言人工智能的团队的一个共同反应是寻找英文标签并将其翻译成目标语言。这种方法很有吸引力,因为它可以扩展,但它无法在与生产分配的接触中幸存下来。每个尝试翻译快捷方式的亚太语言程序都会重复出现三种故障模式。
- 文化特殊性。泰语、韩语、日语和越南语中的情感、正式、敬语和礼貌标记所具有的含义与英语没有直接对应。在翻译的英语标签上训练的毒性或意图分类器会系统性地错过上下文中的侮辱,并对礼貌的拒绝进行错误分类,因为模型需要学习的语言现象从未通过翻译得以保留。
- 文字和正字法。高棉语文本通常缺乏单词边界并使用下标辅音簇;越南语变音符号具有音位和语义重要性(声调标记不是可选的);繁体中文和简体中文共享大部分字符,但编码不同的惯例和区域词汇;泰语在运行文本中没有字间距。往返英语的管道默默地消除了这些区别,并根据剩余的噪音训练模型。
- 领域词汇。法律越南语、医学泰语、监管印尼语和金融普通话都使用了在主流培训语料库中没有以任何有意义的频率出现的技术词汇。翻译生成的文本表面上看似合理,但实质上是错误的,而以其为基础训练的生产模型却未能完成最初证明人工智能投资合理的高价值企业任务。
这些语言的“好”注释是什么样的
为资源匮乏的亚太地区语言持续生成生产级数据集的模式具有四个可观察的属性。提供所有四个的程序通常优于仅提供前一个或两个的程序。
- 语言内、区域内的注释器。母语人士,在相关市场内招募和培训,拥有可以裁定特定文化边缘案例的高级评审员。仅远程标记管道的工作人员距离语言和文化背景数千公里,通常表现不佳。
- 本地化指南。标签指南首先以目标语言编写,其次参考英语。边缘情况使用语言内的示例进行编码,而不是使用翻译后的近似值进行编码。该指南是一份动态文档,随着团队遇到原始规范未预料到的新边缘情况而更新。
- 明确的文化分类。礼貌水平、敬语用法、语码转换模式、地区方言标记和其他文化特定现象作为标签出现在模式中,而不是存在于注释者的头脑中。当模式没有捕获它们时,每个注释者对它们的解释都略有不同,并且模型将分歧作为一个特征来学习。
- 母语 QA 基础设施。注释者间协议面板采用语言。分歧群报告是用语言写的。裁决疑难案件的高级审稿人精通所注释的特定方言,而不仅仅是广泛的语系。对工作进行评分的审核团队由母语人士组成,而不是由阅读标签翻译文本的审稿人组成。
逐个语言:亚太地区每种主要语言的要求
亚太地区每种主要语言都具有结构特征,这些特征决定了针对该语言的可靠注释程序的外观。主要语言的简要浏览,以及每种语言与注释相关的属性。
- 越南语:没有形态变化但有丰富变音符号的声调语言。声调标记是音素的——它们改变意义,而不仅仅是发音。本地注释者负责处理声调恢复、地区口音转录(北方方言与南方方言)以及现代越南文本中大量借用法语和汉语词汇。
- 泰语:书面语言中没有字间距、复杂的辅音簇、带有两种声调约定的六种词汇声调(mai ek、mai tho),以及正式语域和口语语域之间的大量双语。注释工具必须支持泰语特定的标记化,并且模式必须考虑对下游模型重要的正式/口语语域区别。
- 印度尼西亚语和马来语:共享词根词汇,具有有意义的区域和风格差异。英语、普通话和地区少数民族语言的语码转换在会话和社交媒体数据中是常规操作。印尼语文本还展示了特定领域指南必须解决的大量俚语创新。
- 他加禄语和菲律宾语:强大的英语语码转换(“Taglish”)是菲律宾城市对话数据的操作规范。他加禄语 NLP 工作的模式必须捕获语言切换点和每个片段的语言识别,而不是将文本视为单语。
- 高棉语(柬埔寨):无字间距、复杂的子脚本辅音簇,以及需要 Unicode 识别工具才能正确呈现和处理的脚本。注释者基数比越南语或泰语小,高级审稿人对困难案例的裁决是对程序吞吐量的约束。
- 老挝语:声调语言,其文字与泰语相关,但具有不同的惯例。母语注释者池结构较小;可防御的程序通常从老挝人民民主共和国内部获取注释器,并且与资源较高的语言相比,其启动周期更长。
- 缅甸语(缅甸):复杂的文字、多种罗马化惯例以及缅甸以外的小型母语注释者基地。与资源较多的亚太地区语言相比,大多数需要缅甸语注释的制作程序的运行时间更长,质量保证周期更严格。
- 德顿语(东帝汶):资源匮乏的语言,已发表的参考语料库有限。需要德顿语注释的程序通常将母语注释与使用印度尼西亚语或葡萄牙语作为辅助参考语言的双语审稿人裁决相结合。
- 普通话(简体、繁体):不是全球资源匮乏的语言,但在中国大陆(简体)、新加坡和马来西亚(简体,具有地区词汇)、香港(繁体+粤语影响)和台湾(繁体,具有大陆与台湾词汇差异)具有独特的惯例。模式必须对正在注释的变体进行编码。
- 韩语:并非全球资源不足,而是独特的语言特性(粘着词法、六个礼貌级别、上下文相关主题)使得注释比资源水平所暗示的更加困难。敬语标签是它自己的注释维度,几乎出现在每个韩国企业 NLP 项目中。
- 日语:像韩语一样,严格来说资源并不匮乏,但对语言要求很高(普通文本中混合了三种文字,复杂的礼貌语域系统,上下文省略)。注释程序始终需要高级母语审阅者来确保礼貌和语域维度。
人员配置模式:如何构建可防御的多语言集群
持续生成生产级亚太语言数据集的操作模式有五层,每层都解决上一层无法捕获的故障模式。
- 注释者级别:在目标市场内招募的母语人士,具有至少一年的注释或 BPO 经验,以及记录的语言和方言概况(河内与西贡越南语、曼谷与清迈泰语、雅加达与泗水印度尼西亚语)。
- 校准层:在运送生产标签之前,每个注释器都会根据特定于语言的黄金面板进行校准。校准目标通常是 κ > 0.80 与标题指标上的面板相比,加上方言重要的每个方言抽查。
- 审稿人层级:高级母语审稿人负责对分歧案件进行裁决。审稿人通常是针对特定方言的(北越审稿人不会裁定南越的分歧,反之亦然),并且轮换以防止审稿人对相同内容感到疲劳。
- 双语质量主管层:精通目标语言和英语的质量主管在客户团队和注释团队之间架起桥梁。质量主管将客户反馈转化为语言运营变更,并将语言质量报告翻译回客户团队,而不会丢失语言细节。
- 语言专家层:对于最困难的图式决策(韩语的礼貌处理、泰语的正式/口语语域、越南语的方言标记),领域语言学家会持续或在咨询的基础上参与设计图式并解决审阅者层的上诉。
LLM 时代对资源匮乏的亚太地区语言的考虑
大型多语言语言模型的兴起改变了亚太地区语言注释的用途,但并未消除对其的需求。到 2026 年,三种模式将日益占据主导地位。
首先,评估集注释。测试多语言法学硕士在越南语、泰语、高棉语或他加禄语方面的表现的带注释基准在 2026 年比法学硕士时代之前更加重要。排行榜上的每个模型都会根据他们进行评分,高质量的亚太语言评估小组是区域人工智能团队可以构建的最有价值的注释资产。
其次,偏好数据进行微调。亚太地区部署的法学硕士需要匹配区域用户的语言和文化习俗,需要目标语言的 RLHF 式偏好数据。这是一项高技能注释工作——注释者在微妙的质量维度上对模型输出进行排名——而且这项工作不能从纯英语偏好面板中干净地获取。
第三,目标语言的结构化输出和工具使用注释。用于区域银行、医疗保健、电子商务和政府用例的生产法学硕士系统需要生成结构化输出(JSON、函数调用、表单字段),并填充文化和拼写正确的内容。为每个输入注释正确的结构化输出是它自己的学科,并且是一致的语言工作,其中注释者基础必须了解目标市场的模式和语言约定。
亚太地区语言注释程序的常见陷阱
持续产生嘈杂或不可用数据集的重复模式:
- 使用侨民注释者作为区域内注释者的替代品。悉尼或加利福尼亚的越南注释员将在标准文本上进行合理的工作,但会系统性地错过生产数据包含的当代俚语、代码转换模式和区域词汇。海外侨民的溢价很少值得付出质量成本。
- 将语言视为一个整体。越南语的南北方言截然不同。泰语有中部、北部、东北部(伊桑)和南部的变种。中文有简体/繁体以及地方普通话、粤语和其他方言变体。一个可靠的程序会报告每种方言的质量指标,而不仅仅是每种语言。
- 关于多语言数据集的单标题 IAA 报告。五种语言数据集上 0.84 的全局 IAA 可以隐藏他加禄语子集上的 0.65 IAA 和英语子集上的 0.92 IAA。每种语言的报告是模型风险审核员或审计员会要求的工件。
- 跳过文化分类。礼貌、敬语、正式语域、语码转换标记和方言指示符都属于它们所关心的语言的模式。当它们没有被标记时,模型无法学习它们,并且生产失败恰好集中在文化特征承载的情况上。
- 对高级审稿人能力的投资不足。高级审稿人是低资源语言裁决疑难案件的瓶颈。注释者与高级审阅者按 20:1 比例配置的程序始终会产生嘈杂的裁决;在资源匮乏的亚太地区计划中,合理比率接近 8:1 至 10:1。
亚太地区语言内注释的经济学
亚太地区语言注释的单位费用比英语更高。下游经济依然看好。在整个模型生命周期中建模,非英语市场中最高质量的生产系统始终是语言数据投资最高的系统 - 标签阶段的成本差异向后复合成下游的计算、评估和重新标签费用要小得多。
对于越南、泰国、新加坡、马来西亚、菲律宾和印度尼西亚群岛的企业团队来说,现实的决定不是“用语言还是翻译”。它“现在已采用语言,或者在翻译后的数据集在市场上表现不佳且必须重建后 18 个月内已采用语言”。前者更便宜、更快,并且生产出可防御的人工制品,而不是沉没成本。
一旦建模正确,成本差距就会比买家通常预期的要小。亚太地区语言标签的价格通常为美国在岸费率的 40-80%,远高于批量英语离岸费率,但仍明显低于生产失败且必须重做的英文翻译数据集的总成本。
常见问题
评估亚太语言注释项目的企业人工智能团队提出的常见问题:
- 我们可以先从翻译数据开始,然后再切换到内语言吗?可以,但是转换成本很高。当发现生产模型表现不佳时,翻译的数据集通常需要从头开始重新注释,因为底层的语言现象从未被捕获。大多数开始翻译并转换的团队发现,从语言开始会更便宜。
- 我们如何评估特定亚太地区语言的供应商?使用目标语言运行 500-2,000 个示例的付费试点,并预先指定黄金面板和验收标准。每个类别的 IAA、每个方言的细分以及审核通过率是跨供应商的可比较的工件。仅报告单一语言标题准确性的供应商并未运行可防御的每种语言 QA 计划。
- 注释团队应该由 100% 母语人士组成,还是可以让一部分人接近母语人士?生产级注释需要注释者和高级审阅者级别的母语人士。接近母语的人(高级第二语言)可以为双语协调和质量领先层做出贡献,但不应出现在资源匮乏的亚太地区语言的主要标签链上。
- 普通话呢?它真的是一种资源匮乏的语言,需要这种训练吗?普通话在全球范围内资源并不匮乏,但中国大陆、新加坡、马来西亚、香港和台湾的地区差异是有意义的。模式选择(简体与繁体、大陆与地区词汇)是重要的,并且每个变体的报告是正确的操作模式。
- 监管和数据驻留要求如何与亚太地区语言注释相互作用?每个市场都有特定的个人数据保护规则(新加坡 PDPA、泰国 PDPA、越南第 13 号法令、印度尼西亚 PDP 法、香港 PDPO)。区域内注释吊舱按照这些规定正常运行;处理相同数据的海上管道面临更高的跨境传输合规开销。


