Atman 刘昌芳：医学机器翻译与机器写作

2020-12-03 05:10:01

相关推荐

以下文字由「KnowingAI知智」主办的「AI+医疗——如何让人工智能更好地理解医生」活动现场演讲内容整理而成。演讲者为 Atman 产品负责人刘昌芳，为方便阅读，「KnowingAI知智」进行了不影响原意的编辑。

Atman 产品负责人刘昌芳

Atman 是一家由微软亚洲研究院（MSRA）和微软 Bing 的人工智能专家创办的公司，60% 的同事来自微软。我们为医学领域用户提供机器翻译、机器写作、知识图谱和大数据人工智能产品，致力于成为医学领域的语言智能专家。目前，Atman 已为跨国药企提供机器翻译、机器写作产品，2017、2018 年还被评为人工智能 50 强企业。

我们虽然是一家初创企业，但是大部分人成员都是行业里的老人。2016 年 1 月在北京成立，早于 2016 年 9 月谷歌发布的神经机器翻译（GNMT），Atman 完成了机器翻译系统首秀。2017 年 7 月，Atman 与强生签约，同年 12 月我们开始研发医学领域的机器写作。

▼ 医学机器翻译

有人问「百度、谷歌都有机器翻译，你们为什么还要做机器翻译？」

第一，不同于谷歌、百度面向通用领域的机器翻译，我们做医学领域的机器翻译；

第二，Atman 会为用户定制私有化训练。什么是私有化训练？如果用户之前有翻译过的文档，我们可以用这些文档再次训练（模型），翻译得更加准确。

第三，我们可以做私有部署，将客户的机器翻译部署到企业内部，数据安全更有保障。

Atman 做机器翻译的优势，首先在于海量的医学数据基础，我们爬取了 2 亿双语语料和术语训练医学翻译引擎；其次通过多家客户的机器翻译模型和算法的不断验证，结合医学领域的（语言）规则，算法更加精细；此外我们所有算法都是自主研发，攻克了很多技术难题；我们还有闭环的学习训练，在使用的过程中会翻译得越来越好。

通过 2 亿基础语料训练而成的 Atman 基础翻译引擎，相当于「本科生」的水平。使用客户自己的语料，我们可以再次训练，做自主定制的机器翻译引擎。强生正在使用我们的基础语料库结合自有语料进行训练，得到的翻译引擎相当于「研究生」水平。

私有化部署方案，则可以将机器翻译部署到企业的内部系统中。所有的模型和数据只进不出，可以保障数据的安全。为什么要选择私有部署？翻译的准确率会更高、数据更安全，机器翻译模型可以持续升级、终身学习，还能与用户已有的翻译项目管理系统无缝对接。

我们还有免费的在线 SaaS 平台，用户可以上传文档，或输入文字直接翻译。如果与没有医学背景的译员相对比，机器翻译一定会比没有医学背景的人翻译得更加准确。目前我们支持 43 种文档格式，可以在保留原格式的情况下进行翻译。

在定制医学机器翻译引擎方面，通过强生提供的 50 万句私有语料，结合强生的语言习惯、擅长句型和术语翻译，（定制机器翻译引擎）可以更好的延续强生内部的翻译习惯。强生内部评测报告显示，Atman 的 BLEU 值比谷歌高 1 个百分点。

▼ 医学机器写作

左侧这篇文章案例是药代动力学报告，文档只有三页，但即使是擅长英文写作的医学博士或者硕士也需要耗费 7 个小时来写作。虽然摘要可能只有一、两百字，但通常要筛选、阅读一、两千篇文献。其中 80% 的时间在做检索、筛选和判断，剩余的 20% 的时间编写报告，工作量非常繁重。

基于以上痛点和需求，Atman 开发了机器写作产品。它能搜索、过滤多个医学网站及数据库，自动获取完整的文献全文，还可以分析文献文本和标签，自动生成摘要并进行结论总结。

人类写作有三种类型，创作型写作、描述型写作和综述型写作。写小说是创作型写作，医学人员写报告、申报材料是综述型写作。

如果将人类写作加上 NLP（自然语言处理技术），能得到什么？

机器翻译是 NLP 的核心技术之一，信息检索、内容抽取、问答、聊天对话都是 NLP 技术的实现方式。人类的传统写作数据通过 NLP 技术进行自动加工，就能自动生成文章或辅助人类进行写作，这样的一整套计算机程序就是机器写作。

（机器写作）流程的核心是要先获得数据，从网上抓取或上传私有数据，将数据进行分析，提炼观点得到具有可操作性的意见和建议，再按照预设模版生成报告或材料。其核心能力和关键技术，包括自动摘要生成、实物识别和提取、主题的识别和分类、爬虫技术和搜索引擎，光学文字的识别。

客户会从 Pubmed 上检索文献，提取文献标题、摘要征文等信息，（医学机器写作）可以生成药品说明书。使用新药早期临床实验步骤以及对应各阶段数据，（医学机器写作）可以生成动物实验报告、IDN 材料、伦理报告；有些用户因为医学法规，每天要用分析仪生成一千多份 PDF，使用机器可以大大提升效率。还可以全网检索相关数据，汇总成药品研发的阶段性总结报告，用于新药研发的报批。针对不同的场景，写作的内容、形态都有所不同。

选择领域搜索关键词，（我们的医学机器写作）不仅可以搜索 Pubmed、 FDA、谷歌论文、万方医学等数据源，也可以上传自己的私密数据。

搜索出来的结果我们会进行整理、分类，分辨它们是 Guideline（参考）、Clinical Trials（临床试验）还是 Systematic Review（系统评价）。分类的同时还会对内容进行分析，打上相应标签，包括是前瞻性研究还是回顾性研究，正向研究还是负向研究，研究人群是怎样的等等。我们也会做多维度筛选，帮助用户快速定位、查找到想要的数据。

筛选数据之后，还可以根据预设的模版一键生成文本，包括摘要、数据、小标、结论等等。

谢谢大家。

关于 KnowingAI 知智：

「KnowingAI 知智」是中国领先的、面向人工智能行业的企业服务解决方案提供商，致力于成为「更懂人工智能行业的知识传播者」。

知智旗下拥有媒体品牌「Knowing 知智」、视频品牌「知智一分钟」、活动品牌「TalkingAI」，在为广大读者、观众提供人工智能基础知识及行业解读的同时，将艰深术语与行业变迁转化为普通人也能理解的表达方式，不遗余力地为人工智能祛魅。

阅读剩余内容

Atman 刘昌医学机器机器翻译

Atman 刘昌芳：医学机器翻译与机器写作

微软“中译英”机器翻译水平媲美人类

翻译机器通过六级英语考试达到英语六级优秀水平

科大讯飞刘庆峰谈人工智能：机器翻译将超过英语八级

机器翻译对英语专业毕业论文写作的影响及应对策略论文

数字翻译主要特性 GUI文档机器人工翻译 CPU多线程多进程