Atman 刘昌芳:医学机器翻译与机器写作
以下文字由「KnowingAI知智」主办的「AI+医疗——如何让人工智能更好地理解医生」活动现场演讲内容整理而成。演讲者为 Atman 产品负责人刘昌芳,为方便阅读,「KnowingAI知智」进行了不影响原意的编辑。
Atman 产品负责人刘昌芳
Atman 是一家由微软亚洲研究院(MSRA)和微软 Bing 的人工智能专家创办的公司,60% 的同事来自微软。我们为医学领域用户提供机器翻译、机器写作、知识图谱和大数据人工智能产品,致力于成为医学领域的语言智能专家。目前,Atman 已为跨国药企提供机器翻译、机器写作产品,2017、2018 年还被评为人工智能 50 强企业。
我们虽然是一家初创企业,但是大部分人成员都是行业里的老人。2016 年 1 月在北京成立,早于 2016 年 9 月谷歌发布的神经机器翻译(GNMT),Atman 完成了机器翻译系统首秀。2017 年 7 月,Atman 与强生签约,同年 12 月我们开始研发医学领域的机器写作。
▼ 医学机器翻译
有人问「百度、谷歌都有机器翻译,你们为什么还要做机器翻译?」
第一,不同于谷歌、百度面向通用领域的机器翻译,我们做医学领域的机器翻译;
第二,Atman 会为用户定制私有化训练。什么是私有化训练?如果用户之前有翻译过的文档,我们可以用这些文档再次训练(模型),翻译得更加准确。
第三,我们可以做私有部署,将客户的机器翻译部署到企业内部,数据安全更有保障。
Atman 做机器翻译的优势,首先在于海量的医学数据基础,我们爬取了 2 亿双语语料和术语训练医学翻译引擎;其次通过多家客户的机器翻译模型和算法的不断验证,结合医学领域的(语言)规则,算法更加精细;此外我们所有算法都是自主研发,攻克了很多技术难题;我们还有闭环的学习训练,在使用的过程中会翻译得越来越好。
通过 2 亿基础语料训练而成的 Atman 基础翻译引擎,相当于「本科生」的水平。使用客户自己的语料,我们可以再次训练,做自主定制的机器翻译引擎。强生正在使用我们的基础语料库结合自有语料进行训练,得到的翻译引擎相当于「研究生」水平。
私有化部署方案,则可以将机器翻译部署到企业的内部系统中。所有的模型和数据只进不出,可以保障数据的安全。为什么要选择私有部署?翻译的准确率会更高、数据更安全,机器翻译模型可以持续升级、终身学习,还能与用户已有的翻译项目管理系统无缝对接。
我们还有免费的在线 SaaS 平台,用户可以上传文档,或输入文字直接翻译。如果与没有医学背景的译员相对比,机器翻译一定会比没有医学背景的人翻译得更加准确。目前我们支持 43 种文档格式,可以在保留原格式的情况下进行翻译。
在定制医学机器翻译引擎方面,通过强生提供的 50 万句私有语料,结合强生的语言习惯、擅长句型和术语翻译,(定制机器翻译引擎)可以更好的延续强生内部的翻译习惯。强生内部评测报告显示,Atman 的 BLEU 值比谷歌高 1 个百分点。
▼ 医学机器写作
左侧这篇文章案例是药代动力学报告,文档只有三页,但即使是擅长英文写作的医学博士或者硕士也需要耗费 7 个小时来写作。虽然摘要可能只有一、两百字,但通常要筛选、阅读一、两千篇文献。其中 80% 的时间在做检索、筛选和判断,剩余的 20% 的时间编写报告,工作量非常繁重。
基于以上痛点和需求,Atman 开发了机器写作产品。它能搜索、过滤多个医学网站及数据库,自动获取完整的文献全文,还可以分析文献文本和标签,自动生成摘要并进行结论总结。
人类写作有三种类型,创作型写作、描述型写作和综述型写作。写小说是创作型写作,医学人员写报告、申报材料是综述型写作。
如果将人类写作加上 NLP(自然语言处理技术),能得到什么?
机器翻译是 NLP 的核心技术之一,信息检索、内容抽取、问答、聊天对话都是 NLP 技术的实现方式。人类的传统写作数据通过 NLP 技术进行自动加工,就能自动生成文章或辅助人类进行写作,这样的一整套计算机程序就是机器写作。
(机器写作)流程的核心是要先获得数据,从网上抓取或上传私有数据,将数据进行分析,提炼观点得到具有可操作性的意见和建议,再按照预设模版生成报告或材料。其核心能力和关键技术,包括自动摘要生成、实物识别和提取、主题的识别和分类、爬虫技术和搜索引擎,光学文字的识别。
客户会从 Pubmed 上检索文献,提取文献标题、摘要征文等信息,(医学机器写作)可以生成药品说明书。使用新药早期临床实验步骤以及对应各阶段数据,(医学机器写作)可以生成动物实验报告、IDN 材料、伦理报告;有些用户因为医学法规,每天要用分析仪生成一千多份 PDF,使用机器可以大大提升效率。还可以全网检索相关数据,汇总成药品研发的阶段性总结报告,用于新药研发的报批。针对不同的场景,写作的内容、形态都有所不同。
选择领域搜索关键词,(我们的医学机器写作)不仅可以搜索 Pubmed、 FDA、谷歌论文、万方医学等数据源,也可以上传自己的私密数据。
搜索出来的结果我们会进行整理、分类,分辨它们是 Guideline(参考)、Clinical Trials(临床试验)还是 Systematic Review(系统评价)。分类的同时还会对内容进行分析,打上相应标签,包括是前瞻性研究还是回顾性研究,正向研究还是负向研究,研究人群是怎样的等等。我们也会做多维度筛选,帮助用户快速定位、查找到想要的数据。
筛选数据之后,还可以根据预设的模版一键生成文本,包括摘要、数据、小标、结论等等。
谢谢大家。
关于 KnowingAI 知智:
「KnowingAI 知智」是中国领先的、面向人工智能行业的企业服务解决方案提供商,致力于成为「更懂人工智能行业的知识传播者」。
知智旗下拥有媒体品牌「Knowing 知智」、视频品牌「知智一分钟」、活动品牌「TalkingAI」,在为广大读者、观众提供人工智能基础知识及行业解读的同时,将艰深术语与行业变迁转化为普通人也能理解的表达方式,不遗余力地为人工智能祛魅。