「壮丽70年·奋斗新时代」上海浦东青年创业者陈运文 用数学的方式解读文字背后的奥妙
达观数据技术团队 (图片由受访者提供)
国际在线报道(记者 孙洋):位于上海浦东的张江科技园区被誉为“中国硅谷”。四年前,80后青年陈运文在这里一间40平米的会议室里与同伴一起开启创业之旅,写下初创公司的第一串代码。如今,他的公司已发展成为中国领先的文本智能处理企业。如何对文字资料进行智能化处理?哪些领域将不需要人工来处理文件?请跟随记者去上海浦东,了解“程序员”陈运文的创业故事。
“80后”青年陈运文是典型的理工男,对中国古诗词有很深的研究:“我们发现《全唐诗》里出现最多的字是‘人’字,所以我们说唐诗以人为本。在情感表达上面,70%以上的诗里主要的情感因素是‘悲’字,还有17%的唐诗主要情感因素是‘思’,这两个加起来占94%,也就是94%的唐诗不是悲就是思。”
达观数据创始人兼CEO陈运文
现在的陈运文是达而观信息科技(上海)有限公司的创始人兼CEO,但他更喜欢用“程序员”这个身份来介绍自己。从小对数学的偏爱与执着让陈运文在大学选择了计算机专业,从本科一路读到博士。2008年从复旦大学毕业后,他先后供职于百度、盛大、腾讯等知名网络公司,负责大数据研发和团队管理工作。几年后,陈运文毅然放弃了在别人看来安稳优越的工作,为追逐梦想踏上了创业之路。他说:“大公司确实给的条件很丰厚,工作压力比自己创业也小很多,工作相对稳定。但是作为青年,我们还有成就感的期许,希望自己有生之年做一些让自己觉得非常有成就感的事情。”
2015年,陈运文认准文字资料自动化处理技术的发展方向,利用自己在相关领域积累的经验,与志同道合的小伙伴们共同创立了公司,其初衷就是运用数据技术,让计算机代替人类处理文字资料,从而大幅度减轻人的工作负担。万事开头难。对陈运文来说,创业之初遇到的最大困难并不是资金,而是人才。陈运文回忆说:“印象最深的一次是我们好不容易请到了一个本科生,学计算机专业的,代码写的还不错,然后我们给他发了offer(录取通知),结果到入职那天他没有出现。这是很伤心的一个经历。我们早期的每一个员工都是花了好多精力招进来的。很多员工都是拿了好几个公司的offer,为了希望他能加入,我们拼命给他们打电话,拼命请他喝咖啡聊天,希望他能够觉得,我们的小公司有一天会成长为一个有希望、有前途、能够做一番大事业的企业。”
在这样诚意的感召下,来自复旦大学、上海交通大学等重点高校的优秀计算机人才陆续加入了陈运文的团队,为公司积累了一批栋梁骨干。创业伊始,陈运文的团队幸运地获得了1000万元人民币的融资。同时,得益于上海自贸区为创业者提供的优惠政策以及该地区聚集的优秀工程师和高校资源,公司在短短几年内广纳贤才、发展稳健,目前已累计获得了超过两亿元人民币的融资。2018年,公司荣获中国人工智能科学技术领域最高奖项——吴文俊人工智能科技进步奖。
达观数据总部 (图片由受访者提供)
陈运文介绍,现在公司在北京、深圳、成都等地设有分部,员工已由最初的十几人发展到约300人,平均年龄不到30岁。由这个年轻团队开发的“机器人 流程自动化”系统目前已应用于金融、银行、保险、信托、证券等多个领域以及部分政府机构,为客户提供文本自动抽取、审核、纠错、搜索、推荐、写作等智能服务。计算机能够代替人工完成繁琐枯燥的文本工作,减少出错率,从而大幅度提高企业效率。陈运文介绍说:“目前在财税领域,已经成熟的技术大概可以代替50%左右的人工,也就是说有一半的人工我们都让计算机自动去做了。在法务、政府的行政审批、海关的报关等方面,计算机目前大概可以代替30%-40%的人工。我们希望未来十年之内,所有上述这些工作超过50%以上都可以让计算机代替人去完成。”
目前,陈运文的团队正努力攻克让计算机理解中文文字语义的难关。他说,中国文字博大精深。汉字经过3000多年的发展变化,其中有非常多约定俗成的讲法。让计算机去理解中文背后博大精深的概念是非常难的一件事情,需要投入非常多的时间去做好技术研发。陈运文认为,在当下全球人工智能竞赛中,中国与美国并驾齐驱。未来中文和英文的文字资料处理工作将是全球两个非常重要的技术高地。他希望能够将自主研发的中文资料自动化处理技术应用到更广泛的领域,服务更多人群。
「壮丽70年·奋斗新时代」上海浦东青年创业者陈运文 用数学的方式解读文字背后的奥妙规律