信息流通的海量增长,使数据已经不知不觉渗透到各个领域。面对庞大的数据信息,专业化的处理方式已是迫在眉睫。
就在2015年,一家专注于智能文本处理技术的国家高新技术企业在上海成立,这便是达观数据有限公司(后称“达观数据”)。作为企业的创始人,陈运文的选择充满着浪漫主义:“一个人,应该做点对得起人生而不后悔的事。”他们在张江租借了一个只有20多平方米的小小办公室,开启了创业之路。
从20平米的办公室起步创业
“文本智能处理”,表面理解起来倒不难,但背后的处理却有很高技术门槛——它是计算机科学、AI、语言学的交叉领域,本质在于找出自然语言的规律。
在业内,图像识别、语音信息识别、文字资料识别,被认为是拉动人工智能发展的三驾马车。在今天的人工智能产业里,文本识别是最难的一个领域。
面对这颗人工智能领域的“明珠”,创业之初需要的不仅是浪漫的情怀,更需要直面现实的勇气。创业之初,面对缺资金、缺办公楼、缺客户、缺项目、缺人才、缺技术等问题,陈运文和他的团队食宿不安。陈运文这样说:“有一段时间,我觉得公司发展遇到瓶颈,跟不上客户需求,担心公司产品不能让客户眼前一亮。那段时间刚好有个戈壁徒步活动,我想借助这次艰苦行旅既锻炼意志,又可以独步思考问题,就毫不犹豫地参加了。”陈运文这次沙漠行旅,是在敦煌附近的沙海,每天酷日高温下行走三四十公里,只带少量水,身背沉重行囊,要连续不断走三天,步行一百多公里。燥热的八月,烈日之下,口角干裂,脚生水泡,漫漫长途,只有目标,没有援助。这次沙漠行旅,他仿佛用汗水完成一次生命和事业朝圣的洗礼,由此,陈运文无畏艰辛,勇往绿洲,创业的信心更坚定了。陈运文非常珍惜这次沙漠孤旅,一直以此激励自己。
从未停止前进的脚步
在智能文本处理领域,达观数据在陈运文的带领下从未停止过前进的脚步,一直致力于引领国内智能文本处理技术的发展新高潮。2016年,首家开发IDP智能文档处理平台,原创了文档版面自动分析技术;2017年首创表智能识别功能,全面解析跨页、倾斜、无框等复杂表;2018年首创无锚点OCR解析和文字提取算法,攻克无固定格式的票据识别;2019年率先宣布兼容华为鸿蒙和欧拉系统,并兼容国内信创平台;2021年首家将知识图谱技术用于制造业FMEA故障定位和推导应用。自2022年底宣布研发大语言模型以来,达观数据一直积极探索大语言模型的专业化、特长化和产品化,通过多年的高质量数据积累,不断精进算法创新,结合多年的文本处理工程实践经验,研发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。
“曹植”是达观数据推出的一个垂直专用模型,其特点是擅长专业文档报告的写作工作。陈运文坦言,取名“曹植”,是因为曹植有七步成诗的典故,一听就是咱们中国人的模型。在工业制造企业中,曹植可以像工程师一样自动去阅读各种各样的产品手册、测试报告、实验数据等等,然后自动分析这些数据,并自动完成研发资料的撰写、实验结果分析和最终产品设计等工作。与普通白领相比,它的工作效能可以提升20-30倍。
在伴随着企业发展的过程中,陈运文个人也收获了诸多荣誉,如“全国向上向善好青年”“中国青年创业奖”、上海市“五一劳动奖章”、上海工匠等荣誉。
展望未来,陈运文充满希望地说:“在当下,国内在大模型的研发和应用上还有很长一段路要走。当然达观数据也还有更长的路需要去探索。未来,我们也将在自研的先进人工智能技术和丰富的应用经验之上,不断去创新和研发,为各行业提供更好、更快、更安全的智能化解决方案,为客户提供更好的服务和支持,让大模型赋能百业,促进科技进步和社会发展。”