通达乐观，坚定国产垂直大模型创新

来源：劳动观察

作者：张锐杰 2025-05-26 10:10

上海市劳动模范、达观数据有限公司首席执行官兼董事长陈运文。

信息流通的海量增长，使数据已经不知不觉渗透到各个领域。面对庞大的数据信息，专业化的处理方式已是迫在眉睫。

就在2015年，一家专注于智能文本处理技术的国家高新技术企业在上海成立，这便是达观数据有限公司（后称“达观数据”）。作为企业的创始人，陈运文的选择充满着浪漫主义：“一个人，应该做点对得起人生而不后悔的事。”他们在张江租借了一个只有20多平方米的小小办公室，开启了创业之路。

从20平米的办公室起步创业

“文本智能处理”，表面理解起来倒不难，但背后的处理却有很高技术门槛——它是计算机科学、AI、语言学的交叉领域，本质在于找出自然语言的规律。

在业内，图像识别、语音信息识别、文字资料识别，被认为是拉动人工智能发展的三驾马车。在今天的人工智能产业里，文本识别是最难的一个领域。

面对这颗人工智能领域的“明珠”，创业之初需要的不仅是浪漫的情怀，更需要直面现实的勇气。创业之初，面对缺资金、缺办公楼、缺客户、缺项目、缺人才、缺技术等问题，陈运文和他的团队食宿不安。陈运文这样说：“有一段时间，我觉得公司发展遇到瓶颈，跟不上客户需求，担心公司产品不能让客户眼前一亮。那段时间刚好有个戈壁徒步活动，我想借助这次艰苦行旅既锻炼意志，又可以独步思考问题，就毫不犹豫地参加了。”陈运文这次沙漠行旅，是在敦煌附近的沙海，每天酷日高温下行走三四十公里，只带少量水，身背沉重行囊，要连续不断走三天，步行一百多公里。燥热的八月，烈日之下，口角干裂，脚生水泡，漫漫长途，只有目标，没有援助。这次沙漠行旅，他仿佛用汗水完成一次生命和事业朝圣的洗礼，由此，陈运文无畏艰辛，勇往绿洲，创业的信心更坚定了。陈运文非常珍惜这次沙漠孤旅，一直以此激励自己。

从未停止前进的脚步

在智能文本处理领域，达观数据在陈运文的带领下从未停止过前进的脚步，一直致力于引领国内智能文本处理技术的发展新高潮。2016年，首家开发IDP智能文档处理平台，原创了文档版面自动分析技术；2017年首创表智能识别功能，全面解析跨页、倾斜、无框等复杂表；2018年首创无锚点OCR解析和文字提取算法，攻克无固定格式的票据识别；2019年率先宣布兼容华为鸿蒙和欧拉系统，并兼容国内信创平台；2021年首家将知识图谱技术用于制造业FMEA故障定位和推导应用。自2022年底宣布研发大语言模型以来，达观数据一直积极探索大语言模型的专业化、特长化和产品化，通过多年的高质量数据积累，不断精进算法创新，结合多年的文本处理工程实践经验，研发出具有长文本、多语言、垂直化三大特点的专用国产“曹植”大语言模型。

“曹植”是达观数据推出的一个垂直专用模型，其特点是擅长专业文档报告的写作工作。陈运文坦言，取名“曹植”，是因为曹植有七步成诗的典故，一听就是咱们中国人的模型。在工业制造企业中，曹植可以像工程师一样自动去阅读各种各样的产品手册、测试报告、实验数据等等，然后自动分析这些数据，并自动完成研发资料的撰写、实验结果分析和最终产品设计等工作。与普通白领相比，它的工作效能可以提升20-30倍。

在伴随着企业发展的过程中，陈运文个人也收获了诸多荣誉，如“全国向上向善好青年”“中国青年创业奖”、上海市“五一劳动奖章”、上海工匠等荣誉。

展望未来，陈运文充满希望地说：“在当下，国内在大模型的研发和应用上还有很长一段路要走。当然达观数据也还有更长的路需要去探索。未来，我们也将在自研的先进人工智能技术和丰富的应用经验之上，不断去创新和研发，为各行业提供更好、更快、更安全的智能化解决方案，为客户提供更好的服务和支持，让大模型赋能百业，促进科技进步和社会发展。”

责任编辑：李轶捷

劳动观察新闻，未经授权不得转载