“从分词、句法、语义等信息的信息抽取、自动聚类、自动分类,到自然语言的理解和生成,我们做了全方位的研究,但这仍然不够。”谈及ChatGPT,施水才表示,“我们虽然有一些相关的技术和应用案例,但对比ChatGPT,明显感觉到我们的产品还有不小差距,这种差距既有算力上的,也有算法和数据层面的。”因其海量数据以及大模型工程化的特征,施水才将ChatGPT的成功形容为“大力出奇迹”。“接下来,拓尔思面临的挑战就是如何缩小这些差距,做出与国际水平比肩的产品出来。”
“209工程”的名字来自项目正式启动的日期(2023年2月9日),其计划用3个月至6个月的时间,基于通用AIGC大模型,以“专业大模型+领域知识数据”为核心,以NLP技术突破来推动更多AIGC商业落地。“顺利的话,年内大家就能够看到来自拓尔思的专注于垂直行业的类ChatGPT产品。”施水才表示,为了支持新技术的研发,拓尔思单独成立了数字经济研究院,设立了多个新部门,全力推动垂直行业的专业大模型的研发。
AI ToB的关键在于领域知识的建立和领域模型的再训练。在部分ToB场景中,可用的数据集是有限的,需要更多工程化和特定方法的干预;部分ToB场景中,用户对安全性、一致性、规范性、意识形态敏感性的要求更高,需要更多的定制和额外的相关工作等等。而这些都是拓尔思不断在思考、研究、开发和应用实践去解决的问题。
帮助ChatGPT“大力出奇迹”的海量数据和大模型技术未必遥远。在NLP技术和算法层面,拓尔思有着长期的技术投入和不断推陈出新的产品;在数据层面,作为A股第一家上市的大数据技术企业,拓尔思从2010年起就投资建设自有的大数据中心,常年持续采集的海量网络数据资源;拓尔思还拥有海量大数据的规模化治理加工能力优势,包括NLP自动化技术平台、组织流程、质量控制等,具有支撑AI技术开发和赋能的完备的数据能力。
施水才对NLP的描述颇有几分夸父逐日的意味,他说NLP之所以被称为人工智能皇冠上的明珠,是由于其只能不断靠近,却终究难以摘取。皇冠上的明珠难摘取,太阳难靠近。但谁说夸父的子孙没有在一代一代更接近太阳呢?