“通识 + 产业”大模型,“Alaya 元识”的赋能路径
2023年11月,国家工业信息安全发展研究中心、工信部电子知识产权中心发布的《中国AI大模型创新和专利技术分析报告》显示,我国大模型专利申请总数已突破4万余件,大模型相关领域的创新日益活跃。
相对于“能做诗会画画”的针对to C市场的大模型而言,面向to B市场的大模型如何深耕行业,充分了解行业知识,并且深入到行业客户的业务流程中,是形成行业壁垒或者说差异化竞争优势的关键。新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告3.0》显示,大模型厂商在技术实力上呈现出百家争鸣的态势,不同厂商在产品特点和优势上各有千秋。
除了身处热潮中心的大模型厂商与大模型本身以外,那些为大模型的行业落地赋能并提供相关基础软硬件和服务支撑的企业,不应该只是“无名英雄”,相反他们才是行业用户用好大模型不可或缺的可靠保证。
大模型落地最重要
对于很多致力于大模型普惠的基础设施提供商以及服务商而言,大模型是AI基础设施及服务中的一个重要组成部分,是撬动AI行业应用的一个支点。他们开发、优化大模型,旨在为那些自身不具备独立开发大模型的能力,或者没有必要自己开发大模型的企业用户提供一个快速部署和应用大模型的路径和平台,让各行各业的用户现在就能享受到大模型带来的红利。
作为AI基础软件供应商,九章云极DataCanvas为企业训练和应用大模型赋能,公司自研的多模态大模型系列——DataCanvas Alaya九章元识作为基础软件设施AIFS(AI Foundation Software)的重要组成部分,为企业用户提供了Foundation model,方便用户在此基础之上训练、微调自己的大模型。
对于大模型训练的更大挑战在于,如何在减少算力消耗的情况下,加速大模型的训练,并且在训练完成后更,更好地调教这个模型,并使之能够“飞入寻常百姓家”,让广大的中小企业受益。
九章云极DataCanvas之所以倾心打造Alaya元识系列大模型,初衷亦是如此。所谓元识,来源于佛教用语,意为先天具备的认识能力。Alaya元识系列大模型本身综合并消纳多种能力,旨在通过大模型的通用能力,最大程度地感知人类古今的所有知识、外界的运行规律、科学道理等,在此基础上更好地支持人类的各项业务,并具有类人的能力。
Alaya元识系列大模型的本质还是赋能AI应用:一方面,企业用户可以在Alaya元识大模型之上进行二次训练或微调,以满足业务应用需求;另一方面,九章云极DataCanvas拥有自己的智算中心,Alaya元识系列大模型就部署在此智算中心里,中小企业用户可以直接调用九章云极DataCanvas提供的大模型服务。
以Alaya元识系列大模型为牵引,九章云极DataCanvas正在积极寻找大模型在企业业务中的落地场景。目前除了通用大模型以外,公司还推出了金融行业大模型,未来还将发布更多针对行业的大模型,赋能和推动大模型应用的普及。
元识大模型的与众不同
随着“百模大战”渐成气候,产业界、学术界还有媒体纷纷发布自己的大模型评测榜单。但由于没有公认有效的评测标准和方式,以及不同榜单的侧重点不同,导致不同的排行榜的结果差异很大,甚至是有天壤之别。公开公平公正的评测确实能够为行业用户选择大模型提供有益的借鉴和参考,但是除了一些关键的技术指标之外,大模型能否有效地解决行业用户的业务痛点,不仅好用更要易用,才应该是选择大模型的重要标准。
Alaya元识大模型是九章云极DataCanvas自研的“通识+产业”白盒大模型。作为九章云极DataCanvas AIFS的核心能力之一,它秉持开放友好的开源理念,提供了一系列不同配置和参数、具备业界前沿能力和技术的预训练大模型,赋予用户更大自由度的AI创新能力,以加速实现大模型在多元业务场景中的落地和应用。
1. “白盒”大模型为用户提供更大自由度
现在,市场上的很多大模型都是“黑盒”,虽然在一定程度上开源了算法和架构,允许用户在上面进行训练,但是仍然受到诸多限制。比如,虽然允许用户使用该大模型,但是不能做微调,或者不允许用户做一些自己特有的商业化应用。Alaya元识是全面开源且license友好的“白盒”大模型,遵循Apache 2.0 license,行业用户可以在Alaya元识大模型之上自由地训练、微调自己的大模型。
2. “多模态”是必要前提,更是创新的手段
所谓多模态大模型,是指可以处理来自不同模态,如图像、语音、文本等多种信息的机器学习模型。今天,多模态已经成了大模型的“标配”。Alaya元识大模型不仅可以支持文本、图像,还能支持时序数据、结构化数据等。
举例来说,我们在设备维修手册中可能会经常看到类似的描述——“如图所示,故障点为图中红圈所示的位置……”如果是一个仅仅基于文档的大模型,就很难理解这句话的正确含义。图文示意就是一个典型的多模态应用。
对于Alaya元识大模型来说,深耕多模态毋庸置疑。九章云极DataCanvas还想做得更多,即将“数据”也作为重要的模态之一进行深入研究。应用大模型,数据是必须跨越的一道门槛。九章云极DataCanvas在自然语言的理解、文生图、代码生成等是大模型应用得比较好的领域有很多已经落地的成功案例。但是将数据作为一个模态进行研究并训练大模型的公司屈指可数,而九章云极DataCanvas走在前列。比如,九章云极DataCanvas发布的DataPilot,作为一种数据处理新范式和基于大模型的新一代数据架构工具,通过充分利用元识大模型的通用文本的理解和生成能力,以及在数据领域的微调优化,能够帮助用户实现数据在建模全生命周期内的智能化、自动化。
在训练大模型的过程中,数据处理、数据转换、数据分类、数据标签制作、数据存储等是费时费力的工作。以前,如果有类似需求,通常是由业务部门先向IT部门提出需求,IT部门还要求助数据湖仓建设部门,假如没有现成的数据,还要再找到原始存储数据,进行转换、清洗才能导入到数仓中并进行展现。有效缩短这条数据处理的长链条对于大模型的应用具有重要价值,可以有效减少大模型训练、应用过程中所耗费的人力,还能提升大模型应用的效果。DataPilot能可以大幅降低数据集成、治理、建模、计算、查询、分析、机器学习建模全链路的技术门槛,同时降低数据驱动业务发展的成本,加快企业数字化创新的进程。
3. 新的模型训练机制,降本增效
众所周知,训练一个大模型的成本是十分高昂。高就高在,大模型不可能仅凭一句话就能准确理解其含义,而是要输入和处理更多的语议语境,因此对算力的消耗是巨大的。大模型必须容纳更多更长的内容。Alaya元识大模型采用了改进的Attention机制、更长的Context window、可组合的微调以及全新的Masking机制等,在有效减少训练所消耗的算力基础之上,保证其理解的准确性,同时提升处理速度。
九章云极DataCanvas拥有一支研发团队,专门负责训练机制的研发与创新。Alaya元识大模型采用了新的Attention机制,不仅可以降低算力的消耗,而且在训练前与训练后,能够针对多模态实现有效的数据对齐。这是九章云极DataCanvas独有的技术,在训练时能够很好地容纳多模态这样一种训练方式。
4. 系列模型矩阵,更好地满足“通识+产业”的需求
Alaya元识不是一个大模型,而是一系列大模型,模型参数由小到大,覆盖从通识到垂直行业,能够更好地满足用户多样化的需求。九章云极DataCanvas正式开源大模型矩阵中Alaya-7B Foundation Model通识大模型和Alaya-7B Chat Model对话大模型两大模型,以及LLMOps大模型工具链中的LMS模型运行工具和LMPM 提示词管理器两大工具,能够有效地推动大模型在各类行业场景的实际应用。
Alaya-7B:https://github.com/DataCanvasIO/Alaya
LMS模型运行工具:https://github.com/DataCanvasIO/LMS
LMPM提示词管理器:[https://github.com/DataCanvasIO/LMPM](https://)
在应用场景中,九章云极DataCanvas以Alaya元识大模型和LLMOps大模型工具链为基础研发出TableAgent数据分析智能体,TableAgent在充分的理解用户意图后,能够自主地利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供分析观点和指导行动的深刻见解,实现人人都是数据分析师。
TableAgent公测地址:https://tableagent.DataCanvas.com
在金融、制造、新能源等领域,Alaya元识大模型已经有了很多落地的场景,并且实现了工具链、大模型和行业应用的融合创新。比如, Alaya元识大模型结合工具链之一的DingoDB多模向量数据库,为企业提供了企业知识管家解决方案。
九章云极DataCanvas通过软件基础设施为to B应用赋能的定位也决定了打造一个白盒大模型,让各行各业的用户都能通过元识大模型和AIFS基础软件,在自己的专业领域训练、优化属于自己的大模型。从通识起步,将积累的经验用于不同产业,这就是九章云极DataCanvas打造“通识+产业”大模型的初衷。
Alaya元识大模型包含在AIFS之中,而AIFS提供了大模型所需的数据准备、训练微调方式等,用户只要告诉AIFS数据在哪里,它就可以自动完成基础设施软件的加速、数据处理、数据打标等工作。用户不必再像以前那样自己选择不同的工具,并将其串接起来。AIFS自动完成了所需的串接和处理工作,大大减轻了用户的负担。Alaya元识大模型和AIFS的这种定制化能力也是其深受用户青睐的一个重要原因。
“大模型+小模型”两手硬
现在一说到人工智能,言必提大模型。但是这并不意味着要抛弃小模型,一下子全部转到大模型。九章云极DataCanvas认为,未来的生态一定是“大模型+小模型”,具有不同特点的模型可以适配不同的场景。
不可否认,大模型在面对通用的、具有一定逻辑推理能力、类人的自然语言处理方面具有天生的优势。但是目前,大模型的应用场景还不够丰富,仍处于不断摸索之中。而在那些需要精确计算或者是一些特定的应用场景中,小模型还是不可或缺的。在大模型之上,采用垂式蒸馏技术,将其蒸馏到小模型上,利用小模型可以更好地满足科学计算、归因分析等场景的应用需求。另外,现在市场上也有很多AI引擎通过调用、编排一些小模型,为业务提供支撑。从产品线布局看,九章云极DataCanvas正在进行内部调整,希望未来更多业务和产品能够由大模型提供支撑,同时也会坚定地依托“大模型+小模型”不断进行拓展。
中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,在中国已发布的大模型中,超过半数已经开源。九章云极DataCanvas不仅将大模型开源,而且将AIFS中的一些组件也开源,目的就是让各种规模的企业,尤其是中小企业甚至个人,都能在九章云极DataCanvas开源的大模型和相关基础设施之上完成大模型的训练、微调以及应用的商业化。九章云极DataCanvas致力于人工智能开源生态的建设,希望在其中占据一席之地并深深扎根。
作者:郭涛