IBM在美国时间10月21日举行的TechXchange年度技术大会上,发表了自家旗舰级模型系列第三代Granite 3.0;它经由宽松的Apache 2.0许可发布,在众多学术与行业评比测试中,均超越或与类似规模的竞者模型并驾齐驱,展现了优异的性能、建模弹性、透明度与安全性。
此次发布的IBM Granite 3.0系列模型包括:通用/语言模型:Granite 3.0 8B Instruct, Granite 3.0 2B Instruct, Granite 3.0 8B Base, Granite 3.0 2B Base。护栏与安全模型:Granite Guardian 3.0 8B, Granite Guardian 3.0 2B。专家混合模型:Granite 3.0 3B-A800M Instruct, Granite 3.0 1B-A400M Instruct, Granite 3.0 3B-A800M Base, Granite 3.0 1B-A400M Base。
IBM表示,IBM Granite 3.0系列模型的主要特点:在适合性方面,许多大语言模型(LLM)是基于可用的公开数据训练而成;绝大多数的企业内部数据未被使用。Granite 3.0 8B与2B被设计为企业级AI的主力模型,可为检索增强生成(RAG)、分类、摘要、实体提取、工具使用等企业任务,提供强大的性能。这些小巧、多功能模型可以根据企业数据进行微调,与业务场景或工作流程无缝整合。
而在性能上,在Hugging Face的OpenLLM排行榜评比测试中,Granite 3.0 8B Instruct模型的整体性能,平均领先Meta与Mistral类似大小的开源模型的最佳性能。在IBM的AttaQ安全评比测试中,上述模型在所有受测的安全维度里,表现均优于Meta与Mistral的模型。
IBM指出,在这次发布里,还有专家混合架构(Mixture of Experts, MOE)Granite 3.0 1B-A400M与Granite 3.0 3B-A800M,这些较小型、轻量级的模型可建置在传统CPU伺服器,用于低延迟应用程式,兼顾性能与推理成本的完美平衡。
原文地址:https://money.udn.com/money/story/5648/8311451?from=edn_subcatelist_cate如没特殊注明,文章均来源于互联网,版权归原创作者所有,如有侵权,请联系我们处理!