苹果今日发布了几款设计于设备上运行的开源大型语言模型,而不是通过云服务。 这些模型统称为 OpenELM,并已在Hugging Face Hub 上提供,该平台是一个共享人工智能代码的社区。
根据白皮书的说明,OpenELM系列包括8款模型,其中4款利用CoreNet图书馆进行预训练,另外4款进行了指令调校。 苹果采用的逐层缩放策略旨在提升模型的准确性和运行效率。
此次苹果提供了完整的代码、训练日志以及多个版本的模型,而不仅是最终训练好的模型。 研究团队希望这能加快人工智能语言领域的发展并获得更可靠的结果。 例如,在约十亿参数的限制下,OpenELM 的准确度较 OLMo 提高了 2.36%,同时所需的预训练标记数量减半。
苹果这一举动打破了先前仅提供模型权重和推理代码,以及在私有数据集上进行预训练的常规做法。 这次发布包括了一套完整的训练和评估语言模型的框架,其中包括训练日志、多个检查点以及预训练配置。
苹果表示,发布 OpenELM 模型旨在「赋予并丰富开源研究社区」,提供最先进的语言模型。 开源模型的分享让研究人员有机会探讨相关风险、数据及模型偏差。 开发者和公司可以原样使用这些模型,或根据需要进行修改。
开放共享信息成为苹果吸引顶尖工程师、科学家和专家的重要策略,因为它为通常不可能在苹果严格保密政策下发表的研究论文提供了机会。
虽然苹果尚未在其设备中实现这类大型语言模型的运行能力,但据预测iOS 18将引入多项新的人工智能功能,且有传言称苹果计划为了保护隐私,在装置上直接运行这些大型语言模型。