6月15日,大模型明星初创公司百川智能CEO王小川证实,其公司发展到了“第一个里程碑”。据悉,百川智能今日在Hugging Face、Github和Model Scope等平台上正式发布70亿参数中英文大模型baichuan-7B,这是王小川宣布入局大模型创业以来,首次公布产品进展。
据Github网站上的介绍,baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约1.2万亿 tokens 上训练的70亿参数模型,支持中英双语,上下文窗口长度为4096。在标准的中文和英文权威 benchmark(C-EVAL/MMLU)上均取得同尺寸最好的效果。
两个多月前的4月10日,搜狗公司创始人王小川携5000万美元启动资金,和前搜狗COO茹立云联合创立人工智能公司百川智能式杀入大模型领域,旨在开发中国版的OpenAI基础大模型及颠覆性上层应用。
两个月来,百川智能四处招兵买马,研发团队已拥有包括前搜狗、百度、华为、微软、字节、腾讯等知名科技公司以及其他创业公司核心成员在内的数十位顶尖AI人才。如今首款大模型产品终于亮相,baichuan-7B一出现便以70亿参数量霸榜。
据了解,百川智能在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信,baichuan-7B实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的水平。
baichuan-7B首次亮相便展现出不凡的能力,在C-Eval、AGIEval和Gaokao中文权威评测中超过了ChatGLM-6B等其他大模型,成为同等参数规模下中文表现最优秀的原生预训练模型,在MMLU英文权威评测榜单上,也大幅领先LLaMA-7B。
目前,北京大学和清华大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。