百川智能大模型首秀，王小川创业两个月见成果

2023-06-15

早期项目

baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。

6月15日，大模型明星初创公司百川智能CEO王小川证实，其公司发展到了“第一个里程碑”。据悉，百川智能今日在Hugging Face、Github和Model Scope等平台上正式发布70亿参数中英文大模型baichuan-7B，这是王小川宣布入局大模型创业以来，首次公布产品进展。

据Github网站上的介绍，baichuan-7B 是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构，在大约1.2万亿 tokens 上训练的70亿参数模型，支持中英双语，上下文窗口长度为4096。在标准的中文和英文权威 benchmark（C-EVAL/MMLU）上均取得同尺寸最好的效果。

两个多月前的4月10日，搜狗公司创始人王小川携5000万美元启动资金，和前搜狗COO茹立云联合创立人工智能公司百川智能式杀入大模型领域，旨在开发中国版的OpenAI基础大模型及颠覆性上层应用。

两个月来，百川智能四处招兵买马，研发团队已拥有包括前搜狗、百度、华为、微软、字节、腾讯等知名科技公司以及其他创业公司核心成员在内的数十位顶尖AI人才。如今首款大模型产品终于亮相，baichuan-7B一出现便以70亿参数量霸榜。

据了解，百川智能在万亿优质中英文数据的基础上，为了更好地提升训练效率，baichuan-7B深度整合了模型算子来加快计算流程，并针对任务负载和集群配置，自适应优化了模型并行策略以及重计算策略。通过高效的训练过程调度通信，baichuan-7B实现了计算与通信的高效重叠，进而达到了超线性的训练加速，在千卡集群上训练吞吐达到180+Tflops的水平。

baichuan-7B首次亮相便展现出不凡的能力，在C-Eval、AGIEval和Gaokao中文权威评测中超过了ChatGLM-6B等其他大模型，成为同等参数规模下中文表现最优秀的原生预训练模型，在MMLU英文权威评测榜单上，也大幅领先LLaMA-7B。

目前，北京大学和清华大学已率先使用baichuan-7B模型推进相关研究工作，并计划在未来与百川智能深入合作，共同推动baichuan-7B模型的应用和发展。