论文链接:
https://arxiv.org/abs/1803.09010
下面为一些相对关键的数据问题。
动机:OPT-175B模型的预训练数据是由五个数据集(RoBERTa用到的三个数据集、Pile的子集以及Pushshift.io Reddit数据集)。创建这个数据库的目的是在广泛的文本语料库上构建预训练语言模型,重点是人工生成的文本。
数据集:
1. BookCorpus,由一万本未发表书籍构成
2. CC-Stories,包含CommonCrawl的一个子集,过滤条件为Winograd模式的story-like风格
3. The Pile包括Pile-CC, OpenWebText2, USPTO, Project Gutenberg, OpenSubtitles, Wikipedia, DM Mathematics, HackerNew
4. Pushshiftio Reddit数据集
5. CCNews V2包含一个更新版本的CommonCrawl News数据集
数据集大小:包括1800亿个Tokens,总计800GB的数据
样例是否包含raw data:是
样例是否包含label:否
数据切分:将200MB的预训练数据划分为验证集
数据收集参与者:数据由机器全自动挖掘、过滤和采样
数据预处理/清洗/标注流程:组件数据经过标准的清理和格式化实践,包括删除重复/非信息性文本,如「Chapter One」或「This ebook by Project Gutenberg」
用爱发电
进入预训练时代以后,AI模型的研发转为基于大公司开源的大规模语言模型。
但能否用上预训练模型,主要取决于大公司是否想做「慈善」,毕竟大模型的训练动辄就是成百上千个GPU,还得搜集海量的训练数据,还得给算法工程师开工资,曾经有人估算,想训练一次5300亿参数量模型的PaLM,光租卡就至少得花900万美元。
而本次OpenAI没有开放GPT-3,而是和微软站队,也是引起了大量从业者的不满,马斯克直言OpenAI跟open越走越远,网友也表示,还不如改名叫ClosedAI算了。
这种受限访问限制了研究人员对大型语言模型的理解和研究,也阻碍了提升鲁棒性、减轻模型偏见、毒性等已知问题的努力。
但如果都免费开源给社区,瞬间就会让大量的竞争对手占领相同的高地,所以开源大模型的行为实属「用爱发电」。
而本次OPT的发布,就属于用爱发电来打破垄断,斯坦福大学基础模型研究中心主任Percy Liang对此评价为:开启了语言模型研究的新机会。
总的来说,开源得越深入,就越能促进深层次问题的研究:
第一层:论文开放,证明一些想法的可行性,提供一些通用的思路;
第二层:API开放,研究人员能够探测、评估模型的能力(如推理)和限制(如偏见)
第三层:模型权重开放,允许研究人员增量改进模型,开发出可解释更好的技术、更有效的微调方法等;训练数据的开放,允许研究人员更好地理解训练数据在模型行为中的作用。
第四层:计算能力开放,允许研究人员尝试新框架,新的训练目标和过程,数据集消融,在不同领域内开发出全新的模型。这些尝试极其消耗计算资源,但也会对模型的理解和提升具有潜在价值。
越高层次的开放,带来的也是更多的风险和不确定性,所以不同的基础模型开发者对于开放策略也有不同的理解。
不过就算Meta把OPT-175B发到手里了,还是得先看看自己有没有16块Nvidia V100显卡。
参考资料:
https://github.com/facebookresearch/metaseq/tree/main/projects/OPT
合作平台
-
福汇
-
KVB