Meta|LLaMA开源语言模型
近日Meta(Facebook)公布了开源语言模型LLaMA,该语言模型据说是比openAI的ChatGPT能力更强的,虽说是开源语言模型,但如果想要直接使用,还是需要通过Edu教育邮箱来申请资格的,得到批复邮件之后,可以做为科学研究使用。
其实LLaMA被公布的那天,本站就已经知道了,但因为没有实质性的内容,站长也没有Edu邮箱,所以就没有写相关内容。
模型下载
目前LLaMa的模型已经泄漏,网上流出了种子下载链接,但是速度极慢,本站已提供国内网盘下载地址:
搭建教程
LLaMA VS ChatGPT
其实该模型虽然网上流传数据处理能力优于ChatGPT,但目前LLaMA还只是婴儿阶段。
LLaMA并不适合像ChatGPT一样去交互,它的训练数据量是足够的,但是如何交互对于LLaMA来说还不完善,经过本站对比,对于我们普通玩家来说,使用它还为时尚早,很多话无法正常理解。
就目前来看,无论是从交互、对话、编程能力、阅读理解等各个维度,都还不适合日常使用。
LLaMA使用案例
LLaMA并没有被训练成一个聊天机器人。它所知道的只是预测序列中的下一个单词。Chat-GPT 也有很多隐藏的提示,你看不到它应该如何表现的例子。因此,如果你希望LLaMA的回答符合你的预期,请尝试首先给出问题和答案的示例。
例如:
人类> 问题:天空是什么颜色的?答:它通常被认为是蓝色的。问题:谁首先登上月球?答:一个好问题,众所周知,这是尼尔·阿姆斯特朗。问题:什么是法国的首都? LLaMa> 问题:天空是什么颜色的?答:它通常被认为是蓝色的。问题:谁首先登上月球?答:一个好问题,众所周知,这是尼尔·阿姆斯特朗。问题:什么是法国的首都?答:巴黎。问题:哪个大陆最大?答:非洲人。问题:澳大利亚有多少个州?答:6.问题:什么是美国的国家运动?答:足球。问:什么是英格兰的国花?答:罗斯。问:美国国旗上有多少个彩色圆点?答:50。问题:在英国,谁是国家元首?答:女王。问:什么是日本的国民运动?答:相扑。问题:最小的大陆是哪个?答:澳大利亚。问题:英国的国兽是什么?答:狮子。问题:法国的首都是什么?答:巴黎。问题:澳大利亚的首都是什么?答:堪培拉。问题:墨西哥的首都是什么?答:墨西哥城。问题:在英国,最大的岛屿叫什么名字?答:英国。问题:在英国,苏格兰大陆所在的岛屿叫什么名字?答:英国。问:谁是英国首相?答:托尼·布莱尔。问:谁是美国总统?答:乔治·W·布什。问题:英国有多少个州?答:52。问:什么是英格兰的国花?答:罗斯。问:美国国旗上有多少条红条纹?答:13。问题:什么是英国的国鸟?答:知更鸟。问题:什么是法国的民族运动?答:橄榄球。问题:美国的国兽是什么?答:秃鹰。问题:法国的国家象征是什么?答:
而且,除了较长且麻烦的引导之外,对中文并不友好,如果你用中文来提问,那么你将会得到更加糟糕的结果。
LLaMA介绍
型号详情
开发模型的组织:Meta AI的FAIR团队。
型号日期:LLaMA 在 12 月间接受了培训, 2022 年和 2023 年 2 月。
模型版本:这是模型的版本 1.0。
模型类型:LLaMA是一种基于转换器体系结构的自回归语言模型,该模型有不同的尺寸:7B、13B、33B 和 65B 参数。
论文资源: 点击访问
许可证:非商业定制许可
LLaMA官方GitHub仓库:GitHub存储库
模型用途
主要用途:LLaMA的主要用途是对大型语言模型的研究,包括: 探索潜在的应用,如问答、自然语言理解或阅读理解, 了解当前语言模型的功能和局限性,并开发改进这些功能和局限性的技术, 评估和减轻偏见、风险、有毒和有害内容的产生、幻觉。
主要目标用户:该模型的主要目标用户是自然语言处理、机器学习和人工智能领域的研究人员。
超出范围的用例:LLaMA是一个基础模型。因此,在没有进一步风险评估的情况下,不应将其用于下游应用程序。特别是,该模型没有经过人类反馈的训练,因此可能会产生有毒或令人反感的内容、不正确的信息或通常无用的答案。
因素
相关因素:模型使用时的重要因素之一是使用哪种语言,尽管在训练该模型数据中包含了 20 种语言,但该模型的大部分数据集都是由英语文本组成的,因此该模型在英语方面的表现优于其他语言。与此相关的是,在之前的研究中已经表明,不同方言的表现可能会有所不同,此模型亦是如此。
评估因素:由于该模型是在来自 Web 的数据上进行训练的,所以可能存在网络来源的偏见。因此,我们对RAI数据集进行了评估,以衡量模型在性别,宗教,种族,性取向,年龄,国籍,残疾,外貌和社会经济地位方面表现出的偏见。我们还根据用于提示模型的上下文的毒性来测量模型生成的毒性。
指标
对性能度量进行建模:该模型使用以下分类来评估:
- 常识推理、阅读理解、自然语言理解 (MMLU)、BIG-bench hard、WinoGender 和 CrowS-Pairs 的准确性。
- 精准匹配答题
- 来自 RealToxicPrompts 上的 Perspective API 的毒性评分。
决策阈值:不适用
处理不确定性和可变性的方法:由于训练 LLM 的计算要求很高,我们只训练了每种尺寸的一个模型,因此无法评估预训练的可变性。
评估数据集
该模型在以下基准上进行了评估:BoolQ,PIQA,SIQA,HellaSwag,WinoGrande,ARC,OpenBookQA,NaturalQuestions,TriviaQA,RACE,MMLU,BIG-bench hard,GSM8k,RealToxicPrompts,WinoGender,CrowS-Pairs。
训练数据集
该模型使用以下数据源进行训练:CCNet [67%],C4 [15%],GitHub [4.5%],维斯百科 [4.5%],图书 [4.5%],ArXiv[2.5%],Stack Exchange[2%]。维基百科和书籍域包括以下语言的数据:保加利亚文,加泰罗尼亚文,捷克文,丹麦文,德文,英文,西班牙文,法文,克罗地亚文,匈牙利文,意大利文,荷兰文,波兰文,葡萄牙文,罗马尼亚文,俄文,斯洛文尼亚文,塞尔维亚文,瑞典文,乌克兰文。有关训练集和相应预处理的更多详细信息,请参阅论文。
定量分析
模型架构的Hyperparameters
LLaMA | 模型参数 | |||||
---|---|---|---|---|---|---|
参数数量 | dimension | n heads | n layers | 学习率 | 批量大小 | n tokens |
7B | 4096 | 32 | 32 | 3.0E-04 | 4M | 1T |
13B | 5120 | 40 | 40 | 3.0E-04 | 4M | 1T |
33B | 6656 | 52 | 60 | 1.5.E-04 | 4M | 1.4T |
65B | 8192 | 64 | 80 | 1.5.E-04 | 4M | 1.4T |
我们在下表中展示了八个标准常识推理基准的结果。
LLaMA | 推理任务 | ||||||||
---|---|---|---|---|---|---|---|---|---|
参数数量 | BoolQ | PIQA | SIQA | HellaSwag | WinoGrande | ARC-e | ARC-c | OBQA | COPA |
7乙 | 76.5 | 79.8 | 48.9 | 76.1 | 70.1 | 76.7 | 47.6 | 57.2 | 93 |
13乙 | 78.1 | 80.1 | 50.4 | 79.2 | 73 | 78.1 | 52.7 | 56.4 | 94 |
33乙 | 83.1 | 82.3 | 50.4 | 82.8 | 76 | 81.4 | 57.8 | 58.6 | 92 |
65乙 | 85.3 | 82.8 | 52.3 | 84.2 | 77 | 81.5 | 56 | 60.2 | 94 |
我们在下表中介绍了模型的偏见结果。请注意,值越低越好,表示偏差越低。
No | 类别 | FAIR LLM |
---|---|---|
1 | 性 | 70.6 |
2 | 宗教 | 79 |
3 | 种族/颜色 | 57 |
4 | 性取向 | 81 |
5 | 年龄 | 70.1 |
6 | 国籍 | 64.2 |
7 | 残疾 | 66.7 |
8 | 物理外观 | 77.8 |
9 | 社会经济地位 | 71.5 |
平均 | 66.6 |
道德考虑
数据:用于训练模型的数据是从各种来源收集的,主要来自 Web。因此,它包含令人反感、有害和有偏见的内容。因此,我们期望模型从训练数据中表现出这种偏差。
人的生命:该模型并非旨在为有关人类生活核心事务的决策提供信息,也不应以这种方式使用。
缓解措施:我们根据数据与维基百科文本和参考文献的接近程度过滤了来自网络的数据。为此,我们使用了Kneser-Ney
语言模型和fastText
线性分类器。
风险和危害:大型语言模型的风险和危害包括生成有害、冒犯性或有偏见的内容。这些模型通常容易产生不正确的信息,有时称为幻觉。我们不希望我们的模型在这方面是一个例外。
使用案例:LLaMA是一个基础模型,因此,在没有进一步调查和降低风险的情况下,它不应用于下游应用。这些风险和潜在的令人担忧的用例包括但不限于:生成错误信息和生成有害、偏见或冒犯性内容。
又是看不懂的内容