LLaMA开源语言模型泄漏版下载
Meta(Facebook)开源语言模型LLaMA泄漏版国内网盘下载,该语言模型据说是比openAI的ChatGPT能力更强的,虽说是开源语言模型,但如果想要直接使用,还是需要通过Edu教育邮箱来申请资格的,得到批复邮件之后,可以做为科学研究使用。
模型介绍
使用教程
模型列表
背景
Facebook/Meta研究部门上周宣布了一个新的大型语言模型:LLaMA(paper,github repo)。与以前的许多大型语言模型不同,这个模型有一个独特的属性:模型可供公众使用(有一些警告),这意味着任何人都可以使用它(或微调它)。
模型概述
该模型的架构或多或少是标准的:在自然语言语料库上训练的仅解码器转换器(这次是完全公开的,这很好)。与其他LLM相比,超参数有一些调整,但最明显的变化是训练步骤的数量:作者指出,如果我们训练更小的LLM足够长的时间,损失会继续改善并达到与更大模型竞争的值。就训练计算分配而言,这可能是也可能不是最佳的,但在推理计算方面,它肯定比其他现有的 LLM 要好得多。
针对不同的模型大小发布了多个检查点:7B(十亿个参数)、13B、33B 和 65B。Facebook要求人们填写表格(可在Repo的 README.md 中找到)以获取下载链接;有趣的是,授予访问权限的标准是“.edu”TLD 中的电子邮件。有已经可用的带有检查点的种子,因此人们可以在不联系Facebook的情况下下载模型(他们应该注意模型许可证:权重可以免费用于研究,但不应该用于商业目的)。
这篇论文展示了许多基准的结果,它们令人印象深刻。
请注意,即使是相对较小的 13B 型号也接近 GPT-3 的水平,是 GPT-13 的 33 倍!此外,3B版本远远优于GPT-65,540B与现有最强大的LLM模型 – 谷歌的<>B参数PaLM竞争。
类似 STEM 的基准。与 Minerva 进行比较并不完全公平,因为它是一个更专业的模型。
LLM最有问题的领域 – STEM’y文本(需要逻辑或计数)呢?令人惊讶的是,LLaMA在这些方面表现非常好,在定量推理方面与PaLM竞争,甚至在代码生成方面也击败了它。也许这些模型缺少的不是尺寸,而是其他东西。
旁注:虽然这些数字接近最先进的数字,但它们比人类的表现要差得多。因此,要使这些模型在STEM领域变得更好,还有很长的路要走。
鉴于这些数字,我们似乎终于拥有了最先进的模型,而且,它足够小,可以在没有大量资源的情况下运行它。这使得玩它非常诱人。
玩转模型
提供的检查点具有16位精度,代码非常基本,没有任何优化(例如,它甚至不使用Facebook自己的xformers)。它很可能与用于训练的代码非常不同。
检查点是分片的,密集层矩阵通过第一轴或第二轴在检查点之间分割。这可能是为了训练(将模型拆分到多个 GPU 上)而完成的,但它不能很好地与推理配合使用(即使对于较小的模型,也需要多个 GPU 进行推理也是非常不方便的)。幸运的是,将它们合并回来相当简单。
开箱即用(fp16精度),可以在单个RTX 7/RTX 3090上运行4090B版本,在A13-100GB上运行40B版本。迁移模型以使用位沙字节非常简单,在不牺牲质量的情况下将密集层量化为 8 位。这使我们能够在RTX 7/RTX 13上运行3090B/4090B版本,在单个A33上运行100B版本。我手头没有一台配备 80GB A100 的机器,所以我不会在这里发布 65B 型号的结果,但从理论上讲,它也应该在那里顺利运行(我期待着像 FlexGen 这样的为模型实现的 smth;它应该能够在商品硬件上运行所有这些模型)。
在下面的部分中,我还发布了 ChatGPT 的结果以供比较。请注意,与 ChatGPT 不同,这些模型不是指令微调的,因此提示的结构应该不同。另外,我只发布一些具有挑战性的任务的结果,我们已经远远超过了“哇!它说话!“点为琐碎的闲聊提示。
解释笑话
这是原始PaLM论文中演示的一个非常酷的用例:给定这个笑话,模型解释了为什么它很有趣。这项任务需要将世界知识与一些基本逻辑结合起来。据我所知,PaLM 之前的所有模型都无法做到这一点。我从PaLM论文中举了一些例子,并添加了更多的笑话。LLaMA的表现如何?
案例CVS地址:点我查看
好吧,这看起来很糟糕。他们得到一些笑话,但大多数他们没有,只是随便吐出一些相关的文本流,就像一个被问到一个不方便的问题的政治家一样。ChatGPT 和 33B 模型一样糟糕(其他模型甚至更糟),但它遵循不同的策略:生成一堵文本墙,希望它编写的至少一些语句是正确的响应(其中大多数显然不是)。这种行为让人想起学校里一个不知道问题的答案的孩子,他会说很多随机的话,希望老师能找到正确的答案作为他们所说的子序列。
一个令人惊喜的是,ChatGPT得到了关于Schmidthuber的笑话,但总的来说,这些模型在零镜头笑话解释方面与PaLM相去甚远(当然,除非PaLM的例子是精心挑选的)。
零镜头分类
这实际上是实用的,因为可以使用LLM而不是人类评估器来生成训练集,然后在这些模型上训练较小的可服务模型。
与其采取像情绪这样无聊的东西,不如让我们考虑一个更具挑战性的任务:点击诱饵分类。由于即使是人类也无法就点击诱饵是什么达成一致,我将在提示中为模型提供一些示例(因此它实际上是少数镜头,而不是零镜头)。下面是LLaMA的提示(对于ChatGPT,它略有修改):
I will tell whether the following news titles are clickbait: 1) Analysis: China is increasingly seen as an antagonist in global diplomacy, often siding with Russia. Clickbait: no 2) The WORST care homes in England: Interactive map reveals the lowest-rated 2,530 residences - so is there one near you? Clickbait: yes 3) Netflix's top 10 most-watched movies of all time Clickbait: yes 4) Peering Through the Fog of Inflation Clickbait: no 5) You’ll never believe which TV cook this cheeky chap grew up to be Clickbait: yes 6)
它是什么样子的?示例链接
我们有一个明显的赢家:LLaMA-33B。它是唯一设法遵循所请求格式(是/否)的模型,其预测是合理的。ChatGPT 也没问题(不太合理的预测,以及一些格式违规),较小的模型(7B/13B)不能用于此任务。
这是非常有希望的:如果65B变得更好,在许多情况下,它可以替代昂贵的人类标签(尽管目前还不清楚什么更便宜 – 运行它,还是付钱给人类……
代码生成
众所周知,虽然法学硕士擅长人文学科,但他们在STEM科目方面却非常糟糕。LLaMA在这方面的表现如何?有基准测试结果,但让我们在代码生成领域尝试一些临时方法。
假设我们想将人类语言零镜头转换为SQL查询(这不是很实用 – 在现实生活中,直接编写查询会更有效率;它只是一个代码生成任务的示例,应该非常简单)。
在提示中,我们将提供表架构和我们想要实现的目标,并要求模型向我们提供 SQL 查询。
格式化为表格并不容易,因此以下是一些随机示例。
-- We have a table `events` with columns `event_id`, `timestamp`, `user_id`, `rpc_method`. -- We want to count how many users issued request "Login" over the last week. -- SQL query for this is: -- 7b SELECT count(*) FROM events WHERE user_id IN (SELECT user_id FROM events WHERE timestamp >= NOW() - INTERVAL 7 DAY) AND rpc_method = 'Login'; -- 13b SELECT COUNT(*) FROM events WHERE rpc_method = "Login" AND UNIX_TIMESTAMP(timestamp) >= UNIX_TIMESTAMP(CURRENT_DATE - INTERVAL 7 DAY) -- 33b SELECT user_id, COUNT(DISTINCT user_id) AS total FROM events WHERE timestamp BETWEEN TIMESTAMP '2013-08-14 00:00:00' AND TIMESTAMP '2013-08-21 00:00:00' AND rpc_method = 'Login' GROUP BY user_id -- ChatGPT SELECT COUNT(DISTINCT user_id) FROM events WHERE rpc_method = 'Login' AND timestamp >= DATE_SUB(NOW(), INTERVAL 1 WEEK);
-- Suppose we have the following tables: -- * `demographics" with columns `user_id`, `gender`, `race`, `age`, `country`, `sexual_orientation`; -- * `purchases` with columns `user_id`, `email`, `total_purchase_us`, `total_purchase_global`. -- The following SQL query creates a segment of young american buyers of cosmetic products, who spent at least 10000 USD in total: -- 7b SELECT `demographics`.`user_id`, `demographics`.`gender`, `demographics`.`race`, `demographics`.`age`, `demographics`.`country`, `demographics`.`sexual_orientation`, `purchases`.`email`, `purchases`.`total_purchase_us`, `purchases`.`total_purchase_global` FROM `demographics` LEFT JOIN `purchases` ON `demographics`.`user_id` = `purchases`.`user_id` WHERE `purchases`.`total_purchase_us` >= 10000 AND `demographics`.`gender` = 'F' AND `demographics`.`race` = 'White' AND `demographics`.`age` < 30 AND `demographics`.`country` = 'USA' AND `demographics`.`sexual_orientation` = 'Straight' -- 13b select d.*, p.* from "demographics" d join "purchases" p on d."user_id" = p."user_id" where d."gender" = "male" and d."race" = "white" and d."country" = "US" and d."age" between 18 and 34 and p."total_purchase_us" >= 10000 -- 33b SELECT `user_id` FROM `demographics` INNER JOIN `purchases` ON `user_id`= `demographics`.`user_id` AND `gender` = 'female' AND `age` < 24 AND `race` = 'white' AND `country` = 'us' AND `total_purchase_us` >= 10000 -- ChatGPT SELECT p.user_id FROM purchases p JOIN demographics d ON p.user_id = d.user_id WHERE d.country = 'USA' AND d.age BETWEEN 18 AND 30 AND p.total_purchase_global >= 10000
老实说,ChatGPT 在这里看起来更好(尽管非指令微调模型可能需要一些更仔细的提示工程才能获得不错的结果)。非常搞笑的是,其中一些模型产生了没有人要求的过滤器(“和’人口统计’.’性别’=’F’”?“,”和d”。race“ = ”white“”???),我不会让这些模型接近实际的SQL引擎。
结论
这些只是第一印象,但似乎该模型确实离最先进的技术不远。一件意想不到的事情是与 ChatGPT 进行比较的结果——鉴于后者的服务速度相当快,并且对许多用户来说,我预计 LLaMA 会在所有任务中赢得很多胜利,这似乎并没有发生(我想知道这是否只是因为 RLHF;如果是这样——未来可能是光明的,较小的模型表现非常好)。
在一些集中数据集(例如数学问题)上微调LLaMA会很有趣,但当然,它需要比推理更多的资源。另外,我想知道是否有足够资源的人会在某个时候进行 RLHF 微调——看看 ChatGPT,它可以使模型更有用。
没看明白
好
怎么把bin文件合为一个?
感谢楼主分享。问一下,这个123盘没有PC和MAC客户端,大伙儿是在手机上下载了这500+G的数据吗?
@sharpmental 该网盘的PC版还在内测https://www.123pan.com/s/uIEbVv-0BCQ.html
请问是llama1还是illama2还是llama
3的模型