一键 input 苹果 OpenELM,零门槛 Llama 3 教程,40+ 优质模型/数据集/教程,建议收藏!...

现在 AI 行业什么最火?

「大模型」一定仍然排在前三甲的位置。

自从 2022 年底 ChatGPT 面世以来,大模型在各行各业已经带来了太多的惊喜,应用场景愈发丰富,同时也带动了相关底层技术的普及与普适化。尤其是在开源模型繁荣发展之下,无论是从兴趣出发的开发者,亦或是有资金支持的企业,都能够「站在巨人的肩膀上」,打磨更加优质的模型。

然而,随着越来越多的开源大模型涌入市场,如何挑选优质、合适的大模型和数据集,以及如何使用大模型,成为了开发者和 AI 爱好者的难题,为了方便大家使用和下载,HyperAI超神经为大家汇总了优质大模型相关资源:

* 优质开源模型:20 个

* 优质教程精选:10 个

* 优质公共数据集:20 个

获取更多大模型资源,请访问官网hyper.ai

大模型精选

1. Llama 3 系列

Llama 3 是 Meta 公司的开源 Llama 系列的最新版本,该模型采用了新的 Tokenizer,将词汇表大小扩展至 128,256。

* Llama 3-8B-Instruct

该模型为 Llama 3 8B 基础模型的指令调优版,可以用于在消费级 GPU 上高效部署和开发。模型的上下文长度为 8k,预训练数据的截止日期为 2023 年 3 月。

直接使用:https://go.hyper.ai/pKyMI

* Llama 3-70B

该模型为 Meta 新一代开源大模型 Llama 3 的 70B 参数规模模型,适用于大规模 AI 原生应用程序。模型的上下文长度为 8k,预训练数据的截止日期为 2023 年 12 月。

直接使用https://go.hyper.ai/XII1S

2. OpenELM-3B-Instruct

OpenELM 是苹果研究团队推出的一种先进的开源语言模型,该模型为 OpenELM 3B 规模大小的指令调整模型。

直接使用:https://go.hyper.ai/Jx3Xs

3. C4AI Command-R

C4AI Command-R 是由 Cohere 和 Cohere For AI 联合开发的一个 350 亿参数的高性能生成式模型。多语言生成能力和高性能 RAG 能力的结合,使 Command-R 在跨语言任务和知识密集型任务上具有独特优势。

直接使用:https://go.hyper.ai/Q6kAf

4. InternLM 2-Chat-20B

InternLM2 是书生·浦语 2.0 系列的 20B 规模大小的聊天模型,它的综合性能更为强劲,可以有效支持更加复杂的实用场景。 

直接使用:https://go.hyper.ai/pD2rN

5. 金融大模型 deepmoney-34B-chat

该模型是基于 Yi-34B-200K 训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。

直接使用:https://go.hyper.ai/7BO4O

6. Mixtral-8x7B

该模型是 Mistral AI 在 Mistral 7B 的基础上推出的大语言模型,采用了多专家 (MoE) 架构,由 8 个独立的专家模型组成,每个专家模型都是一个 Mistral 7B 模型。

直接使用:https://go.hyper.ai/jWfMl

7. FuseChat-7B-VaRM

FuseAI 提出了一个扩展的 FuseLLM 框架,将多个结构和尺度不同的聊天 LLM 的集体知识和个人优势融合为一个更强大的聊天 LLM,即 FuseChat。

直接使用:https://go.hyper.ai/EWGvY

8. ChatGLM 3 系列

ChatGLM 3 是智谱AI 和清华大学 KEG 实验室联合发布的对话预训练模型。

* ChatGLM 3-6B

该模型为 ChatGLM3 系列中的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性

直接使用:https://go.hyper.ai/0AcHz

* ChatGLM 3-6B-Base

该模型是 ChatGLM3-6B 的基础模型,采用了更多样的训练数据、更充分的训练步数和更合理的训练策略。

直接使用https://go.hyper.ai/SaNvM

9. LLaVA-v1.5 系列

LLaVA (Large Language-and-Vision Assistant) 是一个能够进行视觉和语言多模态转换的模型,由视觉编码器和大型语言模型 (Vicuna v1.5 13B) 组成。

* LLaVA-v1.5-7B

该模型是 LLaVA-v1.5 系列的 70 亿参数规模的模型。

直接使用:https://go.hyper.ai/Ha2Y9

* LLaVA-v1.5-13B

该模型是 LLaVA-v1.5 系列的 130 亿参数规模的模型。

直接使用:https://go.hyper.ai/ubBDL

10. Yi-34B 系列

Yi 系列模型是 01.AI 从零开始训练的下一代开源大语言模型。该系列为其 34B 大小的型号模型。

* Yi-34B-Chat

该模型为  Yi-34B 系列是 Chat 模型,适用于多种对话场景。

直接使用:https://go.hyper.ai/i74NJ

* Yi-34B-Chat-GGUF

该模型是 Yi-34B-Chat 的 GGUF 格式。

直接使用https://go.hyper.ai/e3Vdl

* Yi-34B-Chat-4bits

该模型是 Yi-34B-Chat 模型的 4bit 量化版,可以直接在消费级显卡(如 RTX3090)上使用。

直接使用:https://go.hyper.ai/UagO0

11. Qwen 通义千问大模型系列

Qwen 是阿里云推出的一系列超大规模语言模型,包括参数数量各不相同的不同模型。它包括 Qwen(基础预训练语言模型)和 Qwen-Chat(聊天模型),聊天模型采用人类对齐技术进行了微调。

* Qwen 1.5-1.8B-Chat

Qwen 1.5 是 Qwen 2 的 beta 版本,该模型是 Qwen 2 系列中较小参数规模的聊天模型版本,参数大小为 18 亿。

直接使用:https://go.hyper.ai/fFzxL

* Qwen-14B-Chat-Int4

Qwen-14B-Chat 是通义千问大模型系列的 140 亿参数规模的聊天模型,该模型为其 Int4 量化模型。

直接使用:https://go.hyper.ai/LHdxk

* Qwen-72B-Chat

该模型是是通义千问大模型系列的 720 亿参数规模的聊天模型。

直接使用https://go.hyper.ai/7250m

* Qwen-72B-Chat-Int4

该模型为 Qwen-72B-Chat 的 Int4 量化模型。

直接使用:https://go.hyper.ai/Rh4f3

* Qwen-72B-Chat-Int8

该模型为 Qwen-72B-Chat 的 Int8 量化模型。

直接使用:https://go.hyper.ai/n2tOo

优质教程精选

1. 使用 Ollama 和 Open WebUI 部署 Llama 3-8B-Instruct

该教程为 Ollama + Open WebUI 一键运行包,只需按步骤输入命令即可运行 Llama3-8B-Instruct。

在线运行:https://go.hyper.ai/1sero

2. 使用 Ollama 和 Open WebUI 部署 Llama 3-70B

该教程通过 Ollama 和 Open WebUI 工具一键运行模型,仅需按步骤输入命令即可运行 Llama3-70B。虽然模型参数较大,但经过平台部署后单卡 A6000 即可使用,仅占用 1.07 GB 存储。

在线运行:https://go.hyper.ai/kJl8Y

3. 一键运行 Qwen1.5-MoE

Qwen1.5-MoE-A2.7B 是通义千问团队推出 Qwen 系列的首个 MoE 模型,该教程为其 Demo 容器,一键克隆即可使用 Gradio 链接体验大模型。

在线运行:https://go.hyper.ai/ldW1h

4. 一键运行 Yi-9B Demo

Yi-9B 是目前 Yi 系列模型中代码和数学能力最强的模型,该教程为 Yi-9B 的 Demo 容器。

在线运行:https://go.hyper.ai/fopo0

5. 在线运行 Yi-34B-Chat 的量化模型

本教程主要演示了使用 LlamaEdge 运行 Yi-34B-Chat 的量化模型的主要流程,Yi-34B-Chat 是零一万物在 Yi-34B 预训练模型的基础上推出的微调模型。

在线运行:https://go.hyper.ai/osUvl

6. 在线运行金融大模型 deepmoney-34B-full

Deepmoney 是一个专注于金融领域投资的大型语言模型项目。Deepmoney-34B-full 是基于 01-ai  开源的 Yi-34B-200K 模型进行训练的,分为 pt(全参数训练)和 sft (lora 微调) 两个阶段。现可在超神经官网一键克隆使用。

在线运行:https://go.hyper.ai/lFXHY

7. Qwen-14B-Chat-Int4 模型 Gradio Demo

该教程为 Qwen-14B-Chat-Int4 的 Demo 容器,Qwen-14B-Chat 是阿里云发布的一个基于大模型的 AI 助手。该教程使用的模型是 Qwen-14B-Chat 的 Int4 量化模型。

在线运行:https://go.hyper.ai/x7qnN

8. Qwen-1.8B-Chat-API-FT 模型 Demo

本教程主要演示了如何运行通义千问 Qwen-1.8B-Chat 模型并进行微调的主要流程。Qwen-1.8B 是阿里云研发的通义千问大模型系列的 18 亿参数规模的模型。

在线运行:https://go.hyper.ai/ZSJGR

9. Qwen-72B-Chat-Int4 模型 Gradio Demo

该教程为  Qwen-72B-Chat-Int4 的 Demo 容器,该模型是一个量化模型,其权重和激活函数被量化为4位整数 (INT4)。

在线运行:https://go.hyper.ai/r2gfP

10. 快速部署 ChatGLM 2-6B

该教程为  ChatGLM2-6B 的 Demo 容器,ChatGLM2-6B 是开源中英双语对话模型ChatGLM-6B 的第二代版本,保留了初代模型对话流畅、部署门槛较低等众多优秀特性。

在线运行:https://go.hyper.ai/GVs8s

数据集

1. COIG-CQIA 高质量中文指令微调数据集

COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need,是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。

直接使用:https://go.hyper.ai/Pg37L

2. HalluQA 中文大模型幻觉评估数据集

HalluQA 数据集包含 450 个对抗性问题,跨越多个领域,并涉及到中国历史文化、习俗和社会现象。

直接使用:https://go.hyper.ai/pWyqe

3. Pinocchio 匹诺曹事实知识评估数据集 

Pinocchio 数据集是由清华大学、伊利诺伊大学芝加哥分校和剑桥大学的研究人员联合创建的,其目的在于全方位评测大型语言模型 (LLMs) 在事实知识存储以及推理能力上的表现。

直接使用:https://go.hyper.ai/yggNY

4. FineFake 细粒度多领域假新闻检测数据集

FineFake 是一个专门用于细粒度多领域假新闻检测的数据集,由北京航空航天大学和北京邮电大学联合创建。该数据集共有 16,909 个数据样本,覆盖了 6 个语义主题和 8 个不同的平台。

直接使用:https://go.hyper.ai/CNWIn

5. TriviaQA 用于阅读理解和问答的大型数据集

TriviaQA 是一个阅读理解数据集,包含超过 65 万个问答证据三元组。TriviaQA 包括来自维基百科和网络的 662K 文档中的 95K 问答对。

直接使用:https://go.hyper.ai/aant8

6. PD&CFT 人民日报中文阅读理解数据集 

该数据集是第一个中文阅读理解数据集,其中包括人民日报和儿童童话(People Daily&Children’s Fairy Tale,简称 PD&CFT)。

直接使用:https://go.hyper.ai/yO9N5

7. 今日头条中文文本分类数据集

该数据集为今日头条中文新闻(短文本)分类数据集。数据来源为今日头条客户端。共包含 15 个分类,382,688 条文本。

直接使用:https://go.hyper.ai/f7Bu8

8. FewJoint 基准数据集 

该数据集来自讯飞 AIUI 开放平台上真实用户语料和专家构造的语料(比例大概为 3:7),包含 59 个真实域,目前域最多的对话数据集之一。

直接使用:https://go.hyper.ai/gSwPM

9. PAWS-X :用于释义识别的跨语言对抗数据集 

该数据集包含 23,659 个人工翻译的 PAWS 评估对和 296,406 个机器翻译的训练对,采用六种类型不同的语言:法语、西班牙语、德语、中文、日语和韩语。所有翻译对均源自 PAWS-Wiki 中的示例。

直接使用:https://go.hyper.ai/iGq5u

10. Wikipedia 维基百科数据集

该数据集是根据 Wikipedia 转储构建的,包含 56 种语言,每种语言有一个子集,每个子集包含一个训练分割。每个示例都包含一篇完整的维基百科文章的内容,并经过清理以去除降价和不需要的部分(参考文献等)。

直接使用:https://go.hyper.ai/WTcXF

11. RJUA-QA 首个中文医疗专科问答推理数据集 

RJUA-QA 数据集共含 2,132 个问答对,每对问答由医生根据临床经验编写的问题、专家提供的回答以及相关的推理上下文构成,这些上下文信息源自中国泌尿外科和男科疾病诊断治疗指南。

直接使用:https://go.hyper.ai/1zAiG

12. ShareGPT 90k 中英文双语人机问答数据集 

ShareGPT-Chinese-English-90k 是中英文平行双语优质人机问答数据集,覆盖真实复杂场景下的用户提问。可用于训练高质量的对话模型。

直接使用:https://go.hyper.ai/fhmFF

13. SMP-2017 中文对话意图识别数据集

该数据集为 SMP2017 中文人机对话技术评测 (ECDT) 任务一数据集。

直接使用:https://go.hyper.ai/pBjME

14. Chinese-Poetry 中文古典诗歌文集数据库

该数据集是最全的中华古典文集数据库,包含 5.5 万首唐诗、 26 万首宋词、 2.1 万首宋词等古典文集。

直接使用:https://go.hyper.ai/JKxW5

15. MCFEND 中国假新闻检测的多源基准数据集

该数据集是由香港浸会大学、香港中文大学等机构联合构建的一个多源中文虚假新闻检测基准数据集。

直接使用:https://go.hyper.ai/WKwhh

16. seq-monkey 序列猴子开源数据集 1.0

序列猴子数据集是用于训练序列猴子模型的数据集合,涉及领域包括:中文通用文本语料、古诗今译语料、文本生成语料。

直接使用:https://go.hyper.ai/6k2Bz

17. IEPile 大规模信息抽取语料库 

IEPile 是由浙江大学研发的大规模高质量的双语(中英)信息抽取 (IE) 指令微调数据集,涵盖了通用、医学、金融等多个领域。

直接使用:https://go.hyper.ai/2wRp6

18. LongAlign 10K 大模型长上下文对齐数据集 

LongAlign-10k 是清华大学提出的一个针对大模型在长上下文对齐任务中面临的挑战而设计的数据集,包含 10,000 条长指令数据,长度在 8k-64k 之间。

直接使用:https://go.hyper.ai/fXZ85

19. 大众点评数据集

该数据集包含 54 万用户对 24 万家餐馆的440 万条评论或评分数据。可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://go.hyper.ai/5UiXF

20. 亚马逊用户评价数据集

该数据集包含 142 万用户对亚马逊上 1,100 多个类目 52 万件商品的 720 万条评论或评分数据,可用于推荐系统、情感/观点/评论倾向性分析等任务。

直接使用:https://go.hyper.ai/SIJXO

更多公共数据集,请访问

https://hyper.ai/datasets

a5a4b7454f97461f37fd6712ab13bbe2.gif

以上就是大模型编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 100+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

 往期推荐 

ec4da3d45b2004b573fc2c505db87fa6.png

7b818bac51a95e23470376a9a16d68c3.png

202dad7534f3aeed213bb00d02dfa222.png

4c2c097bf9e7234005b0b8bdf33f2a12.gif

a0e81a257a9bdec7800172319840caf1.gif

戳“阅读原文”,免费获取海量数据集资源!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#核心之面向对象-多态

面向对象-多态 文章目录 1、Vob1、多态的概念2、多态的实现 2、抽象类和抽象方法1、抽象类2、抽象方法 3、接口1、接口的概念2、接口的声明3、接口的使用4、接口可以继承接口5、显示实现接口总结思考 电脑使用USB接口读取数据 4、密封方法 1、Vob 1、多态的概念 多态&#xf…

为什么选择OpenNJet?OpenNJet下一代云原生应用引擎!OpenNJet开发实战!

前言导读 在当今这个数字化转型加速的时代,云原生技术已成为企业和开发者构建现代应用的首选路径。OpenNJet作为新一代云原生应用引擎,在国内外技术社区受到了广泛关注。 本文将深入探讨OpenNJet的特点、优势以及在开发实践中的应用,带您全…

用python画一个正八边形

1 问题 使用turtle库的turtle.fd()函数和turtle.seth()函数绘制一个边长100的正八边形。 2 方法 1、利用for循环解决如何画出图形中相同的八条边的问题。 2、再利用turtle.fd()函数和turtle.seth()函数画出完整的图形。 代码清单 1 import turtleturtle.pensize(2)d0for i in r…

【系统架构师】-选择题(十三)

1、在某企业的营销管理系统设计阶段,属性"员工"在考勤管理子系统中被称为"员工",而在档案管理子系统中被称为"职工",这类冲突称为( 命名冲突)。 同一个实体在同系统中存在不同的命名&am…

智慧旅游引领未来风尚,科技助力旅行更精彩:科技的力量推动旅游业创新发展,为旅行者带来更加便捷、高效和智能的旅行服务

目录 一、引言 二、智慧旅游的概念与特点 (一)智慧旅游的概念 (二)智慧旅游的特点 三、科技推动旅游业创新发展 (一)大数据技术的应用 (二)人工智能技术的应用 (…

【计算机科学速成课】笔记二

笔记一 文章目录 7.CPU阶段一:取指令阶段阶段二:解码阶段阶段三:执行阶段 8.指令和程序9.高级CPU设计——流水线与缓存10.早期编程方式11.编程语言发展史12.编程原理13.算法入门14.数据结构15.阿兰图灵 7.CPU CPU也叫中央处理器,…

在R的 RGui中,使用devtools 安装trajeR

创建于:2024.5.5 文章目录 1. 报错信息2. 尝试使用指定的清华镜像,没有解决3. 找到原因:官网把包删除了4. 尝试从网上下载,然后安装。没有成功5. 使用devtools安装5.1 尝试直接安装:install.packages("devtools&q…

关于YOLO8学习(四)模型转换为ncnn

前文 关于YOLO8学习(一)环境搭建,官方检测模型部署到手机 关于YOLO8学习(二)数据集收集,处理 关于YOLO8学习(三)训练自定义的数据集 简介 本文将会讲解: (1)如何通过PyCharm,进行pt模型的转换,最后输出一个适合手机端使用的模型 开发环境 win10、python 3.11…

C语言写一个终端进度条

C语言写一个终端进度条 这个功能挺简单的,主要有以下两点: 如何获取终端宽度如何让字符在原地闪烁 如何获取终端宽度 这里用到了设备控制接口函数ioctl(),下面简单的介绍一下这个函数的用法: ioctl是一个在Unix和类Unix系统中…

零基础学习数据库SQL语句之查询表中数据的DQL语句

是用来查询数据库表的记录的语句 在SQL语句中占有90%以上 也是最为复杂的操作 最为繁琐的操作 DQL语句很重要很重要 初始化数据库和表 USE dduo;create table tb_emp(id int unsigned primary key auto_increment comment ID,username varchar(20) not null unique comment…

glob库和split函数的用法

dir为一个文件夹,存放着三张jpg格式的图像 import glob dir rD:\My Data\Figure image_DCE_files glob.glob(f{dir}/*.jpg) image_DCE_files glob库可以获取文件夹下为个文件的绝对路径,会保存到一个列表中 获取的路径可以拆分为列表 image_DCE_files[1].split(…

HTTP常见面试题(一)

3.1 HTTP 常见面试题 HTTP基本概念 HTTP 是超文本传输协议,也就是HyperText Transfer Protocol。 HTTP 的名字「超文本协议传输」,它可以拆成三个部分: 超文本 传输 协议 HTTP 是一个用在计算机世界里的协议。它使用计算机能够理解的语…

Lora训练笔记1——快速上手

准备工具 AKI大佬的整合包,一键解压即可。 度盘链接 提取码:p8uy 图片预处理 图片预处理:以一定规则裁剪原始的训练素材图片,并进行打标处理。 新建两个文件夹 input:存放原始图片的文件夹 preprocess-output:…

西湖大学赵世钰老师【强化学习的数学原理】学习笔记-1、0节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部…

OpenCV如何使用 GDAL 读取地理空间栅格文件(72)

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV的周期性噪声去除滤波器(70) 下一篇 :OpenCV系列文章目录(持续更新中......) 目录 目标 代码: 解释: 如何使用 GDAL 读取栅格数据 注意 …

C++进阶----多态

1.多态的概念 1.1 概念 多态的概念:通俗来说,就是多种形态,具体点就是去完成某个行为,当不同类型的对象去完成时会 产生出不同的状态。 举个例子:比如有一个基类Animal,它有两个子类Dog和Cat。每个…

数据结构---时间复杂度+空间复杂度

算法(algorithm)简单说就是解决问题的方法。方法有好坏,同样算法也是,有效率高的算法,也有效率低的算法。衡量算法的好坏一般从时间和空间两个维度衡量,也就是本文要介绍的时间复杂度和空间复杂度。有些时候,时间与空间…

2024年第七届大数据技术国际会议(ICBDT 2024)即将召开!

2024年第七届大数据技术国际会议(ICBDT 2024)将于2024年9月20-22日在中国杭州的浙江工商大学举行。数据驱动未来,技术引领潮流。从数据挖掘算法的优化,到数据处理速度的提升,再到数据安全与隐私保护的进步,…

Scikit是什么?

目录 一、Scikit是什么? 二、用Scikit做一个简单房价预测例子 三、sklearn知识点 一、Scikit是什么? Scikit就是scikit-learn,是一个免费软件机器学习库。 https://scikit-learn.org/stable/https://scikit-learn.org/stable/ 用于预测数…

SoundStream: 下一代的神经网络音频编解码器,实时压缩不牺牲音质

音频编解码技术的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。 过去,已经有不少编解码技术被开发出来,满足了这些需求…