旷野之间12 - 内容创作用的最佳大模型评测

​​​​​​

旷野之间12 - 内容创作用的最佳大模型评测

我正在做一个项目,需要我找出最适合内容创作的 LLM。我查看了 lmsys 排行榜上的顶级模型,阅读了其他人对这些模型的评价,查看了顶级 LLM 的模型卡,在没有明确答案后,我决定对所有这些 LLM 进行测试,以完成不同的内容创作任务。

评估模型

我想要评估的模型(考虑到它们的成本、易用性以及在 lmsys 排行榜上的排名):

  1. 骆驼-3–70b
  2. Mixtral-8x7B
  3. 双子座 1.5 专业版
  4. 克劳德 3 十四行诗

以下是我所做的……

首先,我将内容创作领域分为 5 种不同的用例:

  1. 博客写作
  2. 电子邮件写作
  3. 文案撰写——包括广告、搜索引擎优化、网站、技术和社交媒体
  4. 写剧本
  5. 内容摘要

在每个用例中,我创建了多个类别,它们要么是子用例,要么是该用例流程的步骤。

每个用例如下所示:

旷野之间12 - 内容创作用的最佳大模型评测

简单的评估框架

1. GPT-4 Turbo 将担任第一位评委,根据我根据用例编写的评估提示,对每个答案进行满分 10 分的评分。

2.我本人担任第二位评委。

3. 每位评委将对答案进行满分 10 分的评分

4. 最终得分为两次得分的平均数。

制作和策划提示

在扩展每个用例的类别后,我必须仔细设计将提供给每个 LLM 的提示。不仅仅是创作提示,我知道如果我是唯一一个评估这些 LLM 的回复的人,那将是非常有偏见和不可靠的,所以我和那里最好的 LLM 联手了gpt-04-turbo

现在,

  1. 每个类别的创建提示
  2. 每个类别的评估提示

评估将由另一个 LLM 进行,我知道这听起来很奇怪,但像MT-Bench这样的基准(请注意,这个评估与 MT-Bench 相差甚远)也使用强大的 LLM 作为评判者来自动化评估过程。

为了策划创作提示,我使用了提示工程技术,例如人员采用、明确的指示、思考时间和分隔的参考文本。

例如,

社交媒体文案提示:假设您是一家精品咖啡店的社交媒体经理,这家咖啡店以使用公平贸易的有机咖啡豆而自豪。您的目标是吸引经常光顾咖啡店作为社交中心的年轻时尚受众。制作一系列社交媒体帖子:— 用生动的视觉效果和诱人的描述介绍一种新的季节性混合咖啡

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/43545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在iPhone / iPad上轻松模拟GPS位置 AnyGo for Mac

在iPhone / iPad上轻松模拟GPS位置 AnyGo for Mac AnyGo for Mac是一款专为Mac电脑用户设计的虚拟定位工具。它可以模拟你的GPS位置,让你的设备显示你在任何世界上的任何地方。无论你是想在游戏中虚拟移动,还是在社交媒体上分享虚拟的旅行照片&#xff0…

Flask+Layui开发案例教程

基于 Python 语言的敏捷开发框架_DjangoAdmin敏捷开发框架FlaskLayui版本_开发文档 软件产品基于 Python 语言,采用 Flask2.x、Layui、MySQL 等技术栈精心打造的一款集模块化、高性能、组件化于一体的企业级敏捷开发框架,本着简化开发、提升开发效率的初…

C 语言中如何实现字符串的拼接?

🍅关注博主🎗️ 带你畅游技术世界,不错过每一次成长机会! 📙C 语言百万年薪修炼课程 【https://dwz.mosong.cc/cyyjc】通俗易懂,深入浅出,匠心打磨,死磕细节,6年迭代&…

Objective-C 中的 isa 不再是简单的结构体指针

了解 Objective-C 中的 isa 指针内存结构 在 Objective-C 中,isa 指针是对象和类之间的重要桥梁。它不仅帮助运行时系统识别对象的类型,还参与了一些内存和性能优化。本文将深入讲解 isa 指针的内存结构,包括其在早期和现代实现中的演变。 …

Linux使用python调用串口<Ubuntu>

要在 Ubuntu 上使用 /dev/ttyUSB0 设备编写一个简单的串口收发程序,你可以使用 Python,结合 pyserial 库来实现。这种方法相对简单,适用于各种串行通信任务。以下是如何在 Python 中编写串口收发程序的步骤及代码示例: 步骤 1: 安…

JWT重放漏洞攻防策略

JWT重放漏洞概述 概念:JWT(JSON Web Token)是Web应用广泛使用的身份验证令牌。重放攻击:攻击者截获JWT后,利用其有效性冒充用户执行操作。 重放攻击的危害 权限滥用:攻击者可越权操作,如非法…

ffmpeg新旧函数对比

搬运博客园“kn-zheng”大佬博客 从FFmpeg 3.0 开始 , 使用了很多新接口,对不如下: 1、avcodec_decode_video2() 原本的解码函数被拆解为两个函数avcodec_send_packet()和avcodec_receive_frame() 具体用法如下: old: avcodec_d…

MySQL8之mysql-community-embedded-compat的作用

MySQL8中的mysql-community-embedded-compat包的作用主要是提供MySQL服务器作为嵌入式库时的兼容性支持,特别是对于那些使用库版本18的应用程序。嵌入式MySQL服务器允许开发者将MySQL数据库直接嵌入到他们的应用程序中,而无需运行独立的MySQL服务器进程。…

Transformer 论文通俗解读:FFN 的作用

在经过前面3节关于 Transformer 论文的解读之后,相信你对提出 Transformer 架构的这篇论文有了一定的了解了,你可以点击下面的链接复习一下前3节的内容。 《Attention is all you need》通俗解读,彻底理解版:part1 《Attention …

合合信息“大模型加速器”亮相2024世界人工智能大会

文章目录 📑引言一、大模型发展的挑战数据稀缺问题 二、大模型“加速器”解决方案概述文档解析引擎的特征 三、文档解析引擎的优势3.1 高速处理能力3.2 智能理解文档结构3.3 多种数据类型支持3.4 高精度数据提取3.5 应用广泛,适应性强 四、复杂图表解析4…

Auslogics Disk Defrag Pro v11激活版下载、安装、使用教程 (磁盘碎片整理工具)

前言 Auslogics Disk Defrag Pro 是一款支持 FAT16 文件系统的磁盘碎片整理工具,它可以快速整理磁盘碎片,使磁盘空间更加整洁,显著提升电脑的运行速度。该软件无需任何分析阶段,并且速度比大多数其他碎片整理软件更快。它可以帮助…

stm32 开发板可以拿来做什么?

STM32开发板可以用来做许多不同的事情,具体取决于您的应用需求和编程能力。我收集归类了一份嵌入式学习包,对于新手而言简直不要太棒,里面包括了新手各个时期的学习方向编程教学、问题视频讲解、毕设800套和语言类教学,敲个22就可…

详解太阳能控制器PWM / MPPT极简方案其设计要点,台湾远翔FP7209升压24V,30V,36V,42V,48V

文章目录 前言 一、单节电池升压9V、12V、24V方案 二、单节电池升压30V,36V,42V,48V方案 三、芯片介绍 FP7209X与FP7209M的区别: 四、单节电池升压成为市面上太阳能控制器首选的原因? 总结 前言 太阳能是一种环保…

定时器TIM配置微妙延时函数

定时器TIM配置微妙延时函数 文章目录 定时器TIM配置微妙延时函数开胃小菜(BOOT0、BOOT1)Boot0Boot1(如果有) 三种定时器高级控制定时器(TIM1,TIM8)通用定时器(TIM2, TIM3, TIM4, TIM…

linux命令: rsync的使用

使用rsync同步本地文件夹到远程目录 rsync -zvrt /localdir/ -e ssh -p 30000 rootip:/remotedir/rsync -zvrt /localdir/ /remotedir/ 远程备份 rsync -avlR --delete -e ssh -p 3231 tangboqi221.122.114.27:backup ~/backup/ R表示保留目录结构,如果不保留…

基于Intel Chainer 和姿势检测的动作识别(人体、面部、手部关键点识别动作识别)

项目概述 目标 开发一个能够实时或近实时识别特定动作的系统,如运动姿势、表情变化或手势控制。实现对人体关键点的精确追踪,以便于分析和理解人的动态行为。 技术栈 Intel硬件:可能使用Intel的高性能计算平台,如Xeon处理器或…

【国潮】国产化系统甲方问题总结

持续更新。。。。。。。。。。。。。。。 【国潮】国产化系统甲方问题总结 1. 安全性问题2. 可靠性和稳定性问题3. 性能问题4. 符合军事标准问题5. 兼容性和集成问题6. 维护和升级问题7. 项目管理问题8. 隐私和合规性问题9. 灾难恢复和备份问题10. 技术支持和培训问题 引言&am…

zookeeper的shell操作

一:启动拽库的shell命令行 zkCli.sh -server localhost:2181 退出:quit 二:查询所有的命令 help 三:查询对应的节点 --查询zk上的根节点 ls / ls /zookeeper 四:查询对应节点的节点信息(节点的元数据&a…

[AI 大模型] 阿里巴巴 通义千问

文章目录 [AI 大模型] 阿里巴巴 通义千问简介模型架构发展新技术和优势示例 [AI 大模型] 阿里巴巴 通义千问 简介 阿里巴巴的 通义千问 是由阿里云开发的一款大型语言模型,旨在为用户提供高效、智能的自然语言处理服务。 通义千问能够处理多种语言输入&#xff0c…

c# Bitmap

在C#中,Bitmap 类是一个表示位图图像的类,它属于 System.Drawing 命名空间。Bitmap 类是从 Image 类派生的,因此它继承了 Image 类的所有属性和方法,并添加了一些专门用于处理位图的功能。 以下是关于 Bitmap 类的一些基本信息和…