2403d,d语言直接利用llama.cpp

原文
无需绑定,只需制作个带单个包含虚C文件,然后就可开始构建由llama.cpp提供支持的D应用,仅此而已,除了制作虚文件外,无需额外工作.

窗口上使用dmdv2.107来测试.

代码

//llamad.c:
#include "llama.h"

llama.cpp简单的移植D版本示例:

//llamad.d:
module llama_d;
import std.string;
import std.stdio;
import llamad; //imports llamad.c
//pragma(msg, __traits(allMembers, llamad));
void main(string[] args)
{if (args.length < 3) {writeln("LLAMA D DEMO USAGE: llama-d <path_to_model> <your_prompt>");return;}llama_backend_init();llama_numa_init(GGML_NUMA_STRATEGY_DISABLED);auto mparams = llama_model_default_params();//`mparams.n_gpu_layers=30;`卸载层到`GPU`以加速推导auto ctx_params = llama_context_default_params();ctx_params.n_ctx = 2048;import std.parallelism;ctx_params.n_threads = totalCPUs-1;ctx_params.n_threads_batch = ctx_params.n_threads_batch == -1 ? ctx_params.n_threads : ctx_params.n_threads_batch;llama_model*  model = llama_load_model_from_file(toStringz(args[1]), mparams);llama_context*ctx = llama_new_context_with_model(model, ctx_params);const bool add_bos = llama_vocab_type(model) == LLAMA_VOCAB_TYPE_SPM;const bool allow_special = false;string prompt = args[2];if (!prompt.length)return;//转换`提示`为嵌入llama_token[] embd_inp;embd_inp.length = prompt.length;writeln("tokenizing...");auto n_of_tok = llama_tokenize(llama_get_model(ctx), prompt.ptr, cast(int) prompt.length, embd_inp.ptr, cast(int) embd_inp.length, add_bos, allow_special);embd_inp.length = n_of_tok;if (!n_of_tok) {writeln("no tokens generated, something gone wrong");return;}writeln("input has ", n_of_tok, " tokens");foreach (id; embd_inp) {write(llama_token_to_piece(ctx, id));}writeln();//包括提示的`序列总长度`const int n_len = 128;const int n_ctx = llama_n_ctx(ctx);const int n_kv_req = cast(int)(embd_inp.length + (n_len - embd_inp.length));if (n_kv_req > n_ctx) {writeln("error: prompt is too long");return;}writeln("building batch");//创建大小为`512`的`llama_batch`,//用该对象来提交待解码令牌数据llama_batch batch = llama_batch_init(512, 0, 1);//求值初始提示for (size_t i = 0; i < embd_inp.length; i++) {//注意,`seq_pos_id=[0]`是必需的,因为至少应该有一个令牌llama_batch_add(batch, embd_inp[i], cast(int) i, [0], false);}//`llama_decode`仅针对提示的最后令牌输出逻辑batch.logits[batch.n_tokens - 1] = true;writeln("decoding batch");if (llama_decode(ctx, batch) != 0) {writeln("llama_decode() failed");return;}//主循环int n_cur    = batch.n_tokens;int n_decode = 0;const auto t_main_start = ggml_time_us();while (n_cur <= n_len) {//对下个令牌采样{auto   n_vocab = llama_n_vocab(model);auto   logits  = llama_get_logits_ith(ctx, batch.n_tokens - 1);llama_token_data[] candidates;candidates.length = n_vocab;for (llama_token token_id = 0; token_id < n_vocab; token_id++) {candidates ~= llama_token_data(token_id, logits[token_id], 0.0f);}llama_token_data_array candidates_p = { candidates.ptr, cast(int) candidates.length, false };//对最有可能的令牌采样const llama_token new_token_id = llama_sample_token_greedy(ctx, &candidates_p);//是流尾吗if (new_token_id == llama_token_eos(model) || n_cur == n_len) {writeln();break;}writef("%s", llama_token_to_piece(ctx, new_token_id));//准备下一批llama_batch_clear(batch);//为下次求值,压此新令牌llama_batch_add(batch, new_token_id, n_cur, [0], true);n_decode += 1;}n_cur += 1;//用`转换模型`求值当前批if (llama_decode(ctx, batch)) {writefln("%s : failed to eval, return code %d\n", __FUNCTION__, 1);return;}}const auto t_main_end = ggml_time_us();llama_print_timings(ctx);writeln();//清理llama_batch_free(batch);llama_free(ctx);llama_free_model(model);llama_backend_free();
}
void llama_batch_add( ref llama_batch batch, llama_token id, llama_pos pos, const llama_seq_id[] seq_ids, bool logits) {batch.token   [batch.n_tokens] = id;batch.pos     [batch.n_tokens] = pos;batch.n_seq_id[batch.n_tokens] = cast(int) seq_ids.length;for (size_t i = 0; i < seq_ids.length; ++i) {batch.seq_id[batch.n_tokens][i] = seq_ids[i];}batch.logits  [batch.n_tokens] = logits;batch.n_tokens++;
}
string llama_token_to_piece(llama_context* ctx, llama_token token) {char[] result;result.length = 8;const int n_tokens = llamad.llama_token_to_piece(llama_get_model(ctx), token, result.ptr, cast(int) result.length);if (n_tokens < 0) {result.length = -n_tokens;int check = llamad.llama_token_to_piece(llama_get_model(ctx), token, result.ptr, cast(int) result.length);assert(check == -n_tokens);} else {result.length = n_tokens;}return cast(string) result;
}
void llama_batch_clear(ref llama_batch batch) {batch.n_tokens = 0;
}

构建

用此命令在llama.cpp目录中构建(我一直在用CUDA,但也可在没有它时使用)

 dmd llama-d.d llamad.c -m64 build/ggml_static.lib build/llama.lib -L/LIBPATH:"C:/Program Files/NVIDIA GPU Computing Toolkit/CUDA/v12.3/lib/x64" cuda.lib cudart.lib cufft.lib cublas.lib ucrtd.lib -L/NODEFAULTLIB:libucrt.lib -L/NODEFAULTLIB:libcmt.lib msvcprtd.lib

运行

llama-d "E:\ML\pretrained\speechless-llama2-hermes-orca-platypus-wizardlm-13b.Q5_K_M.gguf" "How to quit vim "

或用基于Karpathyllama2.c代码的纯D实现
llama

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/765487.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL (1)

目录 一、数据库的基本概念 1.1 数据 &#xff08;Data&#xff09; 1.2 表 1.3 数据库 2 数据库管理系统 3 数据库系统 二、数据库发展史 关于第三代数据库 三、关系型数据库 当今主流数据库介绍 关系数据库应用 四、非关系数据库介绍 五、MySQL数据库介绍 MySQL商业…

如何利用自动化和智能化技术提高仓储行业效率?

仓储行业作为物流领域的重要环节&#xff0c;其效率的提升对于整个供应链的顺畅运作至关重要。自动化和智能化技术的引入&#xff0c;为仓储行业带来了革命性的变革。 一&#xff0e;自动化技术的应用 自动化仓储系统 通过引入自动化仓储系统&#xff0c;如高架叉车、自动化…

vscode调试launch.json常用格式

目录 1、简单的模版 2、简单的案例 2.1、python 执行.py 文件 2.2、调式多个文件 2.3、torchrun、deepspeed 调试 1、简单的模版 定义一个简单的模版如下&#xff1a; {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息&#xff0c;请访…

redis和rabbitmq实现延时队列

redis和rabbitmq实现延时队列 延迟队列使用场景Redis中zset实现延时队列Rabbitmq实现延迟队列 延迟队列使用场景 1. 订单超时处理 延迟队列可以用于处理订单超时问题。当用户下单后&#xff0c;将订单信息放入延迟队列&#xff0c;并设置一定的超时时间。如果在超时时间内用户…

网络编程套接字——实现简单的TCP网络程序

目录 1、TCP socket API详解 socket()&#xff1a; bind()&#xff1a; listen(): accept(): connect(): 2、简易的TCP网络程序 TcpServer.hpp TcpClient.cc Main.cc Log.hpp ThreadPool.hpp Task.hpp Init.hpp Daemon.hpp dict.txt Makefile 1、TCP socket A…

CRM软件推荐2024:五款顶级产品解析,助您找到最佳选项!

一天之计在于晨&#xff0c;一年之计在于春。 2024年&#xff0c;民营经济发展继续壮大&#xff0c;这对于各行各业而言都是一种机遇挑战。企业想要规范化客户管理&#xff0c;实现销售增长&#xff0c;CRM软件仍然是一个不错的选择。在数字化时代&#xff0c;企业数字化转型已…

C语言运算符的优先级

C语言运算符的优先级 在C语言中&#xff0c;运算符的优先级决定了在复杂的表达式中先进行哪个运算&#xff0c;后进行哪个运算。优先级从高到低排列如下&#xff1a; 括号运算符&#xff1a;()、[]、->、.&#xff0c;它们的优先级最高&#xff0c;用于明确指定运算的先后…

基于SpringBoot实现WebSocket实时通讯的服务端和客户端

实现功能 服务端注册的客户端的列表&#xff1b;服务端向客户端发送广播消息&#xff1b;服务端向指定客户端发送消息&#xff1b;服务端向多个客户端发送消息&#xff1b;客户端给服务端发送消息&#xff1b; 效果&#xff1a; 环境 jdk&#xff1a;1.8 SpringBoot&#x…

Pytorch:nn.Upsample() 和nn.ConvTranspose2d()

nn.Upsample 原理 nn.Upsample 是一个在PyTorch中进行上采样&#xff08;增加数据维度&#xff09;的层&#xff0c;其通过指定的方法&#xff08;如nearest邻近插值或linear、bilinear、trilinear线性插值等&#xff09;来增大tensor的尺寸。这个层可以在二维或三维数据上按…

大模型+强化学习_通过强化学习对齐大模型和环境

英文名称: True Knowledge Comes from Practice: Aligning LLMs with Embodied Environments via Reinforcement Learning 中文名称: 实践出真知&#xff1a;通过强化学习将LLMS与具体环境对齐 链接: https://arxiv.org/abs/2401.14151 代码: https://github.com/WeihaoTan/TWO…

win10安装后 c盘 再分区

背景 500G的固态全用在C盘&#xff0c;现在发现分多了&#xff0c;想多出一个固态盘&#xff0c;这样方便其他文件读取更快 操作 点击开始菜单&#xff0c;搜索并打开“磁盘管理”。 在磁盘管理窗口中&#xff0c;找到你想要分区的硬盘&#xff08;通常是C盘&#xff09;&…

BI技巧丨个性化视觉对象

BOSS&#xff1a;那个&#xff0c;那个谁&#xff0c;最近用户反映了&#xff0c;说是你们做的报表不太行啊&#xff1f;&#xff01; 白茶&#xff1a;&#xff08;&#xff1f;&#xff1f;&#xff1f;&#xff09;老板&#xff0c;怎么说&#xff1f; BOSS&#xff1a;就是…

网络原理(5)——IP协议(网络层)

目录 一、IP协议报头介绍 1、4位版本 2、4位首部长度 3、8位服务器类型 4、16位总长度 5、16位标识位 6、3位标志位 7、13位偏移量 8、8位生存空间 9、8位协议 10、16位首部检验和 11、32位源IP地址 12、32位目的IP地址 二、IP协议如何管理地址&#xff1f; 1、动…

Redis入门到实战-第三弹

Redis入门到实战 Redis数据类型官网地址Redis概述Redis数据类型介绍更新计划 Redis数据类型 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://redis.io/Redis概述 Redis是一个开源的&#xff08;采用BSD许可证&#…

《优化接口设计的思路》系列:第九篇—用好缓存,让你的接口速度飞起来

一、前言 大家好&#xff01;我是sum墨&#xff0c;一个一线的底层码农&#xff0c;平时喜欢研究和思考一些技术相关的问题并整理成文&#xff0c;限于本人水平&#xff0c;如果文章和代码有表述不当之处&#xff0c;还请不吝赐教。 作为一名从业已达六年的老码农&#xff0c…

2024Python计算机二级13

一维数据采用线性方式组织&#xff0c;集合不属于线性结构 程调度仅负责对CPU进行分配 快速排序每经过一次元素的交换会产生新的逆序 记住队列中为一个元素的情况 区分二叉树与完全二叉树&#xff0c;前序序列是先访问根节点再访问左子树和右子树&#xff0c;中序序列是访问左子…

《定时执行专家》:Nircmd 的超级搭档,解锁自动化新境界

目录 Nircmd 简介 《定时执行专家》与 Nircmd 的结合 示例&#xff1a; 自动清理电脑垃圾: 定时发送邮件: 定时关闭电脑: 《定时执行专家》的优势: 总结: 以下是一些其他使用示例&#xff1a; 立即下载《定时执行专家》&#xff1a; Nircmd 官方网站&#xff1a; 更…

【数字IC/FPGA】书籍推荐(1)----《轻松成为设计高手--Verilog HDL实用精解》

在下这几年关于数字电路、Verilog、FPGA和IC方面的书前前后后都读了不少&#xff0c;发现了不少好书&#xff0c;也在一些废话书上浪费过时间。接下来会写一系列文章&#xff0c;把一部分读过的书做个测评&#xff0c;根据个人标准按十分制满分来打分分享给大家。 书名&#xf…

企业微信可以更换公司主体吗?

企业微信变更主体有什么作用&#xff1f;当我们的企业因为各种原因需要注销或已经注销&#xff0c;或者运营变更等情况&#xff0c;企业微信无法继续使用原主体继续使用时&#xff0c;可以申请企业主体变更&#xff0c;变更为新的主体。企业微信变更主体的条件有哪些&#xff1…

基于Docker的JMeter分布式压测!

一个JMeter实例可能无法产生足够的负载来对你的应用程序进行压力测试。如本网站所示&#xff0c;一个JMeter实例将能够控制许多其他的远程JMeter实例&#xff0c;并对你的应用程序产生更大的负载。JMeter使用Java RMI[远程方法调用]来与分布式网络中的对象进行交互。JMeter主站…