LitServe - 闪电般快速服务AI模型⚡

文章目录

    • 一、关于 LitServe
    • 二、快速启动
      • 定义服务器
      • 测试服务器
      • LLM 服务
      • 小结
    • 三、特色示例
      • 功能特点
    • 四、性能表现
    • 五、托管选项


一、关于 LitServe

LitServe是一个易于使用、灵活的服务引擎,适用于基于FastAPI构建的AI模型。批处理、流式传输和GPU自动缩放等功能消除了为每个模型重建FastAPI服务器的需要。

LitServe至少比普通FastAPI快2倍。

  • github : https://github.com/Lightning-AI/LitServe
  • 官方文档:https://lightning.ai/docs/litserve
  • 快速启动• 例子• 特点• 性能• 托管• 文档
  • Discord

特点:简单、灵活、企业规模

(2x)+ faster serving  ✅ Easy to use        ✅ Batching, Streaming   
✅ Bring your own model  ✅ PyTorch/JAX/TF/... ✅ Built on FastAPI      
✅ GPU autoscaling       ✅ Multi-modal        ✅ Self-host or ⚡️ managed

二、快速启动

通过pip安装LitServe(更多选项):

pip install litserve

定义服务器

这个2模型玩具示例(AI复合系统)展示了LitServe的灵活性(参见真实示例):

# server.py
import litserve as ls# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI(ls.LitAPI):def setup(self, device):# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...self.model1 = lambda x: x**2self.model2 = lambda x: x**3def decode_request(self, request):# Convert the request payload to model input.return request["input"] def predict(self, x):# Easily build compound systems. Run inference and return the output.squared = self.model1(x)cubed = self.model2(x)output = squared + cubedreturn {"output": output}def encode_response(self, output):# Convert the model output to a response payload.return {"output": output} # (STEP 2) - START THE SERVER
if __name__ == "__main__":# serve with advanced features (GPUs, etc...)server = ls.LitServer(SimpleLitAPI(), accelerator="auto", max_batch_size=1)server.run(port=8000)

现在通过命令行运行服务器

python server.py

  • LitAPI可以完全控制构建可扩展的复合AI系统(1个或多个模型)。
  • LitServer处理优化,如批处理,自动GPU缩放等。

测试服务器

使用自动生成的LitServe客户端:

python client.py

或使用此终端命令:

curl -X POST http://127.0.0.1:8000/predict -H "Content-Type: application/json" -d '{"input": 4.0}'

LLM 服务

LitServe不仅仅适用于像vLLM或Ollama这样的LLM;它为任何AI模型提供完全控制内部的服务(了解更多信息)。
为了方便LLM服务,集成vLLM与LitServe,或使用LitGPT(基于LitServe构建)。

litgpt serve microsoft/phi-2

小结

  • LitAPI让您可以使用一个或多个模型(文档)轻松构建复杂的AI系统。
  • 将设置方法用于连接模型、数据库和加载数据(文档)等一次性任务。
  • LitServer处理优化,如批处理、GPU自动缩放、流式传输等(文档)。
  • 在您自己的机器上自行托管或使用Lightning Studios进行完全托管的部署(了解更多信息)。

了解如何使此服务器快200倍。


三、特色示例

使用LitServe部署任何模型或AI服务:(Gen AI、经典ML、嵌入服务器、LLM、视觉、音频、多模态系统等……)

演示视频: https://private-user-images.githubusercontent.com/884798/360682715-5e73549a-bc0f-47a9-9d9c-5b54389be5de.mp4

在这里插入图片描述


例子:

Featured examplesToy model:      Hello world
LLMs:           Llama 3 (8B), LLM Proxy server
NLP:            Hugging face, BERT, Text embedding API
Multimodal:     OpenAI Clip, MiniCPM, Phi-3.5 Vision Instruct
Audio:          Whisper, AudioCraft, StableAudio, Noise cancellation (DeepFilterNet)
Vision:         Stable diffusion 2, AuraFlow, Flux, Image super resolution (Aura SR)
Speech:         Text-speech (XTTS V2)
Classical ML:   Random forest, XGBoost
Miscellaneous:  Media conversion API (ffmpeg)

浏览100多个社区构建的模板


功能特点

最先进的功能:

✅(2x)+比普通FastAPI更快
✅带上你自己的模特
✅构建复合系统(1个以上模型)
✅GPU自动缩放
✅配料
✅流媒体
✅工人自动缩放
✅在您的机器上自托管
✅主机在闪电AI上完全管理
✅服务于所有模型:(LLM ,视觉等)
✅缩放到零(无服务器)
✅支持PyTorch、JAX、TF等…
✅符合OpenAPI标准
✅开放AI兼容性
✅认证

10+功能…

注意:我们优先考虑可扩展的企业级功能而不是炒作。


四、性能表现

LitServe专为AI工作负载而设计。专门的多工作者处理可提供比FastAPI至少2倍的加速。

批处理和GPU自动缩放等附加功能可以将性能提高到2倍以上,有效地扩展以处理比FastAPI和TorchServe更多的同时请求。

在这里复制完整的基准(越高越好)。

在这里插入图片描述

这些结果适用于图像和文本分类ML任务。性能关系适用于其他ML任务(嵌入、LLM服务、音频、分割、目标检测、摘要等…)。

*💡关于LLM服务的注意事项:*对于高性能LLM服务(如Ollama/VLLM),请使用LitGPT或使用LitServe构建自定义的类似VLLM的服务器。需要使用LitServe进行kv缓存等优化以最大限度地提高LLM性能。


五、托管选项

LitServe可以独立托管在您自己的机器上,也可以通过Lightning Studios进行完全管理。

自托管非常适合黑客、学生和DIY开发人员,而完全托管托管非常适合需要轻松自动缩放、安全性、发布管理以及99.995%正常运行时间和可观察性的企业开发人员。

FeatureSelf ManagedFully Managed on Studios
Deployment✅ Do it yourself deployment✅ One-button cloud deploy
Load balancing
Autoscaling
Scale to zero
Multi-machine inference
Authentication
Own VPC
AWS, GCP
Use your own cloud commits

2025-01-27(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/69615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序电商运营内容真实性增强策略及开源链动2+1模式AI智能名片S2B2C商城系统源码的应用探索

摘要:随着互联网技术的不断发展,小程序电商已成为现代商业的重要组成部分。然而,如何在竞争激烈的市场中增强小程序内容的真实性,提高用户信任度,成为电商运营者面临的一大挑战。本文首先探讨了通过图片、视频等方式增…

AD电路仿真

目录 0 前言 仿真类型 仿真步骤 仿真功能及参数设置 仿真模型 应用优势 1 新建原理图 2 放置元器件及布线 3 放置探头 4 实验结果 Operating Point 分析的作用 DC Sweep 的主要功能 Transient Analysis 的主要功能 AC Analysis 的功能 5 总结 1. 直流工作点分析…

【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(三)

目录 1 -> 生命周期 1.1 -> 应用生命周期 1.2 -> 页面生命周期 2 -> 资源限定与访问 2.1 -> 资源限定词 2.2 -> 资源限定词的命名要求 2.3 -> 限定词与设备状态的匹配规则 2.4 -> 引用JS模块内resources资源 3 -> 多语言支持 3.1 -> 定…

科技快讯 | 理想官宣:正式收费!WeChat 港币钱包拓宽商户网络;百川智能发布深度思考模型Baichuan-M1-preview

理想官宣:正式收费! 1月23日,理想汽车宣布,理想超充站超时占用费正式运营。触发超时占用费的条件为充电结束后15分钟内未将充电枪插回充电桩,收费标准为2元/分钟,单次封顶200元。理想汽车将在充电结束的四个…

Linux网络 | 理解TCP面向字节流、打通socket与文件的关系

前言:我们经常说TCP是面向字节流的, TCP是面向字节流的。 但是, 到底是什么事面向字节流呢? 另外, 我们知道sockfd其实就是文件fd。 但是,为什么sockfd是文件fd呢? 这些问题都在本节内容中的到回…

SQL教程-基础语法

INSERT INTO 新增数据 INSERT INTO 数据表名 VALUES (值1,值2,值3,...) DELETE 删除数据 DELETE FROM 数据表名 WHERE 查询条件 UPDATE 修改数据 UPDATE 数据表名 SET 字段1 值1, 字段2值2, ... WHERE 查询条件 SELECT 查询数据 #查询数据 SELECT 字段1, 字段2, ... FROM 数…

FireFox | Google Chrome | Microsoft Edge 禁用更新 final版

之前的方式要么失效,要么对设备有要求,这次梳理一下对设备、环境几乎没有要求的通用方式,universal & final 版。 1.Firefox 方式 FireFox火狐浏览器企业策略禁止更新_火狐浏览器禁止更新-CSDN博客 这应该是目前最好用的方式。火狐也…

大数据学习之Kafka消息队列、Spark分布式计算框架一

Kafka消息队列 章节一.kafka入门 4.kafka入门_消息队列两种模式 5.kafka入门_架构相关名词 Kafka 入门 _ 架构相关名词 事件 记录了世界或您的业务中 “ 发生了某事 ” 的事实。在文档中 也称为记录或消息。当您向 Kafka 读取或写入数据时,您以事件的 形式执行…

【C语言----函数详解】

目录 ----------------------------------------begin-------------------------------------- 引言 一、函数是什么 二、函数的定义和声明 1. 函数的定义 2. 函数的声明 三、函数的调用 四、函数参数传递 五、函数的返回值 六、递归函数 七、函数指针 八、总结 ---…

深度学习指标可视化案例

TensorBoard 代码案例:from torch.utils.tensorboard import SummaryWriter import torch import torchvision from torchvision import datasets, transforms# 设置TensorBoard日志路径 writer SummaryWriter(runs/mnist)# 加载数据集 transform transforms.Comp…

练习题 - DRF 3.x Caching 缓存使用示例和配置方法

在构建现代化的 Web 应用程序时,性能优化是一个非常重要的环节。尤其是在使用 Django Rest Framework (DRF) 开发 API 服务时,合理地利用缓存技术可以显著提高应用的响应速度和减轻数据库的负担。DRF 提供了多种缓存机制,包括基于内存、文件系统、数据库以及第三方缓存服务(…

Linux文件原生操作

Linux 中一切皆文件,那么 Linux 文件是什么? 在 Linux 中的文件 可以是:传统意义上的有序数据集合,即:文件系统中的物理文件 也可以是:设备,管道,内存。。。(Linux 管理的一切对象…

基于springboot+vue的流浪动物救助系统的设计与实现

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

使用kitty terminal遇到的‘xterm-kitty‘: unknown terminal type.

解决办法 方式一 export TERMxterm-256color使永久生效 echo export TERMxterm-256color >> ~/.zshrc # 如果用 zsh,如果使用的是bash就修改为bashrc source ~/.zshrc #同理如果是ssh下遇到该问题,参考 https://sw.kovidgoyal.net/kitty/faq/…

提供一种刷新X410内部EMMC存储器的方法

USRP X410内部采用了16G的EMMC存储器,内有内核和文件系统。官方站[注1]提供了多个版本的EMMC映像文件,并提供了多种刷新方法[注2]。 1,如果内核还能运行只是文件系统破坏,可以从外接USB盘,之后使用mount挂载U盘&#…

CTFSHOW-WEB入门-命令执行29-32

题目:web 29 题目:解题思路:分析代码: error_reporting(0); if(isset($_GET[c])){//get一个c的参数$c $_GET[c];//赋值给Cif(!preg_match("/flag/i", $c)){eval($c);//if C变量里面没有flag,那么就执行C…

Oracle 普通用户连接hang住处理方法

一、现象说明 $ sqlplus / as sysdbaSQL*Plus: Release 19.0.0.0.0 - Production on Wed Dec 18 16:49:19 2024 Version 19.11.0.0.0Copyright (c) 1982, 2020, Oracle. All rights reserved.Connected to: Oracle Database 19c Enterprise Edition Release 19.0.0.0.0 - Pro…

java 正则表达式匹配Matcher 类

Matcher 类 用法 在 Java 中,Matcher 类是用于匹配正则表达式的工具,而 group() 方法是 Matcher 类中的一个重要方法,用于提取匹配结果中的捕获组(captured groups)。以下是对 group() 方法的详细解释: 1.…

探索AI(chatgpt、文心一言、kimi等)提示词的奥秘

大家好,我是老六哥,我正在共享使用AI提高工作效率的技巧。欢迎关注我,共同提高使用AI的技能,让AI成功你的个人助理。 "AI提示词究竟是什么?" 这是许多初学者在接触AI时的共同疑问。 "我阅读了大量关于…

安装最小化的CentOS7后,执行yum命令报错Could not resolve host mirrorlist.centos.org; 未知的错误

文章目录 安装最小化的CentOS7后,执行yum命令报错"Could not resolve host: mirrorlist.centos.org; 未知的错误"错误解决方案: 安装最小化的CentOS7后,执行yum命令报错"Could not resolve host: mirrorlist.centos.org; 未知…