免费linux网站空间学做凉菜冷菜的网站

news/2025/10/8 19:11:37/文章来源:
免费linux网站空间,学做凉菜冷菜的网站,2003系统建网站,绿色国外网站LLaVA#xff1a;GPT-4V(ision) 的新开源替代品。 LLaVA #xff08;https://llava-vl.github.io/#xff0c;是 Large Language 和Visual A ssistant的缩写#xff09;。它是一种很有前景的开源生成式 AI 模型#xff0c;它复制了 OpenAI GPT-4 在与图像对话方面的一些功…LLaVAGPT-4V(ision) 的新开源替代品。 LLaVA https://llava-vl.github.io/是 Large Language 和Visual A ssistant的缩写。它是一种很有前景的开源生成式 AI 模型它复制了 OpenAI GPT-4 在与图像对话方面的一些功能。 用户可以将图像添加到 LLaVA 聊天对话中可以以聊天方式讨论这些图像的内容还可以将它们用作以视觉方式描述想法、上下文或情况等方式。 LLaVA 最引人注目的功能是它能够改进其他开源解决方案同时使用更简单的模型架构和更少的训练数据。这些特性使得 LLaVA 不仅训练速度更快、成本更低而且更适合在消费类的硬件上进行推理。 本篇文章将概述 LLaVA其目标如下 展示如何从网页界面进行试验以及如何将其安装在您的计算机或笔记本电脑上 详细解释其主要技术特性 说明如何使用它进行编程以使用 Google Colab 上的 HuggingFace 库 Transformers和Gradio 构建的简单聊天机器人应用程序为例。 在线使用 LLaVA 如果你还没有尝试过它使用 LLaVA 最简单的方法是访问其作者提供的Web 界面。 下面的屏幕截图说明了其界面的运行方式用户根据冰箱内容的图片询问要做什么饭菜。可以使用左侧的小部件加载图像其聊天界面允许用户以文本形式提出问题并获得答案。 访问地址https://llava.hliu.cc/ LLaVA 网页界面https://llava.hliu.cc/ 在上面的对话示例中LLaVA 已经正确识别了冰箱中存在的成分例如蓝莓、草莓、胡萝卜、酸奶或牛奶并提出相关建议例如水果沙拉、冰沙或蛋糕。 该项目网站 https://llava-vl.github.io/上还给出了与 LLaVA 对话的其他示例这说明了 LLaVA 不仅能够描述图像还能够根据图像中的元素进行推理和推理使用图片中的线索识别电影或人从绘图中编写一个网站解释段子文案等。 如何本地运行 LLaVA LLaVA 还可以使用Ollamahttps://ollama.ai/或 Mozilla ’ llamafile’ https://github.com/Mozilla-Ocho/llamafile安装在本地计算机上。 这些工具可以在大多数仅使用 CPU 的消费级机器上运行因为该模型仅需要 8GB RAM 和 4GB 可用磁盘空间甚至被证明可以在 Raspberry PI 相关链接 https://towardsdatascience.com/running-local-llms-and-vlms-on-the-raspberry-pi-57bd0059c41a上成功运行。 在围绕 Ollama 项目开发的工具和界面中一个值得注意的举措是Ollama-WebUI如下所示它再现了 OpenAI ChatGPT 用户界面的外观和感觉。 LLaVA 主要功能简介 LLaVA 由威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究人员设计最近在 NeurIPS 2023 上进行了展示。该项目的代码和技术规范可以在其Github 存储库上访问。该存储库地址如下 https://github.com/haotian-liu/LLaVA 作者在论文摘要中总结道 [LLava] 在 11 项基准测试中达到了最先进的水平。我们的最终 13B 检查点仅使用 120 万个公开可用数据并在单个 8-A100 节点上约 1 天完成完整训练。我们希望这能让最先进的 LMM 研究变得更容易实现。代码和模型将公开。 详细地址 https://arxiv.org/pdf/2310.03744.pdf 本文中以雷达图形式报告的基准测试结果说明了与其他最先进模型相对比的改进。 LLaVA内部运作流程 LLaVA 的数据处理工作流程在概念上很简单。 该模型本质上作为标准因果语言模型工作将语言指令用户文本提示作为输入并返回语言响应。语言模型处理图像的能力是由单独的视觉编码器模型实现的该模型将图像转换为语言标记这些标记被悄悄地添加到用户文本提示中充当一种软提示。 LLaVA 执行过程来看下图所示。 LLaVA 的语言模型和视觉编码器分别依赖于两个参考模型Vicuna 和 CLIP。 Vicuna基于 LLaMA-2由 Meta 设计的预训练大型语言模型其性能与中型 LLM 具有竞争力。 CLIP https://openai.com/research/clip是 OpenAI 设计的图像编码器经过预训练可使用对比语言图像预训练因此称为“CLIP”在类似的嵌入空间中对图像和文本进行编码。 LLaVA 中使用的模型是视觉变换器变体 CLIP-ViT-L/14请参阅HuggingFace 上的模型卡。 为了将视觉编码器的维度与语言模型的维度相匹配应用了投影模块上图中的W 。它是原始LLaVA中的简单线性投影以及LLaVA 1.5中的两层感知器。 训练流程 LLaVA 的训练过程由两个相对简单的阶段组成。 第一阶段目标在调整投影模块W并且视觉编码器和LLM的权重保持冻结。使用来自CC3M 概念字幕数据集的大约 600k 图像/字幕对的子集来执行训练并且可以在该存储库的HuggingFace 上找到。 在第二阶段使用 158K 语言图像指令跟踪数据的数据集对投影模块权重W与 LLM 权重一起进行微调同时保持视觉编码器的权重冻结。数据是使用 GPT4 生成的具有对话示例、详细描述和复杂推理也可在 HuggingFace 上的存储库中获取。 整个训练大约需要一天时间使用 8 个 A100 GPU。 使用 LLaVA 编程如何开始 LLaVA 模型集成在 Transformers 库中可以使用标准管道对象加载。模型的 7B 和 13B 变体可在LLaVA GitHub 空间上使用并且可以以 4 和 8 位加载以节省 GPU 内存。下面我们将说明如何使用可在具有 T4 TPU15GB RAM GPU的 Colab 上执行的代码来加载和运行模型。 下面是以 4 位加载 LLaVA 1.5 的 7B 变体的代码片段 from transformers import pipeline, BitsAndBytesConfig import torchquantization_config BitsAndBytesConfig(load_in_4bitTrue,bnb_4bit_compute_dtypetorch.float16 )model_id llava-hf/llava-1.5-7b-hfpipe pipeline(image-to-text, modelmodel_id, model_kwargs{quantization_config: quantization_config})使用标准的PIL库来加载图片 import requests from PIL import Imageimage_url https://cdn.pixabay.com/photo/2018/01/29/14/13/italy-3116211_960_720.jpg image Image.open(requests.get(image_url, streamTrue).raw) image最后让我们用图像查询 LLaVA 模型并提示要求描述图片。提示格式如下 “USER: \n\nASSISTANT:” prompt USER: image\nDescribe this picture\nASSISTANT:outputs pipe(image, promptprompt, generate_kwargs{max_new_tokens: 200}) print(outputs[0][generated_text])它将返回以下答案 用户请描述一下这张图片 助理图片上有一个巨大的、空荡荡的圆形剧场背景是令人惊叹的海洋景色。圆形剧场周围是郁郁葱葱的绿色山坡远处可以看到雄伟的山峰。景色宁静而美丽阳光照耀着大地。 LLaVA 聊天机器人 我们最终创建一个依赖于 LLaVA 模型的简单聊天机器人。我们将使用Gradio 库它提供了一种快速、简单的方法来创建机器学习 Web 界面。 该界面的核心由一行图像上传器一个 Gradio Image 对象和一个聊天界面一个 Gradio ChatInterface对象组成。 import gradio as grwith gr.Blocks() as demo:with gr.Row():image gr.Image(typepil, interactiveTrue)gr.ChatInterface(update_conversation, additional_inputs[image]) 聊天界面连接到一个函数update_conversation该函数负责保存对话历史记录并在用户发送消息时调用 LLaVA 模型进行响应。 def update_conversation(new_message, history, image):if image is None:return Please upload an image first using the widget on the leftconversation_starting_from_image [[user, assistant] for [user, assistant] in history if not assistant.startswith(Please)]prompt USER: image\nfor i in range(len(history)):prompthistory[i][0]ASSISTANT: history[i][1]USER: prompt promptnew_messageASSISTANT: outputs pipe(image, promptprompt, generate_kwargs{max_new_tokens: 200, do_sample : True, temperature : 0.7})[0][generated_text]return outputs[len(prompt)-6:]调用launch方法启动界面。 demo.launch(debugTrue)几秒钟后将出现聊天机器人 Web 界面 恭喜您的 LLaVA 聊天机器人现在已经启动并成功运行 相关参考链接 HuggingFace LLaVA 模型文档 https://huggingface.co/docs/transformers/model_doc/llava Llava 抱脸组织 https://huggingface.co/llava-hf 使用 AutoPrecessor 和 LLaVAForConditionalGeneration 加载并运行 LLaVAColab 笔记本 https://colab.research.google.com/drive/1_q7cOB-jCu3RExrkhrgewBR0qKjZr-Sx GPT-4V(ision)系统卡 https://cdn.openai.com/papers/GPTV_System_Card.pdf 视觉指令调整 https://newsletter.artofsaience.com/p/understanding-visual-instruction

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/931854.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

果女做拍的视频网站wordpress单页主题汉化

在人工智能的浩瀚宇宙中,自然语言处理(NLP)一直是一个充满挑战和机遇的领域。随着技术的发展,我们见证了从传统规则到统计机器学习,再到深度学习和预训练模型的演进。如今,我们站在了大型语言模型&#xff…

打印

View Post打印第一步:权限申请 在module.json5中进行如下配置; "requestPermissions": [{"name": "ohos.permission.PRINT","reason": "$string:permissionsReason&qu…

实用指南:Cursor 工具项目构建指南: Web Vue-Element UI 环境下的 Prompt Rules 约束(new Vue 方式)

实用指南:Cursor 工具项目构建指南: Web Vue-Element UI 环境下的 Prompt Rules 约束(new Vue 方式)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: b…

完整教程:vue2 项目中 npm run dev 运行98% after emitting CopyPlugin 卡死

完整教程:vue2 项目中 npm run dev 运行98% after emitting CopyPlugin 卡死2025-10-08 19:08 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-…

利用虚拟主机建设企业网站上海si设计公司

最近做用Ajax.AjaxMethod方法的时候,在asp.net的服务器下一切正常,用iis的时候,js中总是cs类找不到,我就郁闷了,折腾了大半天,终于找到错误原因了。因为我发布网站用的是iis7,所以在web.config位…

网站开发的英文书有什么软件安卓应用市场免费下载安装

实体 实体是具有唯一标识的对象,且该标识和对象的属性值分离.即使两个实体的属性完全相同,这两个实体也相同,不能交换使用.由于实体通常对应于现实世界的概念. 是领域模型的中心,因此实体的标识非常重要. 值对象 值对象是主要由其属性值定义的对象.值对象通常不可变,即一旦创建…

广州黄埔区做网站培训机构建设官网公司地址

文章目录一、综述二、常见的回归分析三、对于相关性的理解四、一元线性回归模型五、对于回归系数的解释六、内生性七、四类线性模型回归系数的解释八、对于定性变量的处理——虚拟变量XXX九、下面来看一个实例十、扰动项需要满足的条件十一、异方差十二、多重共线性十三、逐步回…

VsCode 安装 Cline 插件并使用免费模型(例如 DeepSeek) - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025球墨铸铁管厂家 TOP 企业品牌推荐排行榜,市政球墨铸铁管、球墨铸铁管件、防腐球墨铸铁管、给水球墨铸铁管推荐这十家公司!

在基础设施建设领域,球墨铸铁管凭借其优异的抗压性能、耐腐蚀特性以及较长的使用寿命,成为供水、排水、燃气输送等工程中的重要建材。然而,当前球墨铸铁管市场并非一片规范,行业内存在不少问题亟待解决。一方面,部…

网站整站html网页设计与制作千年之恋代码

在选择海外IP代理服务时,您将面临一个关键的问题:是选择住宅代理IP还是数据中心代理IP?这两者之间存在着根本性的不同,涉及到性能、隐私和成本等方面的考虑。住宅代理IP通常来自真实的住宅网络连接,更难被检测到。数据…

龙岗网络营销网站制作哪里好做家具厂招聘有哪些网站

android-verticalseekbar——Android可视化SeekBar类库转载于:https://www.cnblogs.com/zhujiabin/p/5706246.html

Say 题选记(10.5 - 10.11)

P4797 [CEOI 2015] 波将金的路径 题目要我们找一个环长 \(\ge 4\) 的环,使得这个环没有弦。难点显然在这个没有弦的限制。如果我们直接找最小环,可能会找到一个三元环,虽然没有弦了,但也不满足题目的要求。 一个人…

昆山网站开发ikelv孟州网站开发app

在当今的数据驱动时代,Elasticsearch以其强大的搜索和分析能力,成为了众多企业和项目中的核心组件。然而,Elasticsearch的强大并不止于其本身,其与其他系统的紧密集成,如Logstash、Kibana、Beats等,共同构建…

站长工具海角wordpress为用户添加积分

一、监控 Windows 主机的方法 方式 1:使用 Windows Exporter Windows Exporter(wmi_exporter) 是 Prometheus 官方推荐的 Windows 监控工具,它可以采集 CPU、内存、磁盘、网络、进程、服务状态等 指标。 方式 2:使用 Node Exporter for Windows node_exporter 主要用于…

E. Rasta Thamaye Dilo

E. Rasta Thamaye Dilo链接:[https://codeforces.com/gym/104679/problem/E?adcd1e=caf4fedm9escdm&csrf_token=062b3628aaa43205c694e16f77dbe6ec] 题意: 村庄=点 路=点与点的连线 1.有t组数据,每组给一个数字…

微信机器人开发最新协议API

微信机器人开发最新协议API 大家看到这篇文章,首先要明白:市面上所有机器人操作,都是基于接收消息后的逻辑处理,例如群转让、群管理、自动踢人、创建群聊、入群自动@、聚合聊天、消息托管、多群转发、内容直播、社…

重庆承越网站制作公司德州网站怎样建设

ollydbg简介: Ollydbg 通常称作OD,是反汇编工作的常用工具,OD附带了200脱壳脚本和各类插件,功能非常强大,可以过SE,VMP3.0,深受逆向圈内人士的喜爱 OD,是一个反汇编工具,…

JDK的安装与使用 - XYX

JDK 安装与使用指南 第一部分:什么是 JDK?JRE 和 JVM 又是什么?** 在开始安装之前,我们先来厘清几个容易混淆的概念:JVM (Java Virtual Machine):Java 虚拟机。它是 Java 平台的核心,负责执行 Java 字节码(.cl…

不连网也能跑大模型? - 教程

不连网也能跑大模型? - 教程2025-10-08 18:40 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important…

Rust 的英文数字验证码识别系统实现

一、引言 验证码(CAPTCHA,Completely Automated Public Turing test to tell Computers and Humans Apart)是一种防止恶意自动化访问的技术,常见于网站注册、登录等场景。 通过随机字符、干扰线、扭曲等方式,验证…