如何像使用Openai API那样使用豆包的图片和视频API

图片

下面给出测试的代码:

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_image","image_url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png"},{"type":"input_text","text":"支持输入图片的模型系列是哪个?"},],}])print(response)

下面这一段非常重要,需要使用load_dotenv, 后面才是api_key = os.getenv('ARK_API_KEY')

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass

上面代码运行结果如下:成功运行

Response(created_at=1768285927, error=None, id=‘resp_0217682859270354fe949375ac26682761f342713cef332331e7d’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-8-251228’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828592773000000000000000000000ffffac15433f3bceef’, summary=[Summary(text=‘用户现在需要解决的问题是找到支持输入图片的模型。首先看表格,输入列里的图像这一栏,Doubao-1.5-vision的图像输入是√,其他两个是×。所以看表格里的行,Doubao-1.5-vision的输入图像是支持的,所以答案是这个模型。现在整理一下,看清楚表格内容:\n\n模型系列里,Doubao-1.5-pro的输入图像是×,lite也是×,vision是√,所以支持输入图片的是Doubao-1.5-vision。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘查看表格的“输入-图像”列可以看到:\n- Doubao-1.5-pro:×,不支持\n- Doubao-1.5-lite:×,不支持\n- Doubao-1.5-vision:√,支持\n\n所以支持输入图片的模型系列是Doubao-1.5-vision。’, annotations=None)], status=‘completed’, id=‘msg_02176828593083100000000000000000000ffffac15433f899bcc’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=494, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=199, output_tokens_details=OutputTokensDetails(reasoning_tokens=124), total_tokens=693, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545127, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

原图像是

视频

import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_video","video_url":"https://ark-project.tos-cn-beijing.volces.com/doc_video/ark_vlm_video_input.mp4","fps":1}],}])print(response)

结果

Response(created_at=1768286241, error=None, id=‘resp_021768286238926d6b0e46812eb6ca5f421e6552139c58ccacbf7’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-6-251015’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828624193000000000000000000000ffffac15b0a93b6234’, summary=[Summary(text=‘\n用户现在需要我把这个视频的内容描述出来,要详细一点。首先看视频里的元素:大本钟(伊丽莎白塔),伦敦的街道,车流,时间应该是傍晚或者清晨,因为天色有点暗但有光线。首先,画面的主体是大本钟,它在左侧,建筑风格很经典。然后右侧是繁忙的街道,有很多车,包括红色的双层巴士,这是伦敦的标志。背景是城市天际线,高楼大厦,天空有云,颜色是暖色调,可能是日落时分。\n\n接下来看时间流逝:视频里时钟的指针在移动,说明时间在变化。车流也在持续移动,红色巴士向前行驶。画面右下角有“AI生成”的字样,所以要提到这是AI生成的视频。\n\n需要把这些元素组合起来,描述每个部分的动态和静态。比如大本钟的细节,街道的繁忙,车辆的流动,时间的变化,整体的氛围。要注意顺序,从整体到局部,或者按空间位置来描述。\n\n现在组织语言:视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。\n\n检查一下,有没有遗漏的细节?比如车流的方向,大本钟的位置,天空的颜色,时间的变化(指针移动),红色巴士的存在。这些都提到了。然后确保描述流畅,符合视频的实际内容。嗯,应该可以了。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。’, annotations=None)], status=‘completed’, id=‘msg_02176828625371100000000000000000000ffffac15b0a96c6d48’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=10385, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=532, output_tokens_details=OutputTokensDetails(reasoning_tokens=408), total_tokens=10917, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545438, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)

后记

2026年1月13日于上海。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155299.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发者首选:2025年最受推荐的3大CAPTCHA解决方案

1. 引言 在当前网络安全和自动化测试的时代背景下,验证码(CAPTCHA)作为区分计算机与人类的关键技术被广泛应用于网站注册、登录验证、信息提交等环节。然而,传统 CAPTCHA 面临着被人工智能破解、体验不佳及成本高昂等问题。针对这…

财务管理专业兼职忙到飞起?提前准备这2项能力,兼顾赚钱与提升

对于财务管理专业的学生或初入职场的新人来说,兼职是积累实践经验、补充收入的重要途径。但不少人会陷入“忙到脚不沾地,却只赚了辛苦钱,能力毫无提升”的困境——要么在繁琐的凭证整理、数据录入中消耗时间,要么因专业能力不足错…

Anthropic推出Claude医疗版AI,可安全接入健康记录

Anthropic成为最新一家宣布为其Claude平台推出新功能套件的人工智能公司,该功能让用户能够更好地理解自己的健康信息。Claude医疗版功能介绍在名为"Claude医疗版"的计划下,该公司表示,美国地区的Claude Pro和Max计划订阅用户可以选…

拥有PMP证书等于拥有“人才绿卡”

作为深耕项目管理领域多年的学长,今天必须给大家扒一扒 PMP 认证的隐藏价值!国内发展 20 多年的 PMP,早就不是小众圈里的 “能力证明”,现在认可度和含金量逐年飙升,更关键的是 —— 手握这本证,能直接解锁…

2026年网络安全相关专业就业,零基础入门到精通,看这一篇分析就够了

对于就业环境来说,都说不好,但我分析下来,其实网络安全专业还是有很多选择或出路的。 有不少部门,可能很多人没有之前都没有听说过,平时也没有关注这块的招聘或者考编信息。 今天,统一整理一下&#xff0…

物理AI成为下一个前沿:已经融入我们的日常生活

ChatGPT在三年前的发布引发了AI热潮。虽然AI模型持续变得更加强大,但要真正在人们的日常生活中发挥最大作用,它们需要能够执行日常任务。这只有通过让它们脱离笔记本电脑屏幕上的聊天机器人,更多地融入我们的环境中才能实现。业界最新的热词应…

高质量电缆输送机,电缆敷设方案提升专家

在现代电缆工程建设中,敷设环节正经历着从机械化替代人力到智能化系统集成的深刻变革。面对长距离隧道、复杂管廊与高标准工期带来的多重挑战,仅拥有单一功能的设备已远远不够。真正的核心竞争力,在于能否提供集高质量硬件、智能控制系统与专…

Guava Cache 原理与实战

一、 什么是 Guava Cache? 简单来说,Guava Cache 是一个全内存的、线程安全的、类似于 Map 的本地缓存。 如果你用过 HashMap 做缓存,你一定遇到过这些痛点: 内存溢出:Map 无限制增长,最终导致 OOM。清理麻…

机器学习工程师证书:智能制造时代入门票

在工业4.0时代的今天,制造业正经历一场智能化和数字化的变革。传统生产线不再是冰冷机械,而是逐渐被智能化的机器系统所取代的“大脑”,拥有“思考”和“学习”能力。但这一切,都离不开技术与制造交汇点的机器学习工程师。一、智能…

安达发|当APS计划排产排程排单软件,遇上最硬核的煤炭排程

引言:黑色宝藏背后的排产困境作为国家能源安全的“压舱石”,煤炭行业在保障能源供应中扮演着关键角色。然而,这个传统行业正面临前所未有的挑战:地质条件复杂多变、开采工艺多样、设备系统庞大、安全环保要求日益严格,…

自变量机器人获10亿融资,开源千寻模型登顶全球,欧姆龙升级工业机器人,OpenAI与丰田合作车载场景

自变量机器人获 10 亿元 A 轮融资 三大互联网巨头共同押注通用具身智能企业自变量机器人宣布完成 10 亿元 A 轮融资,本轮由字节跳动领投,红杉中国、北京信息产业发展基金等多家机构联合投资,这也是深创投 AI 基金成立后的首笔投资。值得关注的…

基于PLC的污水处理系统 程序文件 文档资料(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)

基于PLC的污水处理系统 程序文件 文档资料(设计源文件万字报告讲解)(支持资料、图片参考_相关定制) 基于PLC的污水处理系统 程序文件 文档资料~d82

Godot:独立开发者的开源超能力

“我试过 Unity,玩过 Unreal,最后在 Godot 里找到了做游戏的初心。” 如果你是一位有多年编程经验的开发者,曾想过亲手制作一款属于自己的游戏,却因引擎臃肿、授权复杂、学习曲线陡峭而望而却步——那么,请允许我向你介…

脑机接口行业发展报告:政策加码,临床加速,产业化进入关键阶段

摘要:本文聚焦脑机接口行业发展核心,系统梳理脑机接口技术原理、产品形式(有创 / 无创 / 半侵入式)、应用场景(医疗为主,向工业安全、航空航天等非医疗领域延伸)及产业链格局,深度复…

如何用耐达讯自动化Profibus总线光纤中继器解决变频器长距离通信干扰问题?

一、Profibus总线光纤中继器的协议特性与功能 Profibus总线光纤中继器是工业通信网络中的关键设备,其核心功能在于实现Profibus-DP协议的光电转换与信号增强。该设备通过将传统的RS485电信号转换为光信号,解决了长距离传输中的信号衰减问题&#xff0…

别让“不介入他人因果”成为冷漠的遮羞布

常听人说“不要介入他人因果”,这句话在社交媒体上悄然走红。它常被包装成“觉醒”“通透”“高维智慧”的代名词,频繁现身于各类心灵鸡汤、修行课程与短视频文案中。乍听之下,这句话似乎在传递尊重他人边界、放下控制欲的理念——这本是无可…

行李电子秤pcba方案开发设计

本文详细解读了行李电子秤的工作原理,涉及传感器、测力结构、参数规格(如测量范围、精度等)、并介绍了选择SIC8632单片机的应用。一、行李电子秤产品方案描述行李电子秤主要就是利用里传感器作为测量力的核心芯片,针对行李电子秤的…

域名信息查不到,是被屏蔽了吗?

在查询域名信息时,不少人都会遇到这种情况:输入域名后,结果显示“暂无数据”“无法查询”或信息不完整,于是很容易联想到——这个域名是不是被屏蔽了?是不是有问题?其实,域名信息查不到&#xf…

全网最全8个AI论文写作软件,研究生高效选题与格式规范必备!

全网最全8个AI论文写作软件,研究生高效选题与格式规范必备! AI 工具如何助力论文写作,让研究更高效 在研究生阶段,论文写作是学术生涯中不可避免的一环。面对繁重的选题、资料整理、格式规范以及重复率控制等问题,许多…

域名中介和自己谈,有什么本质区别?

在域名交易中,很多买家都会纠结一个问题:到底是自己直接联系卖家谈,还是通过域名中介或交易平台来操作?看似只是路径不同,但在实际成交效率、价格结果和风险控制上,差别往往非常明显。一、信息获取能力的差…