当前,从图片生成可用 3D 模型仍然费时费力,传统流程耗时且高度依赖专业建模师手动操作。即便有 AI 辅助,处理复杂形状、透明材质或开放表面时,模型常效果不佳或出现异常结构,且难以生成可直接用于游戏、电商的带逼真材质的成品。
在此背景下,Microsoft 团队于 2025 年 12 月 开源发布 TRELLIS.2,面向单张图像生成高质量 3D 资产与纹理化任务。项目提供从输入图像到 3D 形状与材质的端到端流程,并配套可交互的 Web Demo,便于快速体验与导出资产。TRELLIS.2 聚焦提升几何细节与纹理一致性,支持多种分辨率与级联推理配置,并通过可控推理参数在速度与质量之间进行权衡,适用于 3D 内容生产、快速原型与创意探索等场景。
目前,HyperAI超神经官网已上线了「TRELLIS.2 3D 生成 Demo」,快来试试吧~
在线使用:https://go.hyper.ai/drI7I
1 月 19 日-1 月 23 日,hyper.ai 官网更新速览:
* 优质教程精选:9 个
* 热门百科词条:5 条
* 1 月截稿顶会:3 个
访问官网:hyper.ai
公共教程精选
1.vLLM+Open WebUI 部署 Nemotron-3 Nano
Nemotron-3-Nano-30B-A3B-BF16 是 NVIDIA 从零开始训练的大型语言模型 (LLM),适用于推理和非推理任务。该模型还可用于开发人员设计 AI 代理系统、聊天机器人、RAG 系统和其他 AI 应用。
在线运行:https://go.hyper.ai/VUuDA
Demo 页面
2.MedGemma 1.5 多模态 AI 医疗模型
MedGemma 1.5 是一款在医学多模态任务中表现卓越的模型。它在图像分类、视觉问答及医学知识推理等方面具备突出能力,适用于多种临床场景,并能够有效辅助医学研究与实践。该模型基于 SigLIP 图像编码器与高性能语言模块构建,并通过包含医学影像、文本及实验室报告在内的多样化数据集进行预训练,从而实现对高维医学影像、全切片病理图像、纵向影像分析、解剖定位、医疗文档理解及电子健康记录解析等任务的高效处理。
在线运行:https://go.hyper.ai/dZRn9
Demo 页面
3.Nemotron-Speech-Streaming-ASR:自动语音识别 Demo
Nemotron Speech Streaming ASR 是由英伟达(NVIDIA)Nemotron Speech 团队发布的流式自动语音识别模型,该模型专为低延迟实时语音转写场景设计,同时具备高吞吐的批量推理能力,适用于语音助手、实时字幕、会议转录及对话式人工智能等应用。模型采用缓存感知型 FastConformer 编码器与 RNN-T 解码器架构,实现了对连续音频流的高效处理,在保持识别精度的同时显著降低了端到端延迟。
在线运行:https://go.hyper.ai/SDEBI
Demo 页面
4.TranslateGemma-4B-IT:谷歌开源的系列翻译模型
TranslateGemma 是由谷歌翻译团队发布的轻量级开源翻译模型系列。该系列基于 Gemma 3 模型家族构建,专为多语言文本翻译与实际部署场景设计。该系列在紧凑的参数规模下提供稳定可用的翻译能力,适用于 GPU 内存有限或需快速部署的环境中进行加载与推理。
在线运行:https://go.hyper.ai/FRy35
Demo 页面
5.GLM-Image 精准语义高保真图像生成模型
GLM-Image 是由智谱 AI 开源的一款融合自回归解码与扩散式解码的图像生成模型。该模型支持文生图和图生图功能,基于统一的视觉-语言表示构建,使得同一模型既能理解文本提示与输入图像,又能通过 DiT(Diffusion Transformer)风格的扩散主干网络对图像进行精细化生成。
在线运行:https://go.hyper.ai/2bcfV
效果展示
6.TRELLIS.2 3D 生成 Demo
TRELLIS.2 是由微软团队发布的开源项目,一个拥有 40 亿参数的大型模型,专注于从单张图片直接生成带完整材质、可直接使用的 3D 资产。该模型统一了高质量几何与材质生成,将高保真几何重建与全维度 PBR 材质合成在一个流程内完成。
在线运行:https://go.hyper.ai/drI7I
Demo 页面
7.vLLM+Open WebUI 部署 FunctionGemma-270m-it
FunctionGemma-270m-it 是由 Google DeepMind 发布的轻量级专用函数调用模型,参数量为 2.7 亿。该模型基于 Gemma 3 270M 架构构建,并采用与 Gemini 系列相同的研究技术进行训练。此模型专为函数调用场景设计,使用了截至 2024 年 8 月共计 6T token 的训练数据,涵盖公共工具定义及工具使用交互数据。FunctionGemma 支持最大 32K token 的上下文长度,并经过了严格的内容安全过滤及负责任的人工智能开发流程。
在线运行:https://go.hyper.ai/pdN7q
Demo 页面
8.Fun-ASR-Nano:端到端的语音识别大模型
Fun-ASR-Nano 是阿里巴巴通义实验室推出的端到端大模型语音识别方案,属于 Fun-ASR 系列的一部分。该方案面向低算力部署场景,致力于实现低延迟的语音转写,并注重在实际评估集上的表现。其功能包括多语种自由语音识别(自由语码转换)、可定制热词以及幻觉抑制等。
在线运行:https://go.hyper.ai/j7OdD
Demo 页面
9.Fara-7B:高效的网页智能体模型
Fara-7B 是由 Microsoft Research 发布的首个面向计算机使用(Computer Use)的智能体小语言模型(Agentic SLM)。模型参数规模仅 70 亿(7B),但在真实网页操作任务中表现突出,在多项 Web Agent 基准测试中达到了同规模模型中的 state-of-the-art(SOTA)水平,并在部分任务上接近甚至超过更大规模模型。
在线运行:https://go.hyper.ai/2e5rp
Demo 页面
热门百科词条精选
1. 每秒帧数 FPS
2. 倒数排序融合 RRF
3. 视觉语言模型 VLM
4. 超网络 HyperNetworks
5. 门控注意力 Gated Attention
这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:
https://go.hyper.ai/wiki
一站式追踪人工智能学术顶会:https://go.hyper.ai/event
以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!
下周再见!