8 月份 Github 上最火的10篇 AI 论文!

d288606dd4aa3fa11bf64d6bfc685891.png

文 | 天于刀刀

不晓得各位同学在看论文的时候最关注的是什么?也许是论文的创新点,或是被引用的数量,还是...是不是自带代码!

重要的事说三遍!复现,复现,还是复现!(ーー゛)

为了方便各位同学愉快地在学习的海洋中遨游,Reddit 上的一位老哥整理了2022年8月 Github 上最热门的 AI 项目 [1],感谢 bycloudai 的贡献。

以下所有项目排名均基于 Github Stars,它们分别是:

fa2357c187a6013c58f8c521cc8d3ed1.jpeg
  1. 文字生成图片,但是个性化

  2. 预训练语言图像模型在视频识别中的应用

  3. 扩散生成模型的原理是?

  4. int8 加速大语言模型推理,性能无损!

  5. 低资源下使用分散式数据蒸馏进行联邦学习

  6. PeRFception:感知任务大规模隐式数据集

  7. 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本

  8. SawSing:一种歌声合成声码器模型

  9. 机器人的公园漫步

  10. LCCDE:自动驾驶系统中的网络安全守护者

01 文字生成图片,但是个性化

作者基于潜在扩散模型(Latent Diffusion Models, LDM),允许用户使用自然语言指导 AI 生成包含特定独特概念的图像。

例如我想将心爱的宠物猫咪变成一幅独特的画作——抽象派猫猫,只需要提供3-5张照片,然后通过控制自然语言输入,来得到一个我家猫咪的抽象画作。

简单介绍下过程:首先,模型会通过学习这些图片,使用一些单词去表示图片。其次,这些单词可以组合成自然语言句子,通过 prompt 形式指导模型进行个性化创作。

好处在于,图像的自然语言表示对用户非常友好。用户可以自由修改 prompt 内容以获取他们想要的风格、主题和独一无二的结果。

项目地址:
https://github.com/rinongal/textual_inversion
论文地址:
https://arxiv.org/abs/2208.01618

02 预训练语言图像模型在视频识别中的应用

微软大佬的项目。在这项工作中,作者通过将预训练的语言图像模型(pretrained language-image models)调整为视频识别,以此将对比语言图像预训练方法(contrastive language-image pretraining)扩展到视频领域。

作者为了捕捉视频中帧沿时间维度的远程依赖性,提出了一个跨帧的注意力机制,明确了跨帧的信息交换。此外该模块非常轻量化,可以无缝插入预训练的语言图像模型。

项目地址:
https://github.com/microsoft/videox
论文地址:
https://arxiv.org/abs/2208.02816

03 扩散生成模型的原理是?

标准的扩散模型(diffusion models)涉及到图像变换(添加高斯噪声)和图像反转。但是作者观察到,扩散模型的生成并不强烈依赖于图像降解的选择。

在这个项目中,作者通过实验证明了基于完全确定性的降解(例如模糊、masking 等),也可以轻松训练一个扩散生成模型。

这个工作成功地质疑了社区对扩散模型的理解:它并非依赖于梯度郎之万动力学(gradient Langevin dynamics)或变分推理(variational inference)。

项目地址:
https://github.com/arpitbansal297/cold-diffusion-models
论文地址:
https://arxiv.org/abs/2208.09392

04 int8 加速大语言模型推理,性能无损!

标题说明一切。

该项目主要聚焦于大语言模型(LLM)的量化过程,开发了一个用于前馈和注意力投射层的 int8 矩阵乘法程序,减少了一半的内存,并且保持了完全的精度性能。

这使得大模型更加亲民,例如现在我们可以在消费级显卡上使用 OPT-175B/BLOOM 模型。(显卡禁令福音)

项目地址:
https://github.com/TimDettmers/bitsandbytes
论文地址:
https://arxiv.org/abs/2208.07339

05 低资源下使用分散式数据蒸馏进行联邦学习

数据集蒸馏(dataset distillation)是通过合成小型数据集,以便其训练的模型可以在原始大数据集上实现高性能的任务。

一个好的小数据集不仅对理解数据有作用,而且可以辅助持续学习(continual learning)、隐私、神经网络搜索等。

这个项目梳理了非常详细的数据集蒸馏技术的发展脉络,以及在隐私、联邦学习、持续学习、模型压缩、知识蒸馏等等领域的应用论文。感兴趣的同学可以从此入手。

项目地址:
https://github.com/Guang000/Awesome-Dataset-Distillation
论文地址:
https://arxiv.org/abs/2208.11311

06 PeRFception:感知任务大规模隐式数据集

最近神经辐射场(Neural Radiance Fields, NeRF)在隐式 3D 表示中实现了一种准确又逼真且可微的方式。这种新的表示可以以一种紧凑的格式,有效传达数百张高分辨率图像的信息。

作者建立了第一个用于感知任务的大规模隐式表示数据集(PeRFception),并且提出一种新的增强技术,以避免过拟合图像背景。

项目地址:
https://github.com/POSTECH-CVLab/PeRFception
论文地址:
https://arxiv.org/abs/2208.11537

07 用图像来训练视频分割模型,MinVIS 减少了标注和内存成本

前几年,字节跳动的大佬在视频识别的领域中开辟了新的任务:视频实例分割(Video Instance Segmentation, VIS),就是把视频帧的每一个实例分割出来。

有别于传统的基于视频的训练架构,MinVIS 将视频中的帧视为独立图像,然后通过对应查询的二分匹配来跟踪实例。

因此 MinVIS 在实验中取得了降低标注成本和内存要求的实际优势,同时没有牺牲 VIS 的性能。

项目地址:
https://github.com/nvlabs/minvis
论文地址:
https://arxiv.org/abs/2208.02245

小贴士[2]:在视频领域中还有一个视频目标分割任务(Video Object Segmentation, VOS)。它和 VIS 任务的主要区别在于,VOS是会在第一帧中给出需要 track&segment 的 object 的 mask 的,但是这些 object 是 class-agnostic 的,任务目标是在接下来的视频中 track&segment 出第一帧中的标注 objects。VIS任务是有一个已知的 class set,你需要在 video 中把属于这些 class 的 instance 都给detect 出来并在整个视频中 track&segment 出来。

08 SawSing:一种歌声合成声码器模型

声码器是一种条件音频生成模型,他将梅尔频谱(mel-spectrogram)等声学特征转换为波形。

受到可微数字信号处理(differentiable digital signal processing)的启发,SawSing 可以生成连续的歌声,而不会像许多现有编码器那样出现不连续的故障。

此外,实验证明 SawSing 支持在少量数据上训练,并且可以在资源受限的情况下更快地收敛。

项目地址:
https://github.com/yatingmusic/ddsp-singing-vocoders
论文地址:
https://arxiv.org/abs/2208.04756

09 机器人的公园漫步

并非是在实验室的模拟环境,而是在真实的室内外地形中,作者采用强化学习和机器人控制器相结合的方法,在短短20分钟内成功让机器人学会四足行走。

(听上去有点像教狗狗学走路?)

项目地址:
https://github.com/ikostrikov/walk_in_the_park
论文地址:
https://arxiv.org/abs/2208.07860

10 LCCDE:自动驾驶系统中的网络安全守护者

自动驾驶和物联网是最近非常火热的领域,然而随着车辆互联网(Internet of Vehicles, IoV)的日益增长,对于网络安全的保护也越来越重要。

作者提出了一个识别恶意网络攻击的入侵检测系统,基于 XGBoost、LightGBM 和 CatBoost 来构建的。

项目地址:
https://github.com/Western-OC2-Lab/Intrusion-Detection-System-Using-Machine-Learning
论文地址:
https://arxiv.org/abs/2208.03399

16843b63b7a865a0d0678b3668d9093d.png

卖萌屋作者:天于刀刀

注重 WLB 的工业界反卷斗士,未进化的 NLP 咸鱼一条。专注于研究在各个场景中算法模型的落地情况,希望自己编写的算法有朝一日可以改变世界。目前的兴趣点在于:假新闻检测、深度学习模型可解释性等。

作品推荐

1.腾讯薪酬改革来了!晋升≠加薪?员工到底为何工作?

2.从 Google AI 离职了,这里让我爱不起来

3.百万悬赏!寻找“模型越大,效果越差”的奇葩任务!

4.想通这点,治好 AI 打工人的精神内耗

52c68fa86245f83db6720b24c7dc309c.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

8ca576c92d8a282eb3b67293db807402.png

[1] Most Popular AI Research Aug 2022 pt.2 - Ranked Baed On Github Stars, https://www.reddit.com/r/learnmachinelearning/comments/x48r9g/most_popular_ai_research_aug_2022_pt_2_ranked/

[2] Video Instance Segmentation 阅读,https://zhuanlan.zhihu.com/p/78096960

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LintCode 1859. 最小振幅(排序)

1. 题目 给定一个由 N 个整数组成的数组 A,一次移动,我们可以选择此数组中的任何元素并将其替换为任何值。 数组的振幅是数组A中的最大值和最小值之间的差。 返回通过执行最多三次替换之后数组A的最小振幅 示例 1 输入: A [-9, 8, -1] 输出: 0 解释&a…

小程序 webview 分享_新的一周,分享15个好玩的小程序

文/阿C 一周进步签约作者自小程序推出以来,由于其相对比APP而言,具有方便、轻巧、即用即走、不占内存的特性,受到广大追求效率(内存不足)星人的喜爱。不过随着小程序的发展,市面上的小程序开始有些滥竽充数、页面难看同时又极为无…

我的Blog不值钱

My blog is worth $0.00. How much is your blog worth? 呵呵,大家可以看看自己得Blogs值多少钱。转载于:https://www.cnblogs.com/Duiker/archive/2005/11/02/267011.html

中科大博士:我眼中的NLP最快学习路径

有人这样分类目前的人工智能:感知智能、运动智能、认知智能。在这三类智能里面,最复杂的也是人类所特有的认知智能,离不开自然语言处理技术的支持。虽然说自然语言的研究历史虽然还不是很长,但近些年在NLP知名核心企业&#xff08…

软件开发 thoughtworks 技术面_【软件开发】10月29日比赛详细预告

第三回软件开发专业比赛内容 软件需求分析与设计:需求识别、需求挖掘、评估、管理方法论以及业务、流程、场景的分析与建模等知识软件设计与开发;软件设计与开发:编程语言基础基础、数据库技术基础知识、程序开发技术、软件开发流程和工具使…

程序员面试金典 - 面试题 04.10. 检查子树(双重递归)

1. 题目 检查子树。你有两棵非常大的二叉树:T1,有几万个节点;T2,有几万个节点。 设计一个算法,判断 T2 是否为 T1 的子树。 如果 T1 有这么一个节点 n,其子树与 T2 一模一样,则 T2 为 T1 的子…

终于……我的游戏………简体版就要发布了!

喜讯!喜讯!!由软星科技(上海)有限公司研发、北京寰宇之星软件有限公司代理的《阿猫阿狗2》在广大玩家的引颈期盼中,即将在本月上市了! 美丽的田园生活温馨而宁静,淳朴的民风民情是每…

改了!教育部核准这所985高校更改简称!网友:华科大终于来了

源 | 募格学术到底叫“华中大”还是“华科大”?这个曾经无数次成为舆论焦点的难题终于有解了!8月31日,教育部网站发布《教育部关于同意华中科技大学章程部分条款修改的批复》、《教育部关于同意吉林大学章程部分条款修改的批复》、《教育部关…

deepfashion 深度学习_基于Alluxio加速混合云下的Intel Analytics Zoo开源深度学习平台...

本文描述了Alluxio如何在混合云环境中,加速oneAPI支撑的英特尔Analytics Zoo开源平台深度学习模型训练。本文会讨论有关新架构和工作流的细节,以及Alluxio的性能优势和基准测试结果。1.混合环境中的深度学习从架构演进到混合模式传统上,数据处…

程序员面试金典 - 面试题 04.06. 后继者(循环中序遍历)

1. 题目 设计一个算法,找出二叉搜索树中指定节点的“下一个”节点(也即中序后继)。 如果指定节点没有对应的“下一个”节点,则返回null。 示例 1: 输入: root [2,1,3], p 12/ \ 1 3输出: 2示例 2: 输入: root [5,3,6,2,4,…

使用ASP.net 2.0 的一些新特性

by:(fallseir.lee) 飞扬轻狂 使用masterpage 新建一个site 添加一个新的masterpage&#xff0c;the_one.master 打开 the_one.master 添加 默认title&#xff0c;meta 添加 全局控件 sitemap 添加 ContentPlaceHolder <?xml:namespace prefix o /><% Master Languag…

北大数学系毕业,放弃MIT offer,嫌月薪3万太多主动降薪…

文 | Alex(发自凹非寺)源 | 量子位出家十二载的北大数学天才柳智宇&#xff0c;如今下山还俗了。18岁时&#xff0c;他获得国际数学奥林匹克竞赛满分金牌&#xff0c;顺理成章地被保送到中国“第一学府第一系”&#xff1a;北京大学数学系。22岁&#xff0c;在获得MIT全额奖学金…

LeetCode 第 22 场双周赛(220/2041,前10.8%)

文章目录1. 比赛结果2. 题目LeetCode 5348. 两个数组间的距离值 easyLeetCode 5349. 安排电影院座位 mediumLeetCode 5350. 将整数按权重排序 mediumLeetCode 5351. 3n 块披萨 hard1. 比赛结果 做出来了前3题&#xff0c;第4题有点难&#xff0c;感觉是动态规划。 全国排名&a…

使用设备mac好还是随机mac好_省4000我给MBP16搭配了一块2T SSD:希捷 酷鱼飞翼 Fast SSD使用测评...

最近入手了MBP16&#xff0c;配置选择上纠结了一下。整体苹果的电脑后期基本没有什么升级的可能&#xff0c;所以选择了32G和1T的硬盘的配置。本身也想过硬盘是不是升级2T或者更高&#xff0c;但是想想每挑一格就是3000&#xff0c;腰包实在撑不起。我还是配合NAS和SSD级别的移…

修改终端服务器的最大连接数

1&#xff0e;明确终端服务的2种模式 ----Windows 2000终端服务有2种运行模式: 远程管理模式和应用程序服务器模式。远程管理模式允许系统管理员远程管理服务器&#xff0c;而且只允许2个终端会话同时登录终端服务器。应用程序服务器模式允许用户运行一个以上应用程序&#xff…

胡渊鸣:加一行import,让Python代码提速100倍!

文 | 丰色 发自 凹非寺源 | 量子位众所周知&#xff0c;Python的简单和易读性是靠牺牲性能为代价的——尤其是在计算密集的情况下&#xff0c;比如多重for循环。不过现在&#xff0c;大佬胡渊鸣说了&#xff1a;只需import 一个叫做“Taichi”的库&#xff0c;就可以把代码速度…

python3语音识别模块_『开源项目』基于STM32的智能垃圾桶之语音识别

大家好&#xff0c;我是『芯知识学堂』的SingleYork&#xff0c;前面给大家简单介绍了『开源项目』基于STM32的智能垃圾桶之成员简介&#xff0c;相信有很多小伙伴都已经忍不住跃跃欲试了&#xff0c;别着急&#xff0c;从这一篇开始&#xff0c;笔者将会带领大家一步一步来完成…

LeetCode 945. 使数组唯一的最小增量(贪心)

1. 题目 给定整数数组 A&#xff0c;每次 move 操作将会选择任意 A[i]&#xff0c;并将其递增 1。 返回使 A 中的每个值都是唯一的最少操作次数。 示例 1: 输入&#xff1a;[1,2,2] 输出&#xff1a;1 解释&#xff1a;经过一次 move 操作&#xff0c;数组将变为 [1, 2, 3]。…

突然发现被点名(理想恋人游戏)

被debbie点名了.从debbie那里也看到了一个理想好男人应该具有的特点,努力!不过一下子想不出来八个条件,想想再写.(注: 理想恋人游戏规则:被点到名的人&#xff0c;回答八个你理想恋人的条件。必须点名八个人一起与你玩游戏。如果被点名者&#xff0c;已完成这游戏&#xff0c;…

手机电脑的芯片主要是由_全体起立!苹果自研电脑芯片登场,iOS迎大更新…WWDC20精彩远不止这些...

科技观潮techsina与浪同行打造一个自己能全局掌控的硬件一个自己完全掌控的系统找人来开发App创造生态繁荣。让它有用、好用&#xff0c;让更多人用——这一系列动作&#xff0c;我们曾在iPhone的历史上都亲眼见证过。出品 / 新浪科技 ID&#xff1a;techsina作者 / 晓光视频 /…