经典推荐
-  多模态大模型:基础架构 
-  图解DSPy:Prompt的时代终结者?! 
-  vLLM, LMDeploy, MLC-LLM, TensorRT-LLM, and TGI的性能小实验 
-  优雅谈大模型13:一文读懂LoRA/DoRA/MoRA 
-  新鲜速递:图解新颖LLM的CoPE位置编码 
专栏导航
-  综合性的调查报告打开是最合适的。 
-  平时闲暇无事,订阅一份最新动态也是不错。 
-  若理解大模型,想进一步的学习大模型,可以订阅大模型必备腔调。 
-  若已经具备一定的基础,想系统性的学习大模型背后的基础原理,可以订阅LLM背后的基础模型 
-  若已经是半个玩家,则可以订阅最新科技,亦或者订阅论文精读 
-  若是侧重关心部署运维,则订阅AI架构设计专栏是不错的选择。 
-  若对多模态或者具身智能感兴趣,可以订阅具身智能 
主流架构索引
-  Mamba 
-  Mamba-2 
-  xLSTM 
-  KAN 
-  TransFormer 
-  ViT 
酸甜苦辣的模型们
-  Claude3.5:编码螃蟹游戏就是这么轻松 
-  Gemma 2 
-  Phi-3 Mini 
-  “最好的开放模型”,LLAMA3重磅来袭 
-  GPT-4o: 从最难的“大海捞针”基准看起 
-  SleepFM:利用对比学习预训练的多模态“睡眠”基础模型 
-  Codestral横空出世:高级还是资深程序员 
-  TimesFM: 预训练的时间序列基础模型 
-  TSLANet:时间序列模型的新构思 
多模态与具身智能
-  Llama 3-V: 比GPT4-V小100倍的SOTA 
-  Cephalo:专门用于仿生设计的多模态视觉大型语言模型 
-  Chameleon:早期融合混合模态的基础模型 
-  4M-21:霸气侧漏高效的20+多模态AI模型 
-  Octo精武门 :开源的通用机器人模型 
大模型的小配件
-  一文读懂OpenGVLab带来的最新视觉预训练框架 
-  EAGLE系列,大模型的“草稿技术” 
-  稀疏编码,直视大模型的灵魂深处 
-  大模型的灵魂解读:Anthropic AI的Claude3 Sonnet可解释性研究 
-  轻松读懂FlashAttention-1 
-  轻松读懂FlashAttention-2 
-  轻松读懂FlashAttention2 
-  Vidur: 出手只需1小时,瞬间节省20万美元 
-  “开放”的大模型到底有多“开放”?! 
-  沉睡而且“狡猾”的特工:大模型也可以是! 
-  新鲜速递:图解新颖LLM的CoPE位置编码 
-  MIT提出基于Transformer的Cross-Layer Attention:江湖骗子还是奇思妙想 
RAG专区
-  奇思妙想:多头RAG 
大模型语料(数据治理)
-  论文精读:构建金融商业交易语料库 
-  论文精读:基于BERT的医学影像报告语料库构建 
-  论文精读:利用大型语言模型从儿科患者病历中提取社会决定因素:新型语料库与方法 
-  速递FineWeb:一个拥有无限潜力的15T Tokens的开源数据集