简单之美 | 大模型（LLMs）盘点跟踪

发布时间	LLM	模型参数量	组织名称	论文/模型特点
2025-02	Grok-3		xAI	[介绍]具有更高的推理、计算和适应能力，使用约 20 万个 GPU 训练。
2025-01	DeepSeek-R1		DeepSeek	[论文]无需大量 SFT 就能实现与 OpenAI o1 相当的推理能力。
2025-01	Kimi K1.5		Kimi Team	[论文]多模态思考模型，性能比肩 OpenAI o1。
2024-12	DeepSeek-V3		DeepSeek	[论文]V3 表现接近 GPT-4o 和 Claude-3.5-Sonnet，更注重综合场景适用性。
2024-12	o3		OpenAI	[介绍]o3 在编程和数学能力方面达到 AGI 门槛。
2024-12	Gemini 2.0 Pro/Flash/Flash-Lite		Google DeepMind	[介绍]Gemini 2.0 全家桶，推理能和多模态功能增强。
2024-12	Phi-4	14B	MicroSoft	[介绍]phi-4 是微软小模型 phi 系列最后一个模型，增强了复杂推理能力。
2024-09	o1		OpenAI	[介绍]首个具有“推理”能力的模型。
2024-08	Grok-2		xAI	[介绍]Grok-2 系列模型具有聊天、编码和推理等功能，包括 Grok-2 和 Grok-2 mini 两个版本。
2024-05	Chameleon		Meta	[论文]混合模态基座模型，只支持图像文本，不支持语音。
2024-05	GPT-4o		OpenAI	[介绍]OpenAI 的首个整合文本、视觉和音频多模态输入与输出的模型。
2024-04	Arctic	4800亿	Snowflake	[介绍]迄今为止最大 MOE 模型，以 128 位专家和 4800亿参数开源，击败 Llama 3、Mixtral。
2024-04	Phi-3	3.8B/7B/14B	MicroSoft	[介绍]在手机端表现出色，性能接近 GPT-3.5 水平。
2024-04	Command R+	1040亿	Cohere	[介绍]首个击败 GPT-4 的开源 LLM。
2024-04	Llama 3	4000亿	Meta	[介绍]开源了 3B 和 70B 两款，400B 将会是首个开源的 GPT-4 级别 LLM。
2024-04	GPT-4 Turbo		OpenAI	[论文]超越 Claude 3 Opus，比 GPT-4 系列性能有所提升。
2024-03	DBRX	1320亿	Databricks	[论文]开源，采用细粒度 MOE 架构，推理速度比 LLaMA 2-70B 快两倍，整体性能超越 GPT-3.5。
2024-03	Grok-1	3140亿	xAI	[介绍]目前参数量最大的开源模型，基于 MOE 架构。
2024-03	Inflection-2.5		Inflection AI	[介绍]性能媲美 GPT-4，仅用四成训练计算量。最大亮点：结合了高 IQ 和高 EQ。
2024-03	Claude 3		Anthropic	[介绍]多模态大模型，包含 Opus/Sonnet/Haiku 三种模型，Opus 在行业基准测试中表现优于 GPT-4 和 Gemini Ultra。
2024-02	Mistral Large		Mistral AI	[介绍]常识推理、知识问答表现出色，评分超过 Gemini Pro/Claude 2，仅次于 GPT-4。
2024-02	Genie	110亿	Google DeepMind	[论文]基础世界模型，能够合成可操控的虚拟世界。
2024-02	Sora		OpenAI	[论文]文生视频模型。60s 超长长度。模拟世界模型。
2024-02	Gemma	70亿	Google	[介绍]目前最强开源大模型，7B 性能超越 Llama 2 13B。
2024-02	Gemini 1.5 Pro		Google DeepMind	[论文]支持 100万 token 上下文，基于 Transformer+MoE 架构。
2024-02	Aya		C4AI	[介绍]开源大模型，覆盖 101 种语言。
2024-01	Lumiere		Google	[论文]文生视频模型，是一个大规模视频扩散模型，采用全新“Space-Time U-Net”基础架构，时间更长更连贯。时长直接碾压 Gen-2 和 Pika。
2024-01	Code Llama 70B	700亿	Meta	[论文]目前评分最高的开源大模型。
2024-01	Stable Code 3B	30亿	Stability AI	[介绍]多 PL 支持，可与 Code Llama 7B 媲美。
2024-01	Stable LM 2	16亿	Stability AI	[介绍]支持非中文的多语言开源小模型，性能接近 MS 的 Phi-2 模型。
2024-01	AMIE		Google	[论文]医疗大模型，基于 PaLM 2 开发。诊断医学推理、对话。
2024-01	Baichuan 3		百川智能	[论文]在中文任务上超越 GPT-4。
2024-01	Qwen-VL-Max	96亿	Alibaba	[论文]信息推理，扩展创作，视觉定位，针对画面区域问答。
2024-01	DeepSeek LLM	670亿	DeepSeek	[论文]在代码、数学、推理任务中均超越 LLaMA-2 70B。
2023-12	Phi-2	27亿	MicroSoft	[介绍]用于研究，在常识推理、语言理解、数学、代码任务上性能优异。
2023-12	Imagen 2		Google DeepMind	[论文]文生图模型。理解复杂抽象概念，惊人的准确性。
2023-12	Gemini	18/32.5亿	Google DeepMind	[论文]包含三个版本 Ultra/Pro/Nano。
2023-12	Qwen-VL-Plus	96亿	Alibaba	[论文]细节识别，处理图像中文本的能力显著提升。
2023-12	Claude 2.1		Anthropic	[介绍]闭源。
2023-11	Gen-2		Runway	[介绍]文生视频模型。生成视频最长达 18 秒。
2023-10	Pika		pika_labs	[论文]文生视频模型。
2023-09	DALL-E 3	35亿	OpenAI	[论文]多模态预训练模型。
2023-09	GPT-4V		OpenAI	[论文]情绪识别、支持提供图像输入，推理能力突出。
2023-09	Mistral 7B	73亿	Mistral AI	[论文]开源，基于 Apache 2.0 许可发布，性能优于 Llama 2 13B。
2023-09	Qwen-VL	70亿	Alibaba	[论文]大规模视觉语言模型。
2023-09	Falcon	1800亿	TII	[论文]开源，基于 3.5万亿 token 训练，击败 Llama 2。
2023-09	Baichuan 2	130亿	百川智能	[论文]支持多语言，支持 2-192K 超长上下文。领先 Llama2。
2023-09	GPT4All	130亿	Nomic AI	[论文]开源，基于 Llama 微调。PC 上运行，不需要显卡。
2023-08	Guanaco	650亿	开源	[论文]基于 Llama 衍生，对扩展对话的适应性强。
2023-07	Med-PaLM M		Google	[论文]多模态生成模型，可灵活编码和解释生物医学数据。
2023-07	Pangu 3.0		Huawei	[论文]分三层：L0-基础大模型/L1-行业大模型/L2-场景模型。
2023-07	Llama2	700亿	Meta	[论文]基于 2万亿 token 训练。强大的逻辑表达能力。
2023-07	Claude 2	860亿	Anthropic	[论文]支持 200K 上下文，注重有用性、诚实性和无害性。
2023-05	MPT	300亿	MosaicML	[介绍]开源。Transformer 模型。80K Token 上下文，训练成本低。
2023-05	RAPHAEL	30亿	商汤	[论文]文生图模型。可生成多种艺术风格图像。
2023-05	PaLM 2	3400亿	Google	[论文]基于 Transformer。四个版本：Gecko/Otter/Bison/Unicorn。
2023-05	Command	520亿	Cohere	[介绍]文本生成模型。
2023-05	EmbodiedGPT		HKU	[论文]基于多模态思维链的端到端具身智能大模型。
2023-03	PanGu-Σ	1.0万亿	Huawei	[论文]具有稀疏架构的大语言模型，可能接近 GPT-3.5。
2023-03	BloombergGPT	500亿	Bloomberg News	[论文]面向金融领域的第一个大模型。
2023-03	CodeGeeX	130亿	智普 AI	[论文]基于 Transformer，支持代码自动生成、代码解释、代码翻译。
2023-03	Vicuna	330亿	LMSYS Org	[介绍]使用 ShareGPT 会话对 Llama 微调，接近 GPT-4 约 90%。
2023-03	GPT-4	1.5万亿	OpenAI	[论文]图像理解分析、高级推理、多语言支持。
2023-03	PaLM-E	5620亿	Google	[论文]多模态具身视觉语言模型：理解图像、生成语言，引导机器人执行任务。
2023-03	GPT-3.5	20亿	OpenAI	[论文]更强自适应和泛化能力。支持语言生成、机器翻译、问答。
2022-04	Jurassic-2	1780亿	AI21 Labs	[介绍]多语言支持，包含是三个版本：Large/Grande/Jumbo。
2023-03	Claude v1		Anthropic	[介绍]支持 100K 上下文，概括、总结和翻译更长文本。
2023-02	Gen-1		Runway	[介绍]文生视频模型。
2023-02	Llama	650亿	Meta	[论文]基于开源数据训练，基于 Transformer 训练，超越 GPT-3。
2022-12	Alpaca	70亿	Stanford	[论文]基于 Llama-7B 衍生的模型，训练成本奇低。
2022-12	OPT-IML	1750亿	Meta	[论文]问答、文本摘要、翻译。
2022-11	BLOOM	1760亿	BigScience	[论文]开源，基于 59 种语言、数百个来源数据集训练。
2022-11	Galactica	1200亿	Meta	[论文]面向科学领域的开源大模型。
2022-08	AlexaTM 20B	200亿	Amazon	[论文]基于 Transformer 的多语言 seq2seq 大模型。
2022-06	Parti	200亿	Google	[论文]基于自回归模型、图像标记器结合的文生图大模型。
2022-05	Imagen		Google DeepMind	[论文]文生图模型。
2022-04	DALL-E 2	35亿	OpenAI	[论文]文生图模型。生成高质量图像。
2022-04	PaLM	5400亿	Google	[论文]多语言理解、翻译、自动生成代码、修复代码 Bug。
2022-04	Jurassic-1	1780亿	AI21 Labs	[论文]模型大小与 GPT-3 类似。最复杂的
2022-03	GPT-NeoX-20B	200亿	EleutherAI	[论文]代码生成大模型。
2022-03	GLM	1300亿	智谱 AI	[论文]开源，支持高精度千亿中英双语语言模型。
2022-03	CodeGen	110亿	Saleforce	[论文]代码生成大模型。
2022-03	Chinchilla	700亿	Google Deepmind	[论文]减少的模型尺寸，降低推理成本，优于 Gopher。
2022-03	AlphaCode		Google Deepmind	[论文]代码生成大模型。
2022-01	LaMDA	1370亿	Google	[论文]基于 Transformer，通过对话训练，出色上下文理解能力。
2022-01	MT-NLG	5300亿	NVIDIA	[论文]自然语言生成模型，更快的学习能力。
2021-12	Gopher	2800亿	Google Deepmind	[论文]在知识密集领域，如事实检测和常识上表现有所提高。
2021-12	Ernie 3.0 Titan	2600亿	Baidu	[论文]文心大模型，最强大的中文预训练模型。
2021-12	GLaM	1.2万亿	Google	[论文]多模态大模型，通用稀疏语言模型，基于 MoE 架构。
2021-11	M6	10万亿	Alibaba	[论文]支持多模态、多任务，尤其擅长设计、写作、问答。
2021-07	Codex	120亿	OpenAI	[论文]代码生成大模型。
2021-04	PanGu-α	2000亿	Huawei	[论文]针对行业友好、专业的大模型，可提供端到端 AI 解决方案。
2021-02	DALL-E	120亿	OpenAI	[论文]文生图模型。多模态预训练模型。
2020-10	mT5	130亿	Google	[论文]文本生成模型，支持分类、相似度计算、文本生成。
2020-05	GPT-3	1750亿	OpenAI	[论文]支持语言生成、文本分类、问答，图像生成功能更成熟。

本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布，欢迎转载、使用、重新发布，但务必保留文章署名时延军（包含链接：http://shiyanjun.cn），不得用于商业目的，基于本文修改后的作品务必以相同的许可发布。如有任何疑问，请与我联系。

发表评论取消回复

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

发表评论 取消回复

发表评论取消回复