大模型(LLMs)盘点跟踪

发布时间 LLM 模型参数量 组织名称 论文/模型特点
2024-03 DBRX 1320亿 Databricks [论文]开源,采用细粒度 MOE 架构,推理速度比 LLaMA 2-70B 快两倍,整体性能超越 GPT-3.5。
2024-03 Grok-1 3140亿 xAI [介绍]目前参数量最大的开源模型,基于 MOE 架构。
2024-03 Inflection-2.5 Inflection AI [介绍]性能媲美 GPT-4,仅用四成训练计算量。最大亮点:结合了高 IQ 和高 EQ。
2024-03 Claude 3 Anthropic [介绍]多模态大模型,包含 Opus/Sonnet/Haiku 三种模型,Opus 在行业基准测试中表现优于 GPT-4 和 Gemini Ultra。
2024-02 Mistral Large Mistral AI [介绍]常识推理、知识问答表现出色,评分超过 Gemini Pro/Claude 2,仅次于 GPT-4。
2024-02 Genie 110亿 Google DeepMind [论文]基础世界模型,能够合成可操控的虚拟世界。
2024-02 Sora OpenAI [论文]文生视频模型。60s 超长长度。模拟世界模型。
2024-02 Gemma 70亿 Google [介绍]目前最强开源大模型,7B 性能超越 LIama 2 13B。
2024-02 Gemini 1.5 Pro Google DeepMind [论文]支持 100万 token 上下文,基于 Transformer+MoE 架构。
2024-02 Aya C4AI [介绍]开源大模型,覆盖 101 种语言。
2024-01 Lumiere Google [论文]文生视频模型,是一个大规模视频扩散模型,采用全新“Space-Time U-Net”基础架构,时间更长更连贯。时长直接碾压 Gen-2 和 Pika。
2024-01 Code Llama 70B 700亿 Meta [论文]目前评分最高的开源大模型。
2024-01 Stable Code 3B 30亿 Stability AI [介绍]多 PL 支持,可与 Code Llama 7B 媲美。
2024-01 Stable LM 2 16亿 Stability AI [介绍]支持非中文的多语言开源小模型,性能接近 MS 的 Phi-2 模型。
2024-01 AMIE Google [论文]医疗大模型,基于 PaLM 2 开发。诊断医学推理、对话。
2024-01 Baichuan 3 百川智能 [论文]在中文任务上超越 GPT-4。
2024-01 Qwen-VL-Max 96亿 Alibaba [论文]信息推理,扩展创作,视觉定位,针对画面区域问答。
2024-01 DeepSeek LLM 670亿 DeepSeek [论文]在代码、数学、推理任务中均超越 LLaMA-2 70B。
2023-12 Phi-2 27亿 MicroSoft [介绍]用于研究,在常识推理、语言理解、数学、代码任务上性能优异。
2023-12 Imagen 2 Google DeepMind [论文]文生图模型。理解复杂抽象概念,惊人的准确性。
2023-12 Gemini 18/32.5亿 Google DeepMind [论文]包含三个版本 Ultra/Pro/Nano。
2023-12 Qwen-VL-Plus 96亿 Alibaba [论文]细节识别,处理图像中文本的能力显著提升。
2023-12 Claude 2.1 Anthropic [介绍]闭源。
2023-11 Gen-2 Runway [介绍]文生视频模型。生成视频最长达 18 秒。
2023-10 Pika pika_labs [论文]文生视频模型。
2023-09 DALL-E 3 35亿 OpenAI [论文]多模态预训练模型。
2023-09 GPT-4V OpenAI [论文]情绪识别、支持提供图像输入,推理能力突出。
2023-09 Mistral 7B 73亿 Mistral AI [论文]开源,基于 Apache 2.0 许可发布,性能优于 Llama 2 13B。
2023-09 Qwen-VL 70亿 Alibaba [论文]大规模视觉语言模型。
2023-09 Falcon 1800亿 TII [论文]开源,基于 3.5万亿 token 训练,击败 Llama 2。
2023-09 Baichuan 2 130亿 百川智能 [论文]支持多语言,支持 2-192K 超长上下文。领先 Llama2。
2023-09 GPT4All 130亿 Nomic AI [论文]开源,基于 Llama 微调。PC 上运行,不需要显卡。
2023-08 Guanaco 650亿 开源 [论文]基于 Llama 衍生,对扩展对话的适应性强。
2023-07 Med-PaLM M Google [论文]多模态生成模型,可灵活编码和解释生物医学数据。
2023-07 Pangu 3.0 Huawei [论文]分三层:L0-基础大模型/L1-行业大模型/L2-场景模型。
2023-07 Llama2 700亿 Meta [论文]基于 2万亿 token 训练。强大的逻辑表达能力。
2023-07 Claude 2 860亿 Anthropic [论文]支持 200K 上下文,注重有用性、诚实性和无害性。
2023-05 MPT 300亿 MosaicML [介绍]开源。Transformer 模型。80K Token 上下文,训练成本低。
2023-05 RAPHAEL 30亿 商汤 [论文]文生图模型。可生成多种艺术风格图像。
2023-05 PaLM 2 3400亿 Google [论文]基于 Transformer。四个版本:Gecko/Otter/Bison/Unicorn。
2023-05 Command 520亿 Cohere [介绍]文本生成模型。
2023-05 EmbodiedGPT HKU [论文]基于多模态思维链的端到端具身智能大模型。
2023-03 PanGu-Σ 1.0万亿 Huawei [论文]具有稀疏架构的大语言模型,可能接近 GPT-3.5。
2023-03 BloombergGPT 500亿 Bloomberg News [论文]面向金融领域的第一个大模型。
2023-03 CodeGeeX 130亿 智普 AI [论文]基于 Transformer,支持代码自动生成、代码解释、代码翻译。
2023-03 Vicuna 330亿 LMSYS Org [介绍]使用 ShareGPT 会话对 Llama 微调,接近 GPT-4 约 90%。
2023-03 GPT-4 1.5万亿 OpenAI [论文]图像理解分析、高级推理、多语言支持。
2023-03 PaLM-E 5620亿 Google [论文]多模态具身视觉语言模型:理解图像、生成语言,引导机器人执行任务。
2023-03 GPT-3.5 20亿 OpenAI [论文]更强自适应和泛化能力。支持语言生成、机器翻译、问答。
2022-04 Jurassic-2 1780亿 AI21 Labs [介绍]多语言支持,包含是三个版本:Large/Grande/Jumbo。
2023-03 Claude v1 Anthropic [介绍]支持 100K 上下文,概括、总结和翻译更长文本。
2023-02 Gen-1 Runway [介绍]文生视频模型。
2023-02 Llama 650亿 Meta [论文]基于开源数据训练,基于 Transformer 训练,超越 GPT-3。
2022-12 Alpaca 70亿 Stanford [论文]基于 Llama-7B 衍生的模型,训练成本奇低。
2022-12 OPT-IML 1750亿 Meta [论文]问答、文本摘要、翻译。
2022-11 BLOOM 1760亿 BigScience [论文]开源,基于 59 种语言、数百个来源数据集训练。
2022-11 Galactica 1200亿 Meta [论文]面向科学领域的开源大模型。
2022-08 AlexaTM 20B 200亿 Amazon [论文]基于 Transformer 的多语言 seq2seq 大模型。
2022-06 Parti 200亿 Google [论文]基于自回归模型、图像标记器结合的文生图大模型。
2022-05 Imagen Google DeepMind [论文]文生图模型。
2022-04 DALL-E 2 35亿 OpenAI [论文]文生图模型。生成高质量图像。
2022-04 PaLM 5400亿 Google [论文]多语言理解、翻译、自动生成代码、修复代码 Bug。
2022-04 Jurassic-1 1780亿 AI21 Labs [论文]模型大小与 GPT-3 类似。最复杂的
2022-03 GPT-NeoX-20B 200亿 EleutherAI [论文]代码生成大模型。
2022-03 GLM 1300亿 智谱 AI [论文]开源,支持高精度千亿中英双语语言模型。
2022-03 CodeGen 110亿 Saleforce [论文]代码生成大模型。
2022-03 Chinchilla 700亿 Google Deepmind [论文]减少的模型尺寸,降低推理成本,优于 Gopher。
2022-03 AlphaCode Google Deepmind [论文]代码生成大模型。
2022-01 LaMDA 1370亿 Google [论文]基于 Transformer,通过对话训练,出色上下文理解能力。
2022-01 MT-NLG 5300亿 NVIDIA [论文]自然语言生成模型,更快的学习能力。
2021-12 Gopher 2800亿 Google Deepmind [论文]在知识密集领域,如事实检测和常识上表现有所提高。
2021-12 Ernie 3.0 Titan 2600亿 Baidu [论文]文心大模型,最强大的中文预训练模型。
2021-12 GLaM 1.2万亿 Google [论文]多模态大模型,通用稀疏语言模型,基于 MoE 架构。
2021-11 M6 10万亿 Alibaba [论文]支持多模态、多任务,尤其擅长设计、写作、问答。
2021-07 Codex 120亿 OpenAI [论文]代码生成大模型。
2021-04 PanGu-α 2000亿 Huawei [论文]针对行业友好、专业的大模型,可提供端到端 AI 解决方案。
2021-02 DALL-E 120亿 OpenAI [论文]文生图模型。多模态预训练模型。
2020-10 mT5 130亿 Google [论文]文本生成模型,支持分类、相似度计算、文本生成。
2020-05 GPT-3 1750亿 OpenAI [论文]支持语言生成、文本分类、问答,图像生成功能更成熟。
Creative Commons License

本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布,欢迎转载、使用、重新发布,但务必保留文章署名时延军(包含链接:http://shiyanjun.cn),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。如有任何疑问,请与我联系

发表评论

电子邮件地址不会被公开。 必填项已用*标注

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>