发布时间 | LLM | 模型参数量 | 组织名称 | 论文/模型特点 |
2024-05 | Chameleon | Meta | [论文]混合模态基座模型,只支持图像文本,不支持语音。 | |
2024-05 | GPT-4o | OpenAI | [介绍]OpenAI 的首个整合文本、视觉和音频多模态输入与输出的模型。 | |
2024-04 | Arctic | 4800亿 | Snowflake | [介绍]迄今为止最大 MOE 模型,以 128 位专家和 4800亿参数开源,击败 Llama 3、Mixtral。 |
2024-04 | Command R+ | 1040亿 | Cohere | [介绍]首个击败 GPT-4 的开源 LLM。 |
2024-04 | LIama 3 | 4000亿 | Meta | [介绍]开源了 3B 和 70B 两款,400B 将会是首个开源的 GPT-4 级别 LLM。 |
2024-04 | GPT-4 Turbo | OpenAI | [论文]超越 Claude 3 Opus,比 GPT-4 系列性能有所提升。 | |
2024-03 | DBRX | 1320亿 | Databricks | [论文]开源,采用细粒度 MOE 架构,推理速度比 LLaMA 2-70B 快两倍,整体性能超越 GPT-3.5。 |
2024-03 | Grok-1 | 3140亿 | xAI | [介绍]目前参数量最大的开源模型,基于 MOE 架构。 |
2024-03 | Inflection-2.5 | Inflection AI | [介绍]性能媲美 GPT-4,仅用四成训练计算量。最大亮点:结合了高 IQ 和高 EQ。 | |
2024-03 | Claude 3 | Anthropic | [介绍]多模态大模型,包含 Opus/Sonnet/Haiku 三种模型,Opus 在行业基准测试中表现优于 GPT-4 和 Gemini Ultra。 | |
2024-02 | Mistral Large | Mistral AI | [介绍]常识推理、知识问答表现出色,评分超过 Gemini Pro/Claude 2,仅次于 GPT-4。 | |
2024-02 | Genie | 110亿 | Google DeepMind | [论文]基础世界模型,能够合成可操控的虚拟世界。 |
2024-02 | Sora | OpenAI | [论文]文生视频模型。60s 超长长度。模拟世界模型。 | |
2024-02 | Gemma | 70亿 | [介绍]目前最强开源大模型,7B 性能超越 LIama 2 13B。 | |
2024-02 | Gemini 1.5 Pro | Google DeepMind | [论文]支持 100万 token 上下文,基于 Transformer+MoE 架构。 | |
2024-02 | Aya | C4AI | [介绍]开源大模型,覆盖 101 种语言。 | |
2024-01 | Lumiere | [论文]文生视频模型,是一个大规模视频扩散模型,采用全新“Space-Time U-Net”基础架构,时间更长更连贯。时长直接碾压 Gen-2 和 Pika。 | ||
2024-01 | Code Llama 70B | 700亿 | Meta | [论文]目前评分最高的开源大模型。 |
2024-01 | Stable Code 3B | 30亿 | Stability AI | [介绍]多 PL 支持,可与 Code Llama 7B 媲美。 |
2024-01 | Stable LM 2 | 16亿 | Stability AI | [介绍]支持非中文的多语言开源小模型,性能接近 MS 的 Phi-2 模型。 |
2024-01 | AMIE | [论文]医疗大模型,基于 PaLM 2 开发。诊断医学推理、对话。 | ||
2024-01 | Baichuan 3 | 百川智能 | [论文]在中文任务上超越 GPT-4。 | |
2024-01 | Qwen-VL-Max | 96亿 | Alibaba | [论文]信息推理,扩展创作,视觉定位,针对画面区域问答。 |
2024-01 | DeepSeek LLM | 670亿 | DeepSeek | [论文]在代码、数学、推理任务中均超越 LLaMA-2 70B。 |
2023-12 | Phi-2 | 27亿 | MicroSoft | [介绍]用于研究,在常识推理、语言理解、数学、代码任务上性能优异。 |
2023-12 | Imagen 2 | Google DeepMind | [论文]文生图模型。理解复杂抽象概念,惊人的准确性。 | |
2023-12 | Gemini | 18/32.5亿 | Google DeepMind | [论文]包含三个版本 Ultra/Pro/Nano。 |
2023-12 | Qwen-VL-Plus | 96亿 | Alibaba | [论文]细节识别,处理图像中文本的能力显著提升。 |
2023-12 | Claude 2.1 | Anthropic | [介绍]闭源。 | |
2023-11 | Gen-2 | Runway | [介绍]文生视频模型。生成视频最长达 18 秒。 | |
2023-10 | Pika | pika_labs | [论文]文生视频模型。 | |
2023-09 | DALL-E 3 | 35亿 | OpenAI | [论文]多模态预训练模型。 |
2023-09 | GPT-4V | OpenAI | [论文]情绪识别、支持提供图像输入,推理能力突出。 | |
2023-09 | Mistral 7B | 73亿 | Mistral AI | [论文]开源,基于 Apache 2.0 许可发布,性能优于 Llama 2 13B。 |
2023-09 | Qwen-VL | 70亿 | Alibaba | [论文]大规模视觉语言模型。 |
2023-09 | Falcon | 1800亿 | TII | [论文]开源,基于 3.5万亿 token 训练,击败 Llama 2。 |
2023-09 | Baichuan 2 | 130亿 | 百川智能 | [论文]支持多语言,支持 2-192K 超长上下文。领先 Llama2。 |
2023-09 | GPT4All | 130亿 | Nomic AI | [论文]开源,基于 Llama 微调。PC 上运行,不需要显卡。 |
2023-08 | Guanaco | 650亿 | 开源 | [论文]基于 Llama 衍生,对扩展对话的适应性强。 |
2023-07 | Med-PaLM M | [论文]多模态生成模型,可灵活编码和解释生物医学数据。 | ||
2023-07 | Pangu 3.0 | Huawei | [论文]分三层:L0-基础大模型/L1-行业大模型/L2-场景模型。 | |
2023-07 | Llama2 | 700亿 | Meta | [论文]基于 2万亿 token 训练。强大的逻辑表达能力。 |
2023-07 | Claude 2 | 860亿 | Anthropic | [论文]支持 200K 上下文,注重有用性、诚实性和无害性。 |
2023-05 | MPT | 300亿 | MosaicML | [介绍]开源。Transformer 模型。80K Token 上下文,训练成本低。 |
2023-05 | RAPHAEL | 30亿 | 商汤 | [论文]文生图模型。可生成多种艺术风格图像。 |
2023-05 | PaLM 2 | 3400亿 | [论文]基于 Transformer。四个版本:Gecko/Otter/Bison/Unicorn。 | |
2023-05 | Command | 520亿 | Cohere | [介绍]文本生成模型。 |
2023-05 | EmbodiedGPT | HKU | [论文]基于多模态思维链的端到端具身智能大模型。 | |
2023-03 | PanGu-Σ | 1.0万亿 | Huawei | [论文]具有稀疏架构的大语言模型,可能接近 GPT-3.5。 |
2023-03 | BloombergGPT | 500亿 | Bloomberg News | [论文]面向金融领域的第一个大模型。 |
2023-03 | CodeGeeX | 130亿 | 智普 AI | [论文]基于 Transformer,支持代码自动生成、代码解释、代码翻译。 |
2023-03 | Vicuna | 330亿 | LMSYS Org | [介绍]使用 ShareGPT 会话对 Llama 微调,接近 GPT-4 约 90%。 |
2023-03 | GPT-4 | 1.5万亿 | OpenAI | [论文]图像理解分析、高级推理、多语言支持。 |
2023-03 | PaLM-E | 5620亿 | [论文]多模态具身视觉语言模型:理解图像、生成语言,引导机器人执行任务。 | |
2023-03 | GPT-3.5 | 20亿 | OpenAI | [论文]更强自适应和泛化能力。支持语言生成、机器翻译、问答。 |
2022-04 | Jurassic-2 | 1780亿 | AI21 Labs | [介绍]多语言支持,包含是三个版本:Large/Grande/Jumbo。 |
2023-03 | Claude v1 | Anthropic | [介绍]支持 100K 上下文,概括、总结和翻译更长文本。 | |
2023-02 | Gen-1 | Runway | [介绍]文生视频模型。 | |
2023-02 | Llama | 650亿 | Meta | [论文]基于开源数据训练,基于 Transformer 训练,超越 GPT-3。 |
2022-12 | Alpaca | 70亿 | Stanford | [论文]基于 Llama-7B 衍生的模型,训练成本奇低。 |
2022-12 | OPT-IML | 1750亿 | Meta | [论文]问答、文本摘要、翻译。 |
2022-11 | BLOOM | 1760亿 | BigScience | [论文]开源,基于 59 种语言、数百个来源数据集训练。 |
2022-11 | Galactica | 1200亿 | Meta | [论文]面向科学领域的开源大模型。 |
2022-08 | AlexaTM 20B | 200亿 | Amazon | [论文]基于 Transformer 的多语言 seq2seq 大模型。 |
2022-06 | Parti | 200亿 | [论文]基于自回归模型、图像标记器结合的文生图大模型。 | |
2022-05 | Imagen | Google DeepMind | [论文]文生图模型。 | |
2022-04 | DALL-E 2 | 35亿 | OpenAI | [论文]文生图模型。生成高质量图像。 |
2022-04 | PaLM | 5400亿 | [论文]多语言理解、翻译、自动生成代码、修复代码 Bug。 | |
2022-04 | Jurassic-1 | 1780亿 | AI21 Labs | [论文]模型大小与 GPT-3 类似。最复杂的 |
2022-03 | GPT-NeoX-20B | 200亿 | EleutherAI | [论文]代码生成大模型。 |
2022-03 | GLM | 1300亿 | 智谱 AI | [论文]开源,支持高精度千亿中英双语语言模型。 |
2022-03 | CodeGen | 110亿 | Saleforce | [论文]代码生成大模型。 |
2022-03 | Chinchilla | 700亿 | Google Deepmind | [论文]减少的模型尺寸,降低推理成本,优于 Gopher。 |
2022-03 | AlphaCode | Google Deepmind | [论文]代码生成大模型。 | |
2022-01 | LaMDA | 1370亿 | [论文]基于 Transformer,通过对话训练,出色上下文理解能力。 | |
2022-01 | MT-NLG | 5300亿 | NVIDIA | [论文]自然语言生成模型,更快的学习能力。 |
2021-12 | Gopher | 2800亿 | Google Deepmind | [论文]在知识密集领域,如事实检测和常识上表现有所提高。 |
2021-12 | Ernie 3.0 Titan | 2600亿 | Baidu | [论文]文心大模型,最强大的中文预训练模型。 |
2021-12 | GLaM | 1.2万亿 | [论文]多模态大模型,通用稀疏语言模型,基于 MoE 架构。 | |
2021-11 | M6 | 10万亿 | Alibaba | [论文]支持多模态、多任务,尤其擅长设计、写作、问答。 |
2021-07 | Codex | 120亿 | OpenAI | [论文]代码生成大模型。 |
2021-04 | PanGu-α | 2000亿 | Huawei | [论文]针对行业友好、专业的大模型,可提供端到端 AI 解决方案。 |
2021-02 | DALL-E | 120亿 | OpenAI | [论文]文生图模型。多模态预训练模型。 |
2020-10 | mT5 | 130亿 | [论文]文本生成模型,支持分类、相似度计算、文本生成。 | |
2020-05 | GPT-3 | 1750亿 | OpenAI | [论文]支持语言生成、文本分类、问答,图像生成功能更成熟。 |
本文基于署名-非商业性使用-相同方式共享 4.0许可协议发布,欢迎转载、使用、重新发布,但务必保留文章署名时延军(包含链接:http://shiyanjun.cn),不得用于商业目的,基于本文修改后的作品务必以相同的许可发布。如有任何疑问,请与我联系。