简单之美

发布时间 LLM 模型参数量组织名称论文/模型特点 2025-02 Grok-3 xAI [介绍]具有更高的推理、计算和适应能力，使用约 20 万个 GPU 训练。 2025-01 DeepSeek-R1 DeepSeek [论文]无需大量 SFT 就能实现与 OpenAI o1 相当的推理能力。 2025-01 Kimi K1.5 Kimi Team [论文]多模态思考模型，性能比肩 OpenAI o1。 2024-12 DeepSeek-V3 DeepSeek [论文]V3 表现接近 GPT-4o 和 Claude-3.5-Sonnet，更注重综合场景适用性。 2024-12 o3 OpenAI [介绍]o3 在编程和数学能力方面达到 AGI 门槛。 2024-12 Gemini 2.0 Pro/Flash/Flash-Lite Google DeepMind [介绍]Gemini 2.0 全家桶，推理能和多模态功能增强。 2024-12 Phi-4 14B MicroSoft [介绍]phi-4 是微软小模型 phi 系列最后一个模型，增强了复杂推理能力。 2024-09 o1 OpenAI [介绍]首个具有“推理”能力的模型。 2024-08 Grok-2 xAI [介绍]Grok-2 系列模型具有聊天、编码和推理等功能，包括 Grok-2 和 Grok-2 mini 两个版本。 2024-05 Chameleon Meta [论文]混合模态基座模型，只支持图

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按标签浏览文章: LMM

大模型（LLMs）盘点跟踪