About 81,600,000 results
Open links in new tab
  1. 如何看Meta最新开源的Llama3.3-70B-Instruct,它和之前的Llama有什 …

    Llama 3.3-70B-Instruct在多语言支持方面表现出色,尽管目前不支持中文,但它支持多达8种语言的文本输入和输出,这为全球开发者提供了广泛的应用可能性。 随着社区的不断壮大和技术的持续迭 …

  2. 如何评价 Meta 刚刚发布的 LLama 4 系列大模型? - 知乎

    Apr 5, 2025 · llama真是吊死在DPO上了..... 新架构infra,长上下文,Reasoning RL,工程性coding可能还是大家今年的主攻方向。 移步转眼,时间快来到了2025年中旬,Openai,Anthropic,Deepseek …

  3. Deepseek为什么蒸馏llama和Qwen模型,而不用671B满血模型去蒸馏自 …

    Feb 17, 2025 · 而DeepSeek就是用自己的这个DeepSeek-R1的671B的大模型当作教师模型来训更小的llama和Qwen等“学生”模型。 对“蒸馏”想深入了解的话,可以看这篇综述:

  4. 如何评价Llama 4? - 知乎

    Apr 5, 2025 · 如何评价Llama 4? https://www.llama.com/ 显示全部 关注者 13 被浏览

  5. 如何看待 Meta 发布 Llama3,并将推出 400B+ 版本? - 知乎

    -LLAMA-3分为大中小三个版本,小模型参数规模8B,效果比Mistral 7B/Gemma 7B略好基本持平;中等模型参数规模70B,目前效果介于ChatGPT 3.5到GPT 4之间;大模型400B,仍在训练过程中,设计 …

  6. LM-studio模型加载失败? - 知乎

    如题: 选择deepseek-8b-llama-gguf gpu选择32层加载模型时报错: Error loading model. (Exit co… 显示全部

  7. 做大模型RL后训练,用huggingface/trl还是用llama-factory?

    14B模型,我用llama-factory做过reward model的lora训练和PPO的lora训练,具体训练脚本可以看我的两篇文章。 PPO训练实践——基于llamafactory训练框架 和 RewardModel 训练实践——基 …

  8. 为什么都在用ollama而lm studio却更少人使用? - 知乎

    3. 还有一点,ollama是llama.cpp实现模型推理,模型小,速度快。 4. 还有,ollama提供11434端口的web服务,重要的是还兼容openai的端点接口,可以和各种前端配合,比如ollama自己open webui, …

  9. Ollama和llama.cpp什么关系,或者说有关系吗? - 知乎

    Ollama和llama.cpp什么关系,或者说有关系吗? 看上去像是Ollama是对llama.cpp的封装和添加了很多内容,Ollama底层是llama.cpp吗? 显示全部 关注者 75 被浏览

  10. 怎么看待Llama3.1依旧不支持中文的现状? - 知乎

    Jul 25, 2024 · Llama系列模型 的预训练中文语料占比相对来说低了很多,说是不支持,实际上我对Llama 3.1测试下来中文的对话和推理能力还可以。