Llama 3是Meta公司最新开源推出的新一代大型语言模型(LLM),包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为Llama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。
Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。
Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有80亿个参数。专为需要快速推理和较少计算资源的应用场景设计,同时保持了较高的性能标准。Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。后续,Llama 3 还会推出 400B 参数规模的模型,目前还在训练中。Meta 还表示等完成 Llama 3 的训练,还将发布一份详细的研究论文。
根据Meta的官方博客,经指令微调后的 Llama 3 8B 模型在MMLU、GPQA、HumanEval、GSM-8K、MATH等数据集基准测试中都优于同等级参数规模的模型(Gemma 7B、Mistral 7B),而微调后的 Llama 3 70B 在 MLLU、HumanEval、GSM-8K 等基准测试中也都优于同等规模的 Gemini Pro 1.5 和 Claude 3 Sonnet 模型。
此外,Meta还开发了一套新的高质量人类评估集,包含 1800 个提示,涵盖 12 个关键用例:寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、提取、塑造角色/角色、开放式问答、推理、重写和总结。通过与Claude Sonnet、Mistral Medium和GPT-3.5等竞争模型的比较,人类评估者基于该评估集进行了偏好排名,结果显示Llama 3在真实世界场景中的性能非常出色,最低都有52.9%的胜出率。
Meta已在GitHub、Hugging Face、Replicate上开源其Llama 3模型,开发人员可使用torchtune等工具对Llama 3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。
官方模型下载:https://llama.meta.com/llama-downloadsGitHub地址:https://github.com/meta-llama/llama3/Hugging Face地址:https://huggingface.co/meta-llamaReplicate地址:https://replicate.com/meta不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:
访问Meta最新推出的Meta AI聊天助手进行体验(注:Meta.AI会锁区,只有部分国家可使用)访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3RMBG-2 0是BRIA AI推出的最新开源图像背景移除模型,基于先进的AI技术实现高精度的前景与背景分离,达到SOTA(State of the Art,即当前最佳)水平。RMBG-2 0在性能上超越前代版本,从1 4版本的73 26%准确率大幅提升至2 0版本的90 14%,超越业界知名的付费工具remove bg。
AI教程资讯
2025-02-08
JanusFlow是DeepSeek推出的 Janus 系列,用在多模态理解和生成任务的模型,整合自回归语言模型与校正流技术,在单一模型中实现图像理解和生成。框架基于解耦的视觉编码器和表示对齐策略,提升模型在不同任务上的性能,在多个标准基准测试中显示出与专业模型相当或更优的结果,在视觉理解上,超过了LLaVA-v1 5、Qwen-VL-Chat,在图像生成上,超过Stable Diffusion v1 5、SDXL。
AI教程资讯
2025-02-08
OmniVision是紧凑的多模态模型,拥有968M参数,专为边缘设备优化。OmniVision能处理视觉和文本输入,基于LLaVA架构改进,显著减少图像token数量,降低延迟和计算成本。基于可信数据进行DPO训练,OmniVision提供更可靠的结果,适于视觉问答和图像描述等任务。
AI教程资讯
2025-02-08
SWE-Kit 是Composio 推出的开源框架, 简化软件工程 AI 代理的开发过程。SWE-Kit提供无头 IDE 环境和 AI 原生工具,用于构建自定义编码代理,支持与多种代理框架和大型语言模型集成,降低构建复杂 AI 代理的门槛。SWE-Kit 集成文件操作、代码分析、shell 命令执行等功能,提高开发效率、提供高度的可定制性,是现代 AI 辅助软件开发的领先工具。
AI教程资讯
2025-02-07