人人都能看懂的DPO数学原理
一、DPO在做一件什么事在文章的开始,我们来思考一个问题:如果想让你训练一个能听得懂人类问题,并给出人类满意答案的模型,你会怎么设计大致的训练步骤?一口吃成一个大胖子是困难的,所以不如让我们循序渐进地来设计这个训练过程:首先,你的模型必须要有充足的知识储备,以应对你可能提出的任何问题其次,你的模型需
DayNightStudy
0
首个大推理模型(LRM) - OpenAI o1规划任务能力评测
规划一系列行动以实现期望状态的能力,长期以来被认为是智能体的核心能力,并且自AI研究诞生以来一直是其不可分割的一部分。随着大型语言模型(LLMs)的出现,人们对于它们是否拥有此类规划能力产生了相当大的兴趣。PlanBench是我们在2022年开发的一款可扩展基准测试工具,自GPT3发布后不久首次亮相
DayNightStudy
0
LLMs训练避坑帖——如何高效 LLMs pretrain?
LLM训练-pretrain作者:ybq原文地址:https://zhuanlan.zhihu.com/p/718354385这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多,不同的地方可能在于,我并不会去分析 pretrain 阶段的核心技术,而是用比较朴素的语言来描述
DayNightStudy
0
论文阅读 | Scaling Laws for Transfer
论文阅读 | Scaling Laws for Transfer作者:张义策文章地址:https://zhuanlan.zhihu.com/p/710594520An Empirical Study of Scaling Laws for Transfer论文地址:https://arxiv.org
DayNightStudy
0
AIGC面试宝典
《AIGC面试宝典》欢迎你的加入《AIGC面试宝典》星球主要是作者的一些学习成果和资料分享。今年十月 AIGC面经 (准备发稿)八-九月 AiGC 实践教程 —AiGC摩天大楼(争取把所有AiGC任务都刷一遍)七月 大模型推理加速教程六月 Agent实战教程— Agent千机变六月 大模型训练系列五
DayNightStudy
0
我终于知道百万发售的秘密
发售跟销售不同,不是一上来就卖。发售是一步步接近用户,获取用户的信任,集中批量成交的卖货技术。我们常见的苹果手机发布会、院线电影宣发、双11直播间带货等,其实都算发售。发售流程一共分五步,下面逐个拆解~在信息大爆炸的时代,用户注意力非常稀缺。为吸引用户注意力,你需要提前预告你想要分享的主题,同时暗示
小狐学产品
0
一文带你了解RAG(检索增强生成) | 概念理论介绍+ 代码实操
大模型 RAG 实战教程 之 RAG潘多拉宝盒https://github.com/km1994/AwesomeRAG一、LLMs 已经具备了较强能力了,为什么还需要 RAG(检索增强生成)?尽管 LLM 已展现出显著的能力,但以下几个挑战依然值得关注:幻觉问题:LLM 采用基于统计的概率方法逐词生
DayNightStudy
0
最新开源:智源BGE登顶Hugging Face月度榜!北大&快手开源Pyramid Flow!Rhymes AI开源Aria!
NO.1国产AI模型登顶全球TOP 1!智源BGE下载破亿成Hugging Face月榜冠军近日,Hugging Face更新了月度榜单,智源研究院的 BGE 模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE 在短短一年时间内,总下载量
DayNightStudy
0
论文浅尝 | 基于多模态知识图的多模态推理(ACL2024)
笔记整理:李冰慧,天津大学硕士,研究方向为大语言模型论文链接:https://aclanthology.org/2024.acl-long.579/发表会议:ACL20241. 动机使用大型语言模型(LLMs)的多模态推理经常会出现幻觉,并且在LLMs中存在缺乏或过时的知识。一些方法试图通过使用文本
DayNightStudy
0