开启辅助访问
账号
记 住
找回密码
密码
注册
只需一步,快速开始
扫一扫,访问移动社区
快捷导航
首页
首页
论坛
BBS
新闻
阅读
口语
新概念
BBC
VOA
家园
Space
工具
排行
Ranklist
问答
Q群
下载
考场
网校
新概念英语第一册
新概念英语第二册
新概念英语第三册
新概念英语第四册
新概念英语第一册练习
搜索
搜索
本版
帖子
用户
英语家园
»
›
门户
›
心情驿站
›
DeepSeek的文采如何炼成?
DeepSeek的文采如何炼成?
发布者:
Ienfamily
|
发布时间: 2025-2-18 22:39
|
查看数: 48
|
评论数: 0
|
作者:多加
来源:DeepTech深科技(ID:deeptechchina)
DeepSeek打响了小算力办大事的第一枪。
DeepSeek空降热搜后,将离谱且正经的推算逻辑展示出来,造出不少娱乐爆梗。同时,不少资深玩家也看到DeepSeek的可塑性,甚至对标GPT。连马斯克都下场,给予正面评价。
很多人都很好奇,DeepSeek的华丽文风究竟是如何做到的?数据质量是 DeepSeek 成功的关键因素。包含链式思考的数据能引导模型在推理时深入反思,让生成的回答逻辑清晰、语言优美,使其在面对不同领域和任务时,都能轻松切换风格,无论是严谨的技术解答,还是充满诗意的创意写作,都能应对自如。
那么,DeepSeek的文风有多「华丽」?其背后的具体数据和模型有哪些考究?以下,Enjoy:
“他们说我是魔、是妖、是异数。可谁见过,莲花在淤泥里,如何长出自己的形状。”“我割开血肉,剔出龙筋,还给东海一个太平。却还不清,这具身体的债。”“乾坤圈在手腕上,长成另一道年轮。风火轮碾过陈塘关的黄昏,碾碎每一块试图定义我的石碑。”这是笔者让 DeepSeek 根据当前热门电影《哪吒之魔童闹海》为哪吒写的一首诗的节选。
(来源:DeepSeek)
旅游博主“福瑞环宇”用 DeepSeek 写了一首关于使徒保罗的诗,写完之后这位博主感慨道:“写出来一看简直要去地上找下巴。它竟然能把特洛伊和特罗亚区分得那么清楚,也艺术性地写出了特罗亚的位置、保罗在特罗亚发生的两件重要的事,还给人呈现了一个全然摆上的保罗,最后一句‘一粒麦子埋入欧洲的春秋’更是惊艳又深沉到无以复加。”
01
通过后训练阶段两个步骤
协同实现华丽风格
事实上,DeepSeek 不仅会写诗,其走心的回答风格已经让不少用户直呼“戳中心窝”。毫无疑问,DeepSeek 华丽抒情走心的文风展现了 AI 温暖的一面。那么,是什么技术促成了这样的风格?
上海交通大学副教授赵波表示,通过一些试用可以发现,DeepSeek 主要包含八种角色设定:电影角色、新闻主持、历史人物、动漫游戏、文学角色、职业角色、搞笑角色和科幻角色。每种角色大类又分别包含其类型中的经典人物。DeepSeek 可以按照用户要求,模仿特定角色的语言或行文风格与用户交互。这一能力来源自然是训练数据,这需要 DeepSeek 的开发者针对丰富的角色/风格/场景,收集对应的多轮对话和指令跟随数据来训练模型。而这些数据的来源可能是原始资料数据、人工标注数据、模型合成数据等。
美国耶鲁大学助理教授杨卓然从微观角度给出了一些解读。他表示根据 DeepSeek‑V3 技术报告,DeepSeek 的华丽文风主要是通过后训练阶段的两个步骤协同实现的。
第一个步骤是监督微调
(SFT,Supervised Fine-Tuning)。在监督微调阶段,模型接触到了大量高质量的语言表达示例,尤其是针对创意写作等非推理任务的数据。杨卓然表示,具体来说对于创意写作任务,初始回答由 DeepSeek‑V2.5 生成,随后经过人工审核来确保内容的准确性和风格的一致性。正是在这部分数据中,模型学习到了大量语言表达优美、用词讲究的示例,这为它后续生成华丽文风奠定了基础。
第二个步骤是强化学习
(RL,Reinforcement Learning)。在强化学习阶段,模型利用奖励机制进一步优化生成结果。对于诸如创意写作这样的开放式任务,奖励模型会对生成的回答进行评分,不仅要求答案准确,还鼓励模型在措辞、句式和逻辑上表现得更加精致、富有文采。奖励模型基于监督微调阶段得到的 DeepSeek‑V3 checkpoints 进行训练,并通过高温采样和多步优化,使模型在生成时逐步融合精美的修辞和细腻的表达方式。
北京邮电大学副教授白婷则综合 DeepSeek 的多款模型,从宏观角度给出了一些解读。她表示,DeepSeek 曾在技术报告里提到一些关键技术:比如 DeepSeek-V2 使用了 Multi-Head Latent Attention 和 Sparse MoE 架构,其中 Multi-Head Latent Attention 是为了提高模型效率,MoE 架构则能通过利用多专家能力来提高模型能力。DeepSeek-V3 把多专家架构加入辅助函数进行负载均衡的优化,同时也加入了强化学习进行增强。DeepSeek-R1 版本则是解决模型推理能力,它直接使用强化学习去指导思维链的生成,并通过知识蒸馏赋予小模型以更大的能力。
白婷指出,DeepSeek 所采用的技术并非独创,此前学界和业界已经开始使用这些技术,甚至一些团队的某些单项技术上做得比 DeepSeek 还要更好。“为什么 DeepSeek 能取得如此的成功和关注度?我想其中包含了许多大模型研究者都可望不可及的两点:大量算力资源和大量高质量的训练数据以及适宜的训练策略。”她表示。算力无需多言,有实力的大公司在这方面基本不相上下。而华丽的文风或者说是 DeepSeek 的回复较其他模型更“像人”,则是因为受到了上述关键技术手段的影响,
但更为关键核心要素则是高质量训练数据、训练策略和大量迭代优化的结果。
02
数据即模型:
数据质量带动模型性能
2024 年 3 月,DeepSeek 公司的研究员陈德里曾在一场业界大会上发表过题为《和而不同:大语言模型价值观对齐解耦化》的演讲,演讲中他提到:“在实际模型生产过程中,我们会进行模型的迭代式开发;即每轮的训练结束之后,都会有一个独立的测试团队,对模型在上述各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。”由此可见,DeepSeek在模型数据方面一定有独到之处。
杨卓然指出,数据质量对模型训练至关重要,不仅影响模型获取和表达知识的能力,还决定了模型生成内容的风格和准确性。
其一,高质量数据可以提升模型表达和推理能力。
优质数据包含准确、连贯且富有表现力的语言样本。例如,包含链式思考(COT,Chain of Thought)数据可以引导模型在推理时进行反思,进而在生成回答时展现出清晰的逻辑和优美的语言表达。这正是模型能够生成既准确又具有华丽文风的关键因素之一。
其二,高质量数据可以降低噪音和确保一致性。
数据中的错误、噪音或不一致信息会导致模型生成内容出现
语法
或逻辑问题。高质量的数据则能有效减少这些问题,使模型更好地学习到语言规律,从而提高整体生成质量。
其三,高质量数据可以提升泛化能力。
数据的多样性和全面性使得模型在面对不同领域和任务时都能生成高质量的回答。丰富且准确的样本帮助模型在多种场景下自如切换风格,无论是精炼的技术解答还是文采斐然的创意写作,都能游刃有余。
其四,只需少量高质量数据就能显著提高模型能力。
最近一些论文比如《s1: Simple test-time scaling》和《LIMO: Less is More for Reasoning》也强调,数据质量极为关键。即便只有少量高质量的数据,也能显著提升模型的能力,因为高质量数据中蕴含的信息更为准确和代表性,为模型提供了高效的学习信号。“这种‘精炼’数据不仅帮助模型在推理和生成上达到更高水准,还能更快收敛以及降低训练成本。”杨卓然表示。
白婷也认同上述观点。她表示:“以我们开发的百家智能体大模型(baijia.online)为例,我们在阿里 Qwen-7B 上的微调后的结果反超 DeepSeek-2.5-238B。”当通过收集大量低资源、分散的历史语料,以此来构造训练数据和训练策略,此时模型基座的能力强弱就不再是取得决胜性因素的关键。也就是说,高质量训练数据的使用能够大大增强大模型在某一目标任务上的能力。事实上,DeepSeek 也有角色扮演的能力,比如它能很好地扮演李白。但是,对于低资源的人物,其效果就比较一般,所以数据质量和训练策略是其背后的两大原因。“比如我们开发的百家智能体大模型就采用了 RLAIF 的方式将高资源角色丰富的朝代、背景等信息迁移协同低资源人物的构造。”她说。
DeepSeek 的回复比其他模型更具某种风格,比如更加活泼、更加严谨等,这其实反映在工程师对于对话数据的构造和提示方式上。而对于模型生成内容质量的影响,一种是将所有数据都通过预训练方式内化到模型内部,一种是通过检索的方式将更加精准的知识召回。前者的泛化性很强,但是容易出现幻觉,毕竟庞大的知识会导致混乱,不能专而精深。而后者则是一种人机协同的方式,检索的内容可以是人类构建的带有一定可信度的网页内容、史料等,使得大模型回复更加可信。
赵波也表示,数据质量对模型训练起到决定性作用。可以说数据即模型,有多高质量的数据就可以得到多强大的模型。
随着训练数据的不断收集,大模型研究团队对数据的关注逐渐从数据规模转移到数据质量。大量实例证明:小规模高质量数据能够训练得到比大规模低质量数据更好的模型,并且训练成本更低。赵波举例称,2023 年微软的 Phi-2 模型使用“教科书质量”的训练数据实现了小模型高性能。此外,合成数据也已成为大模型训练数据的重要来源,通过合成可以低成本地获得大量高质量数据。目前,主流大模型的训练都使用了大量的合成数据。赵波和团队也于 2023 年 7 月推出过针对多模态大模型训练的百万级高质量合成数据集 SVIT 等。
03
尾声
白婷补充称,无论是 AGI 还是 Agent, 其本质上都是模拟并超越人类这一目前最高等的智能体。从 DeepSeek 的设计上来看,不管是早期 DeepSeek-V2 版本中多专家 MoE 的群体决策,还是 DeepSeek-R1 版本中思维链的推理能力,知识蒸馏的学习能力的加强,都能很契合地对应到人类做出决策时的反应和采取的行为。但是,只有这些能力是远远不够的,更高效强大的记忆系统、共情能力、反思进化能力、个性化能力,都是后期大模型发展、超越、服务人类时需要具备的能力。在此,也期待 DeepSeek 带来更惊艳的表现。
今日最新热帖
【双语新闻】
法国要收回自由女神像?美国:不还
【双语新闻】
关于“加班”,国家表态了……
【双语新闻】
特朗普宣布:拜登赦免令无效,因为用的自动笔
【双语新闻】
百度副总裁为女儿“开盒”道歉:深感愧疚
【BBC英语】
【BBC六分钟英语】你了解女足世界杯吗?
【家长课堂】
戒掉唠叨的30天:我发现当妈的最高境界竟是……
【心情驿站】
人与人交往的黄金定律(深度好文)
【双语新闻】
“馕言文”火了,网友:哎捧友,你的头里知识塔里木河一样流呢
【双语新闻】
卫生巾品牌“集体塌房”
【双语新闻】
普京对俄乌停火协议态度不明
【心情驿站】
两性关系4个层级:只有被深爱过的女人,才体验过第四层
【VOA英语】
VOA慢速英语|The Goodyear Blimp Has Been Flying Over America
【口语听力】
口语交际 | Let's clean our house.
【双语新闻】
美国公司要改编《哪吒》?目前正在创作剧本
【四级六级】
大学英语四六级听力每日一练 250318
今日全站热帖
【资料下载】
Grammar in use (剑桥语法三本合集)附有音频下载
【资料下载】
《超实用核心英语词汇:基础英语词汇2000》电子书[PDF]下载
【资料下载】
《场景式500主题会话10000单词完全掌握》[PDF]下载
【心情驿站】
lù安还是liù安?不同读法的地名,你还知道哪些?
【双语新闻】
法国要收回自由女神像?美国:不还
【双语新闻】
关于“加班”,国家表态了……
【双语新闻】
特朗普宣布:拜登赦免令无效,因为用的自动笔
【双语新闻】
百度副总裁为女儿“开盒”道歉:深感愧疚
【BBC英语】
【BBC六分钟英语】你了解女足世界杯吗?
【家长课堂】
戒掉唠叨的30天:我发现当妈的最高境界竟是……
【心情驿站】
人与人交往的黄金定律(深度好文)
【双语新闻】
“馕言文”火了,网友:哎捧友,你的头里知识塔里木河一样流呢
【VOA英语】
VOA慢速英语|The Goodyear Blimp Has Been Flying Over America
【双语新闻】
卫生巾品牌“集体塌房”
【双语新闻】
普京对俄乌停火协议态度不明
最新评论
今日英文热帖
每日一句
|
【每日一句英语】2025-03-19
双语新闻
|
法国要收回自由女神像?美国:不还
双语新闻
|
关于“加班”,国家表态了……
双语新闻
|
特朗普宣布:拜登赦免令无效,因为用的自动
双语新闻
|
百度副总裁为女儿“开盒”道歉:深感愧疚
BBC英语
|
【BBC六分钟英语】你了解女足世界杯吗?
双语新闻
|
“馕言文”火了,网友:哎捧友,你的头里知
双语新闻
|
卫生巾品牌“集体塌房”
双语新闻
|
普京对俄乌停火协议态度不明
VOA英语
|
VOA慢速英语|The Goodyear Blimp Has Been
口语听力
|
口语交际 | Let's clean our house.
双语新闻
|
美国公司要改编《哪吒》?目前正在创作剧本
四级六级
|
大学英语四六级听力每日一练 250318
双语阅读
|
每日晨读 | 漂亮的洋娃娃
VOA英语
|
【慢速】每日听读 |旧金山独具历史意义的悬
双语阅读
|
【听&读】朗读《皆大欢喜》
口语听力
|
【现场说】在印度尼西亚一日三餐一般会吃什
口语听力
|
“不知道”不要只会I don't know.
双语新闻
|
经济前景黯淡,美国消费者削减开支
口语听力
|
英语听力|What if that was just the star
今日中文热帖
家长课堂
|
戒掉唠叨的30天:我发现当妈的最高境界竟是
心情驿站
|
人与人交往的黄金定律(深度好文)
心情驿站
|
两性关系4个层级:只有被深爱过的女人,才
心情驿站
|
老去的是岁月,不老的是心态
家长课堂
|
普通家庭真正的鸡娃:早睡、运动、阅读、长
心情驿站
|
女人长相年轻,是因为这5个好习惯,中3个以
心情驿站
|
我见过活得好的人,都做对了这1件事
心情驿站
|
年少不知诗中意,再读已是诗中人
心情驿站
|
一个人最掉价的6种行为,希望你1个都没有
心情驿站
|
我问Deepseek,人生回报率最高的10件事,看
心情驿站
|
“肝”透支了!全过程曝光
心情驿站
|
身弱的人,最顶级的改命方式
心情驿站
|
读懂老祖宗留下的8句致富心得,如鱼得水!
心情驿站
|
生和不生,到底谁更后悔?真相揭露:比生儿
心情驿站
|
【夜读】亲爱的朋友:你念,我在!
心情驿站
|
停止抱怨,是转运的开始!(看懂受益一生)
心情驿站
|
苏轼最具“禅意”的一首诗,短短56字,通透
心情驿站
|
养运的第一步:养面相
心情驿站
|
晚上不吃饭就能减肥吗?科学减重,走出误区
家长课堂
|
我每天给儿子“立学霸人设”,不到2个月,
关闭
站长推荐
/1
英语培训
英语家园网站官方网校培训
查看 »
微信扫一扫
Copyright © 2005-
英语家园
(https://www.enfamily.cn) 版权所有 All Rights Reserved.
Powered by
Discuz!
X3.4 GMT+8, 2025-3-19 19:43
鄂ICP备2021006767号-1
鄂公网安备 42010202000179号
快速回复
返回顶部
返回列表