报告围绕DeepSeek展开,从中华文化基因探讨其成功因素,分析争议点,思考人工智能发展道路,并介绍私有化应用方法,展现了对中国AI发展的展望。
1. DeepSeek成功的文化与技术因素:报告指出中华文化的开放、包容、共享美德以及汉字的高效性和可传承性为DeepSeek发展提供了优势。在训练语料上,DeepSeek总语料规模达14.8万亿token,涵盖多领域,中文语料占比3%,且通过多层净化技术和分词优化提升数据质量;相比之下,ChatGPT英文语料占比约92.6%,中文语料仅约0.1% 。技术上,DeepSeek通过算力优化、算法革新打破CUDA标准库壁垒,采用思维链提升逻辑性能,进行架构创新,证明小规模高质量数据的优势,实现技术突围。
2. DeepSeek面临的争议:关于知识蒸馏技术,存在抄袭与创新的争议。知识蒸馏是将大型模型知识迁移到小型模型的技术,有人认为这是抄袭,但报告指出创新是基于已有理论进行实际应用和改进,如基于牛顿定律制造航天器等,DeepSeek在技术应用上有其创新之处。此外,人工智能被质疑是资源黑洞还是效率革命,以Grok3和DeepSeek为例,二者在GPU使用数量上差异较大,引发对人工智能资源消耗和效率提升的思考。
3. 人工智能发展的思考:从“道”与“术”的角度看,人工智能的“道”是规律、本源,“术”是方法、技巧。真正的人工智能应是“智”(算法)、“能”(能力扩展)与伦理安全的结合。目前人工智能面临诸多伦理安全问题,如电车困境、算法偏见、AIGC幻觉等,需要找到“阴阳气和”的发展之道,解决这些问题。
4. DeepSeek私有化应用方法:为增强本地DeepSeek能力,报告介绍了多种方法。检索增强生成(RAG)能动态检索知识、利用外部知识库增强答案,具有成本效益高、可信等优点,同时报告详细介绍了其本地部署过程,但使用Ollama部署存在安全风险,需进行安全加固。大模型微调方面,LoRA通过训练低秩矩阵注入原始模型实现微调,减少训练资源需求;Backbone则是设计专业骨架模型装载在基础模型输出端,只训练骨架模型,适用于不同专业场景任务。还有基于LLaMA - Factory的轻代码微调方法,通过安装部署、制作训练模版、修改参数等步骤,可实现模型微调,如训练AI智能助教,用于出题和答疑,还可与虚拟仿真实验室集成。
5. 展望中国AI发展:报告展望中国AI发展前景,提出要走属于中国的AI之路,未来或许能用AI技术揭开《推背图》《梅花易数》等传统文化的神秘面纱,推动中医和周易等领域的研究。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系