# ai-learn **Repository Path**: jackzhoumine/ai-learn ## Basic Information - **Project Name**: ai-learn - **Description**: ai 学习相关 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-06-08 - **Last Updated**: 2025-06-09 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # AI 学习笔记 距考试现有一周,为助力大家备考,特将核心学习要点整理如下: 一、软件开发类学习要点 ## word2vec Word Embedding 技术:将「不可计算」「非结构化」的词转化为「可计算」「结构化」的矢量。 向量化、信息压缩与特征提取;两个语言模型,CBOW(根据上下文预测当前词语出现概率模型)与 Skip-Gram(已知当前词语,预测上下文)、卷积神经网络(CNN)、 循环神经网络(RNN) 传统序列模型的缺陷 ‌ ○ RNN/LSTM 存在 ‌ 长距离依赖衰减 ‌ 问题(梯度消失/爆炸),难以捕捉超长序列的全局关联 ○ 卷积神经网络(CNN)受限于 ‌ 局部感受也无法建模非连续位置的语义关系 2 ‌ 自注意力的创新突破 ‌ ○ ‌ 并行全局计算 ‌:通过矩阵运算一次性计算序列中任意两个元素的相关性(时间复杂度 O(n²)) ○ ‌ 动态权重分配 ‌:根据输入内容自适应调整位置间的关联强度(非固定卷积核或循环权重) word2vec: 文本嵌入的方法之一。 优点: 1. 由于 Word2vec 会考虑上下文,跟之前的 Embedding 方法相比,效果要更好(但不如 18 年之后的方法) 2. 比之前的 Embedding 方 法维度更少,所以速度更快 3. 通用性很强,可以用在各种 NLP 任务中 缺点: 1. 由于词和矢量是一对一的关系,所以多义词的问题无法解决。 2. Word2vec 是一种静态的方式,虽然通用性强,但是无法针对特定任务做动态优化 ## transformer TransFormer 算法演进,编码器(理解,完形填空;google/BERT)、解码器(生成、词语接龙;OpenAI/GPT;); Transformer 是一种神经网络架构,可将输入串行转换或变更为输出串行。 > 优点 1. 启用大规模模型: 可接收更加广泛的参数,学习人类广泛的语言和知识。 2. 实现更好的自定义:模型可以在多个领域和任务之间表现良好,适用于各种使用案例。 3. 促进多模式 AI 系统。 ### 应用案例 > 自然语言处理 > 机器翻译 > DNA 串行分析 > 蛋白质结构分析 ### 组成组件 > 输入内嵌: 内嵌将字符串行转换为数学矢量串行。矢量具有语义和语法信息 (以数字表示),并在训练过程中学习它们的属性。 > 位置编码: 信息新增到每个字符的内嵌中,以指出其在串行中的位置。 > 转换器区块 > 线性和 softmax 区块: 最终模型需要做出具体的预测。 ## 自注意力机制 转换器模型透过结合称为自我关注机制的项目来修改此程序。该机制不是按顺序处理数据,而是使模型能够一次查看串行的不同部分,并决定哪些部分最重要。 自注意力机制, 解决了自然语言特征提取的问题; 让句子的词跟句子里所有的词都做向量计算然后再去做训练; 核心计算流程(分布式计算视角) A[输入嵌入] --> B[生成 Q/K/V 矩阵];B --> C[相似度计算:Q·K^T]; C --> D[缩放+Softmax 归一化];D --> E[加权聚合:Attention=Weights·V]; 多头机制(Multi-Head)的工程价值;并行特征提取; 位置编码的必要性; ## 提示词的使用技巧 ### 遵循的原则 > 清晰具体的指令:清晰具体的描述你的问题和需求,避免模糊不清的指令。 > 提供上下文信息:提供相关背景信息和上下文,帮助模型更好地理解问题。 > 使用示例:提供示例或模板,帮助模型理解期望的输出格式。 > 分步提问,对轮对话:将复杂问题拆分为多个简单问题,逐步引导模型回答。 > 核实信息,避免幻觉:核实模型的回答,避免模型生成不准确或虚假的信息。 ### 具体技巧 > 语言组织技巧:角色 + 背景 + 具体任务 + (示例) + 输出要求 > 复杂任务拆解:“第一步分析需求,第二步给出伪代码,第三步生成完整代码” ## Agent、RAG、微调、蒸馏的工作方式 截取增强生成 (RAG) Agent 架构设计是关键,需要平衡模型的自主性与可控性,确保工具调用的安全性、可靠性和效率。调试复杂度较高。 RAG 的核心挑战在于构建高质量的知识库、选择/训练好的嵌入模型、优化检索策略(chunk 大小、索引方式、相似度算法、重排序)、设计高效的提示模板以及处理检索无关信息带来的噪声。 优点是知识更新成本低(只需更新数据库),可解释性强(有来源)。让预训练好的通用大模型适应特定的下游任务、领域或风格 ‌,显著提升其在目标任务上的性能。 微调是定制化模型的核心手段。关键在于数据质量、数据量、选择合适的基座模型(大小、能力匹配度)以及微调策略(全量 vs 高效)。成本(计算资源、时间)是需要权衡的重要因素,尤其是在模型规模巨大时。参数高效微调大大降低了资源门槛。 蒸馏是模型压缩和加速部署的核心技术。关键在于选择合适的教师模型、设计结构匹配的学生模型、调整损失权重 α 和软化温度 T。目标是让学生模型既能从真实标签学习,又能模仿教师模型更“聪明”的概率判断。通常需要高质量的训练数据才能充分发挥作用。 ## 向量数据库和知识库 ### 向量数据库 矢量数据库是一种组织有序的矢量嵌入集合,集成了可以随时创建、读取、更新和删除的矢量嵌入。矢量嵌入将数据块 (例如文本或图像) 表示为数值。 ### 嵌入模型 嵌入模型会将各种数据 (例如文本、图像、图表和视频) 转换为数值矢量,以便捕捉其在多维矢量空间中的含义和细微差别。嵌入技术的选择取决于应用需求,同时要兼顾语义深度、计算效率、要编码的数据的类型、维度等因素。 ### 相似性搜索是什么 ## 幻觉问题的解决方案 幻觉问题:生成式 AI 生产无意义或者完全不准确的输出。 ### 幻觉的危害 > 完全不准确的输出误导人类,比如医疗领域把正常皮肤识别成病变皮肤。 > 对抗性攻击:提供特定的输入,操纵 AI 产生无意义的输出。 ### 避免幻觉的方案 1. 使用高质量的数据训练 2. 人工核查 3. 使用数据模板 ## 大模型如何落地应用 ### AI 辅助测试 ### 辅助编码 ### 图像识别 -- OCR 技术 二、业务及技术支持类学习要点 ## 提示词如何设计 ## 如何提问才能得到高质量的结果 ## 如何使用 DeepSeek 整理会议纪要、文稿校核、Excel 转换、文献评价等 ## DeepSeek 界面功能的使用 ## AI 图片生成 ## DeepSeek 本地部署的意义 ## AI 竞争中的发展战略、未来 AI 发展的关键趋势 ## Transformer、 MoE、RAG、蒸馏的功能或作用 ## DeepSeek 对算力是如何管理 ## 数据与 AI 训练的关系 ## 结合工作场景提出应用建议