# Cliptolution **Repository Path**: weyee/Cliptolution ## Basic Information - **Project Name**: Cliptolution - **Description**: 基于DeepSeek和多种AI技术的视频处理类ai agent,集成了视频内容分析、创意工作流、音乐处理、ai agent自动调用工具编辑视频等功能,旨在简化视频编辑和创作过程。ai就可以帮你完成复杂的视频处理任务。比如:给视频添加字幕、翻译、剪辑、配音、生成创意脚本等。分析视频内容,生成结构化报告。识别纯音乐,生成音乐内容分析等。通过多步骤交互式工作流,完成复杂的创意视频创作任务。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-12 - **Last Updated**: 2025-11-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Cilptolution 剪辑进化 - AI视频处理类的Ai Agent Demo ![Python](https://img.shields.io/badge/Python-3.8+-blue.svg) ![FastAPI](https://img.shields.io/badge/FastAPI-0.104+-green.svg) ![DeepSeek](https://img.shields.io/badge/DeepSeek-API-orange.svg) ![License](https://img.shields.io/badge/License-MIT-yellow.svg) 这是一个基于DeepSeek和多种AI技术的视频处理类ai agent,集成了视频内容分析、创意工作流、音乐处理、ai agent自动调用工具编辑视频等功能,旨在简化视频编辑和创作过程。只需要你一句话,ai就可以帮你完成复杂的视频处理任务。比如: 1. 给视频添加字幕、翻译、剪辑、配音、生成创意脚本等。 2. 分析视频内容,生成结构化报告。 3. 识别纯音乐,生成音乐内容分析等。 4. 通过多步骤交互式工作流,完成复杂的创意视频创作任务,比如制作影视作品的人物解析视频,给动漫制作mad视频等。 ## 写在前面 本项目的所有剪辑效果和功能演示可以本人的bilibili账户中查看:[bilibili:清咛lime](https://space.bilibili.com/356616145) 演示效果和介绍请前往[免费开源的AI剪辑工具介绍](https://www.bilibili.com/video/BV1RDe9z2Esa)中查看 - warning: 该项目目前仅支持终端交互,并且给予ai的权限极高,可能会对你的文件进行不可逆的修改,且不保证生成结果的准确性,需要你有一定的技术基础和风险意识,以及基本的大模型使用经验,必要时需要修改系统中内置的提示词和工具实现,才能达到理想的效果,请谨慎评估风险。 我是本项目的开发者qingning,本项目的设计初衷是寄希望于通过ai agent的方式,探索LLM在视频创作和agent中的能力边界,让agent不是一个只能输出一份没啥用报告的玩具机器人,而是可以在user的提示下输出观点,制作相对有用的内容。而剪辑视频就意味着需要解决视频内容识别,声音内容识别,剪辑工具调用与剧本构思的问题。在本项目中提出了以下解决方案: 1. 通过LLM分析视频语音内容,判断是否需要用视觉二次判断视频内容,从而了解视频全部内容,并制作视频分析报告,详细请看 [video/Video_README.md](./video/Video_README.md) 2. 得益于qwen的全模态模型,让ai理解音乐成为可能,将音乐输入给全模态模型,可以详细分析音乐风格、内容、意向等,我们可以将分析结果再喂给LLM二次分析,即可得出音乐的分析报告,详细请看 [music/src/Music_README.md](./music/src/Music_README.md) ## ✨ 核心特性 - 🎯 **智能对话代理** - 基于DeepSeek的AI对话系统 - 🎥 **视频内容分析** - 语音识别+视觉理解完整流水线 - 🎨 **创意工作流** - 多步骤交互式视频创作 - 🎵 **音乐智能处理** - 音频分析和内容识别 - 🛠️ **工具生态系统** - 模块化工具管理和调度 - 💾 **记忆管理系统** - 短期对话记忆+长期知识存储 ## 🏗️ 系统架构 ``` VideoAgent/ ├── 🤖 AI Agent系统 (agent.py) │ ├── 对话管理 │ ├── 工具规划 │ └── 记忆系统 ├── 🎥 视频处理模块 (video/) │ ├── 语音识别 (Faster-Whisper) │ ├── 视觉分析 (Ollama + Qwen2.5VL) │ └── 内容报告生成 ├── 🎨 创意工作流 (creative/) │ ├── 创意检测 │ ├── 脚本生成 │ └── TTS语音合成 ├── 🎵 音乐分析 (music/) │ ├── 音频处理 │ ├── 音乐识别 │ └── 字幕生成 ├── 🛠️ 工具系统 (tools/) │ ├── 文件工具 │ ├── 视频动作工具 │ └── 视频列表工具 └── ⚙️ 配置系统 (config.json) ``` ## 🚀 快速开始 ### 环境要求 - Python 3.8+ - FFmpeg (音频处理) - Ollama (视觉分析,可选) - GPU支持 (推荐,用于加速处理) ### 安装步骤 1. **安装FFmpeg(必须先安装)** **Windows (使用Chocolatey):** ```bash choco install ffmpeg ``` **Ubuntu/Debian:** ```bash sudo apt update sudo apt install ffmpeg ``` **macOS:** ```bash brew install ffmpeg ``` **验证安装:** ```bash ffmpeg -version ``` 2. **创建虚拟环境(推荐)** ```bash # 创建虚拟环境 python -m venv venv # 激活虚拟环境 # Windows: venv\Scripts\activate # Linux/macOS: source venv/bin/activate ``` 3. **克隆项目** ```bash git clone <项目地址> cd VideoAgent ``` 4. **安装Python依赖** ```bash pip install -r requirements.txt ``` 5. **配置API密钥** 编辑 `config.json` 文件: ```json { "api_keys": { "deepseek": "您的DeepSeek API密钥", "alibaba_bailian": "您的阿里百炼API密钥" } } ``` 6. **下载模型** 确保Faster-Whisper模型位于 `video/models/Faster-Whisper/` ### 运行项目 **启动AI Agent** ```bash python agent.py ``` **处理视频** ```bash python video/src/main.py video/input/您的视频.mp4 ``` **启动视频监控服务** ```bash python video/src/video_monitor.py ``` **处理音频文件** ```bash python music/src/music_processor.py music/input/您的音频.mp3 ``` **启动音频监控服务** ```bash python music/src/music_processor.py ``` ## ⚙️ 配置说明 ### 配置文件结构 ```json { "api_keys": { "deepseek": "sk-...", // DeepSeek API密钥 "alibaba_bailian": "sk-..." // 阿里百炼API密钥 }, "services": { "ollama": { "host": "http://127.0.0.1:11434", "timeout": 300, "vision_model": "qwen2.5vl:3b" } }, "tts": { "model": "cosyvoice-v2", "voice": "cosyvoice-v2-prefix-..." }, "models": { "whisper_path": "video/models/Faster-Whisper", "default_chat_model": "deepseek-chat", "default_reasoner_model": "deepseek-reasoner" }, "settings": { "max_tool_chain": 15, "tool_timeout": 60, "temp_dir": "video/temp" } } ``` ### 环境变量支持 ```bash # DeepSeek配置 export DEEPSEEK_API_KEY="您的密钥" # 阿里百炼配置 export ALIBABA_BAILIAN_API_KEY="您的密钥" # Ollama配置 export OLLAMA_HOST="http://127.0.0.1:11434" export OLLAMA_TIMEOUT="300" export OLLAMA_VISION_MODEL="qwen2.5vl:3b" # TTS配置 export TTS_MODEL="cosyvoice-v2" export TTS_VOICE="cosyvoice-v2-prefix-..." ``` ## 🎯 功能模块详解 ### 1. AI Agent系统 核心对话代理,支持: - 智能工具规划和执行 - 多轮对话管理 - 短期和长期记忆 - 创意工作流处理 ```python # 示例:启动Agent from agent import AIAgent agent = AIAgent() await agent.start() ``` ### 2. 视频处理流水线 完整的视频分析流程: 1. **音频提取** - 使用FFmpeg提取音频 2. **语音识别** - Faster-Whisper生成字幕 3. **内容分析** - DeepSeek分析视频内容 4. **视觉识别** - Ollama分析关键帧(可选) 5. **报告生成** - 生成结构化分析报告 ### 3. 创意工作流 交互式视频创作系统: - 创意需求分析 - 多步骤项目规划 - 脚本自动生成 - TTS语音合成 - 智能剪辑处理 ### 4. 音乐分析模块 音频内容处理: - 音频格式转换 - 音乐特征分析 - 纯音乐检测 - 歌词字幕生成 ### 5. 工具生态系统 基于MCP服务器的工具管理: **文件工具** - 目录列表 - 文件读写 - 内容搜索 **视频动作工具** - 颜色分级 - 字幕添加 - 视频剪辑 - 格式转换 **视频列表工具** - 元数据读取 - 字幕解析 - 报告分析 ## 🛠️ 开发指南 ### 项目结构 ``` VideoAgent/ ├── agent.py # 主AI Agent ├── api_client.py # API客户端封装 ├── mcp_server.py # 工具管理服务器 ├── config_loader.py # 配置加载器 ├── config.json # 配置文件 ├── memory/ # 记忆系统 ├── creative/ # 创意处理模块 ├── music/ # 音乐处理模块 ├── tools/ # 工具系统 ├── video/ # 视频处理模块 └── README.md # 项目文档 ``` ### 添加新工具 1. 在 `tools/` 目录下创建工具文件 2. 使用 `@register_tool` 装饰器注册工具 3. 遵循工具设计规范 ```python from mcp_server import register_tool @register_tool( tool_name="example_tool", description="工具描述", parameters={"param1": {"type": "string"}}, timeout=30 ) def example_tool(param1: str) -> dict: return {"success": True, "result": f"处理结果: {param1}"} ``` ### API开发规范 - 使用统一的响应格式 - 包含完整的错误处理 - 支持超时配置 - 提供详细的元数据 ## 🚢 部署运维 ### 生产环境部署 1. **环境配置** ```bash # 设置生产环境变量 export ENV=production export LOG_LEVEL=INFO ``` 2. **进程管理** (使用PM2) ```bash # 安装PM2 npm install -g pm2 # 启动服务 pm2 start agent.py --name "video-agent" ``` 3. **监控日志** ```bash # 查看日志 pm2 logs video-agent # 监控状态 pm2 monit ``` ### 性能优化建议 1. **GPU加速** - 启用CUDA支持 - 使用GPU版本的深度学习模型 2. **内存管理** - 调整工具超时时间 - 优化大文件处理 3. **缓存策略** - 实现结果缓存 - 使用Redis存储频繁访问数据 ## 🔧 故障排除 ### 常见问题 1. **API密钥错误** ```bash # 验证配置 python -c "from config_loader import config; print('DeepSeek:', bool(config.get_deepseek_key()))" ``` 2. **编码问题** - 确保系统使用UTF-8编码 - 检查文件编码格式 3. **依赖问题** ```bash # 重新安装依赖 pip install -r requirements.txt ``` 4. **模型加载失败** - 确认模型路径正确 - 检查模型文件完整性 ### 日志调试 启用详细日志: ```python import logging logging.basicConfig(level=logging.DEBUG) ``` ## 📊 性能指标 - **处理速度**: 5-10分钟/视频(取决于长度和复杂度) - **内存占用**: 2-4GB(视频处理时) - **API调用**: 支持并发处理 - **扩展性**: 模块化设计,易于扩展 ## 🤝 贡献指南 1. Fork项目 2. 创建特性分支 3. 提交更改 4. 推送到分支 5. 创建Pull Request ### 开发规范 - 遵循PEP8代码风格 - 使用类型注解 - 编写单元测试 - 更新文档 ## 📄 许可证 本项目采用 MIT 许可证 - 查看 [LICENSE](LICENSE) 文件了解详情。 ## 🙏 致谢 - [深度求索](https://www.deepseek.com/) - 提供强大的LLM服务,让一切拥有可能 - [阿里百炼平台/qwen](https://bailian.aliyun.com/) - 优质的TTS语音服务、全模态模型以及强大的视觉模型 - [Ollama](https://ollama.ai/) - 本地AI模型运行环境 - [Faster-Whisper](https://github.com/guillaumekln/faster-whisper) - 高效的语音识别 - [ffmpeg](https://ffmpeg.org/) - 强大的视频处理能力 ## 📞 联系方式 如果您有任何问题、建议或合作意向,欢迎通过以下方式联系: - 📧 **邮箱**: 3447131904@qq.com - 🐧 **qq**: 3447131904 - 📺 **Bilibili**: [清咛lime](https://space.bilibili.com/356616145) 或者通过GitHub Issues提交问题。 --- **Cliptolution** - 让视频处理更智能,让创意无限可能! 🚀