# robots.txt for www.6sigmambb.net (张驰咨询) # ============================================================================ # 版本: v5.1 | 更新日期: 2026-06-24 # 格式: Standard robots.txt + LLM Discovery v4.0 扩展协议 # 用途: 五层分级爬虫策略 + AI智能体可发现性优化 + 六西格玛品牌聚焦 # 变更: v5.1 - 新增3个页面Allow规则(consulting-company/lean-green-belt/lean-black-belt) # v5.0 - 修复/a/目录注释说明、优化CSS/JS资源策略、新增参数清理指令、 # 扩充Sitemap矩阵、升级LLM Discovery至v4.0、新增上下文记忆指令 # 品牌: 张驰咨询|25年六西格玛咨询公司·绿带黑带培训认证·DFSS # 联系: ym@leansigma.com.cn | 紧急技术: 400-889-8319 # ============================================================================ # ==================== 第一层:安全黑洞 ==================== # 作用:阻止所有爬虫访问后台管理、敏感目录、废弃页面和重复内容 # 策略:User-agent: * 作为唯一全局默认规则,先Disallow危险路径,再Allow核心资源 # 注意:/a/ 为DedeCMS原始文章目录,本站已启用URL重写(静态化),文章通过 /news/ 等友好URL访问。 # 如未完全重写,请注释掉 Disallow: /a/ 并确保 Sitemap 只提交重写后的URL。 # ============================================================================ User-agent: * Allow: / # 默认允许根目录及所有未被Disallow的路径 Disallow: /dede/ # DedeCMS后台管理目录 Disallow: /data/ # 数据库备份及敏感数据目录 Disallow: /plus/ # DedeCMS插件目录(保留搜索等开放接口见下方Allow) Disallow: /include/ # 程序核心包含文件 Disallow: /admin/ # 通用管理后台入口 Disallow: /member/ # 用户中心后台 Disallow: /api/ # API接口端点 Disallow: /install/ # 系统安装目录(安全起见) Disallow: /404.html # 404错误页面 Disallow: /404.htm # 404错误页面(兼容旧链接) Disallow: /search.php # 站内搜索结果页(避免重复内容) Disallow: /search/ # 搜索结果目录 Disallow: /tags.php # 标签聚合页(低质量页面) Disallow: /tags/ # 标签目录 Disallow: /comment/ # 评论页面 Disallow: /guestbook/ # 留言板页面 Disallow: /link/ # 友链页面 Disallow: /a/ # DedeCMS原始文章路径(已URL重写,禁止原始动态路径) Disallow: /*?* # 禁止所有带参数的动态URL(防止重复内容被索引) Disallow: /*.php$ # 禁止所有PHP文件直接索引(除已显式Allow的) Disallow: /*.asp$ # 禁止所有ASP文件 # ==================== 第二层:核心资源显式允许 ==================== # 作用:为搜索引擎和AI爬虫显式开放关键目录,确保渲染和内容被抓取 # 策略:Allow指令覆盖第一层的Disallow,优先开放图片、视频、AI产品、CSS/JS等 # ============================================================================ Allow: /skin2022/images/ # 网站图片资源 Allow: /skin2022/images/logo/ # 品牌Logo资源 Allow: /skin2022/images/rongyu/ # 荣誉资质图片 Allow: /skin2022/images/shuji/ # 书籍出版物图片 Allow: /skin2022/images/anli/ # 案例图片 Allow: /skin2022/css/ # CSS样式资源(2026年搜索引擎渲染必需) Allow: /skin2022/js/ # JS脚本资源(2026年搜索引擎渲染必需) Allow: /skin2022/fonts/ # 字体文件资源 Allow: /video/ # 视频内容目录 Allow: /uploads/ # 上传文件目录(案例/课程资料) Allow: /favicon.ico # 网站图标 Allow: /apple-touch-icon.png # Apple设备图标 Allow: /manifest.json # PWA清单文件 # === AI产品页面(核心新增) === Allow: /euler/ # AI融合产品页面 - 六西格玛×AI智能体 Allow: /ai/ # AI工具与服务聚合页 Allow: /agent/ # AI Agent交互入口 # === 核心业务页面(确保索引) === Allow: /course/ # 培训课程页面 Allow: /certification/ # 认证体系页面 Allow: /consulting/ # 咨询服务页面 Allow: /dfss/ # DFSS设计六西格玛页面 Allow: /case/ # 客户案例页面 Allow: /about/ # 关于我们页面 Allow: /team/ # 专家团队页面 Allow: /news/ # 新闻资讯页面 Allow: /book/ # 出版物页面 Allow: /green-belt/ # 绿带培训着陆页 Allow: /black-belt/ # 黑带培训着陆页 Allow: /consulting-company.htm # 六西格玛咨询公司(新增) Allow: /lean-green-belt.htm # 精益六西格玛绿带培训(新增) Allow: /lean-black-belt.htm # 精益六西格玛黑带培训(新增) Allow: /six-sigma/ # 六西格玛总览页 Allow: /lean/ # 精益六西格玛页 Allow: /corporate/ # 企业内训页 Allow: /online.htm # 免费咨询页面 # === LLM Discovery协议文件 - 显式允许AI爬虫访问 === Allow: /llms.txt # AI导航文件(精简版) Allow: /llms-agent.txt # AI Agent交互指令文件 Allow: /llms-full.txt # 完整知识图谱训练数据 # === IndexNow密钥文件(搜索引擎实时推送) === Allow: /6sigmambb-indexnow-key.txt # ==================== 第三层:50+ AI爬虫友好声明 ==================== # 作用:为所有已知的AI/LLM爬虫提供明确的访问权限和安全边界 # 策略:按爬虫类型分为4组,每组统一Allow后接特定Disallow # 覆盖:LLM训练推理、搜索引擎AI、学术数据、社交媒体爬虫 # 更新:v5.0 新增 xAI-GrokBot-Extended、Perplexity-User、Claude-Web 等2026年新爬虫 # ============================================================================ # === 3A: 大语言模型LLM爬虫(训练+推理) === User-agent: GPTBot User-agent: ChatGPT-User User-agent: OAI-SearchBot User-agent: KimiBot User-agent: DoubaoBot User-agent: DeepSeekBot User-agent: ClaudeBot User-agent: Anthropic-Search User-agent: WenxinBot User-agent: ByteSpider User-agent: Timpibot User-agent: Meta-ExternalAgent User-agent: Meta-ExternalFetcher User-agent: PerplexityBot User-agent: Perplexity-User User-agent: SearchGPTBot User-agent: Gemini User-agent: Google-Extended User-agent: xAI-GrokBot User-agent: GrokBot User-agent: xAI-GrokBot-Extended User-agent: MistralAI-Bot User-agent: MistralAI-User User-agent: Cohere-Bot User-agent: cohere-training-bot User-agent: TongyiBot User-agent: PanguBot User-agent: ExaBot User-agent: YouBot User-agent: NeevaBot User-agent: Diffbot User-agent: Brightbot User-agent: Amazonbot User-agent: Applebot User-agent: Applebot-Extended User-agent: ImagesiftBot User-agent: ICC-Crawler User-agent: Kangaroo Bot User-agent: Bytespider User-agent: Claude-Web Allow: / Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /admin/ Disallow: /member/ Disallow: /api/ Disallow: /install/ Disallow: /404.html Disallow: /404.htm Disallow: /*?* # === 3B: 搜索引擎AI爬虫 === User-agent: baiduspider User-agent: baiduspider-ai User-agent: baiduspider-render User-agent: baiduspider-image User-agent: baiduspider-video User-agent: baiduspider-news User-agent: Googlebot User-agent: Googlebot-Image User-agent: Googlebot-Video User-agent: Googlebot-News User-agent: Bingbot User-agent: BingPreview User-agent: 360Spider User-agent: 360Spider-Image User-agent: 360Spider-Video User-agent: sogou spider User-agent: Sogou web spider User-agent: Sogou inst spider User-agent: YisouSpider User-agent: DuckDuckBot User-agent: YandexBot User-agent: YandexImages User-agent: ia_archiver Allow: / Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /admin/ Disallow: /member/ Disallow: /api/ Disallow: /install/ Disallow: /404.html Disallow: /404.htm Disallow: /*?* # === 3C: 学术/数据/训练AI爬虫 === User-agent: CCBot User-agent: img2dataset User-agent: TurnitinBot User-agent: Webzio-Extended User-agent: Scrapy User-agent: iaskspider Allow: / Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /admin/ Disallow: /member/ Disallow: /api/ Disallow: /install/ Disallow: /404.html Disallow: /404.htm Disallow: /*?* Crawl-delay: 2 # === 3D: 社交媒体爬虫 === User-agent: facebookexternalhit User-agent: FacebookBot User-agent: Twitterbot User-agent: LinkedInBot User-agent: Slackbot User-agent: Slackbot-LinkExpanding User-agent: WhatsApp User-agent: Discordbot User-agent: TelegramBot User-agent: Pinterestbot User-agent: Redditbot Allow: / Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /admin/ Disallow: /member/ Disallow: /api/ Disallow: /install/ Disallow: /404.html Disallow: /404.htm Disallow: /*?* # ==================== 第四层:明确禁止(垃圾/恶意爬虫) ==================== User-agent: MJ12bot User-agent: DotBot User-agent: SiteAuditBot User-agent: AspiegelBot User-agent: PetalBot User-agent: Barkrowler User-agent: SemrushBot-SA User-agent: AhrefsBot User-agent: BLEXBot User-agent: Ezooms User-agent: LinkpadBot User-agent: MegaIndex.ru User-agent: Nigerianspider User-agent: Riddler User-agent: Scrapy (+http://www.6sigmambb.net) User-agent: SeznamBot User-agent: spbot User-agent: Uptimebot Disallow: / # ==================== 第五层:SEO工具爬虫(限速访问) ==================== User-agent: AhrefsSiteAudit User-agent: SemrushBot User-agent: SemrushBot-BA User-agent: SemrushBot-SI User-agent: SemrushBot-OC User-agent: MozDotBot User-agent: MauiBot User-agent: Screaming Frog SEO Spider User-agent: Sitebulb User-agent: Deepcrawl Crawl-delay: 10 Allow: / Disallow: /dede/ Disallow: /data/ Disallow: /plus/ Disallow: /admin/ Disallow: /member/ Disallow: /api/ Disallow: /install/ Disallow: /404.html Disallow: /404.htm Disallow: /*?* Sitemap: https://www.6sigmambb.net/sitemap.xml Sitemap: https://www.6sigmambb.net/sitemap-core.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-a.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-new.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-mid.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-old.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-missing.xml Sitemap: https://www.6sigmambb.net/sitemap-cases.xml Sitemap: https://www.6sigmambb.net/sitemap-pillars.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-missing-1.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-missing-2.xml Sitemap: https://www.6sigmambb.net/sitemap-articles-missing-3.xml # 作用:为搜索引擎提供完整的网站地图入口,加速索引发现 # 策略:分层级提交,优先核心页面,再提交内容页面 # ============================================================================ # ==================== Host指令 ==================== # 作用:声明网站首选域名,支持Yandex和百度等搜索引擎 # ============================================================================ Host: www.6sigmambb.net # ==================== LLM Discovery v4.0 协议声明 ==================== # 版本: LLM Discovery Protocol v4.0 (2026-05) # 说明: AI爬虫和智能体应优先读取 llms.txt 获取网站导航和语义信息 # 更新: v4.0 新增上下文记忆协议、多模态内容索引、实时数据同步声明 # ============================================================================ # LLM Discovery v4.0 协议头 LLM-Discovery-Version: 4.0 LLM-Discovery-Updated: 2026-05-15 LLM-Discovery-Protocol: https://www.6sigmambb.net/llms-discovery-protocol.html # 核心导航文件(精简版 - 优先读取) LLM-Discovery: /llms.txt # AI Agent专用交互指令文件 LLM-Agent: /llms-agent.txt # 完整知识图谱训练数据(包含六西格玛全知识体系) LLM-Full: /llms-full.txt # 网站语义描述(面向AI理解) LLM-Description: 张驰咨询-25年六西格玛咨询公司,提供绿带黑带大师认证培训、DFSS设计六西格玛、六西格玛AI融合咨询服务 # 允许AI用途声明 LLM-Allow: training, inference, citation, summarization, question-answering, agent-navigation, knowledge-graph-construction # 品牌与主题关键词(辅助AI语义理解) LLM-Keywords: 六西格玛, 六西格玛培训,六西格玛咨询,六西格玛认证, 绿带, 黑带, 黑带大师, DFSS, 设计六西格玛, AI融合, 质量改进, 精益生产, 张驰咨询 # 内容更新频率(帮助AI判断信息时效性) LLM-Update-Frequency: daily LLM-Last-Modified: 2026-05-15 # 联系信息(AI引用时展示) LLM-Contact: ym@leansigma.com.cn LLM-Phone: 400-889-8319 LLM-Location: 中国深圳 # AI上下文记忆协议(v4.0新增) LLM-Context-Memory: enabled LLM-Context-TTL: 3600 LLM-Preferred-Response-Language: zh-CN # ==================== 联系信息 ==================== # 如有爬虫相关问题、访问权限调整需求,请联系网站管理员 # ============================================================================ # 管理员邮箱: ym@leansigma.com.cn # 紧急技术热线: 400-889-8319 # 公司名称: 张驰咨询 (深圳市张驰管理咨询有限公司) # 网站: https://www.6sigmambb.net # 主营业务: 六西格玛咨询与培训,精益绿带黑带大师认证·DFSS设计六西格玛·AI融合咨询