DDH垂直搜索引擎商业版 V1.0

授权方式: 免费版
下载次数: 1628次
浏览次数: 3024次
文件大小: 5.43M
推荐等级: ★★★级
演示地址: 点击打开
官方地址:
推荐源码
  • 易点内容管理系统 DianCMS v6.3.0 ACC版
  • YouDianCMS v7.4 PC手机微信app小程序五合一
  • Discuz! X3.4 正式版 简体中文 UTF8 20180101
  • TPshop开源商城源码 v2.0.8
  • 搜易站内搜索引擎 v4.5
  • DDH垂直搜索引擎商业版,是目前互联网中唯一可以商业运作的垂直搜索引擎系统,由JAVA语言开发,可以运行在大规模集群中的网络信息整合系统。DDH整合Nutch(开源搜索引擎系统),UCI(网页信息抽取系统)和SOLR(企业级搜索应用服务器)。无论从可扩展性,系统的性能方面还是稳定性方面,DDH垂直搜索引擎系统,都可以算的上顶级垂直搜索引擎系统之一。 DDH垂直搜索引擎系统是一个Java实现的垂直搜索引擎系统,是一套整合了Nutch/UCI/SOLR的网络信息整合系统。借助DDH你可以快速构建多领域的垂直搜索引擎系统。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要运行在Linux平台下。 DDH对Nutch做的调整 1: 加入了爬虫控制。可以根据用户的需要控制爬虫的抓取地址和路径。 2: 加入了信息分类功能。Nutch只对网页进行抓取,DDH在此基础上进行了信息分类调整,这样才能适用于不同的垂直搜索引擎系统。只需要输入类别编码,就能对爬虫进行控制。URL自动识别,大幅度提高了爬取效率。 3: 加入了索引数据分类功能。Nutch只是对网页进行了文字提取处理,而垂直搜索系统需要在网页信息抽取的基础上,指定索引路径进行提交。而且不符合要求的网页不会提交给索引,大幅度提高了索引效率。 DDH加入了UCI网页信息抽取系统 UCI可以对网页信息进行精确抽取,而且不受目标网页代码的限制,特别适合垂直搜索引擎使用。 UCI网页信息抽取技术,是一种适用于亿级数量的智能网页信息抽取技术,主要适用于互联网信息整合和搜索引擎中网页信息的提取。 DDH对Solr的调整 对Solr的schema.xml的用户定义字段类型及字段的配置文件进行了重新配置,使得适合垂直搜索引擎的使用。并加入了中文分词功能。 另外对于DDH的自动运行,都有Shell文件进行控制。详情可以咨询QQ2407456629,或发送邮件wenbinglei@gmail.com联系开发人员。 说明:本系统中提供的是Nutch2.2.1的压缩包,Solr请自行下载。

    电信

    网鼎科技

    联通

    网鼎联通

    相关评论