• 2015-07-09
    基于lucene的案例开发:纵横小说分布式采集
    分布式采集 lucene案例
    之前我们已经介绍了如何采集纵横小说网站上的信息以及如何把这些信息持久化到数据库中;那么如何使用这些实现分布式采集?各个模块之间如何完美的配合完成各自的功能?这一篇博客将会做出完美的解答
  • 2015-07-07
    基于lucene的案例开发:纵横小说数据库操作
    数据库操作 lucene案例
    本篇博客介绍了如何基于DBServer实现数据库的增改查操作,为后面的分布式采集做好基础准备
  • 2015-05-13
    基于lucene的案例开发:纵横小说数据库设计
    lucene java 数据库设计 分布式采集
    本文通过纵横中文小说网为例,介绍如何实现分布式采集的数据库设计;介绍四个采集模块之间的关系,以及他们采集的信息如何存储
  • 2015-04-08
    基于lucene的案例开发:纵横小说阅读页采集
    lucene java 纵横小说 网络爬虫 爬虫
    本文介绍了如何通过CrawlBase来实现纵横小说阅读页信息的采集,加上之前的三篇博客就完成了对纵横小说的信息采集,之后会给出具体的main方法,来实现整个流程的运行~
  • 2015-04-03
    基于lucene的案例开发:纵横小说章节列表采集
    网络爬虫 lucene java 纵横小说 爬虫
    本文介绍了如何通过CrawlBase来实现纵横小说章节列表页信息的采集,同时提供了对于无法右键查看网页源代码网页的信息采集方案
  • 2015-04-03
    基于lucene的案例开发:纵横小说简介页采集
    java lucene 纵横小说 爬虫 网络爬虫
    本文通过对纵横小说简介页源代码的分析,介绍了如何通过CrawlBase来采集相关信息
  • 2015-04-02
    基于lucene的案例开发:纵横小说更新列表页抓取
    HttpClient 爬虫 java 纵横小说 网络爬虫
    本文以纵横中文小说网的更新列表页为例,详细的介绍了如何通过HttpClient去采集更新列表页的内容,介绍如何使用自建类CrawlListPageBase以及如何处理非预期BUG
  • 2015-03-26
    基于lucene的案例开发:查询语句创建PackQuery
    lucene java query
    提供了lucene中的query对象的多种创建方法,如单词单域、单词多域、模糊查询、范围查询、距离查询等
  • 2015-03-15
    基于lucene的案例开发:实时索引的修改
    lucene java 实时索引 增删改 索引操作
    实时索引中的IndexWriter的操作都是委托给TrackingIndexWriter来操作,这里就对实时索引中的增删改操作进行进一步的封装,实现实时索引的基本操作
  • 2015-03-15
    基于lucene的案例开发:实时索引的检索
    lucene java 搜索 检索 索引搜索
    我们之前已经介绍了IndexSearcher中的检索方法,也介绍了如何基于lucene中的NRT*类去创建实时索引,这里我们就重点介绍下基于实时索引的检索方案,实现NRTSearch基类
  • 我的名片
  • 网名:xiaojimanman | 小鸡慢慢
  • 职业:搜狗搜索事业部全栈工程师
  • 微信:xiaojimanman
  • Q Q:425627233
  • 邮箱:xiaojimanman@foxmail.com
  • 捐赠方式
  • 赠人玫瑰,手有余香。
  • 感谢捐赠者对我博客的支持!
  • 最新评论

 ©2015-2017 陆雷 | xiaojimanman 工作空间 -京ICP备15007871号