Apache Solr索引Bechmarking

最近我开始玩弄Apache Solr,并且正在试图找出基准XML文档索引的最佳方法。 我基本上对磁盘上的吞吐量(文件索引/秒)和索引大小感兴趣。

我在Ubuntu上完成了所有这些工作。

基准测试技术

*运行以下5次并获得平均总时间*

  • 索引文件[ curl http://localhost:8983/solr/core/dataimport?command=full-import ]
  • 当状态为'idle'时,从XML响应中获取'Time taken'name属性[curl http:// localhost:8983 / solr / core / dataimport]
  • 获取'data / index'目录的大小
  • 删除索引[ curl http://localhost:8983/solr/core/update --data '<delete><query>*:*</query></delete>' -H 'Content-type:text/xml; charset=utf-8' curl http://localhost:8983/solr/core/update --data '<delete><query>*:*</query></delete>' -H 'Content-type:text/xml; charset=utf-8' ]
  • Commit [ curl http://localhost:8983/solr/w5/update --data '<commit/>' -H 'Content-type:text/xml; charset=utf-8' curl http://localhost:8983/solr/w5/update --data '<commit/>' -H 'Content-type:text/xml; charset=utf-8' ]
  • 重新索引文件
  • 问题

  • 我打算通过将平均花费的总时间除以文件数量来计算我的吞吐量; 这很好吗?
  • 是否有工具(如用于查询基准的SolrMeter)或已有的标准脚本可用于实现我的目标? 我不想重新发明轮子...
  • 我的方法很好吗?
  • 有没有更容易获得索引大小的方法,而不是在data / index /目录上执行'du'?
  • 我在哪里可以找到有关如何解释XML响应属性的信息(请参阅下面的示例输出)。 例如,我想知道QTimeTime taken值之间的QTime
  • *用于获取吞吐量的XML响应*

    <?xml version="1.0" encoding="UTF-8"?>
    <response>
    <lst name="responseHeader">
      <int name="status">0</int>
        <int name="QTime">0</int>
      </lst>
      <lst name="initArgs">
        <lst name="defaults">
          <str name="config">w5-data-config.xml</str>
        </lst>
      </lst>
      <str name="status">idle</str>
      <str name="importResponse"/>
      <lst name="statusMessages">
        <str name="Total Requests made to DataSource">0</str>
        <str name="Total Rows Fetched">3200</str>
        <str name="Total Documents Skipped">0</str>
        <str name="Full Dump Started">2012-12-11 14:06:19</str>
        <str name="">Indexing completed. Added/Updated: 1600 documents. Deleted 0 documents.</str>
        <str name="Total Documents Processed">1600</str>
        <str name="Time taken">0:0:10.233</str>
      </lst>
      <str name="WARNING">This response format is experimental.  It is likely to change in the future.</str>
    </response>
    

    问题1:

    我建议你应该尝试索引多个XML(使用不同的数据集)文件并比较给定的结果。 多数民众赞成你的方式,你会知道,如果它可以简单地把你的时间与你的文件数量分开。

    对于问题2:

    我没有找到这些工具,我自己开发了一个简短的Java应用程序

    问题3:

    你的意思是? 我会链接到我对问题1的回答...

    问题4:

    索引文件夹的大小为您提供了整个索引的正确大小,为什么您不想使用它?

    问题5:

    您在发布的XML中获得的结果将通过XSL文件传输。 您可以在/ bin / solr / conf / xslt文件夹中找到它。 您可以查看这些条款的含义,您可以编写自己的XSL来显示结果和信息。 注意:如果您创建新的XSL文件,则必须更改solrconfig.xml中的设置。 如果您不想进行任何更改,请编辑现有文件。

    编辑:我认为不同的是,Qtime是所采用时间值的四舍五入值。 Qtime中只有偶数。

    最好的祝福

    链接地址: http://www.djcxy.com/p/67035.html

    上一篇: Apache Solr Index Bechmarking

    下一篇: how to get date strings from content of pdf with apache solr