ElasticSearch是什么

Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。

但是,Lucene只是一个库。想要使用它,你必须使用Java来作为开发语言并将其直接集成到你的应用中,更糟糕的是,Lucene非常复杂,你需要深入了解检索的相关知识来理解它是如何工作的。

Elasticsearch也使用Java开发并使用Lucene作为其核心来实现所有索引和搜索的功能,但是它的目的是通过简单的RESTful API来隐藏Lucene的复杂性,从而让全文搜索变得简单。


不过,Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它:

  • 分布式的实时文件存储,每个字段都被索引并可被搜索
  • 分布式的实时分析搜索引擎
  • 可以扩展到上百台服务器,处理PB级结构化或非结构化数据
  • 自动维护数据的分布到多个节点的索引的建立,还有搜索请求分布到多个节点的执行
  • 自动维护数据的冗余副本,保证一些机器宕机后,不会丢失任何的数据

而且,所有的这些功能被集成到一个服务里面,你的应用可以通过简单的RESTful API、各种语言的客户端甚至命令行与之交互。



ElasticSearch核心概念

  1. Near Realtime(NRT):近实时。从写入数据到数据可以被搜索到有延迟(大概1秒);基于Elasticsearch执行搜索和分析可以达到秒级
  2. Cluster:集群。包含多个节点,每个节点属于哪个集群是通过一个配置(集群名称,默认是Elasticsearch来决定的),对于中小型企业来说,刚开始一个集群就一个节点很正常
  3. Node:节点。集群中的一个节点,节点也有一个名称(默认是随机分配的),节点名称很重要(在执行运维管理操作的时候),默认节点会去加入一个名称为“Elasticsearch”的集群。如果直接启用一堆节点,那么它们会自动组成一个Elasticsearch集群,当然,一个节点也可以组成一个Elasticsearch集群
  4. Document:文档。Elasticsearch中最小数据单元,一个document可以是一条客户数据,一条商品分类数据,一条订单数据,通常用JSON数据结构表示,每个index下的type中,都可以去存储多个document
  5. Index:索引。包含一堆有相似结构的的文档数据。比如可以有一个客户索引、商品分类索引、订单索引,索引有一个名称
  6. Type:类型。每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。比如博客系统,有一个索引,可以定义用户数据type,博客数据type,评论数据type
  7. shard:单台机器无法存储大量数据,Elasticsearch可以将一个索引中的数据切分为多个shard,分布在多台服务器上存储。有了shard就可以横向扩展,存储更多的数据,让搜索和分析等操作分布到多台服务器上去执行,提升吞吐量和性能。每个shard都是一个lucene index
  8. replica:任何一个服务器随时可能故障或宕机,此时shard可能就会丢失,因此,可以为每个shard创建多个replica副本。replica可以在shard故障时提供备用服务,保证数据不丢失,多个replica还可以提升搜索操作的吞吐量和性能。primary shard(建立索引时一次设置,不能修改,默认5个)。replica shard(随时修改数量,默认1个),默认每个索引10个shard,5个primary shard,5个replica shard,最小的高可用配置是2台服务器




ElasticSearch核心概念 VS 数据库核心概念

ElasticSearch 数据库
Document
Type
Index 数据库


回到顶部