MySQL ngram全文解析器-之路教程

MySQL ngram全文解析器简介

内置的MySQL全文语法分析器使用空格确定单词的开头和结尾。
对于表意语言(例如中文，日文和韩文)，全文分析器有一个局限性，即这些表意语言不使用单词定界符。

为了解决这个问题，MySQL提供了ngram全文解析器。
从版本5.7.6开始，MySQL包含ngram全文语法分析器作为内置服务器插件，这意味着MySQL在MySQL数据库服务器启动时自动加载此插件。
MySQL支持InnoDB和MyISAM存储引擎的ngram全文语法分析器。

根据定义，ngram是来自文本序列的多个字符的连续序列。
ngram全文语法分析器的主要功能是将文本序列标记为n个字符的连续序列。

下面说明了ngram全文语法分析器如何为n的不同值标记文本序列：

n = 1: 'm','y','s','q','l'
n = 2: 'my', 'ys', 'sq','ql' 
n = 3: 'mys', 'ysq', 'sql'
n = 4: 'mysq', 'ysql'
n = 5: 'mysql'

使用ngram解析器创建FULLTEXT索引

若要创建使用ngram全文语法分析器的FULLTEXT索引，请在CREATE TABLE，ALTER TABLE或CREATE INDEX语句中添加WITH PARSER ngram。

考虑以下示例。

首先，创建新的posts表，并将title和body列添加到使用ngram全文分析器的FULLTEXT索引中。

DROP TABLE IF EXISTS posts;

CREATE TABLE posts (
    id INT PRIMARY KEY AUTO_INCREMENT,
    title VARCHAR(255),
    body TEXT,
    FULLTEXT ( title , body ) WITH PARSER NGRAM
)  ENGINE=INNODB CHARACTER SET UTF8MB4;

其次，使用SET NAMES语句将字符集设置为utf8mb4。

SET NAMES utf8mb4;

第三，在posts表中插入新行：

INSERT INTO posts(title,body)
VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),
      ('MySQL教程','学习MySQL快速，简单和有趣');

第四，要查看ngram如何标记文本，请使用以下语句：

SET GLOBAL innodb_ft_aux_table="test/posts";

SELECT 
    * 
FROM 
    information_schema.innodb_ft_index_cache
ORDER BY 
    doc_id , 
    position;

该查询对于故障排除很有用。
例如，如果单词不包含在搜索结果中，则该单词可能因为其为停用词或可能是其他原因而未编入索引。

用ngram处理搜索结果

自然语言模式

在"自然语言模式"搜索中，搜索词将转换为ngram值的并集。
假设令牌大小为2或bigram，则将搜索词mysql转换为我的ys sq和ql。

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body)  
    AGAINST ('简单和有趣' IN natural language MODE);

布尔模式

在BOOLEAN MODE搜索中，搜索词将转换为ngram短语搜索。
例如：

SELECT 
    *
FROM
    posts
WHERE
    MATCH (title , body) 
    AGAINST ('简单和有趣' IN BOOLEAN MODE);

ngram通配符搜索

ngram FULLTEXT索引仅包含ngram，因此它不知道术语的开头。
当您执行通配符搜索时，它可能会返回意外的结果。

以下规则适用于使用ngram FULLTEXT搜索索引的通配符搜索：

如果通配符中的前缀词短于ngram令牌大小，则查询将返回所有包含以前缀词开头的ngram令牌的文档。
例如：

SELECT 
    id, 
    title, 
    body
FROM
    posts
WHERE
    MATCH (title , body) 
    AGAINST ('my*' );

如果通配符中的前缀词长于ngram令牌大小，则MySQL会将前缀词转换为ngram短语，并忽略通配符运算符。
请参见以下示例：

SELECT 
    id, 
    title, 
    body
FROM
    posts
WHERE
    MATCH (title , body) 
    AGAINST ('mysqld*' );

在此示例中，术语" mysqld"被转换为ngram短语：" my"，" ys"，" sq"，" ql"，" ld"，因此将返回包含这些短语之一的所有文档。

处理停用词

ngram解析器排除在停用词列表中包含停用词的标记。
例如，假设ngram_token_size为2，并且文档包含" abc"。
ngram解析器会将文档标记为" ab"和" bc"。
如果" b"是停用词，则ngram将同时排除" ab"和" bc"，因为它们包含" b"。

请注意，如果语言不是英语，则必须定义自己的停用词列表。
此外，长度大于ngram_token_size的停用词将被忽略。

在本教程中，您学习了如何使用MySQL ngram全文分析器来处理表意语言的全文搜索。

ngram解析器短语搜索

MySQL将短语搜索转换为ngram短语搜索。
例如，" abc"被转换为" ab bc"，它返回包含" ab bc"和" abc"的文档。

以下示例显示了您在职位表中搜索短语搜索：

SELECT 
    id, title, body
FROM
    posts
WHERE
    MATCH (title , body) AGAINST ('搜索' );

MySQL ngram全文解析器

简介：在本教程中，您将学习如何使用MySQL ngram全文分析器来支持对表意语言(例如中文，日语和韩语)的全文搜索。

设置ngram令牌大小

如您所见，前面的示例中，ngram中的令牌大小(n)默认为2。
要更改令牌大小，请使用ngram_token_size配置选项，其值在1到10之间。

请注意，较小的令牌大小会使全文本搜索索引较小，并使您可以更快地进行搜索。

由于ngram_token_size是只读变量，因此只能使用两个选项设置其值：

首先，在启动字符串中：

mysqld --ngram_token_size=1

二，在配置文件中：

[mysqld]
ngram_token_size=1

日期：2019-11-20 08:52:21 来源：oir作者：oir

←MySQL查询扩展

MySQL日期函数→