在PostgreSQL中防止专有名词的干化?[英] Prevent stemming of proper nouns in PostgreSQL?

本文是小编为大家收集整理的关于在PostgreSQL中防止专有名词的干化?的处理方法,想解了在PostgreSQL中防止专有名词的干化?的问题怎么解决?在PostgreSQL中防止专有名词的干化?问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

出于对将标记嵌入词位的热情,PostgreSQL 全文搜索引擎也减少了专有名词.例如:

essais=> select to_tsquery('english', 'bortzmeyer');
to_tsquery 
------------
'bortzmey'

essais=> select to_tsquery('english', 'balling');
to_tsquery 
------------
'ball'
(1 row)

至少对于第一个,我确定它不在英语词典中!避免这种虚假词干的更好方法是什么?

推荐答案

词干算法的重点是不是将每个单词还原为适当的词干;目标是将相似的单词减少为常见的词干形式.目标通常不是得到一个可以呈现给用户的词:即使"balling"和"ball"都会产生"kjebnkkekaa",算法是正确的,因为它仍然认为"balling"和"ball"通常是相关的同样的事情.

还要注意,没有任何词干算法是绝对完美的,更多信息查找波特词干算法

本文地址:https://www.itbaoku.cn/post/1763975.html