使用IN与NOT IN时Postgresql的巨大性能差异[英] Postgresql huge performance difference when using IN vs NOT IN

本文是小编为大家收集整理的关于使用IN与NOT IN时Postgresql的巨大性能差异的处理方法,想解了使用IN与NOT IN时Postgresql的巨大性能差异的问题怎么解决?使用IN与NOT IN时Postgresql的巨大性能差异问题的解决办法?那么可以参考本文帮助大家快速定位并解决问题。

问题描述

我有 2 张桌子,"transaksi"和"buku"."transaksi"大约有 250k 行,buku 大约有 170k 行.两个表都有名为"k999a"的列,并且两个表都没有使用索引.现在我检查这两条语句.

声明 1:

explain select k999a from transaksi where k999a not in (select k999a from buku);

语句 1 输出:

 Seq Scan on transaksi  (cost=0.00..721109017.46 rows=125426 width=9)
   Filter: (NOT (SubPlan 1))
   SubPlan 1
     ->  Materialize  (cost=0.00..5321.60 rows=171040 width=8)
           ->  Seq Scan on buku  (cost=0.00..3797.40 rows=171040 width=8)

声明 2:

explain select k999a from transaksi where k999a in (select k999a from buku);

语句 2 输出:

Hash Semi Join  (cost=6604.40..22664.82 rows=250853 width=9)
   Hash Cond: (transaksi.k999a = buku.k999a)
   ->  Seq Scan on transaksi  (cost=0.00..6356.53 rows=250853 width=9)
   ->  Hash  (cost=3797.40..3797.40 rows=171040 width=8)
         ->  Seq Scan on buku  (cost=0.00..3797.40 rows=171040 width=8)

为什么在NOT IN查询中,postgresql做loop join,使得查询耗时较长?

PS:Windows 10 上的 postgresql 版本 9.6.1

推荐答案

这是意料之中的.改用 WHERE NOT EXISTS 可能会获得更好的性能:

SELECT k999a
FROM transaksi
WHERE NOT EXISTS (
    SELECT 1 FROM buku WHERE buku.k999a = transaksi.k999a LIMIT 1
);

这里很好地解释了每种方法的原因:https://explainextended.com/2009/09/16/not-in-vs-not-exists-vs-left-join-is-null-postgresql/

本文地址:https://www.itbaoku.cn/post/1764095.html