Re:個人的には (#682455) | PostgreSQL 8.0 リリース

「PostgreSQL 8.0 リリース」記事へのコメント

記事ページを表示すべてのコメント取得

検索114コメント Log In/Create an Account

個人的には (スコア:2, 興味深い)

by mikanjapan (23786)

部分ロールバックも嬉しいが、とにかくVACUUMレスにして欲しい。
あとインデックスを含んだpg_restoreの高速化とか…無理か。

#面倒なので、OSごとHDDのミラーリング+イメージで対応してます。
- Re:個人的には (スコア:3, 興味深い)
  
  by bytes (17046)
  
  追記型アーキテクチャである限り、VACUUM レスは難しいだろうなぁ。その代わりに MVCC があったりロールバックセグメントの管理をしなくて良かったりするわけで (最近は Oracle も自動 UNDO 管理が普通のようですけど)、まぁここは設計上のトレードオフだと思って受け入れるしかないのでは。
  
  Oracle でも一つの DB をずっと使ってると行移行とかハイウォーターマークの問題とかいろいろあるわけで、データファイルの定期的なメンテナンスはいずれにせよ必須なのではないか
  - Re:個人的には (スコア:1)
    
    by L.star (163)
    
    drop index→copy→create index ならば常識的な時間で処理できるんだから、内部でそれと同じことをやればいいだけだと思うんだけど…。
    
    それを自動でやると、複数接続から同時にユニーク制約を持ったテーブルにデータを挿入したときに、整合性を保証出
    - Re:個人的には (スコア:1)
      
      by bytes (17046)
      
      > それを自動でやると、複数接続から同時にユニーク制約を持ったテーブルにデータを挿入したときに、整合性を保証出来ません。
      
      確かにおっしゃる通り。
      でも実は、PostgreSQL は DDL もトランザクションに含めることが出来ちゃったりするの
      - Re:個人的には (スコア:1)
        
        by L.star (163)
        
        いいえ、それでも元々データが１件以上入っていた場合破綻します。
        もう一つ上げておきましょう。DROP->COPY->CREATEとした場合としない場合、どっちが早いかはCOPYの量に依存しますが、当然そのシーケンスの中で、ロックを取る前にインデックス再作成した方が早いかどうかを知ることはできません。極論、レコードを１
        
        Re:個人的には (スコア:2, 参考になる)
        
        by bytes (17046)
        
        なんだかディープな話になってますね(笑。お付き合いいただき恐縮です。 > いいえ、それでも元々データが１件以上入っていた場合破綻します。そうでしょうか？ちょっとテストしてみました。 => \d test_table Table "public.test_table" Column | Type | Modifiers ーーーーーーーーーーーーーーーー id | integer | Indexes: "test_table_id_key" unique, btree (id) // unique 制約だとちと面倒なので単なる unique index として用意。 => select * from test_table; id ---- 1 (1 row)
        
        Re:個人的には (スコア:1)
        
        by L.star (163) on 2005年01月21日 21時45分 (#682455) ホームページ
        
        ちゃんとロールバックされてる。
        ああなるほど、トランザクションでくくればデータは見えない＆CREATE INDEXが失敗するので確かに整合性は維持されますね。
        ただ、UNIQUE制約のチェックが、全件insert終了後にしかかけられないため、あまりにもコストがかかりすぎているようですね。結局のところ、絶対に重複がないと確信できる状態でない限りやらない方が良さそうです。
        drop 前に copy されるデータのサイズ等を知ることも可能なはずですから
        データ量を計測したりするコストが馬鹿にならないのでは。
        「index 更新なしの copy」と「新規追加された部分のみ index 追加」
        たぶん、これらはやったところで今のCOPYの方が早いでしょう。なんとなれば、従来のindex付きcopyが「タプル挿入コスト＋インデックスタプル挿入コスト」なのに、インデックス作成を遅らせたところで後で読むコストが増えるだけです。
        まあでも、この種のトランザクションを自動で発行してくれるツールがあればそれはそれで選択肢として良いのかもしれません。高速にコピーできることがあるとはいえ、その間テーブルを完全にロックしてしまうのではっきり言って使い勝手は良くないですが・・・
        
        シェア
        
        親コメント
        
        Re:個人的には (スコア:1)
        
        by bytes (17046) on 2005年01月21日 23時28分 (#682494)
        
        > ああなるほど、トランザクションでくくればデータは見えない＆CREATE INDEXが失敗するので確かに整合性は維持されますね。
        
        ですです。このあたりが「裏技」っぽいなぁと(^^;
        
        > 結局のところ、絶対に重複がないと確信できる状態でない限りやらない方が良さそうです。
        > データ量を計測したりするコストが馬鹿にならないのでは。
        
        いや、おっしゃるとおりです。たぶんいろいろちゃんと考えてみると、「デフォルトの挙動を drop→copy→create に変更する」ことは難しい、という結論になるのでしょうね。
        
        > なんとなれば、従来のindex付きcopyが「タプル挿入コスト＋インデックスタプル挿入コスト」なのに、インデックス作成を遅らせたところで後で読むコストが増えるだけです。
        
        ええ、ふつうに考えるとそのはずなんですけど、今の PostgreSQL の index 付き copy は常軌を逸して遅いです。大量のデータを import する場合などに、index を付けたままの copy と drop→copy→create との間で、100倍くらいの処理時間の差が生じることも普通にありますよね。理論的には読むコストが増えているはずの後者の方が遅くなってもいいはずなのに…(一件ずつインデックスを挿入する、という処理のオーバーヘッドが死ぬほど大きい、ってことかなぁ…という想像をして、「新規追加された部分のみ index 追加」ならそのオーバーヘッドを回避できたりしないかしら、と考えたわけです)。
        
        > まあでも、この種のトランザクションを自動で発行してくれるツールがあればそれはそれで選択肢として良いのかもしれません。高速にコピーできることがあるとはいえ、その間テーブルを完全にロックしてしまうのではっきり言って使い勝手は良くないですが・・・
        
        大量のデータを bulk load する場合って、たいてい一般ユーザからのアクセスは遮断して行うことが多いんじゃないでしょうか。逆にそういう状況を仮定できない場合は確かに非常に使いにくいと思います。
        
        大量のデータを保持しつつも更新は truncate→copy しかないような場合 (参照用 DB と更新用 DB を分けているような場合の参照側) に限れば、同じ構造を持つテーブルを２つ用意して、
        
        1. 裏テーブルを drop index
        2. 裏テーブルを truncate
        3. 裏テーブルに copy
        4. 裏テーブルに create index
        5. 裏と表を swap (ALTER TABLE ～ RENAME TO)
        
        までを一つのトランザクションとなるように処理すれば、表テーブルがロックされる時間は 5. から commit までのごくわずかな時間に抑えられます。ALTER TABLE すらトランザクションに含められる PostgreSQL ならではの裏技ですね。
        
        // ストレージは２倍必要になりますけどね(^^;。
        
        シェア
        
        親コメント
        
        Re:個人的には (スコア:1)
        
        by L.star (163) on 2005年01月22日 11時51分 (#682680) ホームページ
        
        copy付きinsertが遅いというよりcreate indexによる再作成が早いのは、indexが大きくなればなるほど１件挿入のコストが上がる、特にindex tuple作成のwal書き込みの量がかなり多くなるのが原因です。これを回避しようと8.0で一部の状況でindexのwal書き込みをしないというpatchが投げられたのですが、これはPITRなどのWALを前提としたリストア/リカバリ時にindexが壊れるから、という理由で却下されました。
        そんななので、途中からやるなら単に作成をまとめたところで状況は良くなりません。create indexの場合は最初から作るのが前提なので、作成はもっと効率よくできます。うろ覚えですが、いったんソートしてからやっていたような。
        
        ALTER TABLE すらトランザクションに含められる PostgreSQL ならではの裏技ですね。
        むしろこれはトランザクションを含めながらほとんどのDDLがロールバックできないと言う他DBがふがいないと思っています。
        # もちろん、あらゆるものをロールバックできる、というのは決して簡単な問題ではないので、それはトレードオフ何じゃないかな、と思わなくもないですが。
        
        シェア
        
        親コメント
        
        Re:個人的には (スコア:1)
        
        by bytes (17046) on 2005年01月23日 10時34分 (#683077)
        
        > そんななので、途中からやるなら単に作成をまとめたところで状況は良くなりません。
        
        なるほど～。そんな経緯があるのですね。非常に勉強になりました。
        
        > むしろこれはトランザクションを含めながらほとんどのDDLがロールバックできないと言う他DBがふがいないと思っています。
        
        例外の少なさや機能の直行性などに関していえば PostgreSQL は商用 DB を超える部分もありますよね。商用 DB や MySQL などと比べると進化が遅くていらいらする人もいるかもしれませんが、そういった部分こそまさにトレードオフなのかもしれないなぁ、なんてふと思いました。
        
        いろいろ貴重な情報ありがとうございました。　
        
        シェア
        
        親コメント

より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。

PostgreSQL 8.0 リリース More ログイン

「PostgreSQL 8.0 リリース」記事へのコメント

個人的には (スコア:2, 興味深い)

Re:個人的には (スコア:3, 興味深い)

Re:個人的には (スコア:1)

Re:個人的には (スコア:1)

Re:個人的には (スコア:1)

Re:個人的には (スコア:2, 参考になる)

Re:個人的には (スコア:1)

Re:個人的には (スコア:1)

Re:個人的には (スコア:1)

Re:個人的には (スコア:1)

スラド