発狂するAzureと私

ーーわたしもうぢき駄目になる…
意識を襲ふ宿命の鬼にさらはれて
のがれる途無き魂との別離
その不可抗の予感
ーーわたしもうぢき駄目になる…
智恵子抄・山麓の二人

5月1日に頭がおかしくなってしまったAzure課金情報システムは、2日近く気を失った後、復活しました。ねぼけまなこで出してきた課金情報はメチャクチャで笑えるものでしたが、その後正気に戻って突きつけてきた請求は驚愕するもので、全く笑えないものでした。

第一の問題は、5/1には取り外していたと記憶している超高額データディスク(premium SSD, 555円/日)に課金され続けていることです。実際には、VMから取り外せなかったため、VMごと停止したのですが。たしかに、その作業を行ったのは5月1日の零時零分零秒を過ぎていた可能性が高く(操作ログをどこかで見つけたいと思います)、1日に一瞬でもVMに接続されれば、1日分の課金が発生するということかも知れません。5/1のどこかの時点には当該VMが停止していたのは確かなので、まさかとは思いますが、存在するだけで課金される事が考えられなくもありません。5/2ぶんの請求はまだ表示されないので確認できませんが、恐ろしいので今、VMごと削除しました(ディスクだけ削除することはできません。全くアクセスしたことが無くても)。まさか亡霊にまで課金するまいな Azure(^ー^;

ともかく、この事態への対処が遅れてしまったのは、Azureの課金情報システムが停止していたため、状況を確認できなかったからです。これって、損害賠償できないものだろうか?まあ、課金方式をちゃんと理解せずに契約した(ボタンを押した)あなたが悪い、解約方式を探し出せなかったあなたがが悪いと言われそうだけど…

それでも、もしこの課金情報システムを(とても面白いからと)使ってなかったら、後で請求書を見て呆然とすることになったことでしょう。そうならずに済んだのがせめてもの救いです。というかそもそも、これまでAzureの請求書とかほとんど気にした事ないので、数ヶ月も気がつかずにドクドクとお金がAzureに流れていた危険さえあったわけです。コスト解析さん、ありがとう!

これで、この恐怖のデータディスクの件は片付いたと思います。

第二の問題は、単価がとても低い(1時間2円未満)と思っていたVM(bz1, ¥1.X/時間)のコストとして、154円が請求されていることです。このVMが1日回して48円以下だということは、前日に上記のデータディスクをつけて作成し動かしたマシンでわかっていました。まさか超高額データディスクとの抱き合わせの場合の割引価格じゃあるまいな?と、もともとMSを信用していない私のAzure不信感が募るわけです。

それで、グラフ表示ではなく、もっと詳細な内訳の見れるテーブル表示にして、当該VMをパカっと開くと、VM料金¥32.60, データ通信料金 out¥121.24也、と出ました。なるほど、通信代はVM代に分類されるわけか。それなら納得です。まあ、引越しやら実験やらで大量にデータ転送しましたからね。引っ越し代金121円、リーズナブルです。しかしなんで transfer "out" なのか。ディスクに書き込みを行った分じゃ無いかと推測します。VMから見ての out なのでしょう。ディスクへの書き込みの単価は確か、高かったし。過去の運用実績から、平常運用時の通信代は1日20円〜30円程度と見込まれます。

意外だったのは、タダだと思っていた固定IP代金が¥5.24になっていることでした。マシンを構成する時、オプションを選ぶ時、チェックしたりラジオを選んだ時に「それにはこれこれの料金を頂戴します」と教えてくれるべきだろうと、つくづく思われます。ネットでPCとかカスタマイズして買うときには、オプションを変えるたびに、その場で、いまの構成だとおいくらです、って言ってくれますよね。Azureもあのようにあって欲しいものです。そのようにすることに技術的に大きな困難があるとも思えません。完璧な警告やアドバイスを求めているわけでもありません。わざとやってないとしか思えないわけです。金にならない客や素人に使わせる気が無いなら、いっそもっと分かりにくく作るべきでしょう。今の構成時ユーザインタフェースは、詐欺まがいに感じます。

そもそも、1日2円のVMに、1日500円のディスクを付けるなんて、まず有り得ません。振り込み詐欺防止でやっているように、作成時に警告を出すべきですし、そもそもそんな選択肢を提示すべきではありません!ハァハァ

ゲームのつもりでやってても、つい熱くなりますね。一事が万事だからでもあります。Azureがとっても面白いサービスだと思っているからでもあります。

ともあれ、そんなわけで、1日100円の目標は達成できそうです。やれやれ。

2020-0503 sato@izmoh

delegate9.org 実運用に使うことになった仮想マシンの1日分料金明細(移転作業日)

設立1/12周年ふりかえり

ーー i社の一室(しかない)の会議卓(一見こたつのように見える)で社員が設立の1ヶ月を振り返っている ーー

社長:おかげさまで無事1/12周年を迎えました。

経理:対外的には何事もなかったですね。存在自体、知られてないです。

社長:上旬は設立関係の作業が結構ありました。やれ登記だ届出だ申請だと。結果、無事に保険証、法人口座も出来てめでたしです。この世界、未だに紙ベースが多いので、ヤマダで買って帰ったエプソンの複合機が大活躍でした。

経理:この複合機はわが社の設備第1号でした。2万8千円という価格も、あの素晴らしい機能と使いやすさを考えるに、極めてリーズナブルです。ただ今後、どのくらい使いますことやら…

社長:プリンタに限らず、これまで生きて来て見た機械の中で、コスパ・完成度という意味でこの複合機に勝るものを見た事がありませんよ。私の世代から見れば、ほとんど夢の世界のようです。感動した!エプソン最高デーッス!ハァハァ

経理:設備第2号はLenovoのデスクトップPCでした。10万円を切る消耗品で、コンパクト、静音、低消費電力、i5、SSD、Windows 10 Pro 搭載、良い買い物と思います。

基盤:4月上旬末にこれを会社の中央コンピュータに据え、中旬に開通した1Gbitインターネット回線、WordPressレンタルサーバと合わせて、インフラの整備は一段落したかと思いました。

社長:それね。設立趣意書にも書いたんですが、現状のIT応用のあり方にも、ユーザインタフェースにも、個人的にすごく不満を持っています。特にユーザサイド、フロントエンド側で、その辺りにありそうなニッチに切り込もうというのが現在うちの方向性です。世の中Windowsが主流ですから、巻かれるしかないかなと。それで中旬はWindows上で新技術の開発作業を始めたんですが、やはりとにかく環境として使いにくい、しかも遅い。これは精神面だけでなく身体にも悪い、生産性を著しく毀損するなと。特にVCのコンパイルが遅すぎて、ついにブチ切れました。ぐぐって見ると、シェア的に、Mac も結構頑張っているなという事を知ったのです。それならMacにしようと。速攻で。

経理:開発しているというソレ、売れそうですか?入金口座の準備を急がないと…

社長:何事においても可能性というのは常に存在しますから。イチオシと考えている新技術のコア部分は2日間で出来た(感動した!)のですが、外回り、特にフロントエンドとどう繋ぐかがカギで、そのために色々な製品の調査と試用を行ってきました。もちろん、DeleGateとの組み合わせについても試行しています。この技術は、現在行っている基盤整備とも深く関わっています。たとえばギガビットネットを活かす使い方とか。MacでもWindowsでも同じに利用できるための規約とか。第1四半期中には何らかの形で製品出荷できると良いなと。

経理:MacMini 9万1千円・消耗品。機能・性能はLenovo機相当。妥当な選択と思います。というか、当社の経費面からMacならばこの一択ですね。

社長:夜にアップルストアでポチって、翌々日には到着ですから、時間的ロスがありません。これは開発の士気を損ねないためにも、非常に重要な事です。そしてこのコンパクトさ。Lenovo機でも十分小さいと思っていますが、MacMini は別世界です。OSが最新というのもうれしいですね。カタリナビットという選手も記憶にあります。私の手持ちのMacはOSが何年も前にサポート切れになった古いやつばかりですから… ともかく、VCではポツリポツリとしか進まなかったコンパイルが、Macでは飛ぶように進んでくれて大よろこびです。気持ちよく開発がススム君。

経理:この他には、備品として1万円のUPS。電子証明書、ソフトも何件か購入されました。加えて、随分多数のドメイン名を所有されています。中には、当社との関係の薄そうな、スポーツ選手名らしきものも有ります…

社長:ドメイン名保持は投資でもあり、リスク対策でもあり、福利厚生の一環でもあります。何年か前、私が所有していた趣味のドメイン名の更新を忘れて失効したのですが、再取得しようとしたら60万円で売られててびっくりしましたよ。スポーツ選手の偽造サインというのは良くある問題ですが、これだって、選手の直筆サイン色紙の上に、ファンの宛名で電子署名して届けてくれたら、ファンはどれだけ喜ぶだろうし、社会悪の退治にもなります。まあ、うちにそういうサービスをできるような体力は無いと思いますけどね。

経理:ソフトウェアのサブスクリプションについては、Acrobatの月間2千円は、MS Office の1千円と比較して割高に感じるのですが。

社長:正確にはAcrobatは月額1,700円くらいです。それで、うちで開発中の技術のひとつでは、PDFが重要な基盤です。きょうび全ての文書形式はPDFに変換できます。まあ印刷できるものはPDFになるわけです。そして電子署名技術はPDFを基盤として普及しています。電子定款だってPDFです。ミタ目とメタ情報をセットで表現する標準形式として確立しているわけです。PDF以外で電子署名されているのは、メールのS/MIMEくらいなものです。まあ私は、PDFではできないことをS/MIMEでやろうと画策もしているわけですがそれはさておき。それで、PDFの加工や署名を行うツールとしてAcrobatを超えるものは、現在この世に有りません。要するに一択なのです。それを言うなら Office 文書の形式も標準ですが、編集ツールがMSのOfficeである必要は必ずしも無いです。その上、AcrobatはOfficeとはユーザ数・売れる数の桁が違うのですから、あの価格設定は妥当と思います。ただし、元をとるためにはPDFに電子署名しまくることです(笑)

基盤:インフラの整備ですが、DeleGateの動態保存展示用のサイトを移転しました。社長がAzure上で運用してきた仮想マシンにはこれまで1月あたり約1万円が支出されてましたが、これを月3千円程度に圧縮できる見込みです。これは、Azureが当初提供していたもの(MSはクラシックと称している)と同等のスペックの仮想マシンを、1/3 の価格で提供するようになったためです。安価ですが、性能は同等ですので、これを用いた当社の対外サービスの品質は低下しません。

社長:移転上の技術的な問題からの緊急避難措置でしたが、これを機にドメイン名も delegate9.org に移転したのはよかったと思います。

経理:Azureのサブスクリクションは従量課金を選ばれましたが、本当に3千円に収まりますか?あと、WordPressのレンタルサーバは月1千円ですが、それに比べてAzureの3千円は妥当なのでしょうか?

社長:それと、従量っていうからには、CPU負荷とかによって料金が読めないのでは?

基盤:「従量」というのはやや語弊があって、ノンストップ運転をするサーバにおいてはほぼ「定額」と言えます。これは、主な課金の要素が「実際に使用した時間の量に従う」課金方式をとっている、つまり時間単価方式だからです。ですのでノンストップサーバでは常にマックス料金になります。まあ、月によって日数が変わりますから、西向く侍を含む課金期間ではトータル額が少なくなりますね。

社長:課金の要素とは?

基盤:課金される対象は主に3つの要素です。第1の要素は仮想マシン(VM)で、これが稼働時間あたり課金です。つまり電源が入っていれば1、切ってあればゼロ、です。内部でどういう負荷がかかっているかとか、そもそもCPUが動いているとか止まっているとかは影響しません。第2の要素は、CPUに付随する「ストレージ 」、つまりディスクです。これは容量あたり課金です。3つめの要素は、通信にかかる料金です。これは通信量あたりの課金なので、使われ方による、CPUがどんなIP通信やディスクI/O をするかによる、いわゆる従量です。ですのでこの部分は、ノンストップ運転する場合に、OSやサーバの運用の仕方によって、課金を調整できる余地とも言えます。あと、外部から課金嫌がらせアタックされたら嫌ですが、そもそもの回線速度がたいしたことないので。

社長:それで私はいったい毎月1万円を何に払っていたのだろう?

基盤:調べたところ、過去のdelegate.orgサーバ仮想マシンの課金のうちわけは、VMが6以上、ディスクが4未満、通信が1未満。そんな比率でした。ノンストップ運転で通信量の変動もあまりなく、結果毎月の課金はほぼ一定であった、ということです。
ただしこれは、これまでの「クラシック」タイプの課金分類でして、現行のニュータイプでは、仮想マシンを構成する部品(リソース)がもっと細かに分かれていて、課金されます。ですが、上の3つの要素の課金が支配的であることには変わりはありません。

基盤:詳細な今後のAzureの従量課金の見込みについてですが、その課金情報提供システムが、うちが引っ越しを終えたちょうどその日から2日間ばかり麻痺してしまい、先ほど復活しましたが発狂している状態でして(笑)、確たる予想はできません。参考までに、次回、5月11日における請求額ですが、麻痺する前は利用済7千5百円、予想1万2千円と表示していました。それが現在は利用済1,441円、予想1,989円と出ています(爆笑)。うちが今回新たに作った仮想マシンについての課金情報も収集できていない模様で、麻痺前には5月1日分900円以上と表示していたものを、現在は28.54円と表示しています。移行前の仮想マシンにつきましても、麻痺前は日額270円前後でしたが、現在は70円前後と表示されています。既に確定している料金を予告なく割り引くとは考えられないので、課金単価情報とかにエラーが生じているのではないかと推測します。

社長:うちみたんな塵芥には笑い話だけど、大口ユーザは大混乱してるかもね。

基盤:そういう状況ですので、現時点では従量課金の予測ははっきりしません。課金システムが壊れているらしく、課金データのダウンロード(エクスポート)も壊れています。ですが、はっきりしていることは、移行先のニュー仮想マシンではそもそもの従量課金単価が低くなる一方、処理能力の低下はほぼ無く、負荷も増えるとは考えにくい。なのでシンプルに、単価が低くなった通りの課金になると予測しています。
 それと、従量課金ではなくて、1年または3年固定での「割引」課金もありますが、あれはうちのような最底辺のサーバではなく、並の下以上のサーバに適用される割引でして、最低のプランでも月額相当で1万円程度になります。ですので、この選択肢はありません。まあ、この引っ越しで従量課金を大幅減量できると想定してですけど。

経理:WordPressサーバとの比較についてはどうでしょうか?

基盤:その2つのサーバは、性格が全く異なるというか、真逆なので、同じ物差しで比較するのは難しいです。また、どちらか一方だけに済まそうとすると、うちが対外的に提供するサービスレベルが低下し、運用に掛かるコストも高くなります。どちらか一方といいましても、WordPressサーバは対外的にはWordPressでウェブサービスする機能しかありませんから、それ以外のサービスも行いたいなら汎用の仮想マシンが一択です。つまり、従来の delegate.org の形になりますが、これはウェブ以外の何にでも利用できる一方、単純なウェブサーバ機能の維持も自力で行う必要があり、その運用コストもリスクも高くなります。
そいうことで今後は、WordPress専用サーバが必須で1,000円/月、Azure仮想マシンも必須で3,000円/月、がベストミックスと思います。2つを合わせた費用はこれまでのの50%以下。それで能力と利便性は少なく見積もっても、これまでより50%増し。そんな感じです。

社長:うーん、月5千円以上の節約とは、我が社においては大成果ですね。昔のサーバの整理もついてスッキリしました。それはそうとオレ、ここ1週間以上忙しくて飲みに行けなかったから、5万円くらい節約できた上に健康アップだよwww

経理:…

2020-0503 sato@izmoh

HTTPSをリバースプロキシ

会社のほうのサイトがあまりに閑散としているので、ロボットさん達だけは大勢来てくれる delegate9.org サイトから誘致しようと考えました。既にリンクは貼ってありましたが、ロボットはほとんどそれを辿ってくれません。別のサイトはターゲットじゃないからでしょうか。

それで、会社のサイトのコンテンツを http://delegate9.org の一部であるように見せればどうだろう?ということで、リバースプロキシしてみることにしました。

会社のサイトは、設立時や銀行の審査などもあり、今後公告にも使う予定なので、HTTPSにしてあります。なのでこれをマウントするのは、HTTPよりは、ちょっと難しいのでは。そう思ったので、まず実験的に会社のサイトのSSLを外してみることにしました。

やろうとすると、XSOnamaeの管理コンソールが、それをやると何が起きても知らんぞみたいな警告してくるのですが、だってSSLを外すだけじゃん。だったらHTTPからHTTPSに切り替える時だって警告しろよな。余計なお世話だわいと、やってしまいまいたところ… こんな事になっちゃいました↓

重大インシデント発生 / 業務継続性・レビュテーションの危機

こ、これはまずい。会社の信用に関わる(笑)。会社のサイトで遊んだ、いや実験したのはまずかったと反省しつつ、急いでSSLに戻す処置をしたのですが、これがまた反映されるのに数分以上かかるわけです。一体何をやっているのやらXSOnamae… 遅延でもかませてるんでしょうか?

それで心を改め、DeleGateでHTTPSサーバをマウントする方法を思い出そうとしたり、マニュアルを読んだりしたのですが、どうもよくわかりません。マウントポイントごとに設定できたような記憶があるのですが… 単なる MOUNT="/xxx/* https://xxx/*" という設定だけではダメなのです(そう出来てしかるべきなのに…)

そういえば、ターゲットがhttpsの時はSSLフィルターを噛ませる、という明示的な設定が必要でした。ですが、やり方を思い出せません(確かCMAPとかなんとか…)。仕方なく、ローカルに HTTP → HTTPS 変換をやるプロキシを立てて一段噛ませることにしました。

さてどうかな、と思ってブラウザから見てみたところ、つながらない。なんでだと思ってログを見ると、SSLプロトコルのレベルで却下されているようです。そういやこいつが使ってるOpenSSLライブラリは古いしなと思い、わざわざ足下に置いておいた古いライブラリを消し、もともとUbuntuに備え付けのデフォのライブラリを探し当てるようにしたら… つながりました↓

httpsサーバ(WordPress/nginx)のリバースプロキシ(マウント)成功

おー、なんだかシュール(笑)。ブログやら検索やらのリンクもつついて見ましたが、問題ないようです。まあ、スクリプトでURLを合成されたりしなければ、URLの変換は難しいことではないですからね。少なくとも私の使っているWordPressのテーマやウィジェットはすごく素朴なので、そんな芸当をしそうにないです。

ということもあり、サーバのSSLの有り無しで影響をうけるような話では無いと思うので、XSOnamaeのサーバで何を問題にしているのかピンと来ません。まあアンカーにフル表記のURLを使っているからということなのかなとは思いますが。

delegate.org では長い間、HTTPSサーバをHTTPクライアントにリバースプロキシする事はずっとやってて問題なかったと思います。まあ、オレオレ証明書で怒られてはいますが。最近はhttpsでないとブラウザにひどいレッテルを貼られるのにも気付きました。ほぼ万能証明書は買ってあるので、活用しないと…

2020-0502 sato@izmoh


コストカッター

夢はトランクに潜んで国外逃亡することです(笑)

delegate.org のAzure仮想マシンは月1万円ほどかかっていましたが、delegate9.orgでは月3,000円、つまり1日100円を目標とします。単純計算上はそれでイケるはず。以下は、昨日までの移転作業に伴う日別従量料金の遷移です↓

引っ越しに費用がかかるのは仕方がありません。その間、新旧のマシンを並行して動かしてもいます。しかしこの小豆色の部分は何?とグラフの凡例を見たところ、新しい仮想マシンを作る時に付けた、1TBのプレミアムSSDとやらでした。全く使ってないのに(そもそもマウントすらしていなのに)1日555円かかるようです。合わせて1,000円以上無駄にしました。

仮想マシンを作る時には、(実はオプションであり、無くても動くという)データ用のディスクにいくらかかるのか、MSは表示してこないのです。仮想マシンの構成情報入力後「検証」とやらをして、しれっと(仮想マシン代は)月1,200円くらいですと見積もりを表示してくるから、つい気を許して(仮想マシンの)「作成」ボタンを押してしまう。やはりMSには油断なりません。

引っ越し終えてやれやれと思っていたところで、この棒を見てぎょっとして、ディスクを外そうとしたのですが「ディスクの増量はできるけど減量はできません」と来た。減量じゃ無くて削除したいんだけど…可不可も不明。しかたが無いからまた新たに仮想マシンを作って、引っ越しのやり直しでた。既に準備はできていましたから単純なやり直し作業とは言え、データの転送などに2〜3時間はかかってしまうのです。その上新マシンのIPアドレスをDNSに設定し直すと、これが伝わり終えるのにも時間がかかる。

引っ越しをやり直して、やれやれ、さあどうなるかなと息を詰めてAzureのコスト分析を眺めていたのですが、どうしたことか、新しく追加した仮想マシン(と付随リソース)の料金がいっこうに表示されません。リソース名を指名して表示させようとしても「この期間の使用状況は報告されていません」と来る(誰だか知らないけどとっとと報告しろよ!笑)

妙な話です。それ以前に作った仮想マシン等のリソースについては、5月1日の分も表示されるのですから。1日の途中でも頻繁に更新されていたのに。新仮想マシンの5月1日の料金を早く知りたいのですが…まさかこのまま65円てわけじゃあ無いでしょう。どうも月末のシメ?か何かでか、料金が不自然なことになる現象が3月末に見られましたが、今回は私にとってはタイミングが悪すぎる…

あの1TB SSDの息の根を止められたのか、いまいち確信が無いのです。

上のグラフの右側の薄緑の棒は、MSに都合のよさそうな「予測」ですが、これを大きく裏切って鼻をあかしてやりたいものです。

2020-0501 sato@izmoh


本日引っ越し決行

無駄な出費を一刻も早く止めるべく、delegate.org の旧サーバを停止しました。新ドメイン delegate9.org への引っ越し案内が Google と Yahoo の検索でヒットするようになったので、もういいかなと。Google のキャッシュでは以下のように表示されます。よい卒業記念写真になりました。

すでにかなり昔からGoogleしか使わないので、Yahooでもキャッシュのサービスをしているというのは知りませんでしたが、こんな感じでした↓。まがまがしく「キャッシュ」と書いているのは対抗心でしょうか(笑)。いつキャッシュしたのか表示しないのは、何かの配慮なのでしょうか??

Goolgleのキャッシュではカエルのインラインイメージが表示されていますが、これはただ私のブラウザが、まだそれをキャッシュしているためです。ではなぜYahooのほうではそれが表示されず壊れているでしょう?両者ともキャッシュの説明に、「http://www.delegate.org/のキャッシュです」と言っていますが、実はそのURLは http://www.delegate.org/delegate/ へのリダイレクションになっています。その index.shtml の中のソースにはカエルのインラインイメージをこう書いています。

IMG ALT=DeleGateIcon SRC=DeleGateLogoTrans.gif

Googleではこれがきちんと、/delegate/DeleGateLogo... となりますが、Yahoo では /DeleGateLogo... になってしまっているわけです。そんなリソースはありませんから、表示できなくて壊れる。つまり、Yahoo のキャッシュは、/ が /delegate/ にリダイレクション(302 Moved)される前のベースURLを使ってしまっている。バグですよね。

まあ、こういうこともあるので、小さなインラインイメージは data:img URLで埋め込みたいところです。

なんで後追いなのに、こういう基本的なところで先駆者に劣るのか、わかりません。キャッシュ日付の件だけでなく、Google では案内の中に「フルバージョン|テキストのみのバージョン|ソースを表示」とリンクがあり、簡潔にして完備しています。こういう機能を使いそうなユーザ層を考えれば妥当な機能提供だと思います。

ところで、こういう魚拓は感傷的な記念写真に留まらず、「その時にはその文書が存在した」という証明として有益です。ただし、Googleはそれに責任も持たないでしょうし、キャッシュ保存期間もあまり長くないようです。(3月末まで存在した旧「公式サイト」delegate.hpcc.jpのGoogleキャッシュも、今はほぼ消えました。)

まあ、プライバシーの問題とかで速く消したい人のほうが多いでしょう。でも、どこだったか忘れましたが、海外ですごい古い版の魚拓まで保持しているサイトを見たことがありますから、利用できるかも知れません。まじめに存在証明をしたかったら、タイムスタンプ付き電子署名をしなくてはいけません。電子署名付きでどこかに永久保存されてれば完璧ですね。まあ、証明できるのは、ベースになる静的テキスト部分だけでしょうけど。

それで気になったので、Googleの画像検索を見に行ったのですが、やはり画像の「キャッシュ」機能は無いようでした。

ウェブロボットがHTTPのリダイレクションを追うか否かは、ロボットの気性や目的を表していると思います。私自身も全文検索エンジン用のロボットを作った時に、「そのサイト以外まで追うか」というところで少し考えましたが、どこまで追うかという段数を指定できるようにしました。これは、その文書と関連するページをあぶりだすシンプルな方法だと思っています。

それで、今回引っ越しの際に数時間行った移転先へのリダイレクションを、ロボットが追うかどうか、観察すると興味深い状況が見られました。「ドメイン名が逆引きできないところから来るロボットはリダイレクションを追わない」というものです。そういった素性の知れないロボットの来訪目的は、クロールした結果を検索サイトに載せるとかではなく、ターゲットとしたサイトの中身を探るというような事なんだろうなと思いました。

今回の引っ越しのおかげで、出来の悪い荒らしロボットはしばらく来ないと期待されます。おかげで、大変静かになり(笑)、アクセスログを見る気になりました。久しぶりに sed 's/ .*//' | sort | uniq -c | sort です。原始的ですねぇ。すると、大変懐かしいロボットさんたちばかり来てました。googlebot.com, msn.com, yandex.com、おひさしぶりでした。ちっ、your-server.de も来てやがる… 一方、ほとんど人間は来てないようでした(笑)

やくざなロボットには来て欲しくないですが、立派なロボットさんは歓迎です。主に検索サイトのロボットですが、もはや検索サイトのシェアはGoogleとYahooを合わせると90%以上、日本に限れば99%以上になっているそうです[日本・世界の検索エンジンシェア]。そういう意味では、もうこの両社、とMSN以外のロボットはお断りしても良い。

人間様に迷惑をかけずにロボットだけを撃退しようと、過去、いろんな工夫をしましたが、結局そのためにかなりの労力も、コンピュータのコストもかかりました。人間様がめったに来なくなった今としては、優良ロボットだけを顔パスでお通しして、あとは「私はロボットではありません」ボタンで撃退すれば良いかなと思います。

アドレス出自で優良かどうかをスクリーニングする(ホワイト国って言いましたっけ)のは簡単ですが、もしまじめな無名ロボットさんが来た時に門前払いして良いものか。どうやら、振る舞いを追跡観察することで、多少そのあたりを推定できるような気がしています。

あとは、この検問のためにアプリケーションレベルで判定していると、結局コンピュータに負担をかけ、それなりの費用がかかってしまいます。なにせ従量課金なんで。とすれば、ネットワークインタフェースレベルで、IPアドレスレベルで塞いでしまうことです。できればドメイン名でも塞ぎたいところですが、IPルータとはレイヤが違うので無理。

こいつウザいから門前い払いしよう、という判断はDeleGateでもやっています。その結果(IPアドレスとマスク)をルータなりに、機械的に設定すれば良いわけです。Azureでそれをやる場合、「ネットワークインタフェース」というリソースの設定用APIをAzureが公開しているかということが問題になりますが、まあ人間もウェブブラウザからやってるんで、HTTPでできることは確かです。あとは料金。まさか、フィルターのテーブルサイズに従量課金とかしてないよねAzure…

とは言え、そういう明らかに必要で金になりそうなところをMSが放っておくはずはありません。きっと、それに相当する頭のよいリソースを提供している事でしょう。従量課金で X-D

2020-0501 sato@izmoh