rkgkpyrk

^q^

新規性の無い話。

僕自身にはあまりその自覚が無いのだけれど、一応ましんらーにんぐのProfessionalとして弊チームに所属していることになっている。ちなみにprofessionalには、『専門職の』、『(技術が高度で)専門的な』などの他にも『(悪い意味で) 商売にする』と言った意味もあるそうなので、職業として何らかのラベルがついているが、そのラベルが実際の業務とは大きく乖離しているという人たちも、きっとそのラベルがついていることには何らかの(往々にして悪い)意味があると思うので、胸を張って積極的にProfessionalを名乗ってほしい。  

話が大きくそれてしまったけれど、まぁ一応そういうことになっているので、今日は珍しく手元にあるデータの整理をしていた。目視で判断出来る程度の簡単なデータ分類をしたかったのだけれど、数がちょっと多かったのでscikit-learn氏に任せてみることにした。スクリプトを手癖でちゃちゃっと書いて色々試してみたものの、概ね上手く分けられているのだけれど痒いところに手が届かない。使ってみた各々の手法のお気持ちを考えると、もちろんそれぞれの結果はとても妥当で、うまく行かないケースを眺めてると、どちらかというとデータ側に僕の見落としていた振る舞いがあった感じ。結局その辺の結果を踏まえてルールベースで分類してみたら綺麗に所望の結果が得られてめでたしめでたし。

ましんらーにんぐ概念、汎用的というよりは飛び道具的だなと思うことが時々あって、特にscikit-learnなどで各種アルゴリズムがお手軽に使える昨今、手法ありきでおかしなことをしてしまったり、結果的に簡単なタスクに対して遠回りをしてしまったりすることが往々にしてある気がする(蛇足だけれど、先輩にこの話をしたら『F1で公道を走るようなもの』とそれっぽい例えを挙げてもらえた)。ただ、とりあえず学習器にかけてみて、その性質と照らし合わせて、結果からデータの振る舞いを理解するというのもそれほど悪手では無いような気がして、結局は自分が使っているモノが何なのかある程度(どの程度だろう?)理解すること、タスクが簡単だと分かったら(例え自身がそれに興味がなくても、新規性が出せそうになくても)より簡単な戦略に切り替えること、あたりに気をつかえばそれほど悪い話ではないのかな、などと思った。まぁ世間ではましんらーにんぐはブラックボックス的なものらしいので、各種手法を適用することによって得られた知見を専門外の方々に伝えるのは一手間いるわけだけれど・・・。

こういった類のこと、真実かどうかわからないし、世間で10億回くらい言われてる可能性もあったりするけれど、日記なのでそ正当性の検証とか新規性は求められない。日記は良い。