koudenpaのブログ

趣味のブログです。株式会社はてなでWebアプリケーションエンジニアをやっています。職業柄IT関連の記事が多いと思います。

Annotation Meetup

cloudai.connpass.com

に参加してきた。

とても興味深くセッションを聴くことができ、懇親会も楽しかった。

  • 参加の目的
  • 得られたもの
  • 参加者層
  • 抱負

辺りをメモしておく。

参加の目的

捕捉すると、ちょろっととは GitHub - 7474/PhotoBattler で完成模型の元キットや、構成属性を1枚の写真から認識させるために Custom Vision Service | Microsoft Azure を使っていること。

Custom Visionは現状画像単位でのラベル付けと、プレビュー版で矩形単位でのラベル付けが提供されている。

矩形単位でのラベル付けで『このパーツは何か』を認識させることも考えたのだけれど、10枚程度ラベル付けした段階で『これは手間がかかりすぎて無理だ』と、画像単位でのラベル付けに切り替えた。

また、実際ラベル付けしているとどういうラベルを付けるのがいいのか? の迷いや、ラベル付けによって顕著に認識結果が変わってくる面白さもあったので、アノテーションというテーマには惹かれるものがあった。

あと、この手の機械学習の入出力に関する知見は今後ITエンジニアとしての必須要素となってくるはずなので、オマケとしてその方向でのノウハウ獲得も期待していた。

得られたもの

非常に多かった。

アノテーションの付け方によって機械学習の質がどのように変わるのか? アノテーション付けにはどのような課題があり、どう解決しようと取り組んでいるのか? など、広い範囲で実際的な情報を聴けたように思う。

印象的だったことを列挙する。

  • アノテーション機械学習の基礎となる入力要素なので、その質が結果の質に直結する
  • アノテーションに加えて、付与対象のデータセットに関してもノイズとなるデータがないか考慮する必要がある
  • アノテーションの品質管理は大変である
    • 人が作業するので担当者によって差がある
      • 標準化が大事、処理時間も悩みの時間が長いので、明確な基準(アノテーション付の仕様)を用意する
    • 担当者のモチベーションでも差が出る
  • アノテーションの形式には標準規格がない
    • 一定の形式で付与し、学習する際の便宜でフォーマットを変換するのが主流?
  • 各社、個人が独自にツールを進化させている

アノテーションアノテーションうるさいリストだな。 これはSEO的なノイズでダメ記事だ。

詳しくは Annotation Meetup - connpass に上がっている資料や、当時のTwitterのハッシュタグ #abejaai を参照されたし。

後はこれかな。色んなところにいろんな仕事があると思った。

参加者層

セッション時のアンケートや、懇親会で会話した感覚からは、実際に仕事で機械学習に取り組んでいる人が多かったように思う。

自分のように趣味でちょろっと、という人は会話に出しづらいことを考慮してもいらっしゃらなかった。

アノテーションは仕事で取り組むと気になってくる要素なのか、そもそも界隈に素人がいないのか、なかなか興味深かった。

抱負

GitHub - 7474/PhotoBattler ではどういうアプローチでデータセットの用意やアノテーション付けを行ったのか、その際に得た課題や知見、結果など、非専門のエンジニアがブラックボックスで見たアノテーションの世界を発信出来たらいいなぁと思っている。