第17回WI2研究会報告
2021年12月17日(金)・18日(土)に,オンラインにて第17回WI2研究会を開催致しました.一般発表は,ロング発表・ショート発表,技術報告合わせて18件の発表がありました.参加者はおよそ120名でした.
学習支援と質問生成,機械学習と最適化,可視化,Social Networking Service (SNS),行動分析に関するセッションがありました.
日時・会場
日時: | 2021年12月17日(金)12:30~19:00 2021年12月18日(土)9:00~12:30 |
|
会場: | zoomによるオンライン開催 |
プログラム
■12月17日(金) (12:00~受付) | |
12:30-12:40 | オープニング |
12:40-14:10 | セッション1: 学習支援と質問生成 座長:村上 晴美(大阪市立大学) 副座長:松村 敦(筑波大学) (ロング発表) 1. 外国語学習支援のための文脈を考慮した語の用例ごとの難しさ計算モデル 江原 遥(東京学芸大学) 2. 試験問題XMLデータのEnd-to-End生成システムに向けた4情報の抽出・推定モデル☆ 松本 涼,遠藤 聡志(琉球大学) 3. 応対履歴におけるQ A作成手法の検証と考察☆ 三浦 拓也,土田 正士, 石川 博(東京都 |
14:30-16:40 | セッション2: 機械学習と最適化 座長:高間 康史(東京都立大学) 副座長:柴田 祐樹(東京都立大学) (ロング発表) 4. 仮想的な探索を用いて文脈や時間の経過による番狂わせにも迅速に追従する多腕バンディット手法☆ 三宅 悠介(九州大学/GMOペパボ株式会社),峯 恒憲 (九州大学) (ショート発表) 5. BERTによる参考文献書誌情報抽出における擬似学習データの有効性評価☆ 荒川 瞭平(岡山大学),金澤 輝一(国立情報学研究所),高須淳宏(国立情報学研究所),上野 史(岡山大学),太田 学(岡山大学) 6. 機械学習による作業者のモーション分析の一考察☆ 川根 龍人, 伊集院 大将, 杉正 夫, 中嶋 良介, 山田 哲男(電気通信大学) 7. アソシエーションルールを継続的に発見する進化計算手法の評価 松野 省吾,嶋田 |
16:20-16:50 | 技術報告セッション 座長:山本 岳洋(兵庫県立大学) – 株式会社LIFULL |
16:50-18:20 | セッション3: 可視化 座長:パノット シリアーラヤ(京都工芸繊維大学) 副座長:北山 大輔(工学院大学) (ロング発表) 8. Twitterで発信される病気・症状の可視化に向けたツイート内容と天気情報に基づくTwitterユーザの居住地推定☆ 松本 真拓, 安藤 一秋 (香川大学) (ショート発表) 9. RHモデルとSHモデルに基づいた地理的影響構造の可視化分析☆ 箕浦 悠人, 木村 昌弘, 熊野 雅仁 (龍谷大学) 10. A Visual Exploratory System for Data Facts in Business Reports☆ Xueyi CHEN, Ken WAKITA (Tokyo Institute of Technology) 11. 映像の音情報可視化手法に関する提案☆ 笹方 育也,柴田祐樹,高間康史 (東京都立大学) |
■12月18日(土) (8:40~受付) | |
9:00-10:20 | セッション4: SNS 座長:奥 健太(龍谷大学) 副座長:林 良平(高知工科大学) (ロング発表) 12. 災害時の「避難」ツイートからみる情報欲求の分析☆ 加藤 大貴, 藤代 裕之 (法政大学) 13. グラフサイズの影響を受けにくい適応型RWCの提案☆ 藤兼 由生, 風間 一洋 (和歌山大) ショート発表) 14. 商品レビューとジオタグツイート分析による商品購入時の利用スポットを想起させる商品推薦の提案☆ 安田 莉子(京都産業大学),栗 達(京都産業大学),熊本 忠彦(千葉工業大学),河合 由起子(京都産業大学/大阪大学), |
10:40-12:00 | セッション5: 行動分析 座長:吉田 光男(筑波大学) 副座長:林 亜紀(NTTコンピュータ&データサイエンス研究所) (ロング発表) 15. 人はなぜ・どのように歌詞を閲覧するのか:スマートフォンでの楽曲聴取時の歌詞閲覧行動分析 佃 洸摂、濱崎 雅弘、後藤 真孝 (産業技術総合研究所) 16. 個別満足度と総合満足度との相関関係および企業間のばらつきに基づく企業課題発見ツールCSIMG☆ 新福 一貴,谷口 紘太朗, 泰山 幸大,熊野 駿人,桑田 若菜,壷坂 嶺,平尾 星音,平田 有里佳,三浦 大貴,前川 浩基,石橋 健,笹嶋 宗彦,山本 岳洋 (兵庫県立大学) (ショート発表) 17. 楽天市場でのレビューカテゴリ選択におけるユーザー行動特性分析☆ 松尾 健汰, 木村 昌弘, 熊野 雅仁 |
12:15-12:30 | 表彰式・クロージング |
表彰
WI2研究会では,出席したWI2委員全員により,全ての発表の聴講と評価を行っております.今回,各賞を受賞された研究は以下のとおりです.
優秀研究賞
仮想的な探索を用いて文脈や時間の経過による番狂わせにも迅速に追従する多腕バンディット手法
三宅 悠介(九州大学/GMOペパボ株式会社),峯 恒憲 (九州大学)
萌芽研究賞
映像の音情報可視化手法に関する提案
笹方 育也,柴田 祐樹,高間 康史 (東京都立大学)
学生奨励賞
A Visual Exploratory System for Data Facts in Business Reports
Xueyi CHEN, Ken WAKITA (Tokyo Institute of Technology)
グラフサイズの影響を受けにくい適応型RWCの提案
藤兼 由生, 風間 一洋 (和歌山大学),吉田 光男(筑波大学),土方 嘉徳(関西学院大学)
副座長報告
セッション1:地理情報
副座長:松村 敦(筑波大)
1件目の発表は,外国語の語彙学習において学習優先度の高い用例を抽出するために,BERTに基づく深層言語モデルと深層外れ値検知モデルを組み合わせたシステムを提案したものであった.BNCの10万文に対してBERTを適用して分散表現を得て,DAGMMAによる異常値検出で実装を行っている.その結果を実際に2次元に可視化したデモで示し,頻度の高い用例,外れ値付近の用例が適切に現れることを示した.また,語の各用例の意味的重要性を考慮した単語テスト結果予測モデルによる性能評価を行い,従来と同等の結果を示した.最後に発展性として分野specificなコーパスの利用による専門分野での応用が示された.
質疑応答では,実際の外国語学習での使い方についての質問があり,典型的にはよく使われる主要な用例を学習することを想定しているとの回答があった.これに対して,定量的に用例がランク付けされることの重要性が指摘された.次に,BERTのモデルについての質問があり,ファインチューニングをするべきかどうかの議論があった.これに対して,今回は事前学習そのままで利用している点,ファインチューニングには用例が主要か主要でないかの教師データが必要になり,それは,教育目的に合わせて設定する必要性があることが回答として示された.さらに,分野specificな用例を見たい場合には,分野specificなコーパスで事前学習をした方が良いとの回答があった.最後に,今回のインタフェースとは違った他の視覚化の可能性について質問があった.これに対しては,具体的な教育のシチュエーションを考えて別の可視化を行う可能性はあるとの回答があった.その上で,今回の提案は,一語毎に教材を作るコストを抑えるための教師なし学習でできている点が有用であるという点が主張された.
2件目の発表は,東ロボプロジェクトの入力である独自のXMLデータを試験問題画像から自動的に作成することを目指したものである.本研究では,XMLを「内容」,「要素」,「属性」,「構造」の4情報に分解し,それぞれを抽出・推定するタスクによって,試験問題画像からXMLの作成を行う.要素抽出にはObject Detectionモデルを応用し,属性推定ではLSTM,構造推定ではSeq2Seqモデルを採用している.実験の結果,要素抽出の精度は70%程度であり,属性推定では回答タイプの正解率は0.93,必要知識の正解率が0.42であった.また,構造推定では0.80の高い精度が得られた.
3件目の発表は,コールセンターなどの応答履歴を利用して,質問文(Q)と回答文(A)の組み合わせを自動的に生成することを目指したものである.その際に,既存手法にない要素として,状況を説明する「叙述文」(D)を導入し,質問文,回答文,叙述文の結合ルールを定義して,新たな質問回答ペアを作成するところに独自性がある.実験の結果,提案手法で得られたQAペア6638件中,1488件の新規QAペアが作成され,1301件のQAペアが評価基準のQA_scoreの増加があったたことが示された.
質疑応答では,まず実験について何の工夫もしない結合による方法との比較を行ったかについての確認が行われ,行っていないとの回答があった.次に,既存手法で得られない新規のQAペアが得られたという再現率重視の評価をしているが,少数で良いから良いものが欲しいという精度重視の場合に,提案手法が有効かどうかについて質問があった.これに対しては,検討中であるがクオリティの基準を人手で作る難しさがあるとの回答があった.続けて,今回のQA_scoreによる評価以外の評価方法についての質問があり,今後の検討課題であるとの回答があった.最後に,指示代名詞などの参照表現を考慮に入れているかどうかについて質問があり,現在は考慮に入れていないとの回答があった.
セッション2:機械学習と最適化
副座長: 柴田 祐樹(東京都立大学)
1件目に仮想的な探索を用いて文脈や時間の経過による番狂わせにも迅速に追従する多椀バンディット手法についてロング発表が行われた.従来の多椀バンディット問題設定では,腕の相対的な有用性が逆転する環境で,不十分な追従生や非効率な探索に起因する機会損失が増加してしまうことが説明され,これに対し,こういった現象において,弱い腕が高い価値を持つようになることを番狂わせであると定義し,これを含む環境であっても機会損失を低減可能な方策が提案された.提案手法は,線形カルマンフィルタを用い,文脈や時間による状態変化へ迅速に追従することが述べられた.欠損値処理に対する探索の効率化についても提案された.この発表に対し,他の状態推定モデルを使っても良かったのではないかとの指摘があったが,発表者から,今回は高速性を重視しているために,線形カルマンフィルタを用いたとの回答があった.また,提案手法が扱うモデルは,腕ごとに状態空間モデルが存在しているが,推薦問題への適用を考える場合,共通のモデルを使うべきではないか,また共通のモデルを使えば推薦のための予測精度が向上するのではないかといった意見が述べられた.この指摘に対し,コンテキスト情報をすべてバイアス項として共通に扱うことが考えられるとの回答があった.
2件目はショート発表であり,Bidirectional Encoder Representations from Transformers (BERT) による参考文献書誌情報抽出における擬似学習データの有効性評価について報告がなされた.電子図書館のサービス運用のための,学術情報データベースの整備自動化に関する研究であると説明がされた.高制度な書誌情報抽出のためには,書式の異なる文字列へ対応するために多量のデータセットにより学習された抽出器が必要であるが,学習データの用意がこれに対し課題となることが述べられた.発表では,BERT を利用する場合の疑似学習データの生成方法とその有効性が示された.この発表に対し,実験で定義されるデータの増加量の定義,実験に使ったデータに対する確認などが聴講者より行われた.また,提案手法で行われている,順序の入れ替え,要素の追加,などによる元データからのデータ生成方法は,未知の汎用的なデータを生成するものではないかとの意見が述べられた.この場合,提案手法により生成されたデータを使い学習されたモデルは,未知の文献に対する高い適用可能性が見込めるのではないか,との意見があった.他に,書誌情報の書式における言語としての性質はどのようなものであるか,などといった質問があった.
3件目には,機械学習による作業者のモーション分析の一考察という表題でショート発表が行われた.機械学習による製造業現場の作業における知見抽出に向けた,作業者の動作の分析が光学式モーションキャプチャーを用いて行うことで示された.実験では,ナットを締める作業の分析が行われた.この発表に対し,古くから行われているモーションキャプチャーの研究に対する差分はどこにあるのかと質問があった.また,分析で用いられている主成分分析は,作業者の行動,あるいは体格のどちらを捉えているのか気になり,もし体格の違いが主成分分析で捉えられてしまっているのであれば,作業者の行動を分析できているわけではないのではないか,という質問があった.その他多くの議論があったが,その中でもより詳細な手順の構築を考え直すべきであろうとの指摘が多くあった.
4件目はアソシエーションルールを継続的に発見する進化計算手法の評価,という表題でショート発表がなされた.相関ルールの発見に良く用いられるApriori法というものがあるが,この手法には対称とするアイテム数の増加に対し指数関数的に計算時間が増加するという問題,出現頻度の高い相関ルールの価値が曖昧になるといった問題があると説明がはじめなされた.これに対し,注目されている進化計算を用いた手法におけるパラメータ設定についての検証結果が報告された.質疑では,提案手法では遺伝的アルゴリズムが用いられているが,Exchange Monte Carlo などの他のメタヒューリスティックスの利用も検討されるべきであるとの指摘があった.
セッション3:可視化
副座長:北山 大輔(工学院大学)
1件目は,Twitterで発信される病気・症状の可視化に向けたツイート内容と天気情報に基づくTwitterユーザの居住地推定というタイトルの発表であった.従来研究では,ツイート内の単語分布のみによって判定しているが,地理的特徴を含まないツイートに弱いという点があった.提案手法では,ツイート内容に加えて,天気を示すツイートを用いて,天候情報を加えることで,高精度に居住地を推定する.ツイート内容モデルのみによる手法と比較して,都道府県レベルでの推定結果のF値が1.6ポイント向上し,F値0.733で推定可能であることが報告された.天気情報ツイートの数が少ないユーザは天気情報による推定の精度が悪く,このようなユーザは学習データとして使わないことで,精度の向上が見込めることが示唆された.質疑では,天気情報のあるツイートの割合に関して質問があり,天気情報を1回でもツイートするユーザは,今回のデータでは8割り程度存在すると回答があった.また,天気は地域推定の材料だと思うのですが他に使える物について質問があり,地震や強風などの情報を考えていると回答があった.地域推定コメントとして,「確率として定義するな加重平均ではなく,対数尤度を用いた方がよい」,「行政区分よりも天気が変わる地理的区分を用いた方が適切」,「位置情報付きツイートだけを使ってある程度各地域の流行を捉えることができるのであれば,地域推定ユーザ数を増やすことで,推定粒度が細かくなるなど効果が見えると良い」,「地方などデータ数が少ないところを適切に推定してカバーできるようにするなど,効果をアピールするするストーリがあると良い」という意見が出た.
2件目は,RHモデルとSHモデルに基づいた地理的影響構造の可視化分析というタイトルの発表であった.RHモデルは競合構造の検出を行っており,SHモデルは協調構造の検出を行っている.これらのそれぞれを拡張し,POI群の地理的な競合および協調ネットワークを可視化して分析する手法が報告された.POI間の関係を考慮しないUHPモデルと比較して,POIの魅力度の推定は同傾向を示し,半減期が短く推定されることが示された.また提案手法では,影響を与えるサブグループを判定できるため,POI群に関して影響を与えるPOI群を可視化して分析する例が示された.質疑では,この研究で言う地理的影響というのが何を指しているのかという点について質問がなされ,観光等の目的であれば,数日間の影響ではなく数ヶ月くらいの長期的な影響を分析できるようになると良いというコメントがなされた.
3件目は,A Visual Exploratory System for Data Facts in Business Reportsの発表であった.ビジネスレポートのPDFを閲覧する際に,インタラクティブに閲覧可能とする手法を提案している.「簡単なオーサリング」「文章中のデータの叙述箇所を容易に確認できる」「文章と可視化を関連付けて理解できる」「図表から文章に記述されていない事実を発見できる」の4つの課題を設定し,それぞれに取り組んでいる.元データのリファレンスとクレームがハイライトされ,ハイライト箇所とグラフ上のデータの対応箇所が,マウスオーバーなどをトリガに,表示されるような,インタラクティブなレポート閲覧ができるシステムを構築したことが報告された.質疑では,ハイライト箇所とグラフを対応付ける部分の自動化について問い合わせがあり,IDにより自動的に対応付けができていると回答があった.「図表から文章に記述されていない事実を発見できる」に関して支援する機能の構想について質問があり,まずはユーザスタディを行って知見を得ることを考えていると回答があった.システムの妥当性などの評価方法について問い合わせがあり,通常のPDFとの比較実験の構想が説明された.コメントとして,リファレンスとクレームの自動抽出ができるようになると良い,ユーザビリティの評価指標で評価すると良いという意見が出た.
4件目は,映像の音情報可視化手法に関する提案というタイトルの発表であった.従来の音情報の可視化は字幕であるが,音楽など字幕で表現が困難な音情報がある.この研究では,発話者の感情を吹き出しの形,BGMを枠線の色,物音を集中線で表現する方法を提案している.提案手法を適応した動画と従来の字幕の動画を比較する実験を行い,それぞれの表現に関して,提案手法の評価が高い結果となった.質疑では,認知心理学分野で人間は一点に集中すると他に注意がいかなくなるという現象が知られているが,枠線への注意に関してはどのようになっていたのかという質問があり,実験としても枠線への注意がそもそも低かったという印象であると回答がなされた.見やすいけどうっとおしいみたいな,アンケート項目では表現されないことはありましたかという質問があり,自由記述の項目でいくつか出た意見が紹介された.
セッション4:機械学習と推薦システム
副座長:林 良平(高知工科大学)
1件目の発表(加藤・藤代)では,災害発生時にSNSユーザがSNSからどのような情報を得ることを期待しているかを明らかにするために,過去に発生した災害(2021年の豪雨と台風)の前後に広く拡散されたツイートを分析した.Twitter APIを用いて収集されたツイートの中から,「避難」の関連名詞を抽出した.その結果,豪雨時には「情報」「場所」「我が家」「自宅」「実家」が関連語として抽出され,被害が予想される地域に自分の住んでいる地域や実家などが含まれるかに関心が寄せられたことが推察された.また,台風時には「水位」「水防」「ベランダ」「グッズ」「備え」「事前」など,台風接近前の具体的な対策に関心が寄せられていることが推察された.豪雨時には非難に備える情報欲求は見られない一方で,台風時では避難や避難所への情報欲求があるという違いがみられた.
2件目の発表(藤兼ら)では,ソーシャルメディア上に対立する主張を展開する複数のクラスターが存在する状況を想定し,それぞれのユーザがどのクラスターに属するかを推定する方法を提案している.ユーザ間の関係や投稿内容の類似性を利用して,アカウントを複数のクラスターに分割する方法はRWC (Random Walk Controversy)としてすでに提案されているが,アカウント数が少ない,対立集団が複数存在する,それぞれの集団の規模が均等に分割されていないなどのデータ上の制約があると,適切に識別できないという問題を抱えている.そこで,発表者らは,複数のランダムウォーク手法を使い分けることで,アカウント数に左右されずに安定的に識別できる適応型RWC (A-RWC)を提案し,既存手法との識別力の比較を行った.その結果,既存の方法と同等の識別力があることが分かった.
3件目の発表(安田ら)では,コスメ商品を推薦する際に,その商品と関連のある場所を同時に提示することで,ユーザに利用場面を想起させる商品推薦システムを提案している.商品と利用場所の関係は,位置情報付きツイートから5種類の場所(学校,病院,ホテル,公園,テーマパーク)付近で投稿されたツイートを収集した.ツイート内容と楽天市場の商品レビューとの類似度の高い商品を12種類選択し,これを利用場面を想起させる商品推薦システムとした.類似性の高い商品を推薦する本提案手法が適切かどうかを評価するために,女性ユーザ100名に各利用場面でそれぞれの商品を利用する適切さを評価させたところ,提案手法と女性ユーザの回答の間の差は小さかったため,提案手法が有効であることが示唆された.
セッション5:SNS
副座長:林 亜紀(NTTコンピュータ&データサイエンス研究所)
1件目のロング発表では,人がスマートフォンで楽曲視聴を行う時に歌詞を閲覧する理由や閲覧時のふるまいをアンケートとログから分析した結果について紹介された.アンケートを取らずに歌詞閲覧理由をふるまいから推定する方法に関する質問が出て,退屈が理由となっていてすぐに閲覧をやめる場合などログから取りやすいものもあるが,ログからは学習しにくいものもあるので,提案した閲覧理由別の機能へのクリック率などから理由を推定していくアイディアが提示された.マニアックな聴き方とライトユーザの聴き方がありそうで,シングル曲とアルバム曲などで分かれるのではという質問もあった.歌詞閲覧は人気曲に偏っていて,例えばマニアックに見る場合はカラオケで他の人が知っている曲を歌えるようにするためというのもあるのではという回答があった.寿命は半減期で見る方がよいのではないかというコメントもあった.ジャンルやアーティスト単位で分けてみると特徴的な傾向が出るのではというコメントもあった.一般ユーザに向けたサービスを作りたいのか,マニアックなユーザに向けたサービスを作りたいのかという質問もあり,まずはコアなユーザ向けに作り,そこから広がることを期待するという回答があった.視聴タイミングの分析で「再生後」の中に視聴中が含まれることの確認も行われた.
2件目のロング発表では,企業の課題を発見するために,商品の質,店内設備など個別の満足度と総合的な満足度にどれくらい相関があるかを可視化することにより,どの課題を解決するべきかの分析を支援するツールCSMIGが提案された.専門家が回答した改善項目とシステムが提示した改善項目が多く合致しているという評価結果が提示された.質疑では,満足度の評価の分散が大きいと改善余地が大きいという仮説への疑問が言及され,他の企業ではできていて,自社ではできていない課題を見つけるための方法であるという回答があった.また,今のフレームワークだと他の企業と似た傾向を目指して似たり寄ったりの店ができてしまうのではないかというコメントがあり,ターゲットを絞って特色を出すことができなくなってしまうのではというコメントがあった.顧客戦略があった場合は顧客戦略に応じて自社のポジションを把握し,何を改善するかを検討するのを支援するためのツールであるという回答があった.
個別満足度と総合満足度は相関しているので直交した表現はふさわしくないのではないかというコメントもあった.同業界の他社と比べた相対位置の把握よりも,中小企業診断士の結果をアンケートの結果でどれくらい再現できるかを目指す方がシンプルでよいのではというコメントもあった.業界内での順位づけというよりも業界全体の可視化を目的にすべきなのではというコメントと,可視化結果を見てどの課題に取り組むかを各企業がどのように決めるべきなのかについての質問があった.
3件目のショート発表では,楽天市場でのレビューのカテゴリ別傾向でユーザをクラスタリングする取り組みについて紹介された.NMFを用いてクラスタリングしたところ2グループに分かれ,グループごとに曜日や時間の指向性に特徴が見られたとの分析結果が示された.質疑では,何を目指しているのか,ゴールは行動予測なのかという質問があった.時間帯により好みのジャンルを把握して,例えば楽天市場のUIに反映したいという回答・議論があった.ユーザのクラスタリングが2グループにしか分かれないのはUIへの反映を考えると不十分なため,曜日や時間帯指向性を結果の分析に使うのではなく,NMFをかける際の属性としてカテゴリ情報とともに入力し,クラスタリングの根拠とすれば,より詳細な傾向を反映した3グループ以上のグループに分かれるのではというコメントがあり,今後の実装を検討するという回答があった.行動というよりもレビューをつけるかつけないかの明示的なアクションに着目していたが,閲覧の情報は入手が少ないにしてもコメントをつけたかどうかの情報が使えるのではないかというコメントがあった.また,レビューよりも本当に知りたいのは購買なのではという質疑もあった.レビューをするという行為は購買と同義として考えたという回答があった.レビュー時に商品に満足したかどうかについても属性として加えると,クラスタ数が増えてよくなるのではというコメントもあった.
運営委員会
実行統括担当:山本 岳洋 (兵庫県立大学)
プログラム担当:河合 由起子 (京都産業大学),パノット シリアーラヤ(京都工芸繊維大学)
受付:西原 陽子(立命館大学)
Web 担当:柴田 祐樹(東京都立大学)