言語資源ワークショップ2024

日语语料库/计算语言学方向的线上研讨会「言語資源ワークショップ2024」来啦

言語資源ワークショップ2024

国立国语研究所主办的语料库、计算语言学相关的线上研讨会,参加会议前要在官网填表报名 https://clrd.ninjal.ac.jp/lrw2024.html (免费)

接下来列一下我自己感兴趣的分享,完整的会议内容可以在官网查看: https://clrd.ninjal.ac.jp/lrw2024-programme.html

另,由国立国語研究所举办的学术会议「計量国語学会第68回大会」的会议日程安排也出来了,由于是线下举办,有兴趣的话可以去官网了解更多信息。

https://sites.google.com/view/mathling2024/ホーム

1日目:8月28日(水)

09:30〜10:45

o01:会話データにおける「文の包摂」の出現状況

https://clrd.ninjal.ac.jp/lrw/lrw2024/o01-paper.pdf

什么是【文の包摂】:「早くしろオーラ」「私頑張ってますアピール」「ポケモンカードゲームはじめようキャンペーン」などの言語表現は、「文」相当の要素が語の内部に生起しており、語の内部にはそれより大きい単位は入り得ないという一般的な語形成規則を逸脱する特異な言語現象である(本発表では「文の包摂」と呼ぶ)。

自己在研究[[非辞書]]时收集了大量来自动漫字幕的例句,这些例句中有不少都不符合日语标准语法,和这个分享想谈的【文の包摂】比较像,想看看学界怎么看待这些不那么标准的的例句。

10:55〜12:10

o04s:カタカナ語の意味分類に対する大規模言語モデルの有効性検証

本稿では、LLMを用いてカタカナ語の文脈中の意味分類を行った手法と結果について報告する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o04s-paper.pdf

意味分類?很好奇怎么做到的,自己设计过一个 Prompt 也算是这个方向:

# Role: 词典查询助手

## Profile

- Author: NoHeartPen
- Version: 0.1
- Description: 词典查询助手是从权威词典提供的完整解释中搜索出与上下文语境最接近意项的语言学习助手。

## Rules
1. 尊重原文,不得翻译提供的词典的完整解释,不得修改提供的词典的完整解释
2. 当上下文语境出现词典尚未收录的用法时,返回 "词典尚未收录这个用法" ,其他时候不需要提供任何辅助说明,只需返回词典解释

## Workflow
1. 让用户以 "上下文:[], 想要查询的单词:[], 词典的完整解释:[]" 的方式提供上下文和需要查询的单词。
2. 针对用户给定的上下文、需要查询的单词和词典的完整解释,分析用户提供的词典完整解释中和上下文语境最接近的解释意项
3. 只需要返回与上下文语境最接近的意项的相关解释,不需要返回与上下文语境无关的其他解释
4. 不需要翻译词典的解释,不需要做任何辅助说明

## Initialization
作为角色 <Role>, 严格遵守 <Rules>, 友好的欢迎用户。然后介绍自己,并告诉用户 <Workflow>。

## 示例
上下文:[全部さらけ出して], 想要查询的单词:[さらけ出して], 词典的完整解释:[さらけ‐だ・す【×曝け出す】  
[動サ五(四)]  
① 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」  
② 追い出す。  
「おらあ女房を―・してしまって」〈滑・膝栗毛・発端〉]
你的回答:① 隠すところなく、すべてを現す。ありのままを見せる。「内情を―・す」「弱点を―・す」 

(提醒:这条Prompt 在GPT3.5和很多国产AI上表现不佳,但在 GPT4o mini 上效果很好,可以在《大辞泉》这样的权威辞典提供的海量义项里快速查找和语境最相似的释义。稍微改一下示例,用国产AI在《牛津高阶英汉双解词典》查英语单词时也有不错的体验。)

o06s:漢語動名詞を含む名詞節の構造パターンの分析-BCCWJデータに基づいて-

漢語動名詞が名詞節内で使用される場合、少なくとも、動詞型(「漢語+スル・シタ」)、名詞型(「漢語+ノ」)、形容詞型(「漢語+的・的ナ・ナ」)などの3種類の構造パターンがある。……結果、漢語動名詞が名詞節内で使用される際に、(1)動詞型の構造パターンの典型性が突出していること、(2)名詞型の構造パターンには制約があること、(3)形容詞型の構造パターンは例外的であることが確認された。また、漢語動名詞の品詞性、使用環境、意味範疇、時代などの要因が、各パターンの選択に影響を及ぼすことも明かになった。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o06s-paper.pdf

写毕业论文时,导师推荐的几篇论文里就有作者的文章,没想到这次也能遇到,方向和结论都挺有意思

14:10〜15:50

o07s:『中国語動画音声コーパス』の構築 ──複数モダリティによる正確な書き起こしを目指して

https://clrd.ninjal.ac.jp/lrw/lrw2024/o07s-paper.pdf

我本来也是打算写一个类似[[柯南双语语料库]]的东西,但在写完[[易查]]前实在没空搞了,想看看他们用了什么技术栈和有什么需求。

動画共有サイトにアップロードされている中国語の動画は,字幕が画像データとして動画のフレーム内に埋め込まれていることが一般的である.中国語コーパスの作成に際し,より広範なテキストの収集を可能にするためには,動画に対し文字認識あるいは音声認識の手法を用いる必要がある.本研究では,埋め込み字幕に対するOCR,音声に対する音声認識,動画制作者が用意した字幕など,複数のリソースから得られる,テキストを同時に表示・検索できるようなアプリケーションを実装する.また試験的にいくつかのジャンルを収集し,言語分析を試みる.
对于上传到视频共享网站的中文视频,字幕通常作为图像数据嵌入在视频帧内。在创建中文语料库时为了收集更广泛的文本,需要对视频使用文字识别或语音识别方法。在本研究中,我们将实现一个应用程序,可以同时显示和搜索从多个资源获得的文本,例如嵌入字幕的 OCR、音频的语音识别以及视频制作者准备的字幕。我们还将尝试收集一些体裁并尝试语言分析。

16:15 〜 17:15

i1_A3s Aルーム 日本語学習者用の日本語・スロベニア語辞書のための読みやすいアクセント表記の試み

https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_A3s-paper.pdf

没想到居然会有构建日语-斯洛文尼亚语(スロベニア語)辞典的学者来分享经验,而且分享的还是 UniDic 的处理经验,必看!(另外,之前都没注意 UniDic 里面还有音调信息

i1_B3s パタンマッチングによるオノマトペ候補語抽出の試み ーオノマトペ形態変換プログラムを用いてー

現代日本語の書き言葉・話し言葉に出現するオノマトペの形態パタンは61種で、具現形は約 2200 語であることが明らかになった。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i1_B3s-paper.pdf

研究输入法……?自己的[[非辞書]]和输入文字其实是非常类似的过程,但自己只模模糊糊地觉察到日本人实际使用平假名时非常灵活,但没想到拟声拟态词就可以分为61种。

i1_C2 日本語における外来語として取り入れられていない英語語彙の特徴

本発表では、日本語に取り入れられていない英語の外来語に焦点を当て、それらの語にはどのような特徴があるのか、その一端を明らかにする。現代日本語には多くの英語からの外来語が存在することはよく知られている。しかし、すべての英語が日本語の外来語になっているわけではなく、例えば、使用頻度が高い冠詞の「a」、副詞の「as」、代名詞の「he」などは日本語の外来語にはなっていない(国語辞典の見出し語にはなっていない)。……上位100語の結果では、「デジタル大辞泉」の見出し語になっているものが49語、なっていないものが51語と約半々であった。品詞別で見ると、名詞(8語)はすべて見出し語になっていたのに対し、助動詞は6語中5語が、代名詞は12語中9語が見出しになっていないことが分った。

自己之前在知乎回答过一个问题 [[知乎回答_来源于英语的日语单词有哪些]] https://www.zhihu.com/question/544356324/answer/2609385955,毕业论文本来打算划水:分析下日语外来语和中国四六级、雅思、托福等考试考纲词汇的交集就交差的,但最终还是没忍住选了[[非辞書]]的形态素解析方向(只可惜最终就写了个半截2333

2日目:08月29日(木)

9:20 〜 10:40

i2_A1『日本語ゲームコーパス(JGC)』の構築に関する中間報告―前期のアクションゲームに見られる量的特徴―

https://clrd.ninjal.ac.jp/lrw/lrw2024/i2_A1-paper.pdf

游戏语料库?! 必看!另,选择的都是日本厂商的主机游戏,有新有旧(很遗憾,没有原神,大雾

i2_A2:(仮)「国会図書館デジタル化資料全文テキストデータ」を利用した日本語研究の試み

好奇学术界都是怎么用已经公开的数据库搜索自己想要的东西

i2_A3:『分類語彙表』番号の多義語コードとしての検討―『計算機用日本語基本辞書IPAL』最重要動詞を用いて―

这次的研讨会有好几个分享都用到了这个『分類語彙表』,很好奇编号时考虑了哪些问题

i2_B3:ポップアップ辞書に向けての日本語形態素解析システムの設計・実装・運用

調査したい単語にマウスを当てて辞書を表示することは、リーディングの効率を高める効果があるとされている。しかし、この機能を実現するためには、マウスで当てられているところの文字列を辞書形に変換するという問題を解決する必要がある。Mecabなどの形態素解析システムを利用することは、一つの解決策であるが、そのようなシステムは、ユーザーのコンピュータのパフォーマンスに特定の要件を求めることがあるため、通常はサーバー上で実行されることが多い。しかし、このプロセスの形態素解析は、語学研究や機械翻訳や全文検索のための形態素解析とは異なり、入力された文字列を辞書形に変換することが主な目的である。そのため、形態素解析システムのサイズを縮小し、より効率的な実装が可能である。本稿では、ポップアプ辞書に向けて辞書検索に特化した形態素解析システム NonJishoKei の設計、実装、運用について論じる。
事实证明,鼠标悬停在待查单词上时自动显示辞典解释可以有效提高阅读效率。 然而,为了实现这一功能,需要解决一个问题——将鼠标指针附近的文本转换成辞典收录的形式。使用 Mecab 等形态素分析器是一种解决方案,但这类系统往往对用户的设备有较高的要求,因此通常在服务器上运行。 不过,不同于语言研究、机器翻译或全文检索等场景,这个场景下只需要将鼠标指针附近的文本转换成辞典收录的形式即可。也就是说,可以为这样的使用场景,专门设计一个精简的形态素分析器。日本語非辞書形辞典(NonJishoKei)就是基于这个思路,专门为弹出式辞典检索而设计的形态素分析器,本文将讨论其算法原理和工程实现。

本人的分享(图穷匕见2333),译文是我提交了原文后重写的,所以差得比较大(囧

i2_C2:学習者コーパス構築機構としての作文教育支援システムTEachOtherS

(a)学習者にWebベースの作文・コメント・振り返り環境を提供する,(b)教師がクラス全員のアカウントを管理したり,作文・コメント・振り返りといった活動フェーズを制御し,クラス全員に一括して適用できるようにする。これらに加え,他人から受けたコメントなどに基づき作文を改訂することを想定し,作文のバージョン管理機能を持つ。また,作文教育活動の結果はHTML形式で出力することが可能である。

对这个系统的实现细节很有兴趣

i2_C4:(仮)高校生の手書き漢字における書き誤りの傾向

1年生では約70%の生徒の作文に漢字の書き誤りが見られたが、学年が上がるにつれて誤りは減少し、3年生では50%程度に減少した。また20作文以上で使用された漢字の中で書き誤りの割合が最も高かった漢字は「達」であり、「達」が出現する作文のうち約40%の作文で「達」の字形に誤りが見られた。

关注的问题结论都很有趣

10:50〜12:05

o12:(仮)誤解析からみるアニメ・ゲーム語彙の特徴―語彙リストの作成に向けて―

日本語学習者にとってアニメやゲームはリソースの一つであるが、教室で学ぶ日本語とは用いられる語彙が異なる。しかしジャンル別の語彙やその頻度がわかる、学習者にも教師にも活用しやすい語彙リストは公開されていない。そこで、日本語教育で活用できる言語資源として語彙リストを作成することにした。アニメやゲームのスクリプトはそのまま形態素解析すると誤解析が生じやすい。正確なデータ提供を目指し、まずどこにどの程度誤解析が生じるかを確認するため、アニメ4作品、ゲーム1作品を対象に形態素解析を行った。その結果、10%前後の誤解析が生じることが分かった。そのほとんどが作品特有の名詞に加え、感動詞、くだけた話し言葉、言い淀みなど、アニメやゲームの語彙の特徴を表すものであった。本発表では、語彙リスト作成に向けて行った形態素解析の手順と誤解析の内容を整理し、アニメやゲームの特徴を可能な限り残したまま解析する方法を検討する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/o12-paper.pdf

方向和指出的【誤解析】的问题自己都很感兴趣,另,研究的アニメ里有【推しの子 】和【五等分の花嫁 】(大笑

o13:『子ども版日常会話コーパス』モニター公開版の概要

https://clrd.ninjal.ac.jp/lrw/lrw2024/o13-paper.pdf

儿童对话语料库?期待!

13:00〜14:00

生成AIとの対話を深める言語学
発表者:佐野大樹(Google合同会社)

哟,Google 排面!

14:25〜15:25

i3_A1:上昇下降調と会話形式の関連性―「日本語日常会話コーパス」を用いて―

発表者:李海琪(浙江大学日本語科)
句末音調である上昇下降調の使用場面に関して、見解の相違がある。内省と資料に基づいたまとめによれば、上昇下降調はやや改まった場で使われやすい。しかし、独話をデータとした印象評定と使用率の統計によれば、上昇下降調はくだけた発話で多用される。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A1-paper.pdf

结论很有趣

i3_A2:(仮)日常会話場面による発話速度の違い

本発表では同様に会話場面や会話相手によって発話速度がどのように変わりうるか調べた結果について報告する。
https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_A2-paper.pdf

标题就引起了我的兴趣

i3_A3:日本語における/ei/母音連続の発音

発表者:Katarina Hitomi Gerl(カタリーナ・ゲール)(University of Ljubljana, Faculty of Arts, Japanese Studies(リュブリャーナ大学、文学部、日本研究講座))
様々な辞書によれば、日本語における ei 母音連続は、意味の切れ目の間にない 場合、長い「え」として発音される。

关注的问题很有趣

i3_B3:辞書反転とオープンデータを元にしたスロベニア語・日本語学習辞典の構築
発表者:クリスティナ・フメリャク寒川 (Kristina Hmeljak Sangawa)(リュブリャナ大学 / University of Ljubljana)、Laura Barovič Božjak、 Nadja Bostič、 Katarina Hitomi Gerl、 Jan Hrastnik、 Nina Kališnik、 Sara Kleč、 Eva Kovač、 Nina Sangawa Hmeljak、 Jure Tomše and Tomaž Erjavec
スロベニアでは日本語学習が盛んだが、参考書はまだ少ない。そこで、以前に編集した日本語・スロベニア語辞典のデータを反転し、オープンデータも利用し、スロベニア語・日本語学習辞典の構築を試みた。まず、日ス辞典から語義ごとの対訳語を抽出し、スロベニア語を見出し語にした対に並べ替え、次に手動で重複、不適切な見出し語を削除し、自動で見出し語の品詞とCEFR準拠難易度、一部に例文を付与した。共同編集用のソフトLexonomyを使い、手作業で多義の見出し語に語義ごとの意味ヒント、相位ラベルを付与し、一部の見出し語にはパラレルコーパスからの例文も添えた。このように構築した約8500語の辞書データをTEI Lex0 準拠のxmlデータとして一般公開した。企画に参加した学習者は辞書の仕組みに関する知識が得られてためになったとの反応があり、今後も同じ体制での編集を続ける予定である。

介绍就很对我个人的胃口,期待到时候的分享

i3_C2:個人的な緊急事態:X (Twitter)における「待って」の分析

X (Twitter)において,同一文中で主体や対象等を表す他の要素を伴わず,送り手(書き手)自身のことばとして記される言い切りの「待って」の用例に着目して使用実態と特徴を分析した。直近60分間に投稿された用例の観察から,そのような「待って」は類似の特徴を持つ「見て」「聞いて」よりも多く用いられており,特定の宛先を持たない「ツイート」(ポスト)で使用されることが多いことを明らかにした。また,そのような「待って」は,送り手(書き手)自身の感情や評価の発露と共起することが多いことから,後続文とあわせて「感情・評価を揺さぶる何らかの出来事があり,かつ,それが送り手(書き手)個人にとって文字通り待ってほしいほどの緊急事態である」ということを表しているものと考えた。さらに,Yahoo!ブログ及びLINEチャットにおける用例とも比較を行い,X (Twitter)で特にそのような「待って」が用いられやすいことを推測した。

https://clrd.ninjal.ac.jp/lrw/lrw2024/i3_C2-paper.pdf

分析的对象很有趣

15:35〜16:50

o15:A corpus-based cognitive semantic analysis of the polysemy of the Japanese temperature adjective tsumetai

発表者:Wang Haitao(Kyoto University)、Huang Haihong(Kyoto University)、 Zhong Yong(Nanjing University of Aeronautics and Astronautics)

https://clrd.ninjal.ac.jp/lrw/lrw2024/o15-paper.pdf

中国人投的讲日语的英语论文……?好奇到时候的分享会用什么语言来做发表2333

o16:小説のセリフの書き分けに使われる文末形式

本稿では、エンターテイメント小説・ライトノベル10作品に登場する24名のキャラクタのセリフから文末の形式を収集し、整理・分析を試みる。

https://clrd.ninjal.ac.jp/lrw/lrw2024/o16-paper.pdf

看标题以为是分析的什么日本文学名著,结果人家的介绍是「分析了10部【轻】小说中不同角色的语言风格」,瞬间来了精神,打开论文一看发现分析的作品有《青春猪头》!而且,居然还有《葬送的芙莉莲》这样的新作……那我是不是可以期待下明年的研讨会里有人分析《MyGo》呢?(大雾