1文字単位で文字の差分を調べる、差分を取り出す手順の覚書
2025/03/28 漢字
自分で用意したテキストがあり、第二水準漢字のセットのうち、どの文字が使用されているか・いないかを調べたかったので手順をメモしておきます。色々なツールサイトさんを使わせてもらっています。
やり方は2通り。
やり方1:1文字単位で文字の差分を把握する
自分で用意したテキストをJIS第二水準漢字のセットと近い体裁に整えてから、2つを並べて差分を色付き文字で確認します。
● 調べたい文字列を第一水準、第二水準などに分ける、重複を削除する
総合漢字チェッカー by attosoft.info
http://attosoft.info/tools/kanji-checker/
*第1水準にチェックをいれて、「チェック」ボタンを押す、下に重複が削除されたものが出力される
●1文字単位で改行する (この後のソートのツールが改行単位のものが多かったので合わせる)
指定文字数改行 クロクロ・ツールズ
https://crocro.com/tools/item/add_line_feed/
*コピペで入力し、1行文字数(全角)を『1』と入力します
●改行単位でソートする
リスト並び替え ラッコツールズ工房 JIS順で並びます、おすすめ
https://rakko.tools/tools/82/
*注意:サイトによってソートの仕方が違います。第二水準漢字の場合
JIS順 :弌丐丕个丱丶丼丿乂乖乘亂亅豫亊舒弍于~
Unicode順:丐丕丗个丱丶丼丿乂乕乖乘乢亂亅亊于亞~
*Unicode順でソートする場合はこちら)
文字コード順に文字列を並び替える(ソートする)方法 にしし ふぁくとりー
https://www.nishishi.com/javascript-tips/sort-by-charcode.html
●改行を削除する
改行・空白・タブ削除ツール ちょっと便利なツール・ジェネレーター置き場
https://html-css-javascript.com/n-space-tab/
準備ができました!
●基準にするJISのデータをコピペする 表になっていないデータが便利
JIS第一水準、JIS第二水準
https://qiita.com/gonshi_com/items/b54736d2e0e0f4586f6e
●それぞれ比較したいデータをコピペする
文章比較ツール 追加された文字・削除された文字のカウントあり、おすすめ
https://lab.hidetake.org/diff/
差分を色付き文字で確認出来ました。この色付き部分だけが欲しいんだよね、という場合は以下のやり方2を使います。
やり方2:2つのリストとの重複を削除し、差分を取り出す
重複削除ツールは検索すると『キラキラ星』→『キラ星』のように初回が生きてしまうものがほとんどで困っていたんですが、『キラキラ星』→『星』のように重複を初回分も含めて除外できるツールを見つけて出来るようになりました。
『自分で用意したテキストを整形したもの』、『JIS第二水準のセット』のどちらも1文字単位で改行することでリスト化しておき、リストAからリストBの除外を行います。
●やり方1で用意した『基準にするJISのデータ』と『自分の用意したテキスト』を1文字単位で改行する (この後の除外ツールが改行単位なので合わせる)
指定文字数改行 クロクロ・ツールズ
https://crocro.com/tools/item/add_line_feed/
*サンプル文字部分にコピペで入力し、1行文字数(全角)を『1』と入力します
●『基準にするJISのデータ』と『自分の用意したテキスト』をそれぞれコピペする
リストAからリストBの除外・重複抽出ツール ラッコキーワード
https://rakkokeyword.com/knowledge/exclude-from-list
「除外する」ボタンで重複が除外されます。
●改行を削除する
改行・空白・タブ削除ツール ちょっと便利なツール・ジェネレーター置き場
https://html-css-javascript.com/n-space-tab/
改行を削除して完了です!
2025/3/28 やり方2が分かったので追記しました。