登録した文書が見つからない!~会社名編~

株式会社PFU 千葉辰典


今回のTipsでは、第一回『大きなサイズのPDFファイルが検索で見つからない!』の冒頭でも触れたように、SharePointを文書管理システムとして利用するシーンで比較的多く遭遇する、探したい文書が見つからない場合の事象の一つについて述べたいと思います。

 

提案書、契約書、営業証憑など、企業/団体内の様々なドキュメントをSharePointのドキュメントライブラリで管理するケースは多く見られます。ドキュメントライブラリではなく、カスタムリストで顧客情報や案件情報を管理する・・・と言うケースもあるかと思います。

そのようなドキュメント/アイテムを管理する際には、後のち検索して探せるように、『会社名』と言った"列"(本稿では、プロパティと記します)を追加していないでしょうか?他にも、案件名や金額、担当者・・・などなど。

さて、運用をしていくと必ずしも 『検索しても対象ドキュメント/アイテムが見つからない』 と言う課題が出てきます。
今回は『会社名』に関して、その実状と対処方法について見ていきましょう。

※以下、実在する他社の会社名を用いて説明しますが、便宜上、"株式会社"表記等は省略させていただきます。
※本稿での検証は、あくまでもSharePoint標準の検索機能を用いた検索結果です。

-----

見つからない最大の理由は統一した名称で登録されていないことで、主に以下の2パターンが挙げられます。

  1. 略称や英語表記となっている。
     会社名が長い、通称がある場合など。
     例:マイクロソフト/Microsoft/MS
  2. 表記に揺らぎがある。
     大文字小文字、中点やハイフンの有無、濁点間違い、旧仮名遣いなど。
     例:キヤノン/キャノン、ブリヂストン/ブリジストン、セブン-イレブン・ジャパン、セブンイレブン・ジャパン

普通に考えて、「MS」で検索して「マイクロソフト」はヒットしないのは分かりますが、揺らぎがある場合はどうでしょう?
例えば「キャノン」で検索して「キヤノン」が見つかるのか・・・?

・・・と言うことで、よく間違われる会社名と言う25社の御名前をお借りして、実際にやってみました。
正誤両方の名称を登録し、間違っている方で検索して、正しい名称がヒットすると[○]、ヒットしなければ[×]となります。さっそく結果です。

正しい社名 誤った綴り(検索ワード) 検索結果
キヤノン ノン
シヤチハタ チハタ
オンキヨー オンキ ×
ジヤトコ トコ
キユーピー ーピー ×
富士フイルム 富士フルム
ゴールドウイン ゴールドウ ×
エドウイン エドウ
文化シヤッター 文化シッター
三和シヤッター工業 三和シッター工業
日経ソフトウエア 日経ソフトウ
いすゞ自動車 いす自動車 ×
ビックカメラ ビッカメラ ×
アヲハタ ハタ ×
トイザらス トイザ ×
ニッカウヰスキー ニッカウスキー ×
ニッカウヰスキー ニッカウスキー ×
ブリヂストン ブリストン ×
ブルドックソース ブルドッソース ×
味の素ゼネラルフーヅ 味の素ゼネラルフー ×
日本コロムビア 日本コロビア ×
三菱レイヨン 三菱レヨン
アメリカン・エキスプレス アメリカン・エスプレス
アメリカンエキスプレス アメリカンエキスプレス
大平洋金属 平洋金属 ×
セブン-イレブン・ジャパン セブンイレブン・ジャパン ×
セブン-イレブンジャパン セブンイレブンジャパン ×
セブン-イレブンジャパン セブン-イレブンジャパン
ドンキホーテ ドンキホーテ

 

今回はリスト内で検索してみました。実際の検索画面は以下のようになります。正しい方の会社名(正誤=はい)が見つかれば、○となります。

図1.png 

 

多くのカタカナ小文字や、長音や中点の揺らぎは問題ありませんでした。逆に正しい会社名で検索しても、間違った会社名がヒットします。

ただし、「ウイン」を含む会社名では明暗が分かれました。「エドウィン」で「エドウイン」が検索できたのに、「ゴールドウィン」で「ゴールドウイン」は検索できません。また、間違った「キューピー」や「オンキョー」では正しい会社名は検索できませんでした。その逆も然り。

さすがに、「イ」と「ヰ」、「ヂ」と「ジ」、「ヅ」と「ズ」、「すゞ」と「すず」と言った旧仮名や濁点、繰返し記号はNGでしたが、「エクスプレス」と「エキスプレス」の揺らぎが問題なく検索できたのは面白い発見でした。

-----

このような揺らぎを吸収して、検索効率を上げるためにはどうしたら良いか。

もちろん、社員全員に『正式名称で登録するように!』と指導徹底をするのはアリです。または、選択肢やSharePointの「管理されたメタデータ(管理メタデータ)」に辞書を用意し、用語ストアから選択しかさせないようにするのも一案です。

 

今回はせっかくなので、『類義語辞書(シソーラス)』を用いた解決案について言及してみます。

揺らぎを吸収する辞書をあらかじめ作成・登録しておくことで、例えば、「MS」で検索したら「マイクロソフト」も「Microsoft」もヒットさせるようなことが可能となります。SharePointサーバ上でPowerShellを実行するだけで、再起動やインデックスリセット&フルクロールが不要なので、簡単でオススメです。

ただし、ここで追加した辞書を使う検索は全文検索でしか使用できません。管理プロパティを使った検索(例:会社名OWSTEXT:○○○)では有効にならないので気を付けて使い分けてください。

辞書の作成および登録方法については、TechNet記事「SharePoint Server 2013 で類義語辞典を作成および展開する」を参照していただくとして、上述の「MS」を例に挙げると、以下のように記載します。ファイルをUTF-8、CR-LF、BOM付きで保存するのを忘れずに!

以下は例ですが、このように記述します。

Key,Synonym,Language
マイクロソフト,MS
マイクロソフト,Microsoft
Microsoft,MS
Microsoft,マイクロソフト
MS,Microsoft
MS,マイクロソフト

 

さて、PowerShellで登録後、検索してみると・・・一単語のカタカタ会社名は問題なく見つけることができるようになりました!
図2.png 

しかし、複数の単語に分割できるような会社名、「いすゞ自動車」「ニッカウヰスキー」「日本コロムビア」などは会社名そのままを辞書に追加しても検索できないままです。
そういう場合、揺らぎのある単語部分だけを辞書に登録するようにします。以下、一例です。

Key,Synonym,Language
いすゞ,いすず
いすず,いすゞ
ウヰスキー,ウイスキー
ウイスキー,ウヰスキー
コロムビア,コロンビア
コロンビア,コロムビア

 

すると・・・検索できるようになりました!
図3.png

すべての会社名が記載した方法で救えるとは限りません。場合によっては、会社名先頭の単語で前方一致(例:セブン*)させるなどしないといけないケースもあります。

皆様もいろいろ試してみてください。

-----

弊社(株式会社PFU)では、自社で培ったSharePoint&文書管理のノウハウと、SharePoint向けアドオンソリューション「ドキュメントソリューション for SharePoint」で、紙文書・電子データの積極的活用を実現するお手伝いをしています。ご興味のある方は、こちらからお問い合わせ下さい。

株式会社PFU)千葉辰典
© PFU LIMITED 2015

 

Microsoft、Windows、SharePoint、Excel、Word、PowerPoint、Outlookは、米国Microsoft Corporationの、米国、日本およびその他の国における登録商標または商標です。

記載された会社名および製品名は各社の商標または登録商標です。

以上。