今さら聞けない!ファイルフォーマット(その2)
2022/07/21
「今さら聞けない!ファイルフォーマット」(https://xn--ruq167cnto080a.com/media_key/4233/)で文書の電子化に関連して、文書や画像関連のファイルフォーマットについて説明をしました。今回はそれ以外によく使われているファイルフォーマットについてわかりやすく解説をしていきます。
簡単に前回の復習をしておきましょう。
様々なデータは何らかの方式で作られていて、そのデータをファイルフォーマットで表現しています。また、それを表示しているのが、ファイル名の後ろにつけられている3桁もしくは4桁の英数字です。マイクロソフトを使っているとドキュメント関連のソフトのワードで作られたデータは「●●●●.docx」と表示されていて、「.docx」がファイルフォーマットを示す拡張子です。
前回は文書関連のファイル、画像関連のファイルにどのようなものがあるのかを説明しました。
文書関連や画像関連以外にも、一般的によく使われているものが、圧縮関連のファイルフォーマット、動画及び音声関連のファイルフォーマットです。今回は圧縮関連のファイルフォーマットについて説明しましょう。
Contents
◆圧縮ファイルとは
メールで何メガもあるような大きなファイルが送られてきたときに、圧縮ファイルとして受け取ったことはありませんか? また取引先に大きなデータを送らなければならないときに、メールの添付ファイルの容量に制限があり、大きなファイルを分割してデータを送った経験がありませんか?
大きなファイルを保存するとデバイスの容量を圧迫してしまいます。またメールで添付ファイルとして送るときにサイズが大きすぎて送れないときがあります。このようなときに利用されているのがデータの容量を小さくする圧縮ファイルです。圧縮ファイルにも多くの種類がありますが、代表的なものは下記の通りです。
ZIP: 最も一般的な圧縮ファイル。ウィンドウズとMACの両方で利用が可能。
LZH: 圧縮と解凍のスピードが速い。MACの場合は解凍ソフトをインストールする必要あり。
RAR: 圧縮率が高い。ウィンドウズ、MACともに専用のソフトをインストールする必要あり。
この記事では最も一般的に使われているZIPファイルについて、もう少し詳しく説明しましょう。
◆ZIPの圧縮の仕組み
ZIPがデータを圧縮する仕組みということはご存じと思いますが、どのようにデータを圧縮しているのかは意外と知られていません。仕組みは非常に簡単です。
例えば下記のような文章があったとします。
「三井倉庫ビジネスパートナーズ株式会社は三井倉庫株式会社の100%子会社です。」
この文章は次のように分割できます。(同じ単語を色分けしています。)
1:三井倉庫
2:ビジネスパートナーズ
3:株式
4:会社
5:は
6:三井倉庫
7:株式
8:会社
9:の
10:100%
11:子
12:会社
13:です。
この中で1と6(三井倉庫)、3と7(株式)、4と8と12(会社)は同じ単語です。
そして、この文章を1と6は同じなので1で表現、3と7は3で表現というようにすると、上の文章は
1:2:3:4:5:1:3:4:9:10:11:4:13
で再現できます。つまり、6:「三井倉庫」、7:「株式」、8と12:「会社」の4単語は削除しても、同じ文章を再現できるのでデータ量が削減できます。
一方、ZIPで圧縮されたデータは解凍というプロセスで元の文章に戻します。上の文章で1は三井倉庫を意味しますので、1があるところには三井倉庫を入れる、という手順です。
この技術では同じデータが多くあるファイルは大きく圧縮できますが、同一のデータが少ない場合には大きな圧縮はできません。
◆ZIPの圧縮を試してみた
実際にZIPの圧縮を試してみました。どのような圧縮率になるのでしょうか。
ワードで作成したテキストデータ
メモ帳で作成したテキストデータ
三井倉庫、という文字を繰り返して作成しました。
文字数は、1,557文字でワードとテキストは同じ文字数
PINGで保存した画像データ
パワーポイントにした画像データ
上の4つのデータをそれぞれZIPで圧縮して保存した結果が下の図です。
それぞれをZIP圧縮した結果をまとめると以下の通りです。
テキストのみのファイル:5K → 1K (圧縮率:80%)
テキストのワードファイル:13K → 10K (圧縮率:23%)
PINGの画像データ:522K → 522K (圧縮率:0%)
パワーポイントに画像が貼り付けられたデータ:241K → 232K (圧縮率:10%)
パワーポイントの文字のみのデータ:42K → 34K (圧縮率:19%)
文字のデータに関しては圧縮の効果が高く、画像データに関してはあまり圧縮が期待できないことがお判りでしょう。画像の場合は画像の中に同じ情報が少なく、圧縮できる要素が少ないため圧縮があまりできません。
(#各種のデータは正式なテストの結果ではなく、記事で紹介するために行ったテストです。数値については状況によって大きく変わりますのでご注意ください。)
◆ZIPは圧縮機能だけではない
ZIPは単に圧縮機能として使うだけではありません。他にも有効な機能があります。
▼いくつかのファイルを一つにまとめる機能
メールでいくつかのファイルを添付して送りたいときに、バラバラに送付するとダブって送付したり、必要なファイルを添付し忘れたりしてしまうことがあります。ZIPはいくつかのファイルをまとめて一つのフォルダに圧縮できます。つまり、メールで送付するときに、この圧縮された一つのフォルダだけを添付すれば良いのです。
▼パスワードをつける機能
データを送付するときに、重要なデータがパスワードで保護されていると受け取った側も安心ですよね。
ZIPはパスワードを付与できるので、パスワード付の添付ファイルということで相手にも安心してもらえます。
ただ、パスワードは別途、相手に通知する必要があるので忘れないようにしなければなりません。
◆まとめ
ZIPで圧縮してもあまりファイルサイズが小さくならず、メールなどで送付するときに困った方も多いのでないでしょうか。この記事でお分かりいただけたとおもいますが、画像のデータが入っている場合は思ったほど圧縮はできないのです。
重要なプレゼンテーションのファイルで様々な画像や図が入っているような場合、ファイルサイズがかなり大きくなってしまいます。もし、このようなファイルをメールなどで送付することが想定される場合、作成段階で写真などの情報はできるだけ小さな画像に変換してから、ワードやプレゼンテーションの資料にはりつけるように考えてみてください。画像データのサイズを小さくする方法も別の記事で紹介する予定です。