デジタルデータとは―デジタル通信の基礎
インターネットとともに90年代半ばからパーソナルコンピュータ(PC)というデジタル機器が広く普及したことにより、情報社会・デジタル社会が急速に発展してきました。また、スマートフォンを代表に多種多様なデジタル機器が登場してきたことで、現代はデジタルデータであふれた生活となり、デジタルはもう社会・個人の思考に自然に定着しているといえそうです。
こうした背景において、社会や生活を支えている、たとえば、誰でも簡単にデジタルデータの送信を可能にしているデジタルの要素技術―デジタル無線・デジタル変調―について紹介しておくことは、これらの社会での役割や技術の重要性などを理解するために大切と思われます。ここでは、その前に、デジタルデータの種類・特徴・量の単位といった、デジタル技術にまつわる基礎的な事柄をとりあげていきます。
INDEX
1. デジタルデータとは
デジタルデータは「0」と「1」からなり、日常用いている数の数え方(10進数)ではなく、2進数で表現されます。またモノのような形がないことが特徴です。以下、そのデジタルデータの種類、特徴、サイズ(量)について全体をまとめてみました。
1.1 デジタルデータの種類とその特徴
デジタルデータ(以下、「データ」と略します)について、はじめに知っておきたいこととして、まずデータの種類とその特徴があります。データの種類をおおまかに分類すると、表1のようになります。なお、動画は静止画の集まりとみることができます。
種類 | 具体例 | |
|---|---|---|
テキスト(文字) | メール文、記事、書面、プログラムなど | |
画像(静止画) | 写真、イラストなど | |
動画 | 映画、テレビ番組など | |
音 | 音声 | ナレーション、電話通話録音など |
音楽 | 歌曲、テクノ、BGMなど | |
*1 データと並んで使われる用語として「情報」があります。一般的に“データ”、“情報”については次のように考えられています。
・データ:事実を表す記号・符号の集まり
・情報:文字、画像など、人が解釈でき物事の判断や行動などに利用できるデータ
この意味で、表1は「情報」の種類を示していることになりますが、ここでは便宜的に「情報」と「データ」を区別せず、特に断りがない限り「データ」という表記に統一します。
これらのデータの特徴を表2にまとめました。このような特徴がもつ利便的・効率的な側面が、現在のデジタル社会の基礎になっているといってもよいでしょう。
| 特徴 | 説明 |
|---|---|
| 複製性 | 劣化なくコピーを作成できる |
| 統合性 | 表1の各種データをまとめて扱え、また異なる機器間でも正確に保持できる |
| 伝播性 | インターネット上で瞬時に伝わる |
| 圧縮性 | データ量の削減(圧縮)が可能である |
| 検索性 | 検索が容易にできる |
| 残存性 | 完全に消すことが困難である |
| 保護性 | アクセス制御(暗号化)が可能である |
| 編集性 | 追加、削除、修正が容易である |
1.2 データサイズ(データ量)の表し方
次に知っておきたいこととして、データは形はありませんがサイズ(量)があることです。データは「0」と「1」で表現され、その基本単位はbitになります。「0」で1bit、「1」も1bitであり、これがデータの最小単位になります。さらに、1960年代から8bitを1バイト(byte、B)とすることが標準となり、この単位も多く使われます(表3)。
表1にならい、各データにおけるデータ量の計算例を表4に示します。データの利用状況にもよりますが、文字・音・静止画・動画の順でデータ量が大きくなる傾向があります。
なお、各種のデータ計算にあたっての前提条件は次の“2. 各種データの表現”項にて、M(メガ)やG(ギガ)の接頭語については<コラム>データの単位に付けられる接頭語にて説明します。
種類 | データ量の計算例 | |
|---|---|---|
テキスト | アルファベット、数値、半角カタカナが合わせて500文字の文字データ量 全角カタカナ、ひらがな、漢字が合わせて500文字の文字データ量 | |
画像 | 解像度:横1280画素×縦1080画像& | |
動画 | (上記の画像を1フレームとして)1秒あたり30フレーム& | |
音 | 音声 | サンプリング周波数(標本化周波数):44.1kHz&量子化ビット数:16bit(2byte)& |
音楽 | ||
*2 ここでは詳しく触れませんが、実際のデータ通信では、通信時間を短くするため、各種データを圧縮という技術によりデータ量を削減しています(表2参照)。圧縮はアナログでは実現困難であり、デジタルよって実現できた画期的な技術です。
2. 各種データの表現
2.1 文字データ
前項でも触れましたが、スマートフォンやPCにおいて表示される文字(絵文字も含む)は、「0」と「1」という2進数で表現されます。これらデジタル機器で扱う文字は、文字コードという数値で記述され、文字と文字コードの対応表を「文字コード体系」と呼びます。表5に主要な文字コード(ASCII、Shift JIS、Unicode)を示します。
文字コード | 内容 |
|---|---|
ASCII | 米国でコンピュータの発明後、初期に作られた文字コード。 例:“G”のASCIIコード → “1000111” |
Shift JIS | 日本語に対応した文字コード。 例:“友”のShift JISコード → “1001011101000110” |
Unicode | 1993年に作られた世界共通の文字コードの国際規格。 UnicodeをベースにASCIIと完全互換性をもたせたUTF-8が一般に普及しており、 UTF-8での日本語文字の多くは、3byteすなわち24bit(224=16,777,216通り)で 例:“与”のUTF-8コード → “111001001011100010001110” |
2.2 画像・動画データ
スマートフォンで撮った写真やウェブサイトに掲載されているディスプレイ上の画像(静止画)は、
(1)画素(ピクセル)
(2)解像度
(3)色情報(階調)
という要素でその基本特性が決まります。動画ではさらに、(4)フレームレートという要素が加わります。
(1)画素(ピクセル)
画像の最小単位で、1画素は赤・緑・青(RGB)の色またはライトで構成されています。また、ピクセル(pixel)とも呼ばれます。
(2)解像度
画像の細かさを示します。たとえば、4Kディスプレイの解像度は横3840×縦2160ピクセルであり、画素数は33,177,600個と約3300万の画素数になります。解像度が低いほど粗く、高いほど精細な画像になります。
一方で、1インチあたりの画素数が解像度と呼ばれる場合もあり、その単位はpixel per inch:ppi(印刷物の場合はdot per inch:dpi)になります。たとえば、27型4Kディスプレイの解像度は163ppiと計算できます。
(3)色情報(階調)
色情報―階調またはグラデーション―は、光の3原色である赤・緑・青の各色の濃淡を離散的(とびとびの)数値で表されます。たとえば、各色が8bitの場合―24bitフルカラーの場合―では、28×28×28=256×256×256=16,777,216色が表現されます。
なお、たとえば下のような解像度3×2画素でTrue Colorの場合のデータ量は、6×24bit=144bitとなります。
(4)フレームレート
1秒間にディスプレイ上に表示される静止画像(フレーム)の数のことで、通常は、frames per second:fpsという単位で表されます。表6に代表的なフレームレートと採用例を示します。動画はプロモーションだけでなく、研究開発や教育、医療からエンターテインメントまで、さまざまな分野で活用されており、今では当たり前のコンテンツとして認識・使用されています。
| フレームレート | 採用例 |
|---|---|
| 23.976fps | 映画、ビデオディスクなど |
| 29.97fps | テレビ放送、ビデオディスクなど |
| 59.94fps | テレビ放送、4Kビデオディスク |
| 120fps | ゲーム、スローモーション撮影向けなど |
| 240fps以上 | 超スローモーション撮影向けなど |
2.3 音データ
音楽プレイヤーやスマートフォンで保存している音・音楽データは、
・サンプリング周波数(標本化周波数)
・量子化ビット数
により、基本特性が決まります。
ここでは、音データを記録した音楽用コンパクトディスク(音楽CD)の基本仕様―サンプリング周波数:44.1kHz、量子化ビット数:16bit―の意味を説明する例をあげ、アナログ信号からデジタル信号への変換という音のデジタル化*3について、以下の図1および図2にて整理しました。
*3 アナログとデジタルの違いについては、<コラム>アナログデータとデジタルデータを参照。
(a) | 説明を簡単にするため、単位時間として1秒あたりの音のアナログ信号を考えています。 |
(b) | 横軸の時間軸を等間隔で区分(サンプリングまたは標本化)します。 ここでは区分数を10としているため、サンプリング周期は10分の1秒になります。 |
(c) | 縦軸のレベル軸を区分し、レベルごとに値を割り当て(量子化)をおこないます。 量子化の割り当て作において、アナログ信号との間の差が生じる場合があり、 量子化におけるレベル値は“0”からはじまります。 |
(d) | 各標本点におけるレベルごとの値に符号の割り当て(符号化)をおこないます。 本例のデータ量は、1秒あたりの標本点の数が10、量子化ビット数が3bitなので、 |
図2の音のデジタル化の流れから、音楽CDの基本仕様―サンプリング周波数:44.1kHz、量子化ビット数:16bit―の意味は、次のようになります。
- 区分数が1秒あたり44100個あり、1区分間の時間(サンプリング周期)は約22.7マイクロ秒となる
- 音の信号レベルは、216(65536)段階で区分される
この2.3項では、繰り返しになりますが、アナログデータをデジタルデータへの変換(アナログ-デジタル変換;A/D変換)について説明しました。なじみのない用語群や、時間と周波数の概念に慣れる必要があるため、2.2項の静止画と動画のデータの内容より、理解のハードルが高いかもしれません。
<コラム>データの単位に付けられる接頭語
DXの推進などにより情報社会が急速に発展したことで、世界で利用されるデータ量が劇的に増加しています。実際に、2020年において全世界で生成されたデジタルデータ量は約15ZB(ゼタバイト)でしたが、新型感染症の流行によるオンラインでの会議などの影響もあり、2025年には180ZBと5年で2020年時の生成データ量の10倍を超えるという予測があります。
このような社会的状況に対応するため、第27回国際度量衡総会(2022年11月)において、SI接頭語*4として、10の30乗を表す「クエタ」、10の27乗「ロナ」が1991年以来31年ぶりに加わりました(同時に、その逆数である10のマイナス30乗「クエクト」、10のマイナス27乗「ロント」も)。これでSI接頭語は24種になり、60桁まで拡張されることになりました(表7)。
*4 キログラム(kg)やメートル(m)などの国際単位であるSI単位において、10倍や100倍など、またはその逆数の10分の1や100分の1などを表す目的の接頭語で、SI単位とともに使われる。
*5 データは2進数で扱われるため、210=1024倍で次の接頭語を付けることが浸透しています。たとえば
・1Bの1024倍 → 1KB(10241)
・1KBの1024倍 → 1MB(10242;1Bの1048576倍)
となります(1000B=1kBと、大文字Kと小文字kを区別して使われる場合があります)。
また、10241をKi(キビ)、10242をMi(メビ)、10243をGi(ギビ)、10244をTi(テビ)などといった国際規格(IEC 80000-13)による2進接頭語もありますが、一般的にはまだ定着していないようです。
<コラム>アナログデータとデジタルデータ
本文ではデータをデジタルデータとして解説してきました。一方で、音のようにアナログデータについても簡単に触れました。ここで、あらためてアナログデータとデジタルデータとのおおまかな違いを示します。
- アナログデータ:常に切れ目のなく連続的に変化する量―連続量(例:時針・分針のある時計の値、液体温度計の値)
- デジタルデータ:区切りがあり、不連続(とびとび)に変化する量―離散量(例:数値表示のある時計の値、同温度計の値)
最近では、音以外でも(たとえば画像)、1.1項で述べたデジタルデータの利便性からアナログデータをデジタルデータに変換することで、機能性を高めた電子機器が普及しています。スマートフォンを含め多様な電子機器で音声や画像のデータ加工・編集が当然になっている情報社会では、アナログにないデジタルの優位性によって、従来のアナログ機器からデジタル機器に置き換えられる流れは急速に進んでおり、将来もこの流れは継続していくことは間違いないでしょう。