デジタルデータとは―デジタル通信の基礎のメイン画像

デジタルデータとは―デジタル通信の基礎

インターネットとともに90年代半ばからパーソナルコンピュータ(PC)というデジタル機器が広く普及したことにより、情報社会・デジタル社会が急速に発展してきました。また、スマートフォンを代表に多種多様なデジタル機器が登場してきたことで、現代はデジタルデータであふれた生活となり、デジタルはもう社会・個人の思考に自然に定着しているといえそうです。
こうした背景において、社会や生活を支えている、たとえば、誰でも簡単にデジタルデータの送信を可能にしているデジタルの要素技術―デジタル無線・デジタル変調―について紹介しておくことは、これらの社会での役割や技術の重要性などを理解するために大切と思われます。ここでは、その前に、デジタルデータの種類・特徴・量の単位といった、デジタル技術にまつわる基礎的な事柄をとりあげていきます。

1. デジタルデータとは

デジタルデータは「0」と「1」からなり、日常用いている数の数え方(10進数)ではなく、2進数で表現されます。またモノのような形がないことが特徴です。以下、そのデジタルデータの種類、特徴、サイズ(量)について全体をまとめてみました。

1.1 デジタルデータの種類とその特徴

デジタルデータ(以下、「データ」と略します)について、はじめに知っておきたいこととして、まずデータの種類とその特徴があります。データの種類をおおまかに分類すると、表1のようになります。なお、動画は静止画の集まりとみることができます。

表1 データの種類*1

種類

具体例

テキスト(文字)

メール文、記事、書面、プログラムなど

画像(静止画)

写真、イラストなど

動画

映画、テレビ番組など

音声

ナレーション、電話通話録音など

音楽

歌曲、テクノ、BGMなど

*1 データと並んで使われる用語として「情報」があります。一般的に“データ”、“情報”については次のように考えられています。

・データ:事実を表す記号・符号の集まり
・情報:文字、画像など、人が解釈でき物事の判断や行動などに利用できるデータ

この意味で、表1は「情報」の種類を示していることになりますが、ここでは便宜的に「情報」と「データ」を区別せず、特に断りがない限り「データ」という表記に統一します。

これらのデータの特徴を表2にまとめました。このような特徴がもつ利便的・効率的な側面が、現在のデジタル社会の基礎になっているといってもよいでしょう。

表2 データの特徴
特徴説明
複製性劣化なくコピーを作成できる
統合性表1の各種データをまとめて扱え、また異なる機器間でも正確に保持できる
伝播性インターネット上で瞬時に伝わる
圧縮性データ量の削減(圧縮)が可能である
検索性検索が容易にできる
残存性完全に消すことが困難である
保護性アクセス制御(暗号化)が可能である
編集性追加、削除、修正が容易である

1.2 データサイズ(データ量)の表し方

次に知っておきたいこととして、データは形はありませんがサイズ(量)があることです。データは「0」と「1」で表現され、その基本単位はbitになります。「0」で1bit、「1」も1bitであり、これがデータの最小単位になります。さらに、1960年代から8bitを1バイト(byte、B)とすることが標準となり、この単位も多く使われます(表3)。

表3 データサイズ(データ量)の単位
bit(ビット) 8bit=1byte、1Byte、1B
byte、Byte、B(バイト)

表1にならい、各データにおけるデータ量の計算例を表4に示します。データの利用状況にもよりますが、文字・音・静止画・動画の順でデータ量が大きくなる傾向があります。
なお、各種のデータ計算にあたっての前提条件は次の“2. 各種データの表現”項にて、M(メガ)やG(ギガ)の接頭語については<コラム>データの単位に付けられる接頭語にて説明します。

表4 データ量の計算例*2

種類

データ量の計算例

テキスト
(文字)

アルファベット、数値、半角カタカナが合わせて500文字の文字データ量
500byte
∵ すべて1文字あたり8bit(1byte)×500文字=4000bit=500byte

全角カタカナ、ひらがな、漢字が合わせて500文字の文字データ量
1000byte
∵ すべて1文字あたり16bit(2byte)×500文字=8000bit=1000byte

画像
(静止画)

解像度:横1280画素×縦1080画像&
赤/緑/青の色情報:各8bit(8bit×3=24bit)の画像データ量 → 約4.15MB
∵ (1280×1080)画素×24bit≒1.38M×24≒33.18M(bit)≒4.15M(B)

動画

(上記の画像を1フレームとして)1秒あたり30フレーム&
2分間の動画データ量 → 14.93GB
∵ 4.15MB×30フレーム/秒×120秒≒14.93GB

音声

サンプリング周波数(標本化周波数):44.1kHz&量子化ビット数:16bit(2byte)&
ステレオ(2チャンネル)&5分間の音のデータ量 → 52.92MB
∵ 44100×16bit×2チャンネル×300秒=423.36M(bit)×2=52.92M(B)

音楽

*2 ここでは詳しく触れませんが、実際のデータ通信では、通信時間を短くするため、各種データを圧縮という技術によりデータ量を削減しています(表2参照)。圧縮はアナログでは実現困難であり、デジタルよって実現できた画期的な技術です。

2. 各種データの表現

2.1 文字データ

前項でも触れましたが、スマートフォンやPCにおいて表示される文字(絵文字も含む)は、「0」と「1」という2進数で表現されます。これらデジタル機器で扱う文字は、文字コードという数値で記述され、文字と文字コードの対応表を「文字コード体系」と呼びます。表5に主要な文字コード(ASCII、Shift JIS、Unicode)を示します。

表5 主な文字コード

文字コード

内容

ASCII
(アスキー)

米国でコンピュータの発明後、初期に作られた文字コード。
アルファベットの大文字と小文字を合わせた52種類と+−などの記号を含み、
7bit(27=128通り)の文字コード体系になっている。

例:“G”のASCIIコード → “1000111”

Shift JIS

日本語に対応した文字コード。
日本語には、ひらがな・カタカナ・漢字といった文字の種類が多く、
2byteすなわち16bit(216=65,536通り)で表現した文字コード体系になっている。

例:“友”のShift JISコード → “1001011101000110”
(通常、16進数がよく用いられ、この場合は“9746”)

Unicode
(ユニコード)

1993年に作られた世界共通の文字コードの国際規格。
符号化文字集合とも呼ばれ、絵文字にも対応している。

UnicodeをベースにASCIIと完全互換性をもたせたUTF-8が一般に普及しており、
文字を1byteから6byteの範囲で表現している。

UTF-8での日本語文字の多くは、3byteすなわち24bit(224=16,777,216通り)で
表現した文字コード体系になっている。

例:“与”のUTF-8コード → “111001001011100010001110”
(16進数では“E4B88E”)

2.2 画像・動画データ

スマートフォンで撮った写真やウェブサイトに掲載されているディスプレイ上の画像(静止画)は、

(1)画素(ピクセル)
(2)解像度
(3)色情報(階調)

という要素でその基本特性が決まります。動画ではさらに、(4)フレームレートという要素が加わります。

(1)画素(ピクセル)

画素のイメージ画像

画像の最小単位で、1画素は赤・緑・青(RGB)の色またはライトで構成されています。また、ピクセル(pixel)とも呼ばれます。

(2)解像度

解像度のイメージ画像
4ppi(dpi)の解像度

画像の細かさを示します。たとえば、4Kディスプレイの解像度は横3840×縦2160ピクセルであり、画素数は33,177,600個と約3300万の画素数になります。解像度が低いほど粗く、高いほど精細な画像になります。
一方で、1インチあたりの画素数が解像度と呼ばれる場合もあり、その単位はpixel per inch:ppi(印刷物の場合はdot per inch:dpi)になります。たとえば、27型4Kディスプレイの解像度は163ppiと計算できます。

(3)色情報(階調)

色情報―階調またはグラデーション―は、光の3原色である赤・緑・青の各色の濃淡を離散的(とびとびの)数値で表されます。たとえば、各色が8bitの場合―24bitフルカラーの場合―では、28×28×28=256×256×256=16,777,216色が表現されます。

色情報のイメージ画像1

なお、たとえば下のような解像度3×2画素でTrue Colorの場合のデータ量は、6×24bit=144bitとなります。

色情報のイメージ画像2

(4)フレームレート

1秒間にディスプレイ上に表示される静止画像(フレーム)の数のことで、通常は、frames per second:fpsという単位で表されます。表6に代表的なフレームレートと採用例を示します。動画はプロモーションだけでなく、研究開発や教育、医療からエンターテインメントまで、さまざまな分野で活用されており、今では当たり前のコンテンツとして認識・使用されています。

表6 代表的なフレームレートとその採用例
フレームレート採用例
23.976fps映画、ビデオディスクなど
29.97fpsテレビ放送、ビデオディスクなど
59.94fpsテレビ放送、4Kビデオディスク
120fpsゲーム、スローモーション撮影向けなど
240fps以上超スローモーション撮影向けなど

2.3 音データ

音楽プレイヤーやスマートフォンで保存している音・音楽データは、

・サンプリング周波数(標本化周波数)
・量子化ビット数

により、基本特性が決まります。

ここでは、音データを記録した音楽用コンパクトディスク(音楽CD)の基本仕様―サンプリング周波数:44.1kHz、量子化ビット数:16bit―の意味を説明する例をあげ、アナログ信号からデジタル信号への変換という音のデジタル化*3について、以下の図1および図2にて整理しました。

*3 アナログとデジタルの違いについては、<コラム>アナログデータとデジタルデータを参照。

アナログ信号と、これをデジタル化した信号のイメージ
図1 アナログ信号と、これをデジタル化した信号のイメージ
アナログ信号からデジタル信号への変換イメージ
図2 アナログ信号からデジタル信号への変換イメージ
図2の補足

(a)

説明を簡単にするため、単位時間として1秒あたりの音のアナログ信号を考えています。

(b)

横軸の時間軸を等間隔で区分(サンプリングまたは標本化)します。
この間隔をサンプリング周期または標本化周期と呼びます。
また、区分線と信号の交点(標本点)を抽出します。

ここでは区分数を10としているため、サンプリング周期は10分の1秒になります。
また、その逆数をサンプリング周波数と呼び、この場合は10Hzになります。

(c)

縦軸のレベル軸を区分し、レベルごとに値を割り当て(量子化)をおこないます。
ここでは3bit、すなわち23の8段階で区分しています(この3bitを量子化ビット数と呼びます)。

量子化の割り当て作において、アナログ信号との間の差が生じる場合があり、
その差を量子化雑音と呼びます。

量子化におけるレベル値は“0”からはじまります。

(d)

各標本点におけるレベルごとの値に符号の割り当て(符号化)をおこないます。
図1(b)のデジタル信号の符号は、この符号と同じです。

本例のデータ量は、1秒あたりの標本点の数が10、量子化ビット数が3bitなので、
10×3bit=30bitとなります。

図2の音のデジタル化の流れから、音楽CDの基本仕様―サンプリング周波数:44.1kHz、量子化ビット数:16bit―の意味は、次のようになります。

  • 区分数が1秒あたり44100個あり、1区分間の時間(サンプリング周期)は約22.7マイクロ秒となる
  • 音の信号レベルは、216(65536)段階で区分される

この2.3項では、繰り返しになりますが、アナログデータをデジタルデータへの変換(アナログ-デジタル変換;A/D変換)について説明しました。なじみのない用語群や、時間と周波数の概念に慣れる必要があるため、2.2項の静止画と動画のデータの内容より、理解のハードルが高いかもしれません。

<コラム>データの単位に付けられる接頭語

DXの推進などにより情報社会が急速に発展したことで、世界で利用されるデータ量が劇的に増加しています。実際に、2020年において全世界で生成されたデジタルデータ量は約15ZB(ゼタバイト)でしたが、新型感染症の流行によるオンラインでの会議などの影響もあり、2025年には180ZBと5年で2020年時の生成データ量の10倍を超えるという予測があります。

このような社会的状況に対応するため、第27回国際度量衡総会(2022年11月)において、SI接頭語*4として、10の30乗を表す「クエタ」、10の27乗「ロナ」が1991年以来31年ぶりに加わりました(同時に、その逆数である10のマイナス30乗「クエクト」、10のマイナス27乗「ロント」も)。これでSI接頭語は24種になり、60桁まで拡張されることになりました(表7)。

*4 キログラム(kg)やメートル(m)などの国際単位であるSI単位において、10倍や100倍など、またはその逆数の10分の1や100分の1などを表す目的の接頭語で、SI単位とともに使われる。

表7 データのSI接頭語*5(参考に日本語と英語の命数法も付記)

接頭語

記号

10n

日本語の命数法

英語の命数法
(short scale)

クエタ(quetta)

Q

1030

百穣(じょう)

nonillion

ロナ(ronna)

R

1027

千𥝱(じょ)

octillion

ヨタ(yotta)

Y

1024

一𥝱(じょ)

septillion

ゼタ(zetta)

Z

1021

十垓(がい)

sextillion

エクサ(exa)

E

1018

百京(けい)

quintillion

ペタ(peta)

P

1015

千兆

quadrillion

テラ(tera)

T

1012

一兆

trillion

ギガ(giga)

G

109

十億

billion

メガ(mega)

M

106

百万

million

キロ(kilo)

k

103

thousand

ヘクト(hecto)

h

102

hundred

デカ(deca)

da

101

ten

-

-

100

one

デシ(deci)

d

10−1

分(ぶ)

tenth

センチ(centi)

c

10−2

厘(りん)

hundredth

ミリ(milli)

m

10−3

毛(もう)

thousandth

マイクロ(micro)

μ

10−6

微(び)

millionth

ナノ(nano)

n

10−9

塵(じん)

billionth

ピコ(pico)

p

10−12

漠(ばく)

trillionth

フェムト(femto)

f

10−15

須臾(しゅゆ)

quadrillionth

アト(atto)

a

10−18

刹那(せつな)

quintillionth

ゼプト(zepto)

z

10−21

清浄(せいじょう)

sextillionth

ヨクト(yocto)

y

10−24

涅槃寂静(ねはんじゃくじょう)

septillionth

ロント(ronto)

r

10−27

-

octillionth

クエクト(quecto)

q

10−30

-

nonillionth

*5 データは2進数で扱われるため、210=1024倍で次の接頭語を付けることが浸透しています。たとえば

・1Bの1024倍 → 1KB(10241
・1KBの1024倍 → 1MB(10242;1Bの1048576倍)

となります(1000B=1kBと、大文字Kと小文字kを区別して使われる場合があります)。
また、10241をKi(キビ)、10242をMi(メビ)、10243をGi(ギビ)、10244をTi(テビ)などといった国際規格(IEC 80000-13)による2進接頭語もありますが、一般的にはまだ定着していないようです。

<コラム>アナログデータとデジタルデータ

本文ではデータをデジタルデータとして解説してきました。一方で、音のようにアナログデータについても簡単に触れました。ここで、あらためてアナログデータとデジタルデータとのおおまかな違いを示します。

  • アナログデータ:常に切れ目のなく連続的に変化する量―連続量(例:時針・分針のある時計の値、液体温度計の値)
  • デジタルデータ:区切りがあり、不連続(とびとび)に変化する量―離散量(例:数値表示のある時計の値、同温度計の値)

最近では、音以外でも(たとえば画像)、1.1項で述べたデジタルデータの利便性からアナログデータをデジタルデータに変換することで、機能性を高めた電子機器が普及しています。スマートフォンを含め多様な電子機器で音声や画像のデータ加工・編集が当然になっている情報社会では、アナログにないデジタルの優位性によって、従来のアナログ機器からデジタル機器に置き換えられる流れは急速に進んでおり、将来もこの流れは継続していくことは間違いないでしょう。