文本文件与二进制文件

以下文件的有何区别?

相同的内容,但不同的文件尺寸、呈现形式,为什么?

纯文本、富文本、超文本

由上可见,一篇可供人类阅读的文档,除了文字内容,还包括篇章段落结构、文字样式,甚至动画和交互等各种信息

  • 纯文本:plain text,即仅包含文字内容本身
  • 富文本:rich text,除了文本本身,还包含了结构、格式、样式等信息
  • 超文本:hyper text,除了文本本身,还包含了描述如何进行链接和组织、如何进行交互等信息

古早时代是纯文本、PC单机时代是富文本、互联网时代是超文本

文本文件与二进制文件

在计算机世界中,内容保存在文件之中,内容如何被编码、表示和处理呢? 即:文件格式

  • 文本文件 : 使用文本格式进行存储的文件。文本格式是一种编码格式(即在计算机上如何表示人类的文字)。它基于ansi字符集(即ascii码)或unicode字符集,是各平台、各系统中最通用的格式,即各类主流的软件都能正确的识别、显示和处理,不会出现乱码
  • 二进制文件 binary , 即使用软件自行编制的编码格式进行存储的文件,因此需要由特殊的软件进行解码、显示和处理
    • 二进制文件可以包含任何字符或编码,它依赖于编辑器的解释;
    • 所以.doc 文件需要用MS word打开,则正常可读;若用photoshop打开,则是乱码不知所云

乱码: 当用A软件打开B软件专有格式的文档时,由于无法识别该文档,则A软件一般会尝试使用文本格式(即ascii码)进行显示,于是......

文档、文件、页面

  • 文档:document 当关注于内容时,称之为文档,文档可以有多种存在形式,如文件、页面、字节流
  • 文件:file 当关注于存储形式时,称之为文件。文件可以包含多种类型的文档,如文本、图片、音频、视频、程序等
  • 页面:page 是文档在万维网上的存储形式

文档类型

  • 文本文档:.txt, .html, .c, .java, .php等
  • 应用文档: .doc, .xls, .pdf, .zip等
  • 图形文档: .jpeg, .png, .webp等
  • 音频文档: .wav, .mp3等
  • 视频文档: .mp4, .ogg, .mov等

文档工具链

  • 浏览器:对文档进行渲染与显示,如Web浏览器、图片浏览器、多媒体播放器等
  • 编辑器:对文档进行编辑与存储
    • 文本编辑器 ,如notepad、sublimetext、vscode
    • 富文本编辑器: MS office、WPS、在线富文本编辑器...
    • 二进制文件编辑器: 如各类图片、音频、视频工具,photoshop...
  • 处理器:对文档进行转换,如各种格式转换器、内容自动处理工具等

HTML文档

  • 通过嵌入HTML标记、CSS样式、Javascript脚本等,可以表现富文本、超文本等
  • 完全基于文本格式(推荐UTF8编码)进行存储或传输,因此可以使用任何兼容文本格式的软件进行浏览、编辑、传输和处理
  • 允许嵌入指向二进制文件的链接,如图片、音频、视频等文件,从而提供了兼容旧世界的能力

html文档:以纯文本格式存储,具有富文本的样式,同时提供超文本的交互能力

results matching ""

    No results matching ""