文本文件与二进制文件
以下文件的有何区别?
相同的内容,但不同的文件尺寸、呈现形式,为什么?
纯文本、富文本、超文本
由上可见,一篇可供人类阅读的文档,除了文字内容,还包括篇章段落结构、文字样式,甚至动画和交互等各种信息
- 纯文本:plain text,即仅包含文字内容本身
- 富文本:rich text,除了文本本身,还包含了结构、格式、样式等信息
- 超文本:hyper text,除了文本本身,还包含了描述如何进行链接和组织、如何进行交互等信息
古早时代是纯文本、PC单机时代是富文本、互联网时代是超文本
文本文件与二进制文件
在计算机世界中,内容保存在文件之中,内容如何被编码、表示和处理呢? 即:文件格式
- 文本文件 : 使用文本格式进行存储的文件。文本格式是一种编码格式(即在计算机上如何表示人类的文字)。它基于ansi字符集(即ascii码)或unicode字符集,是各平台、各系统中最通用的格式,即各类主流的软件都能正确的识别、显示和处理,不会出现乱码
- 二进制文件 binary , 即使用软件自行编制的编码格式进行存储的文件,因此需要由特殊的软件进行解码、显示和处理
- 二进制文件可以包含任何字符或编码,它依赖于编辑器的解释;
- 所以.doc 文件需要用MS word打开,则正常可读;若用photoshop打开,则是乱码不知所云
乱码: 当用A软件打开B软件专有格式的文档时,由于无法识别该文档,则A软件一般会尝试使用文本格式(即ascii码)进行显示,于是......
文档、文件、页面
- 文档:document 当关注于内容时,称之为文档,文档可以有多种存在形式,如文件、页面、字节流
- 文件:file 当关注于存储形式时,称之为文件。文件可以包含多种类型的文档,如文本、图片、音频、视频、程序等
- 页面:page 是文档在万维网上的存储形式
文档类型
- 文本文档:.txt, .html, .c, .java, .php等
- 应用文档: .doc, .xls, .pdf, .zip等
- 图形文档: .jpeg, .png, .webp等
- 音频文档: .wav, .mp3等
- 视频文档: .mp4, .ogg, .mov等
文档工具链
- 浏览器:对文档进行渲染与显示,如Web浏览器、图片浏览器、多媒体播放器等
- 编辑器:对文档进行编辑与存储
- 文本编辑器 ,如notepad、sublimetext、vscode
- 富文本编辑器: MS office、WPS、在线富文本编辑器...
- 二进制文件编辑器: 如各类图片、音频、视频工具,photoshop...
- 处理器:对文档进行转换,如各种格式转换器、内容自动处理工具等
HTML文档
- 通过嵌入HTML标记、CSS样式、Javascript脚本等,可以表现富文本、超文本等
- 完全基于文本格式(推荐UTF8编码)进行存储或传输,因此可以使用任何兼容文本格式的软件进行浏览、编辑、传输和处理
- 允许嵌入指向二进制文件的链接,如图片、音频、视频等文件,从而提供了兼容旧世界的能力
html文档:以纯文本格式存储,具有富文本的样式,同时提供超文本的交互能力