WordSmith 使用教程:从入门到精通
WordSmith Tools 是由 Lexical Analysis Software 公司开发的一款经典的语料库语言学软件,被誉为语料库分析的“瑞士军刀”,它以其功能强大、操作直观而备受语言研究者、教师、翻译和文本分析师的青睐。

本教程将分为以下几个部分:
- 初识 WordSmith:简介、核心优势与适用人群
- 安装与界面:如何安装及熟悉主界面
- 核心功能详解:六大核心工具的详细用法
- 实战案例:一个完整的分析流程示例
- 高级技巧与常见问题
第一部分:初识 WordSmith
1 什么是 WordSmith?
WordSmith 是一个软件包,它包含了一系列用于文本分析的工具,你可以把它想象成一个“文本实验室”,你可以把你的文本文件(如小说、新闻稿、学生作文、产品评论等)放进去,通过各种工具进行“解剖”和“化验”,从而揭示文本中隐藏的语言特征。
2 WordSmith 的核心优势
- 功能全面:集词汇、词组、句子、语境等多种分析于一体。
- 操作直观:图形化界面,大部分操作只需点击鼠标,无需编程。
- 结果丰富:分析结果以列表、图表、图表等多种形式直观展示,并可轻松导出。
- 历史悠久,社区成熟:作为行业标杆,有大量的教程和研究案例可供参考。
3 适用人群
- 语言研究者:研究作者风格、语言变化、话语分析等。
- 英语/语文教师:分析学生作文中的词汇丰富度、语法错误、搭配问题。
- 翻译人员:分析特定领域的术语搭配和行文风格。
- 市场/品牌分析师:分析消费者评论,了解公众对产品/品牌的情感和关注点。
- 任何需要深入理解文本特征的人。
第二部分:安装与界面
1 安装
- 下载:访问 WordSmith 官网 (https://www.lexicalanalysis.com/) 购买并下载安装程序。
- 安装:按照向导完成安装,安装过程非常简单,类似于普通软件。
- 启动:安装完成后,桌面会出现 WordSmith Tools 的图标,双击即可启动。
2 主界面
启动 WordSmith 后,你会看到一个简洁的主界面,这个界面是所有工具的“指挥中心”。
- 顶部菜单栏:包含
File(文件)、Tools(工具)、Options(选项) 等。 - 左侧工具列表:这是核心区域,列出了 WordSmith 的所有工具,我们将重点介绍其中最常用的六个。
- 中间主要区域:用于显示当前选中的工具的设置界面和结果。
- 底部状态栏:显示一些状态信息。
第三部分:核心功能详解
WordSmith 的六大核心工具是每个用户都必须掌握的,我们将逐一讲解。

1 WordList (词表工具)
这是最基础也是最重要的工具,用于生成和分析文本中的词汇列表。
- 功能:统计一个文本文件(或一组文件)中所有单词的出现频率,并生成一个按频率排序的词表。
- 如何使用:
- 在左侧工具栏双击
WordList。 - 在主界面的
Make a word list from...部分,点击Select files按钮,选择你要分析的文本文件(可以是单个.txt文件,也可以是一个文件夹下的所有文件)。 - 在
Output部分,指定保存结果的文件名和位置。 - 点击
Start按钮,WordSmith 开始分析。
- 在左侧工具栏双击
- 关键设置:
Settings按钮:这是最重要的设置区域。Ignore case:是否忽略大小写,通常建议勾选,将 "The" 和 "the" 视为同一个词。Ignore list:忽略词表,你可以提供一个包含常见无意义词(如 "the", "a", "in", "is" 等)的文件,WordSmith 在统计时会自动跳过这些词,WordSmith 自带了一个标准的忽略词表。stemming:词形还原,将不同形式的词(如 "running", "ran")还原为词根("run"),这有助于更准确地分析核心词汇。
- 结果解读:生成的结果文件(通常是
.txt或.html格式)包含三列:Rank(排名)、Word(单词)、Freq(频率)。
2 Concord (语境工具)
Concord 是进行词语语境分析的利器,它可以帮助你看到某个单词在原文中是如何被使用的。
- 功能:在文本中搜索一个或多个关键词,并将它们所在的句子(或短语)以“关键词在中间,左右为语境”的形式展示出来。
- 如何使用:
- 双击
Concord打开工具。 - 在
Show concordance for输入框中,输入你想搜索的单词(如 "innovation")。 - 在
Make concordance from...部分,选择你之前生成的WordList文件(强烈推荐),或者直接选择原始文本文件,使用 WordList 文件可以确保搜索是基于经过清理的词汇列表。 - 点击
Start。
- 双击
- 关键设置:
Sort(排序):这是Concord的精髓所在。Alphabetical:按字母顺序排序。Right:按关键词右边的词排序(分析常用搭配)。Left:按关键词左边的词排序(分析常见主语或介词)。
Show(显示):控制每个语境条目显示的字符数。
- 结果解读:你会得到一个列表,每一行都展示了关键词及其上下文,通过排序,你可以轻松发现词语的搭配模式。
3 Concordance Plot (语境图工具)
这是 Concord 的可视化版本,以图表形式展示词语在文本中的分布情况。
- 功能:将文本看作一条水平线,每个关键词出现的位置用一条竖线标记,通过观察竖线的疏密,可以判断词语在文本中是均匀分布还是集中在某些部分。
- 如何使用:
- 双击
Concordance Plot。 - 输入关键词,选择源文件(同
Concord)。 - 点击
Start。
- 双击
- 结果解读:生成的图表中,X轴代表文本的进度,Y轴没有实际意义,只是为了让竖线不重叠,如果竖线在某个区域非常密集,说明该部分文本大量使用了该词。
4 Keywords (关键词工具)
这是一个非常强大的对比分析工具,用于找出两个文本集之间的“关键词”。

- 功能:比较两个语料库(如“新闻语料库”和“学术语料库”),找出在一个语料库中显著高频,而在另一个语料库中显著低频的词,这些词就是“关键词”。
- 如何使用:
- 双击
Keywords。 - 在
Reference corpus(参照语料库) 中,选择作为基准的文本集(如学术语料库)。 - 在
Study corpus(研究语料库) 中,选择你想分析的文本集(如新闻语料库)。 - 点击
Start。
- 双击
- 结果解读:结果会列出所有“关键词”,并给出它们在两个语料库中的频率、频率比、卡方值等统计指标,排在最前面的词,就是最能代表“研究语料库”特征的词。
5 Split Viewer (文本分割工具)
用于将一个长文本文件分割成多个小文件,便于后续分析。
- 功能:可以根据字符数、行数或段落数,将一个大文件切分成若干个小文件。
- 如何使用:
- 双击
Split Viewer。 - 选择要分割的大文件。
- 设置分割规则(如每 1000 个字符一个文件)。
- 指定保存小文件的文件夹。
- 点击
Start。
- 双击
6 Text Converter (文本转换工具)
用于批量处理文本文件,如统一编码、转换大小写、去除格式等。
- 功能:对多个文本文件进行批量格式化处理。
- 如何使用:
- 双击
Text Converter。 - 选择要处理的文件或文件夹。
- 在转换选项中进行设置(如
Convert to lower case,Remove punctuation等)。 - 指定输出文件夹。
- 点击
Start。
- 双击
第四部分:实战案例:分析两篇不同风格的新闻稿
假设我们有两篇关于“人工智能”的新闻稿,一篇来自《科技日报》(风格正式、专业),一篇来自《今日头条》(风格通俗、活泼),我们想找出它们在词汇使用上的差异。
分析目标:找出《今日头条》相对于《科技日报》的关键词,以揭示其通俗化、网络化的语言特征。
步骤:
-
准备数据:
- 将《科技日报》的多篇文章放在一个文件夹,命名为
Formal。 - 将《今日头条》的多篇文章放在另一个文件夹,命名为
Colloquial。
- 将《科技日报》的多篇文章放在一个文件夹,命名为
-
生成词表:
- 使用
WordList工具,分别对Formal和Colloquial文件夹生成词表。 - 设置:勾选
Ignore case和Ignore list,以确保分析是基于有意义的词汇。 - 得到
Formal_wordlist.txt和Colloquial_wordlist.txt。
- 使用
-
运行关键词分析:
- 打开
Keywords工具。 - Reference corpus (参照语料库):选择
Formal_wordlist.txt,我们想看看《今日头条》的报道和《科技日报》的“正式”报道有何不同。 - Study corpus (研究语料库):选择
Colloquial_wordlist.txt。 - 点击
Start。
- 打开
-
解读结果:
- 查看
Keywords生成的结果列表。 - 你可能会发现,排在前列的关键词包括:
- 网络流行语:如
给力,脑洞,硬核。 - 口语化词汇:如
大家,我们,感觉。 - 感叹词:如
哇,哦。 - 特定领域的非正式表达:如
AI圈,大佬。
- 网络流行语:如
- 相反,在分析《科技日报》相对于《今日头条》的关键词时,你可能会发现
算法,神经网络,数据,模型等专业术语。
- 查看
-
深入语境分析 (可选):
- 对于发现的关键词,如
硬核,可以回到Concord工具。 - 在
Concord中搜索硬核,并选择Colloquial文件夹作为源文件。 - 观察
硬核在这些新闻稿中的具体用法和语境,验证你的分析。
- 对于发现的关键词,如
第五部分:高级技巧与常见问题
1 高级技巧
- 工具链串联:WordSmith 的强大之处在于工具可以串联使用。
Text Converter->WordList->Concord->Keywords- 这个流程代表了:预处理文本 -> 生成基础词表 -> 深入分析词语语境 -> 对比不同文本集。
- 善用
Settings:花时间理解每个工具的Settings选项,特别是WordList和Concord中的设置,它们直接决定了分析的质量。 - 结果导出:所有结果都可以导出为
.txt,.html,.xls等格式,方便你在 Word, Excel 或其他分析软件中进行进一步处理和美化。
2 常见问题
-
Q: 为什么我生成的词表里有很多 "the", "a", "is"?
- A: 因为你没有在
WordList的Settings中加载Ignore list,请检查并勾选Ignore list选项,并确保指向了正确的忽略词表文件。
- A: 因为你没有在
-
Q:
Keywords分析结果为空,怎么办?- A: 通常是因为两个语料库的词汇量差异过大,或者没有足够的共同词汇作为基础,确保两个语料库的文本量和类型具有一定的可比性,检查文件路径是否正确。
-
Q: 如何分析中文文本?
- A: WordSmith 本身是为英语设计的,对中文的支持有限,因为它默认以空格分词,要分析中文,你需要先将中文文本进行分词处理(使用如 Jieba, THULAC 等分词工具),在每个词之间用空格隔开,然后再导入 WordSmith。
-
Q: WordSmith 和 AntConc 有什么区别?
- A: 两者都是非常优秀的语料库工具。
- WordSmith:功能更全面,更像一个“工具箱”,除了基础分析,还有
Keywords这样的对比工具,商业软件,界面更传统。 - AntConc:免费开源,界面更现代化,在
Concord和Concordance Plot功能上非常出色,尤其在词丛和 N-gram 分析上很方便,深受学生和研究者喜爱。 - 建议:两者可以结合使用,AntConc 做快速检索和可视化,WordSmith 做深度对比和批量处理。
- WordSmith:功能更全面,更像一个“工具箱”,除了基础分析,还有
- A: 两者都是非常优秀的语料库工具。
WordSmith 是一款经久不衰的语料分析工具,掌握它的核心工具,特别是 WordList, Concord 和 Keywords,你就能对文本进行深入的量化分析,从生成一个简单的词表开始,逐步尝试语境分析和对比分析,你会发现一个全新的、数据驱动的文本世界,祝你使用愉快!
