“人工智能”工作坊：缘起、总结与展望-中国社会科学院大学计算机教研部

新闻通告

当前位置：首页 · 新闻通告 · 讲座信息 · 正文

“人工智能”工作坊：缘起、总结与展望

发布时间：2020/09/23浏览量：作者：

"工作坊"缘起

当今时代，人工智能（AI）技术已经深入生产生活的方方面面。在社会变革中，在新文科建设背景下，我们将如何认识新兴技术，如何面对技术演变过程中的社会问题，作为计算机科学分支的人工智能与社会科学有哪些连接点？我们该怎样重新描画并结合我校的文科专业？一系列的问题需要我们去研究和探索。

计算机教研部在2019年底开始策划，并于2020年3月推出“人工智能”系列工作坊。工作坊聚焦人工智能研究领域的主流方法和技术，推动人工智能与人文社会科学进一步融合，让人工智能的网络爬虫、区块链、知识图谱、机器学习、语音数据处理、自然语言处理、围棋人工智能、大数据与可视化技术、图像理解的深度学习、智能驾驶、虚拟现实技术等，与法学、社会学、传播学、经济学、语言学等文科专业相结合。

工作坊原计划在校园内举行现场活动，受疫情影响改为线上形式，这也是社科大在新文科建设背景下举办的第一批线上工作坊活动。从2020年3月27日开始，每周五下午举行活动（法定假日除外），每期均由计算机教研部的教师分别负责特定主题的设计和专家教师以及相关资源的联系。活动中特别注意学科交叉和融合，主讲人包括知名高校的学者教授（如中国社会科学院大学、北京工业大学、中山大学、中国科学院、北京交通大学等），也包括业界名企代表（如腾讯AI Lab、清华-讯飞联合实验室、字节跳动等），此外还邀请了社科大政法学院、人文学院、中国社科院法学所、中国社科院考古所等人文社会科学的专家学者，集汇在一起交叉聚焦，兼容并包，协同观点，强化认知，在新文科建设背景下，力求勾勒描画出计算社会科学研究的新方向，新目标，新布局。

精彩回顾

第一讲：网络爬虫技术与相关的法律问题

3月27日下午，计算机教研部主办的“人工智能”工作坊线上首播，第一次研讨主题是网络爬虫技术与相关的法律问题。作为特约嘉宾，中国社会科学院大学副校长林维教授致开场辞，之后由徐卫克老师做技术讲解，最后，林维教授与刘晓春博士做了主题发言。

林维副校长在开场致辞中表示，计算机教研部“人工智能”工作坊的举办，契合学校正在大力推动的新文科建设。中国社会科学院大学是人文社会科学方向的，希望努力实现传统人文社会科学的创新和发展，师生一起进行探讨，做一些学科建设的探索，希望以工作坊的形式，将人工智能、大数据等新兴技术能与其他社会科学（如法学、经济学等）结合，让研究方法、研究范式、研究维度都有一个发展。特别感谢计算机教研部为我们其他学科的新文科建设开了一个特别好的头。在技术革新变化之下，很多理念、很多学科都会遭遇挑战。网络爬虫本是中性、中立的技术，利用技术操控干预现实社会在刑法中如何权衡已经是一个课题。我们传统的媒介、传统的文学、哲学观念要随着技术（如科技哲学）都要有所变化，后续要加以观察、了解和学习。希望“人工智能”工作坊跟其他学院交流在一个平台上面，嫁接不同的专业，实现学科融合，碰撞出火花。林维教授特别勉励硕士、博士研究生同学开始着手探索这些新的领域，让研究工作更上层楼。

在网络爬虫技术研讨环节中，徐卫克老师介绍了网络爬虫的技术背景。要使用爬虫，需要具备一定的数据库、网站网页技术、Python编程技术基础。徐老师介绍了爬虫框架Scrapy，数据库及管理工具MongoDB、Navicat Premium，Python开发和编辑工具Anaconda和Spyder等的功能和安装配置方法，接着徐老师演示了对某市场网站中的商品价格数据进行了爬取和处理的全过程。从创建Scrapy工程，到创建爬虫，运行爬虫，分析页面，提取详细数据，修改条目，定义、创建、提交数据项，优化调试代码，连接到MongoDB数据库进行管理都进行了编码实现。徐卫克老师也提醒参与者，使用爬虫一定要合法合规。

中国社会科学院大学互联网法治研究中心执行主任刘晓春博士就“数据爬取的竞争法规制”问题做了主题发言。发言主要针对数据爬取的法律相关问题进行了探讨，诸如数据是否存在知识产权、商业秘密等合法权益，爬取行为是否属于法律禁止的行为、是否违反协议或诚实信用原则、是否经过用户授权等。刘晓春博士列举出近年来一些知名的数据爬取案例，探讨了UGC案例，个人数据在通过OpenAPI授权下的权利归属案例，以及通过爬虫技术获取并无偿使用的行为是否构成不正当竞争行为等。例如，robots协议已经进入到法律视野当中，如果网站放了robots协议，而爬虫还是去抓数据，在法律上是什么责任？脉脉vs新浪微博案中，脉脉爬取微博数据，而有些数据是不公开的，这种情况可能构成对微博商业秘密的侵害。刘老师说，我们在法律上关心技术问题，一方面要把技术搞明白，另一方面要用法律来评价技术，搞清楚哪些可以做，哪些不可以做，搞清楚数据相关的利益如何去分配。

随后，林维教授针对人工智能领域的法律问题进行了主题发言。林维教授说，在“人工智能”工作坊涉及的主题中，有很多技术都涉及到法律问题。目前人工智能问题讨论的热度极高，在法律界，有些法律工作者感觉有点虚火，可能过于超前或者科幻，目前还不能确定人工智能是否具有行为能力和承担能力，另外一些业界学界人士则认为AI已经能成为法律的主体。这些都是值得探讨的话题。林维教授举出了人工智能应用方面的一个实例：无人驾驶。如果AI无人驾驶导致事故之后如何认定责任？过去传统侵权法规则的原则总要找到一个主体，现在看主体，是汽车制造者，程序设计者？责任如何分配？这些都是个问题。林维教授认为，科技法学在技术的飞速发展背景下，还没有随科技发展一起蓬勃壮大。林维教授通过一些案例提出问题，探讨了以人工智能发展为代表的科技背景下，法学领域的一些新的研讨方向。他以快播案判例讨论了技术的中立问题，以深圳南山法院谷米诉元光以爬虫技术抓取数据案判例讨论了刑法第285条非法获取计算机信息系统数据罪，林维还提到，徐老师在技术研讨中有一句话令人印象深刻：“数据爬虫抓取数据的时候还是要遵纪守法。”由此引出了数据权属，数据的利益在法律中如何定义的热门法学话题。现有的判例是在不完美的法律框架中得到的一个最好的解决方案，相关立法还是不清晰不完美。微博属于新浪的数据还是用户的数据还是几家共有？现在还没有讨论清楚。互联网的泛在化导致了管辖的泛在化。涉及到的大批数据公司可能涉案，这个问题会严重影响整个数据产业的发展。特别需要在法律上有一个清晰说明，否则很多从事大数据的人都不敢涉足该领域，不仅仅是民事，可能构成刑事问题。最后，林维教授希望大家继续关“注人工智能”工作坊，关注社科大互联网法学研究。

第二讲：区块链技术

4月3日，“人工智能”工作坊第二次开播，主题是“区块链技术”，主讲人是来自中国科学院国家空间科学中心的王特副研究员，他在交流中详细讲解了区块链技术发展概况，详解比特币技术和比特币生态体系，并对共识算法进行对比。百度发展研究中心副主任谢飞也和大家共同分享了区块链技术应用的方方面面，包括区块链+司法，区块链+产品溯源，区块链+能源应用，区块链+健康医疗，区块链+金融，并从技术、法律、制度、安全等角度讨论了区块链应用待解决的一些问题。

第三讲：知识图谱

4月10日下午，计算机教研部人工智能工作坊第3次开播。中国社会科学院大学计算机教研部朱俭博士和人文学院教授李俊教授与大家分享了知识图谱的技术与应用。朱俭博士介绍了知识图谱的表示，知识图谱和搜索技术，知识图谱的构建和知识图谱在反欺诈、智慧教育、聊天机器人等领域的应用。

李俊教授随后做了题为“文学史的知识图谱”的主题发言。李俊教授说：知识图谱是可视化的知识关联，可将“旧学”变为“新知”。文学作品包含知识，构建作品的知识图谱，是开启文学思维的重要环节。文学史是一套高密度的、综合性的知识谱系，知识图谱可以为做好文学史研究提供深度支持。文学史知识图谱的构建，有其特殊的要求。对于计算机和互联网来说，传世文献是沉睡的文化宝藏，如果能在一定程度上实现传世文献中各类文化知识的提取和现代知识图谱的构建，将会为中华优秀传统文化的继承和发扬做出巨大的贡献。

第四讲：机器学习与语音数据处理

4月17日开始第四讲，计算机教研部张戈老师分享了“机器学习及学科融合”，特约嘉宾沈苏博士就“人工智能与语音数据处理”做主题演讲。

张戈老师就“什么是机器学习”、“机器学习的方法分类和工作过程”、“机器学习与不同学科交叉融合”等几个方面展开讲解。在学科融合方面，张老师列举了4个实例，分别是“舆情分析之Trump2cash项目”、“新闻文本摘要的自动批量生成”、“基于LSTM预测比特币价格”以及“人口普查的数据分析及收入预测”。针对不同的学科领域，可以使用不同的机器学习方法进行研究，人工智能、大数据时代背景下，学科融合是未来的必然趋势。

沈苏博士毕业于中国科学院大学，现任欧盟居里夫人基金EDSVS（ European Doctorate in Sound and Vibration Studies欧洲声音与振动研究博士学位）项目获奖学者，中国声学学会会员，Eruoscience会员。沈苏博士在“人工智能与语音数据处理”主题中，首先介绍了人工智能领域语音技术的一些应用，包括语音远场、近场的交互、音乐教育和助听器领域，列举了涉及的技术链条和研究发展方向；强调了数据作为AI领域核心驱动力的重要性，并就主流的ASR、TTS、计算机视觉和NLP领域的数据处理方式做了一一介绍；对工作中主要实施的语料设计策略做了详细分析，包括需求、爬取、清洗、选择等主要步骤；对采集环节中的声学环境给出了具体的参数要求、并以实例的形式介绍了一系列的声学改进措施。

第五讲：自然语言处理

4月24日，“人工智能”工作坊第5期展开主题：自然语言处理（NLP）。清华-讯飞联合实验室副主任，科大讯飞AI研究院高级研究员，医疗认知前瞻方向负责人刘喜恩老师为大家介绍了自然语言处理NLP。

刘喜恩老师首先简介了自然语言处理的基本框架，自然语言处理是交叉学科，从图像到文本、从NLP到NLU，自然语言处理在口语对话、媒体社交语言、其他领域（如医疗语言）都有渗透，NLP的交叉性也体现在NLP、CL、SP、HLT、SNLP和BioNLP等相关技术。自然语言处理的现代技术应用于文本生成（对联、字谜、诗歌、乐谱等）、机器翻译、问答系统和机器人技术。在现代自然语言处理中，word embedding是一项关键技术。在主题发言中，刘喜恩老师着重介绍了现代自然语言处理的深度学习模型及其在文本生成、文本分类、文本蕴含/预测/补全、机器翻译方面的应用原理。并以Med3R系统为例，介绍了自然语言处理在医疗机器人领域的应用。最后向大家推荐了自然语言处理的常见技术与工具，包括Python语言、分词和句法解析、文本语言计算等工具，如果要进行更深入的研究，建议以Python为基础学习一门深度学习工具，如Tensorflow/Pytorch。

第六讲：人工智能与围棋

5月8日，计算机教研部鞠文飞老师和来自腾讯AI Lab的“绝艺”项目负责人马博和大家一起分享了围棋历史文化和AI围棋的代表腾讯“绝艺”。

绝艺(fineart)号称Alpha Zero之后最强围棋AI，是在Deepmind论文的思路上，由腾讯AI Lab（腾讯人工智能实验室）自主研发。自Alpha Zero退隐以来，碾压几乎所有的围棋AI后起之秀，包揽4项围棋AI世界冠军。绝艺围棋已经达到让世界冠军2到3子的棋力，是野狐平台第一个10段。绝艺现在是中国国家围棋队训练专用AI，在腾讯野狐围棋等平台长期为围棋爱好者提供免费服务。

鞠文飞从人文的角度讨论围棋。从围棋的名称开始，渐次展开讨论了围棋历史，围棋文化，围棋规则和计算机围棋的发展等微主题。马博在技术的角度上介绍AI围棋。对围棋AI的技术演进、AlphaGo、绝艺的发展进行了说明，介绍了围棋AI的原理与实现，包括模型处理、模型训练和蒙特卡洛树搜索等，同时也介绍了围棋AI的实际应用，例如面向国家队训练的专业领域应用，面向广大围棋爱好者提供的绝艺赛事解说，绝艺精解与绝艺复盘等。最后，马博对腾讯AI Lab的研究方向与应用领域进行了介绍。

第七讲：大数据与可视化

5月15日，「社科大新文科建设支持计划」人工智能工作坊成功举办了第7次活动。北京工业大学信息学部人工智能与自动化学院副教授张勇老师和大家一起分享了大数据技术和可视化项目建设成果和经历。

张勇老师从六个方面介绍了大数据及可视化技术的应用和实践，它们分别是交通大数据分析及可视化、基于超图深度网络的交通预测、数据驱动的交通仿真及可视化、校园大数据分析及可视化、基于深度学习的学习成绩预测和基于监控摄像头的教室行为分析。在活动中，张老师用项目视频向听众展示了大数据技术在实际生活中的应用方式和可视化技术的多样化呈现方式。北京工业大学真实校园大数据应用有3个项目介绍，一是“教室校园大数据分析及可视化”项目呈现了学生社交关联、学生群体类别预测，学生活动可视化；二是“基于深度学习的学习成绩预测”；三是“基于监控摄像头的教室行为分析”，以真实的教室监控视频，采用人脸识别和骨架识别两种技术，识别出“经济困难、学习困难、心理障碍、守纪困难”学生，帮助学校相关部门关注学生状况。

第八讲：图像理解和深度学习

5月22日，「社科大新文科建设支持计划」人工智能工作坊成功举办了第8次活动。阳光保险集团股份有限公司大数据和人工智能部人脸识别团队负责人范晓博士和大家一起分享了深度学习和图像识别的相关技术和应用。

范晓博士从四个方面介绍了深度学习和图像识别技术在生产生活中的应用以及当前的发展研究现状，它们分别是：保险业中的图像理解、ImageNet图像分类、深度学习、人脸识别技术和应用。

范晓博士首先介绍了图像识别技术在保险行业的应用，包括人脸识别身份核验、表情识别、健康预测、AI面试、证件识别、车损鉴定、猪牛识别和宠物识别。接下来，范博士概述了ImageNet的意义、分类和发展现状。ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象；在至少一百万个图像中，还提供了边界框。目前比较有名的模型有AlexNet、VGG-Net，Google-Net，Res-Net。范博士在活动中还介绍了深度学习的原理、模型和常用工具。

来自中国社会科学院大学互联网法治中心的特约研究员夏杰从法律的视角对图像识别和人脸识别进行了点评和阐述。夏老师首先介绍了法律分析问题的一般流程和方法。然后以换脸应用为例，为大家展示了法律分析新技术的过程和方法。新技术发展的方向一直是向前的，所以如何应用现有法律恰当应对新技术带来的变化是一个值得探讨的话题。

本次活动首次同步在Bilibili网站进行了转播。

第九讲：基于无人车的智能感知与控制

2020年5月29日，「社科大新文科建设支持计划」人工智能工作坊成功举办了第9次活动。主讲老师在这次活动中就智能驾驶领域和大家进行了分享与探讨交流。

主讲王亮博士毕业于北京交通大学，曾在MIT计算机与人工智能实验室（CSAIL）从事4年博士后研究，现为中山大学“百人计划”副教授。他的主要研究领域为机器视觉、自动驾驶、智能交通等，出版著作2部，发表国际SCI期刊论文10余篇，王亮博士关于双边巡航控制理论的论文，奠定了基于无人车的未来新型交通流的基础理论，关于新型自动驾驶控制理论的论文获得2018年IEEE国际智能交通年会的最佳论文。王亮博士和MIT导师Berthold Horn院士共同主持了美国政府交通安全预警项目和“MIT-丰田”无人车项目（2500万美元）子课题。

王亮从无人车的智能感知理论起源开始讲解，避开数学和公式，以大量的视频演示和通俗的语言进行说明。讲述了“串车模型”的优缺点，并引出双边巡航控制理论来解决无人车的自由和限制的问题。王老师的讲述通俗易懂、丰富有趣，又体现出来极强的专业性和数学功底。王亮老师的无人驾驶的理论建立脉络清晰，既体现了无人驾驶这一技术走过的历史脚步，也充满着对于未来无人驾驶的美好愿景。

来自中国社会科学院法学研究所的杨延超副研究员针对“人工智能对于法律的挑战”进行了线上讲解。杨延超博士具有深厚的交叉学科背景，他既是HOW机器人实验室的创办者，也是精通6门编程语言的北大法学博士后，同时还是从业律师。杨老师依托自身的人文学科背景对于无人驾驶这一工科问题提出了新的看法，并与法律领域交叉结合，令人耳目一新。杨老师认为，所有的技术都是伴随着法律共生的，无论是法律制度、黑客入侵还是隐私保护、伦理道德都是技术层面未来需要融入思考的问题，而科技的发展也不能脱离人文的思考和温度。针对同学们关切的话题：计算机编程与法律学习也进行了细致交流。活动结束后，杨老师将发言内容总结并发布在“中国法学网”上，题为“杨延超：编程与法律学习|中国社科大讲座要点”。

第十讲：虚拟现实技术

6月12日，“人工智能”工作坊第10次活动在线举行。本次活动邀请了业界顶级专家阮秋琦教授分享虚拟现实技术的发展与应用，同时邀请社科院考古所专家刘建国研究员介绍考古工作中使用的虚拟现实技术。

阮秋琦教授：虚拟现实技术的发展与应用

阮秋琦教授学识渊博，声誉远扬，在高等教育领域和专业学会的学术职务和兼职头衔有数十个，发表大量高质量高等级的论文、专著、译著。阮秋琦教授介绍了虚拟现实的定义、其发展历史、基本技术内涵、主要应用及发展趋势，使得人们对虚拟现实技术近年来再度成为业界关注的热点有所了解，并在各自的工作领域创造性地开展工作提供一个基本素材。阮老师的讲解内容包括引言、定义及起源、外设及主要工具、主机系统、VR技术应用及需进一步研究的问题，让听众对虚拟现实技术有了更加深刻的体会和理解。

刘建国教授：考古现场的三维建模和虚拟展示

与谈人刘建国老师介绍了虚拟现实技术在考古工作中的专业应用，主题为“考古现场的三维重建与虚拟演示”。

刘建国教授是中国社会科学院考古研究所研究员，中国社会科学院研究生院教授。刘老师说，考古研究中引进了数字近景摄影测量与三维激光扫描等系统，用于对考古遗址、发掘区域、石刻、造像乃至器物进行三维信息提取，生成地面或石刻、造像、古建筑立面的各种线划图、等值线图、数字高程模型、正射影像图和三维数字模型等产品，满足各种文物考古工作的需要。

多视角影像三维重建技术获取特征点的数目较少，点云与照片纹理严格对应，能够自动贴附纹理，建模效果很好，可节省大量时间。操作简单的多视角影像三维重建技术已经成为考古现场空间信息获取的主要手段。多视角影像三维重建技术是以普通数字相机作为影像获取工具，从不同角度围绕被拍摄物体获取多幅数字影像，然后根据计算机视觉原理，对获取的全部数字影像进行相互匹配，生成被拍摄物体的表面三维点云，加载影像信息后得到真实的三维模型。刘老师展示了数十张考古工作实例图片，介绍了相关的器材、拍摄方法和建模技术，通过分析拍摄图像，配合等高线模拟，可以得出新的发现这种多视角影像三维重建技术在考古领域正在得到更加广泛的应用。

校长总结发言

中国社会科学院大学副校长，中国社会科学院研究生院副院长林维进行了总结发言。

林维回顾了“人工智能”工作坊历次活动的主要内容：“由蒋欣兰老师主持的计算机教研部“人工智能”工作坊共10讲，第一讲网络爬虫我也参加了，就相关法律问题做了分享。“人工智能”工作坊总共10讲，分别是网络爬虫、区块链、知识图谱、机器学习学科应用与语音数据处理、自然语言处理、人工智能与围棋、大数据与可视化技术、图像理解的深度学习时代、基于无人车的智能感知和控制、虚拟现实的发展和应用。”林维说，每一讲都在介绍当下应用最广泛的技术和未来趋势。活动中特别注意学科交叉和融合，除了技术专家和学者，还邀请了政法学院、人文学院、社科院考古所等人文社会科学的学科，通过这样的讲座，把来自中国社会科学院大学、北京工业大学、中山大学、中国科学院、北京交通大学等著名高校的老师，来自腾讯AI Lab、清华-讯飞联合实验室、今日头条等业界代表汇聚在一起，讨论新文科背景下技术应用及由此向人文科学带来的挑战和机遇。在这一点上，“人工智能”工作坊为社科大的新文科建设开了一个特别好的头。

在新文科背景下，中国社会科学院大学正在制定一系列科研规划，创建计算社会科学研究中心，大数据国家治理实验室、新文科实验室等，多角度全方位促进社科大发展，促进学科之间的融合交叉。我们在社科院系统传统文史哲方向的最高殿堂里，如何融合最新的科学技术，使传统的人文社会科学绽放出更美丽的、更新鲜的学术成果，这是社科大一直想要尝试的。“人工智能”工作坊在各位专家支持下，在各位老师同学参与下取得了特别好影响，极大地激发了同学对新文科研究的浓厚兴趣。

林维说，社科大是文理兼招的纯文科学校，很多同学对计算机编程也充满了特别兴趣，在新文科建设契机下，我们鼓励博士生、硕士生参加到新文科中来，期待老师同学在新文科领域取得更大的成绩，希望大家继续支持我们的新文科建设。

林维最后再次感谢各位专家教授的辛勤参与，感谢各位老师和活动参与人员。

总结与展望

“人工智能”工作坊是在新文科建设背景下，由计算机教研部组织的人工智能交叉学科线上活动。计算机教研部徐卫克、朱俭、张戈、鞠文飞等多名教师进行了线上主讲，全员参与了活动的组织、联系以及相关的幕后工作。

“人工智能”工作坊共10次活动，上台专家19人，参与观众总人数超过1000人次，报名人数400多人，每期均提供相关的学习材料、回放视频供参考。人工智能工作坊相关的消息曾经4次被中国社会科学院官方微信和新闻网报道。

本学期的人工智能工作坊将是今后长期系列的活动的一个开端，在新文科建设的大背景下，计算机教研部将总结先期探索的实践经验，以‘’计算社会科学研究中心‘’为平台，长期开展工作坊、研讨班、学者沙龙等活动。